怎麼在監督學習的基礎上做強化學習？

1樓：心中有馬

個人拙見，還未實施

我也在用dqn+sl做五子棋，基本上就是初期變強，後期亂下棋。

思來想去，決定從兩個方面入手。

1，reward

單純從輸贏得到回報，那很多state的reward都是0了，這明顯不利於學習。我覺得可以多加一些reward，比如：落子時，一般都趨向於在中心落子，那就設定成越接近中心給更多回報；還有，如果下在衝四，活三等位置，也給回報（需要棋型的判斷函式）。

這應該能引導網路。

2，action

在訓練時，發現對了幾局後，開局直接在邊界落子了，後面全亂了套了，一怒之下，直接設定成開局在中心落子，解決了問題。於是受到啟發，在某些局面只有唯一解時（比如衝四或者對方有活三，但無眠三），直接選唯一解即可，不用網路輸出。

目前還沒有實施，主要是因為寫這個棋型的判斷函式好麻煩，要套一堆if，而且也不知道能否改進效能，還望不吝賜教。

2樓：

首先你的問題和問題的描述並不一致，就按照問題的描述來。然後，描述說按照alphago，實際只是問強化學習。再然後說self play，其實只是固定對手。

為什麼沒有下過對手，可以檢查

1、特徵編碼不夠好，alphago也是用了先驗知識來設計特徵的2、取樣的資料不夠多導致訓練不好

3、方差沒有控制好導致不收斂

另外關於selfplay，alphago中的方法是對弈前幾輪的自己。這其實超出了強化學習的範圍，進入了博弈。alphago的selfplay是啟發式的，並不收斂，不知道後來到master有沒有改過。

3樓：劉一佳

除了走imitation learning的路線或者在actor-critic中pretrain actor之外，最近有一篇把Q-learning和supervised learning結合的文章：https://

arxiv.org/pdf/1704.03732.pdf

具體思路是在Q-learning的objective裡加乙個基於ranking loss的supervised objective。這樣既可以用expert trajectory做pretrain，又可以在sample random trajectory的過程中混合一些expert trajectory。

4樓：

tensorpack/examples/OpenAIGym at master · ppwwyyxx/tensorpack · GitHub

怎麼在監督學習的基礎上做強化學習？

怎麼找到一對一監督學習的學習夥伴？

在愛的基礎上要彩禮正常嗎？

滑鐵盧大學在100 的世界排名基礎上卻獲得top unis同等的青睞，是否很大成分只因為它有coop

其他用戶還看了：