怎麼在監督學習的基礎上做強化學習?

時間 2021-05-06 06:27:03

1樓:心中有馬

個人拙見,還未實施

我也在用dqn+sl做五子棋,基本上就是初期變強,後期亂下棋。

思來想去,決定從兩個方面入手。

1,reward

單純從輸贏得到回報,那很多state的reward都是0了,這明顯不利於學習。我覺得可以多加一些reward,比如:落子時,一般都趨向於在中心落子,那就設定成越接近中心給更多回報;還有,如果下在衝四,活三等位置,也給回報(需要棋型的判斷函式)。

這應該能引導網路。

2,action

在訓練時,發現對了幾局後,開局直接在邊界落子了,後面全亂了套了,一怒之下,直接設定成開局在中心落子,解決了問題。於是受到啟發,在某些局面只有唯一解時(比如衝四或者對方有活三,但無眠三),直接選唯一解即可,不用網路輸出。

目前還沒有實施,主要是因為寫這個棋型的判斷函式好麻煩,要套一堆if,而且也不知道能否改進效能,還望不吝賜教。

2樓:

首先你的問題和問題的描述並不一致,就按照問題的描述來。然後,描述說按照alphago,實際只是問強化學習。再然後說self play,其實只是固定對手。

為什麼沒有下過對手,可以檢查

1、特徵編碼不夠好,alphago也是用了先驗知識來設計特徵的2、取樣的資料不夠多導致訓練不好

3、方差沒有控制好導致不收斂

另外關於selfplay,alphago中的方法是對弈前幾輪的自己。這其實超出了強化學習的範圍,進入了博弈。alphago的selfplay是啟發式的,並不收斂,不知道後來到master有沒有改過。

3樓:劉一佳

除了走imitation learning的路線或者在actor-critic中pretrain actor之外,最近有一篇把Q-learning和supervised learning結合的文章:https://

arxiv.org/pdf/1704.03732.pdf

具體思路是在Q-learning的objective裡加乙個基於ranking loss的supervised objective。這樣既可以用expert trajectory做pretrain,又可以在sample random trajectory的過程中混合一些expert trajectory。

4樓:

tensorpack/examples/OpenAIGym at master · ppwwyyxx/tensorpack · GitHub

怎麼找到一對一監督學習的學習夥伴?

已工作想找乙個一對一的小夥伴互相監督進步。學習什麼內容反而是次要,主要是是想和小夥伴一起制定乙個計畫表,養成乙個好的行為習慣。最近有點頹,想找個夥伴一起監督學習,每天互發計畫和完成情況,相互監督,共同進步,互相加油的那種。學習目標不限,都是在努力學習的大學生就行。如果蹲到幾個人可以建群嘞 配圖乙隻貓...

在愛的基礎上要彩禮正常嗎?

我很不喜歡彩禮這種東西,在我說明為什麼不喜歡後,我女朋友也不喜歡,也決定不要彩禮。後來我爸媽聽說後,給我說了一頓。後來,還是決定送彩禮,也還是有陪嫁。彩禮不是女朋友要的,女方也沒有任何要求。對於陪嫁我們也沒做任何要求,甚至沒有提嫁妝的事。祝福不是索取來的,也不會因為祝福的 金額 產生不滿意。我忽然就...

滑鐵盧大學在100 的世界排名基礎上卻獲得top unis同等的青睞,是否很大成分只因為它有coop

李Daniel 關於uw cs,印象中佔數學學院學生一半以上,想說一下周圍同學的情況。其中好多都是經常泡linux lab寫作業認識的,所以可以有個概念,正常努力學習,大家大概是什麼水平。我個人水平有限是cs stat,不是coop,申請到了數學相關master program。周圍比較熟的十幾個同...