用什麼辦法可以利用深度學習或強化學習解決多目標優化問題?

時間 2021-05-05 20:25:33

1樓:

Implicit Regularization in Deep Matrix Factorization arxiv:1905.13655

2樓:寶珠道人

根據題主的問題描述,我的理解其實是題主想知道怎麼用深度學習或者強化學習求解多目標的問題。而不是已有答主所側重的優化問題。

令人開心的是,2023年,Neuro Computing有乙個special issue就是專門針對multi-objective reinforcement learning。其中一共有七篇文章對多目標強化學習進行了研究。 而今天我們主要對其中的一篇文章進行講解。

今天要講解的這篇文章的標題是「Multi-objectivization and Ensembles of Shapings in Reinforcement Learning」。主要是通過reward shaping和整合的方法來進行多目標的強化學習。

Ensemble Techniques in Reinforcement Learning

Wiering和van Hasselt,第一次在強化學習中引入了整合技術。他們是通過幾種不同的強化學習演算法從相同的經驗中並行學習,從而得到不同的模型來進行整合。而整合的方法是投票制。

但是在本文中,作者的整合技術並不是將幾個不同強化學習演算法所構成的模型進行整合,而是利用不同的reward來構成不同的模型,從而進行整合。這其中不同模型的網路架構很可能是一致的。我們將這個整合過程用下面的公式進行描述。

其中,wi表示對每個參與整合的模型的權重,而pi表示每個模型輸出的概率分布。

公式一整合過程示意

圖一整合演算法過程

而針對具體整合的方法,有以下幾種方法可以選擇:

Linear: 直接對每個模型輸出的概率分布進行線性組合,而每個wi就是根據經驗選擇每乙個模型的重要程度。 Majority Voting:

每乙個模型自己選出來最合適的action,然後計算每乙個action的得票數,從而來進行決策。 Rank Voting:每乙個模型對action進行排序,最後將每乙個action的排序號加起來,最終最小的那個action就成為當前的策略。

Confidence-based:每個action對應的不是乙個具體的概率值或者Q值,而是乙個分布。刺種方法比較複雜,想要知道更具體的做法可以參考文章「Combining multiple correlated reward and shaping signals by measuring confidence」

Reward Shaping

雖然reward shaping和求解多目標問題沒有太多關係,但是也是文章中介紹的重點,在這裡也提一下子吧。此處的reward shaping指的是在本身給定的環境報酬的基礎上,通過shaping function F來提供額外的報酬,從而整合一些啟發式資訊的方法。

公式二 reward shaping示意

3樓:

這類優化問題就是為深度學習和強化學習中的訓練過程服務的,你又拿他們來解決優化問題,有點本末倒置的意思。

就像你用乙個很強的定理去解一道簡單初中數學幾何題一樣。

我建議你還是先把優化理論和矩陣分析學好,再去接觸機器學習(包括深度學習),這樣才能有乙個比較好的理解。

我想成為電氣工程師,學習電氣有哪些可以利用的好的網路資源?

你知道注電的參考資料有多厚麼?專業部分就得1公尺厚,你能學習的下麼?考試的時候選擇題還要解題過程,你會解麼?沒有解題過程,就是答案正確也沒有分數 過程對的話,即使答案錯了也是沒有分數 你確定你通過培訓機構能夠考試通過? 無常小二 我是機械設計專業畢業,現在做運動控制卡和控制器的應用,主要是針對工業控...

機器學習深度學習專業推薦用什麼電腦?

Myles 先看看實驗室或者學校有沒有可以使用的gpu機器 現在深度學習不管是nlp還是cv,cpu在很多情況下已經不夠用了 如果沒有的話自己組一台台式,筆記本散熱不行效能閹割還貴,組台式還能用來玩遊戲哈哈哈哈哈。主要考慮gpu,其他的配能配得上gpu的就好,從價效比的角度來說,能等的話等年後的30...

對編導沒什麼了解可以利用暑假去學兩個月藝考嗎?

清白 學校組織的?是哪個機構?如果有意向參加傳媒類藝考的,大多數人都會選擇外出培訓。但是目前來說,都是學生自己選擇培訓機構的,還沒有聽說過學校組織外出學習的。所以對於這個機構,一定要考慮好。其實傳媒類的培訓,基礎課程一般是20到30天,再加上後期的針對專業的學校,整個過程應該是花2個月左右,但是如果...