用什麼辦法可以利用深度學習或強化學習解決多目標優化問題？

1樓：

Implicit Regularization in Deep Matrix Factorization arxiv:1905.13655

2樓：寶珠道人

根據題主的問題描述，我的理解其實是題主想知道怎麼用深度學習或者強化學習求解多目標的問題。而不是已有答主所側重的優化問題。

令人開心的是，2023年，Neuro Computing有乙個special issue就是專門針對multi-objective reinforcement learning。其中一共有七篇文章對多目標強化學習進行了研究。而今天我們主要對其中的一篇文章進行講解。

今天要講解的這篇文章的標題是「Multi-objectivization and Ensembles of Shapings in Reinforcement Learning」。主要是通過reward shaping和整合的方法來進行多目標的強化學習。

Ensemble Techniques in Reinforcement Learning

Wiering和van Hasselt，第一次在強化學習中引入了整合技術。他們是通過幾種不同的強化學習演算法從相同的經驗中並行學習，從而得到不同的模型來進行整合。而整合的方法是投票制。

但是在本文中，作者的整合技術並不是將幾個不同強化學習演算法所構成的模型進行整合，而是利用不同的reward來構成不同的模型，從而進行整合。這其中不同模型的網路架構很可能是一致的。我們將這個整合過程用下面的公式進行描述。

其中，wi表示對每個參與整合的模型的權重，而pi表示每個模型輸出的概率分布。

公式一整合過程示意

圖一整合演算法過程

而針對具體整合的方法，有以下幾種方法可以選擇：

Linear：直接對每個模型輸出的概率分布進行線性組合，而每個wi就是根據經驗選擇每乙個模型的重要程度。 Majority Voting：

每乙個模型自己選出來最合適的action，然後計算每乙個action的得票數，從而來進行決策。 Rank Voting:每乙個模型對action進行排序，最後將每乙個action的排序號加起來，最終最小的那個action就成為當前的策略。

Confidence-based：每個action對應的不是乙個具體的概率值或者Q值，而是乙個分布。刺種方法比較複雜，想要知道更具體的做法可以參考文章「Combining multiple correlated reward and shaping signals by measuring confidence」

Reward Shaping

雖然reward shaping和求解多目標問題沒有太多關係，但是也是文章中介紹的重點，在這裡也提一下子吧。此處的reward shaping指的是在本身給定的環境報酬的基礎上，通過shaping function F來提供額外的報酬，從而整合一些啟發式資訊的方法。

公式二 reward shaping示意

3樓：

這類優化問題就是為深度學習和強化學習中的訓練過程服務的，你又拿他們來解決優化問題，有點本末倒置的意思。

就像你用乙個很強的定理去解一道簡單初中數學幾何題一樣。

我建議你還是先把優化理論和矩陣分析學好，再去接觸機器學習（包括深度學習），這樣才能有乙個比較好的理解。

用什麼辦法可以利用深度學習或強化學習解決多目標優化問題？

我想成為電氣工程師，學習電氣有哪些可以利用的好的網路資源？

機器學習深度學習專業推薦用什麼電腦？

對編導沒什麼了解可以利用暑假去學兩個月藝考嗎？

其他用戶還看了：