大家對強化學習和組合優化或機器學習和組合優化的未來發展持樂觀還是悲觀態度呢,有什麼想法和建議嘛?

時間 2021-05-07 06:24:55

1樓:

實話實說,前景不太樂觀。理論分析上沒有大的突破,計算上小打小鬧。雖然在AI的帶動下很熱鬧,但是水文章太多了,能持續多久呢?

2樓:公孫金童

大多數組合優化問題的演算法,混合方法比不上傳統OR的方法。

機器學習和精確演算法想結合:利用機器學習的方法進行剪枝;(了解不多)機器學習和啟發式演算法結合:操作選擇使用一些機器學習的方法,如使用multi-arm bandis選擇不同的鄰域和交叉算符;使用機器學習的方法進行挖掘優質解的特點,並進行重新構造(如山東大學有一篇使用q-learning結合蟻群演算法解決TSP問題);還有想google brain和日本的一些研究所那樣,利用GPU計算結合模擬特卡羅搜尋樹來進行搜尋;

我在這方面做了不少的探索,對當前的機器學習和組合優化結合持悲觀態度。很多NP-hard問題可能在某些算例裡的小範圍內存在某種可以歸納的規律,但就一般算例和搜尋空間來看,可能真的是一片混沌。

還需要更加深刻和精準的理論來定量分析才能迎來更好的發展。

強化學習比傳統的優化決策演算法優勢在什麼地方?

shenghuo 最重要的是解決了傳統優化決策方法無法解決的無模型動態規劃問題。傳統的決策優化方法,一是解決靜態規劃問題,比如傳統的旅行商問題,或者路徑尋優問題,決策過程中環境是靜態的,不會因為決策動作而變化,即動作不會影響環境。相反,圍棋 星際爭霸等問題,則是採取動作後,環境因為動作而發生了變化,...

深度學習和強化學習之間的差別有多大?

首先說一點,深度強化學習並不深,網路通常都挺淺的。通常講,使用神經網路模型提取特徵,採用梯度下降 上公升 優化引數的都稱為深度學習。強化學習則不固定模型,不固定優化方法,你可以用Q表模型,也可以用演化計算優化引數,一般來講環境有狀態空間,動作空間,獎勵函式,狀態轉移函式,而且智慧型體在環境中能感知,...

強化學習中q learning和MDP的區別是什麼?

YANG MDP是乙個描述決策問題的概率模型,q learning是乙個演算法。你說相似是因為q learning解的就是bellman optimal equation,在MDP裡的value function的定義就是bellman equation。和q learning等價的是各種值迭代的演...