A 搜尋演算法和強化學習演算法有什麼區別嗎(在路徑尋優上)?

時間 2021-06-07 03:06:12

1樓:徐雙雙

A*不過是廣度優先搜尋裡加一些優先值提高減枝效率,前提是你有乙個廣度優先演算法可以覆蓋所有的路徑,且優先值的評估必須低於最優值。

而強化學習則是對路徑資訊一無所知,不斷探索才能看到眼前到底有多少條路,然後利用一定獎勵評估機制,不斷修正每一條路的價值,從而最終能選擇一條價值最高的路徑。

最大的區別就是A*需要全資訊,否則無法建立演算法。比如地圖中,你需要知道所在位置有幾條路可選否則無法建立搜尋樹,需要知道目的地的座標,是無法評估優先值的。

而強化學習就寬鬆的多,你只需要知道地圖中的角色有幾種行動選擇就可以了,比如有10條路可選,但對於人物就是上下左右這幾個方向或其組合就可以,利用蒙特卡洛過程不斷嘗試,就能走出這10條路,並且不需要知道目的地,在嘗試過程中運氣好走到目的地時能有巨大獎勵就行,這種反饋會讓能達到這個目的地的路線價值增長,再加上路程越短獎勵越高之類的機制,就可以選擇當前資料下的最優路線。

對於簡單地圖,A*效率比強化學習要高的多。但如果路況非常複雜,A*的複雜度很可能讓其無法收斂,而強化學習則至少能產出乙個可行解,且隨著訓練次數的增加這個可行解會越來越接近最優解。而對於資訊不全的地圖,類似有陰影或者實時生成的,則似乎只能使用強化學習。

在強化學習中,為什麼TRPO和PPO演算法屬於On Policy的演算法?

毛飛飛 off 或者 on,只與智慧型體計算的是Q還是V有關。PPO是通過舊策略取樣來估算新策略的V值,本質還是在計算當前策略取樣得到的V,所以取樣的策略和更新的策略是同乙個策略,所以它是on policy。真正的off policy都是更新Q s,a 的,比如DQN,DDPG,SAC。記錄的是 S...

強化學習演算法例如Q learning中gamma為什麼不能為1?

Iverson 這個問題,問的非常好。如Lee所說,gamma不必須為1.設定gamma小於1的意義在於加速收斂,因為如果缺乏收斂能力,意味著你無限遠視,遠視雖好,但在解決複雜問題時,就會讓的的AI演算法試圖窮盡所有的狀況空間和可能性,這對算力的要求是乙個挑戰。但對於問題不夠複雜解空間有限的情況,確...

強化學習比傳統的優化決策演算法優勢在什麼地方?

shenghuo 最重要的是解決了傳統優化決策方法無法解決的無模型動態規劃問題。傳統的決策優化方法,一是解決靜態規劃問題,比如傳統的旅行商問題,或者路徑尋優問題,決策過程中環境是靜態的,不會因為決策動作而變化,即動作不會影響環境。相反,圍棋 星際爭霸等問題,則是採取動作後,環境因為動作而發生了變化,...