A 搜尋演算法和強化學習演算法有什麼區別嗎（在路徑尋優上）？

1樓：徐雙雙

A*不過是廣度優先搜尋裡加一些優先值提高減枝效率，前提是你有乙個廣度優先演算法可以覆蓋所有的路徑，且優先值的評估必須低於最優值。

而強化學習則是對路徑資訊一無所知，不斷探索才能看到眼前到底有多少條路，然後利用一定獎勵評估機制，不斷修正每一條路的價值，從而最終能選擇一條價值最高的路徑。

最大的區別就是A*需要全資訊，否則無法建立演算法。比如地圖中，你需要知道所在位置有幾條路可選否則無法建立搜尋樹，需要知道目的地的座標，是無法評估優先值的。

而強化學習就寬鬆的多，你只需要知道地圖中的角色有幾種行動選擇就可以了，比如有10條路可選，但對於人物就是上下左右這幾個方向或其組合就可以，利用蒙特卡洛過程不斷嘗試，就能走出這10條路，並且不需要知道目的地，在嘗試過程中運氣好走到目的地時能有巨大獎勵就行，這種反饋會讓能達到這個目的地的路線價值增長，再加上路程越短獎勵越高之類的機制，就可以選擇當前資料下的最優路線。

對於簡單地圖，A*效率比強化學習要高的多。但如果路況非常複雜，A*的複雜度很可能讓其無法收斂，而強化學習則至少能產出乙個可行解，且隨著訓練次數的增加這個可行解會越來越接近最優解。而對於資訊不全的地圖，類似有陰影或者實時生成的，則似乎只能使用強化學習。

A 搜尋演算法和強化學習演算法有什麼區別嗎（在路徑尋優上）？

在強化學習中，為什麼TRPO和PPO演算法屬於On Policy的演算法？

強化學習演算法例如Q learning中gamma為什麼不能為1？

強化學習比傳統的優化決策演算法優勢在什麼地方？

其他用戶還看了：