強化學習領域有哪些巧妙的想法？

1樓：

Curiosity(Intrinsic Motivation): 不依賴於環境的獎勵訊號,而是利用agent對於環境變化的"驚訝"程度來作為獎勵來鼓勵探索:

Curiosity-driven Exploration by Self-supervised Prediction

2. PPO-Clipping: 不使用TRPO對於新舊策略的KL divergence作為限制, 而是直接限制新舊策略對於動作的importance sampling ratio作為近似:

Proximal Policy Optimization Algorithms

3. Distributional RL: 不學習Value(Q-value)的期望,而是去學習它們的分布,利用分布更好地學習和探索:

A Distributional Perspective on Reinforcement Learning

4. Self-play: 多智慧型體學習情況下,讓agent自我博弈進行學習,避免人類先驗知識帶來的bias:

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

5. Importance Resampling: 在off-policy RL中, 利用Importance sampling ratio作為取樣概率來修正目標策略和取樣策略的偏差, 避免使用IS修正Value帶來的高方差:

Importance Resampling for Off-policy Prediction

6. Baseline in Actor-Critic: 新增乙個不依賴於action的baselines來降低Actor-Critic update時候的variance

7. lambda-return: 組合不同步長的n-step return來平衡return estimate裡面的variance and bias

2樓：Merci

最典型的A2C對比A3C，典型的利用硬體計算架構，非同步高併發方式將可平行計算的部分剝離出來（主要是矩陣運算的逐級求導），達到「大力出奇蹟」的目的。

機器學習深度學習以及強化學習在金融領域有哪些應用？

GorgeousShar 據我所知，兩年前就有人做量化投資方面的交易了，但是收益嘛。因為資料一般是波段操作，這就導致了目前需要進行一些監督，並且演算法有限，現在還有些距離，個人期待AutoML能夠解決這個問題 gutu Granth 瀉藥,反洗錢反欺詐領域有很大的運用,NLP 之類演算法在這方面應用...

強化學習在機械人領域都有哪些成功的例子？

這個時候就要祭出綜述了劉浚嘉重磅綜述如何在少量嘗試下學習機械人強化學習控制對於強化學習在機械人上的應用，有以下幾點方針需要找到傳統控制方法難以實現的點，比如非線性時變系統 high level的複雜決策需要概率化建模可關注專欄的 PR Probabilistic in Robotics...

電腦科學領域中的強化學習指的是什麼

對於強化學習的定義，可以對照機器學習的一般定義來闡釋。機器學習的一種常見定義來自Tom M.Mitchell A computer program is said to learn from experience E with respect to some class of tasks T and...

強化學習領域有哪些巧妙的想法？

機器學習 深度學習以及強化學習在金融領域有哪些應用？

強化學習在機械人領域都有哪些成功的例子？

電腦科學領域中的 強化學習 指的是什麼

其他用戶還看了：

機器學習深度學習以及強化學習在金融領域有哪些應用？

電腦科學領域中的強化學習指的是什麼