強化學習領域有哪些巧妙的想法?

時間 2021-05-31 02:27:15

1樓:

Curiosity(Intrinsic Motivation): 不依賴於環境的獎勵訊號,而是利用agent對於環境變化的"驚訝"程度來作為獎勵來鼓勵探索:

Curiosity-driven Exploration by Self-supervised Prediction

2. PPO-Clipping: 不使用TRPO對於新舊策略的KL divergence作為限制, 而是直接限制新舊策略對於動作的importance sampling ratio作為近似:

Proximal Policy Optimization Algorithms

3. Distributional RL: 不學習Value(Q-value)的期望,而是去學習它們的分布,利用分布更好地學習和探索:

A Distributional Perspective on Reinforcement Learning

4. Self-play: 多智慧型體學習情況下,讓agent自我博弈進行學習,避免人類先驗知識帶來的bias:

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

5. Importance Resampling: 在off-policy RL中, 利用Importance sampling ratio作為取樣概率來修正目標策略和取樣策略的偏差, 避免使用IS修正Value帶來的高方差:

Importance Resampling for Off-policy Prediction

6. Baseline in Actor-Critic: 新增乙個不依賴於action的baselines來降低Actor-Critic update時候的variance

7. lambda-return: 組合不同步長的n-step return來平衡return estimate裡面的variance and bias

2樓:Merci

最典型的A2C對比A3C,典型的利用硬體計算架構,非同步高併發方式將可平行計算的部分剝離出來(主要是矩陣運算的逐級求導),達到「大力出奇蹟」的目的。

機器學習 深度學習以及強化學習在金融領域有哪些應用?

GorgeousShar 據我所知,兩年前就有人做量化投資方面的交易了,但是收益嘛。因為資料一般是波段操作,這就導致了目前需要進行一些監督,並且演算法有限,現在還有些距離,個人期待AutoML能夠解決這個問題 gutu Granth 瀉藥,反洗錢反欺詐領域有很大的運用,NLP 之類演算法在這方面應用...

強化學習在機械人領域都有哪些成功的例子?

這個時候就要祭出綜述了 劉浚嘉 重磅綜述 如何在少量嘗試下學習機械人強化學習控制 對於強化學習在機械人上的應用,有以下幾點方針 需要找到傳統控制方法難以實現的點,比如非線性時變系統 high level的複雜決策 需要概率化建模 可關注專欄的 PR Probabilistic in Robotics...

電腦科學領域中的 強化學習 指的是什麼

對於強化學習的定義,可以對照機器學習的一般定義來闡釋。機器學習的一種常見定義來自Tom M.Mitchell A computer program is said to learn from experience E with respect to some class of tasks T and...