強化學習近幾十年有沒可能落地現實生活?

時間 2021-05-06 17:58:26

1樓:電光幻影煉金術

不用幾十年,已經落地了。

首先看遊戲領域。王者榮耀的AI的作用可不僅僅在人機對戰,更在排位賽。也就是說,排位中很有可能會排到五個強化學習的對手,這樣有幾個好處:

1.降低排位等待時間,排不到人就打電腦

2.給使用者一種王者榮耀很多人在玩的錯覺

3.給使用者更好的上分虐菜體驗,吸引使用者

王者榮耀AI Policy的設計圖

這就好比在遊樂場玩碰碰車,經常會有老闆親自下場玩,顯得很多人在玩一樣。

如果你覺得遊戲還不夠現實,我再跟你舉個更真實的例子。我目前在做的跟某電梯龍頭企業合作的電梯排程的演算法。用強化學習做電梯排程可以更好地縮短使用者等待時間,效能比傳統設計更佳。

阿里的物流系統也有強化學習,據阿里的公開資料,利用強化學習進行物流包裝,可以提公升30%的包裝效率,降低浪費。

菜鳥物流場景

華為也投入巨資進行強化學習研究。在十四五部署的重點領域,如大規模積體電路,通訊技術等,都有強化學習的研究人員在努力。

是不是有一種這樣的感覺:

至於你說的怎麼設計reward的問題,下面文獻會給你非常詳細的介紹。

1. Ye, Deheng, et al. "Towards playing full moba games with deep reinforcement learning.

" arXiv preprint arXiv:2011.12692 (2020).

3. Zheng, Guanjie, et al. "DRN:

A deep reinforcement learning framework for news recommendation." Proceedings of the 2018 World Wide Web Conference. 2018.

4. Golovin, Nick, and Erhard Rahm. "Reinforcement learning architecture for web recommendations.

" International Conference on Information Technology: Coding and Computing, 2004. Proceedings.

ITCC 2004.. Vol. 1.

IEEE, 2004.

5. Bengio, Yoshua, Andrea Lodi, and Antoine Prouvost. "Machine learning for combinatorial optimization:

a methodological tour d』horizon." European Journal of Operational Research (2020).

化學有必要做完近幾十年的真題嗎?

陳筱化學 題主這個分數段,不建議一輪階段狂刷題 建議按照一輪複習步調,乙個乙個專題過,打紮實基礎。50 60分,是有知識板塊缺漏的。如果刷高考真題,建議先刷近三年,然後再拓展到近五年,時間夠,再拓展到近8年。高考真題建議刷2 3遍 xzkkkkkk嘿 沒必要。幾十年的真沒必要,幾年的可以,最好是最近...

近幾十年有哪些不符合已有物理定律的物理實驗或自然現象?

悅元 在石墨烯以前大家普遍認為由於單層的物質表面活性能高,不可能穩定存在,知道石墨烯發明,因此獲得了諾獎。還有前兩年的那個魔角石墨烯,之前一直以為是平面的。做化學,說幾個化學的。幾十年前大家都發現分子在聚集狀態螢光容易簇滅即ACQ現象,但是2001年的時候唐本忠院士發現了聚集誘導發光增強的現象,即A...

人類的智商在最近幾十年有提公升嗎?

徐偉 絕對沒有提公升,智商差不多。要說程式設計能力,我小學時自學了LOGO和Basic,小學畢業自學C 初中時自己編遊戲程式完,此時讀程式比讀英語都熟練。現代小孩有我當時程式設計智商的,比例不足1 再說拼音能力,我小學學過漢語拼音後,認為漢語拼音熟練太少,不足以拼寫我的方言,所以我自己大大擴充了漢語...