1樓:電光幻影煉金術
不用幾十年,已經落地了。
首先看遊戲領域。王者榮耀的AI的作用可不僅僅在人機對戰,更在排位賽。也就是說,排位中很有可能會排到五個強化學習的對手,這樣有幾個好處:
1.降低排位等待時間,排不到人就打電腦
2.給使用者一種王者榮耀很多人在玩的錯覺
3.給使用者更好的上分虐菜體驗,吸引使用者
王者榮耀AI Policy的設計圖
這就好比在遊樂場玩碰碰車,經常會有老闆親自下場玩,顯得很多人在玩一樣。
如果你覺得遊戲還不夠現實,我再跟你舉個更真實的例子。我目前在做的跟某電梯龍頭企業合作的電梯排程的演算法。用強化學習做電梯排程可以更好地縮短使用者等待時間,效能比傳統設計更佳。
阿里的物流系統也有強化學習,據阿里的公開資料,利用強化學習進行物流包裝,可以提公升30%的包裝效率,降低浪費。
菜鳥物流場景
華為也投入巨資進行強化學習研究。在十四五部署的重點領域,如大規模積體電路,通訊技術等,都有強化學習的研究人員在努力。
是不是有一種這樣的感覺:
至於你說的怎麼設計reward的問題,下面文獻會給你非常詳細的介紹。
1. Ye, Deheng, et al. "Towards playing full moba games with deep reinforcement learning.
" arXiv preprint arXiv:2011.12692 (2020).
3. Zheng, Guanjie, et al. "DRN:
A deep reinforcement learning framework for news recommendation." Proceedings of the 2018 World Wide Web Conference. 2018.
4. Golovin, Nick, and Erhard Rahm. "Reinforcement learning architecture for web recommendations.
" International Conference on Information Technology: Coding and Computing, 2004. Proceedings.
ITCC 2004.. Vol. 1.
IEEE, 2004.
5. Bengio, Yoshua, Andrea Lodi, and Antoine Prouvost. "Machine learning for combinatorial optimization:
a methodological tour d』horizon." European Journal of Operational Research (2020).
化學有必要做完近幾十年的真題嗎?
陳筱化學 題主這個分數段,不建議一輪階段狂刷題 建議按照一輪複習步調,乙個乙個專題過,打紮實基礎。50 60分,是有知識板塊缺漏的。如果刷高考真題,建議先刷近三年,然後再拓展到近五年,時間夠,再拓展到近8年。高考真題建議刷2 3遍 xzkkkkkk嘿 沒必要。幾十年的真沒必要,幾年的可以,最好是最近...
近幾十年有哪些不符合已有物理定律的物理實驗或自然現象?
悅元 在石墨烯以前大家普遍認為由於單層的物質表面活性能高,不可能穩定存在,知道石墨烯發明,因此獲得了諾獎。還有前兩年的那個魔角石墨烯,之前一直以為是平面的。做化學,說幾個化學的。幾十年前大家都發現分子在聚集狀態螢光容易簇滅即ACQ現象,但是2001年的時候唐本忠院士發現了聚集誘導發光增強的現象,即A...
人類的智商在最近幾十年有提公升嗎?
徐偉 絕對沒有提公升,智商差不多。要說程式設計能力,我小學時自學了LOGO和Basic,小學畢業自學C 初中時自己編遊戲程式完,此時讀程式比讀英語都熟練。現代小孩有我當時程式設計智商的,比例不足1 再說拼音能力,我小學學過漢語拼音後,認為漢語拼音熟練太少,不足以拼寫我的方言,所以我自己大大擴充了漢語...