這樣的AI是真的嗎？

1樓：瑞迪克勒斯

我覺得加這個「時延損失」其實沒那麼大問題，問題主要出在多目標優化上，也就是"每秒扣多少"的問題。

具體來說，首先對於這個episodic-horizon問題，也不是必須要加折損。不管有沒有折損，有個"時延損失"，將減少抓羊時間作為乙個優化目標，也都是很合理的嘛...這種多目標獎勵應該是極其常見的...

關鍵問題在於怎麼處理多個目標的trade-off。作者用了最常見最簡單的方法——權重求和，那麼三個目標就需要設定兩個權重。作者一拍腦門就是（10,1,0.

1），看起來0.1最小，實則給了時延損失乙個極大的權重。最終結果就是策略優化自然只考慮減小時延，策略永遠會跑到乙個奇葩的帕累託駐點。

大概能想到的乙個例子就是用RL做NAS，需要平衡準確率和推理時延。如果給時延乙個極大的權重，自然只會搜出搜尋空間裡最小的那一撥網路。

2樓：程顯通

確實是有可能發生的。

從AI模型的建立角度來說，無疑其損失函式的設定存在問題。然而從社會科學角度，隨時間線性增長的損失似乎並不罕見。

例如失業問題。當乙個人失業之後，他的儲蓄一般情況下似乎也是線性遞減的。而從社會觀察上來講，這樣的情況，人在這種情況下好像自殺率也並不低。

對比正常的損失函式和這個損失函式，這個模型的結果似乎暗示了福利對於初期表現不好的人的作用。

3樓：夢裡飄飄的藍泡泡

有的AI是羊，只能吃草，

有的AI是狼，可以吃羊，可以吃草

有的AI是狗，只能吃屎

有的AI是草，堅持光合作用就可以獲得獎勵

有意思的是，草和狗在關心狼怎麼玩

4樓：Achilles

每秒扣0.1，啥概念呢，抓羊時間超過10秒損失比撞樹還大。抓羊時間超過100秒抓到也是負分。

你別說算20W次，2W次以內ai肯定已經「意識」到直接撞樹損失最少/收益最大。什麼狗屁演算法啊？我用屁股想都覺得最後一定是往-1收斂的。

所以應該一開始設5分獎勵分，從獎勵分里扣，5分扣完就不扣了。

5樓：Joger喬

是的，我當時做強化學習優化足球進攻策略時也出現了同樣的問題:

我方進球得一千萬分，每1/100秒扣1分，被進球扣1000萬分。

然後出現尷尬的事情就是，為了避免少扣分，我方球員會直接讓開，幫對面進自家的球門。。。。。

一般此類問題有幾種解決方式，乙個是前期epsilon下降的緩慢一點（有的可能是上公升，乙個具體忘了，也就是剛開始隨機性要求更強一點）。再乙個引入專家模式，先手動引導完成高分示例。當然還有其他方式，不過我只用過這兩種，就不舉例了。

當然，我當時出現的最大問題是動作集的粒度劃分太細，和epsilon下降剃度不匹配，和這個問題少許不同。

6樓：林凌

基於這個規則，10步之內抓不到的話顯然就不如開局自殺，所以ai學出這個策略完全正常

這個bug一直查不出來其實也還算正常，畢竟這個獎勵函式檢查的時候粗看也確實好像還算符合直覺

但是獎勵函式在最初設計的時候就應該仔細考慮最優解在哪的問題才對，寫出這個bug其實就不太正常了

7樓：眼鏡獒

明明是遊戲規則有問題，偏要怪到AI上。。。這個AI確實找到了很優的解。你要AI去抓羊就提高點獎勵啊，10分算什麼。。。

建議改成抓到羊獎勵100000分。你要AI不撞石頭就提高點懲罰啊，建議改成撞到石頭扣100000分。還說設定了很多條件一點用都沒有。。。

你這是一點都不懂神經網路啊。

8樓：彼得羅夫

是真的，這不難理解，抓到羊的得分與隨時間流逝的扣分比例不合適，出現這樣的結果是自然的。

值得從中思考的是，為什麼現在有些人在做著和這個Ai一樣的選擇。如果ai的問題是程式設計師編寫的問題，那麼活生生的人呢？

9樓：秋笑

這是乙隻緊跟時代的狼，它和對「職場PUA」 Say No的新青年一樣，拒絕了「訓練 PUA」。

換位思考下：假如你是乙隻狼，但活著的每一秒都挨餓 (懲罰)，直到你歷經萬難 (長期被懲罰) 後，抓住了羊才有飯吃 (獎勵)，是不是自殺止損(無獎勵無懲罰) 是更好的選擇？

訓練 RL 模型時，演算法工程師晉公升為模型的 Manager，對模型制定 KPI (Reward Function )。KPI 設計的不合理，就別怪模型鑽漏洞～

如何優化此狼的 KPI 呢？加大對自殺行為的懲罰 + 降低 0.1s 懲罰值。

對新晉 RL 訓練師的小建議：訓練前請根據 Reward Function 計算 Return 值，確保期望行為能擁有最高的 Return 值，並確保自殺行為的 Return 低於活著受罪的 Return值。

聽姐姐給你講：強化學習怎麼入門好？

聽姐姐給你講：RL & MCTS - 並行訓練

聽姐姐給你講：POMDP 基礎及其在 Crowd 場景中應用

聽姐姐給你講：Distributional Reinforcement Learning

聽姐姐給你講：如何評價DeepMind新提出的MuZero演算法？

強化學習研究型實習生長期招聘：

什麼名字可以吸粉：ALi-DAMO-自動駕駛-研究型實習-多崗位持續招聘 (RL/Prediction/GAN...)

10樓：WYJJYN

類似現象在強化學習應用中並不稀罕，在回報函式設計裡有個專門術語Reward Hacking了解一下。

11樓：pansz

真倒是真的AI。不過一點也不好笑。

獎勵函式的條件設定不合理，但這種條件設定其實只是研究人員的基本功而已。如果研究人員設定了不合理的條件，多次修改設定都不對，不但不自我反省，反而覺得好笑，那這研究者略有點水啊。

好吧，大概這就是擴招的後果吧。

12樓：Losgy浩

強化學習裡這樣的鑽空子的agent例子還是很多的啊。

比如agent有可能會選擇在某個固定地點刷分，設定乙個把紅方塊放到藍方塊的問題，通過提公升紅色方塊底部的高度來獲得獎勵，結果agent直接鑽空子把方塊翻了個面。

reward的設定是強化學習裡最玄學的一件事情，agent有時候會以人類想不到的方法獲取自認為最優的情況。

在人類看來，直接死了簡直不可思議，但是在agent眼裡，目光短淺的它是不能看到長遠的利益的，不如一頭撞死，反正對它來說還有下一局。

13樓：李洋

人生的意義在於尋求確定性，為什麼目標尋求因人而異。

多數人怕死是因為不知道死後會怎樣。

而有信仰的人相信死後會進入信仰的世界。

這只狼的信仰是分數高。

14樓：

我覺得這甚至都沒涉及到演算法設計而是純粹的調參發微博的那個人也是沒意識到這是沒有寫演算法(或者甚至調參)的天賦的體現才能這麼開心地拿出來向外行抖包袱吧……

15樓：

並沒有什麼問題，在當前環境模型下這就是最優解。

通俗來講，鬥地主你手裡捏著四個6，還有一堆小牌。明知道要輸，是選擇炸一發還是一直過呢？畢竟目標是守護歡樂豆

值得注意的是「訓練20W次，效果越來越差」，大概率是優化目標跟評估指標不一致吧，也側面反映了reward設計的不合理。畢竟人來代替控制器做決策，一樣會及時止損。

改進有兩種角度：

對齊優化目標與評估方式。不要直接撞死的對立面是活的盡可能久，那不如用能量模型去描述遊戲過程。這不就是饑荒裡做的事嗎

優化reward，改改magic number，加點過程性的啟發式元素。把問題更細緻地分解，抓羊只是目的，達成目的的手段存在一系列過程，在過程裡加入階段性回報。比如狼和羊之間距離相關的reward...

同學還是要增加閱讀量，鍛鍊系統性結構化思考問題的能力呀

16樓：深度不學習

真的肯定是真的，但是在對技術一知半解的情況下給出現的問題強加一些看似深刻的理解是完全錯誤的。

這就是乙個非常簡單的強化學習訓練場景，設計乙個獎勵函式讓乙個agent盡快追上另乙個agent，出現這樣的問題是因為，在規定的時間內獎勵和懲罰的比例設定不合理，且沒有設計合適的reward項來阻止這樣的現象發生，畢竟agent的目標就是要追上另乙個agent。

而之所以這個截圖能被傳播地這麼廣，完全是因為給兩個完全可以由強化學習公式解釋的agent賦予了狼和羊這樣兩種有生命的身份，從而又引申到現在到處都在談的內捲上來，令人感到原來AI會這樣選擇結束內卷。但事實上，這樣的身份和引申完全是不合理的，因為agent沒有思維，它做的事情就是根據設計的獎勵函式以及演算法來解屬於自己的優化問題，而任何乙個有生命有思維的生物都比這複雜得多。

17樓：午眠

這個其實可能涉及乙個語言哲學問題。

圖靈去聽過維根斯坦的課，維根斯坦後來在批判私人語言的時候，對於人如何學會乙個詞語，他指出，從前認為的指物定義（即說乙個詞語，指著乙個東西，人們通過這種方式學會這個詞語的意思），這種觀念是有問題的。

因為指向乙個東西，說乙個詞語，這個詞可以被這樣理解，也可以被那樣理解，舉個例子，我指著乙個藍色圓柱形水杯，說這是Cu，那麼Cu可能是指藍色，可能是圓柱，可能是水杯，可能是水等等，單靠指物定義是無法學會乙個詞語的，學會乙個詞語，在於學會如何使用這個詞語，詞語的意義在於如何被使用，而不是經驗中有東西跟這個詞語對應。而使用是在一定的生活方式，規則，語言遊戲之中的。

給AI乙個目標，希望指著這個目標讓AI學會一種特殊的活動，就像指物定義，單靠這個目標AI可以理解成做這種活動，也可以理解成做那種，出各種情況也是情理之中。

或許未來通過AI學習成功與失敗的過程，我們能更直觀地看出維根斯坦所說，傳統哲學家陷入的「詞語的陷阱」，「哲學病」是如何一回事。

18樓：

看起來很像真的，但無法保證（畢竟我又不認識當事人）。

顯然他們用的RL演算法，這個問題的出現就是reward設定不合理。正reward過於稀疏，還有乙個隨時間增加的（可能數值過大了）的負reward，難以學到好的策略也可以理解。

RL有非常多trick，包括但不限於reward的設定。訓不好RL建議找專門做RL的人諮詢（最好專門做相關應用，比如題圖中的人可能需要諮詢一下做遊戲agent的人）。

沒必要過分解讀。

19樓：

是真的，這也是為什麼強化學習的reward-shaping至關重要。

AI學成這樣不魔幻，相比之下圖里的兩個程式設計師找了三天才發現原因聽起來更加魔幻。

這樣的AI是真的嗎？

AI人工智慧是真的智慧型嗎？

這樣的老公是真的愛你嗎

男生真的性格是這樣嗎

其他用戶還看了：