1樓:蔣路
小loss樣本可以用來區分clean or noisy labels, 是我們之前提出的乙個簡單的方法,理論上是基於課程學習(curriculum learning).
比如:Jiang, Lu, et al. "Mentornet:
Learning data-driven curriculum for very deep neural networks on corrupted labels."International Conference on Machine Learning. 2018.
更早之前的工作:
Liang, Junwei, et al. "Learning to Detect Concepts from Webly-Labeled Video Data."IJCAI.
2016.
不過,大部分作都是在人工創造的假的噪音資料上.
不過我們最近發現,利用small loss對真實世界的噪音資料有效性會下降.
詳見, 我們在Google AI上面發表的博文:
為了解決這個問題我們提出了一種全新的簡單有效的方法.
2樓:錢錢
難樣本可能是X|Y的分布方差大,或者是按照傅利葉分析中的以高頻訊號為主,整體要麼做variance deduction要麼需要對特徵做更精細化的處理。噪音樣本,可能是label noise即本身label就是錯的,也有可能是別的回答中提到的OOD,即偏離bulk的點。
3樓:
噪音是低層特徵,分布在每個樣本【影象】中
(監督學習:真實分布靠標註錨點學到,無監督:靠模型的先驗架構)偏置是高層特徵的噪音,樣本型別的(標註使用的標籤集),標註的偏置難樣本的問題在,資料集的偏置(diversity 多樣性弱)或者就是模型表徵&任務generalization能力太弱
4樓:
一部分難樣本會隨著樣本增加而變得容易。這部分主要體現在variance上,隨著樣本增加而減小。
還有一部分是任何模型都搞不定的,連人都不行,比如寫的又像5又像6的數字。這部分就是Bayes Error
5樓:Michael Jackson
難樣本更類似於長尾分布或不完全觀測問題,例如路上出現了穿迷彩服的行人,屬於長尾問題,行人只剩兩條腿能看到,屬於不完全觀測問題(或者說屬於隨著特徵數量減少,分類能力下降的問題)
噪音樣本就是噪音,「平滑」一下可能影響不大。
但是focal loss這種只根據loss大小來判斷難樣本或噪音,確實無法區分。
深度神經網路的訓練樣本個數多少合適,有沒有經驗值或理論上的分析?
首先,這是個很好的問題,因為訓練資料的數量是乙個必須考慮的問題,其次,這不是個新問題,其實在經典的訊號處理領域,特別是統計建模中就經常有人提到樣本數量問題,比如做形狀的統計分析,那麼必然要考慮需要多少形狀樣本來構建具有代表性的統計模型。從深度學習系統看,最本質需要考察的是多少樣本可以有效覆蓋問題空間...
RBF神經網路和BP神經網路有什麼區別?
DomainAdaptation 1,從模型結構上來看 RBF神經網路從圖形結構上來說,就是一種單隱層的神經網路.這個隱層的每個神經元輸出的是乙個RBF函式的值,這些RBF函式的核寬都是一樣的,它們中心要麼是每個訓練樣本點,要麼是訓練樣本點的聚類中心,當然還可以有其他。核化的支援向量機就可以看成是一...
神經網路中,設計loss function有哪些技巧
DLing 損失函式是神經網路能正常訓練的基礎,所以在日常研究中,損失函式也是大家攻關的熱門,可以供大家學習的太多了,各種技巧也很多,FocalLoss,OHEM 每乙個都很有代表性。其實這麼多損失函式中,我自己感覺還是CenterNet的損失函式 或者是Corner Net 最能讓我眼前一亮,整個...