神經網路中難樣本和噪音樣本有什麼區別？

1樓：蔣路

小loss樣本可以用來區分clean or noisy labels, 是我們之前提出的乙個簡單的方法,理論上是基於課程學習(curriculum learning).

比如:Jiang, Lu, et al. "Mentornet:

Learning data-driven curriculum for very deep neural networks on corrupted labels."International Conference on Machine Learning. 2018.

更早之前的工作：

Liang, Junwei, et al. "Learning to Detect Concepts from Webly-Labeled Video Data."IJCAI.

2016.

不過，大部分作都是在人工創造的假的噪音資料上．

不過我們最近發現,利用small loss對真實世界的噪音資料有效性會下降.

詳見, 我們在Google AI上面發表的博文:

為了解決這個問題我們提出了一種全新的簡單有效的方法.

2樓：錢錢

難樣本可能是X｜Y的分布方差大，或者是按照傅利葉分析中的以高頻訊號為主，整體要麼做variance deduction要麼需要對特徵做更精細化的處理。噪音樣本，可能是label noise即本身label就是錯的，也有可能是別的回答中提到的OOD，即偏離bulk的點。

3樓：

噪音是低層特徵，分布在每個樣本【影象】中

（監督學習：真實分布靠標註錨點學到，無監督：靠模型的先驗架構）偏置是高層特徵的噪音，樣本型別的（標註使用的標籤集），標註的偏置難樣本的問題在，資料集的偏置（diversity 多樣性弱）或者就是模型表徵&任務generalization能力太弱

4樓：

一部分難樣本會隨著樣本增加而變得容易。這部分主要體現在variance上，隨著樣本增加而減小。

還有一部分是任何模型都搞不定的，連人都不行，比如寫的又像5又像6的數字。這部分就是Bayes Error

5樓：Michael Jackson

難樣本更類似於長尾分布或不完全觀測問題，例如路上出現了穿迷彩服的行人，屬於長尾問題，行人只剩兩條腿能看到，屬於不完全觀測問題（或者說屬於隨著特徵數量減少，分類能力下降的問題）

噪音樣本就是噪音，「平滑」一下可能影響不大。

但是focal loss這種只根據loss大小來判斷難樣本或噪音，確實無法區分。