神經網路中難樣本和噪音樣本有什麼區別?

時間 2021-05-06 19:13:14

1樓:蔣路

小loss樣本可以用來區分clean or noisy labels, 是我們之前提出的乙個簡單的方法,理論上是基於課程學習(curriculum learning).

比如:Jiang, Lu, et al. "Mentornet:

Learning data-driven curriculum for very deep neural networks on corrupted labels."International Conference on Machine Learning. 2018.

更早之前的工作:

Liang, Junwei, et al. "Learning to Detect Concepts from Webly-Labeled Video Data."IJCAI.

2016.

不過,大部分作都是在人工創造的假的噪音資料上.

不過我們最近發現,利用small loss對真實世界的噪音資料有效性會下降.

詳見, 我們在Google AI上面發表的博文:

為了解決這個問題我們提出了一種全新的簡單有效的方法.

2樓:錢錢

難樣本可能是X|Y的分布方差大,或者是按照傅利葉分析中的以高頻訊號為主,整體要麼做variance deduction要麼需要對特徵做更精細化的處理。噪音樣本,可能是label noise即本身label就是錯的,也有可能是別的回答中提到的OOD,即偏離bulk的點。

3樓:

噪音是低層特徵,分布在每個樣本【影象】中

(監督學習:真實分布靠標註錨點學到,無監督:靠模型的先驗架構)偏置是高層特徵的噪音,樣本型別的(標註使用的標籤集),標註的偏置難樣本的問題在,資料集的偏置(diversity 多樣性弱)或者就是模型表徵&任務generalization能力太弱

4樓:

一部分難樣本會隨著樣本增加而變得容易。這部分主要體現在variance上,隨著樣本增加而減小。

還有一部分是任何模型都搞不定的,連人都不行,比如寫的又像5又像6的數字。這部分就是Bayes Error

5樓:Michael Jackson

難樣本更類似於長尾分布或不完全觀測問題,例如路上出現了穿迷彩服的行人,屬於長尾問題,行人只剩兩條腿能看到,屬於不完全觀測問題(或者說屬於隨著特徵數量減少,分類能力下降的問題)

噪音樣本就是噪音,「平滑」一下可能影響不大。

但是focal loss這種只根據loss大小來判斷難樣本或噪音,確實無法區分。

深度神經網路的訓練樣本個數多少合適,有沒有經驗值或理論上的分析?

首先,這是個很好的問題,因為訓練資料的數量是乙個必須考慮的問題,其次,這不是個新問題,其實在經典的訊號處理領域,特別是統計建模中就經常有人提到樣本數量問題,比如做形狀的統計分析,那麼必然要考慮需要多少形狀樣本來構建具有代表性的統計模型。從深度學習系統看,最本質需要考察的是多少樣本可以有效覆蓋問題空間...

RBF神經網路和BP神經網路有什麼區別?

DomainAdaptation 1,從模型結構上來看 RBF神經網路從圖形結構上來說,就是一種單隱層的神經網路.這個隱層的每個神經元輸出的是乙個RBF函式的值,這些RBF函式的核寬都是一樣的,它們中心要麼是每個訓練樣本點,要麼是訓練樣本點的聚類中心,當然還可以有其他。核化的支援向量機就可以看成是一...

神經網路中,設計loss function有哪些技巧

DLing 損失函式是神經網路能正常訓練的基礎,所以在日常研究中,損失函式也是大家攻關的熱門,可以供大家學習的太多了,各種技巧也很多,FocalLoss,OHEM 每乙個都很有代表性。其實這麼多損失函式中,我自己感覺還是CenterNet的損失函式 或者是Corner Net 最能讓我眼前一亮,整個...