深度學習對資料集中的某些特徵過擬合怎麼辦？

1樓：

這不是過擬合的問題，是你自己的資料集問題。

訓練集要盡可能的exhaustive，從你的描述來看，顯然是不夠exhaustive。解決辦法是盡量調查多一些人，同時增大參與者的多樣性。不知道猜測是否準確，我覺得採資料的人或者場景中有絕大部分的的特徵可能非常像（比如80%以上都是同一類人或者場景），高度correlated。

25000張 25個人每個人十種行為。平均下來也就是每個人拍的每種行為只有100張，加上人為帶入的資料的原始特徵高度correlated，使得你的訓練集只是乙個非常bias的sample，從而造成這種情況。

2樓：學渣在路上

個人覺得這個正常，總共就25個人，樣本總數就不太豐富，隨便拿出來3個人作為驗證集，效果差一些很正常，說明22個訓練集中沒有太像3個驗證集的影象。這就是深度學習樣本需要大的原因，樣本基數大了就有像那3個人的特徵被訓練，效果自然就會上來。繼續加樣本吧。

不過做資料增加將訓練資料集做的模糊一些應該會有一些效果

3樓：嶽濤

自問自答一波吧，聽了其他答主的意見，懷疑是網路（我用的是cnn網路）對人物的臉部，服裝和一些車內背景過擬合了。這兩天用grad-cam視覺化了模型，基本上驗證了這個猜想，下一步我應該會想辦法處理一下資料，如果有效的話，會再補充上來。

4樓：Devin

本人最近也在做行為識別。也是遇到這個問題，應該是過擬合吧。還有關於行為或動作的識別，對某些情況存在歧義…目前解決辦法就是盡可能增加不同人在不同背景或光照條件下的樣本，同時不用會發生歧義的樣本。

目前還在做樣本採集，好了看看訓練和實際測試效果吧…（擔憂臉，逃）