機器學習中，訓練集中的資料特徵有幾百個，但是大多數特徵都很稀疏缺失率高達百分之80以上，該怎麼處理

1樓：賈老列

特徵型別不同，模型不同，特徵缺失產生的影響是不同的的，對應處理方式也不一樣.

比如樹模型可以把缺失值歸為新類，自然無需處理也可以擬合的很好

而nn對於連續值的缺失值比較敏感，但對於離散embeddimg的特徵缺失卻不敏感.

因此資料量大的條件下，一般會把所有連續特徵離散化再輸入nn模型，這就避免了缺失值可能產生的負面影響.

當然也可以嘗試直接在nn中引入連續特徵來增加資訊量，但是對於缺失部分是選擇填充預設值or均值or眾數，還是針對性做模型優化就需要針對場景慢慢嘗試了

在推薦搜尋等稀疏場景下如果是強特徵，80%的缺失率也是可以接受的，可能給模型帶來正向效果. 不過具體還是要自己試試看.

2樓：姚凱強

特徵工程是一門大學問，稀疏特徵有稀疏特徵的解決辦法，比如密集化處理，比如矩陣分解，比如降維，當然，如果不是嚴格意義。上面的係數，而是因為缺失造成的，那就是另外一說了，缺失特徵的處理又是另外一種做法。

3樓：zhao

短版本1：簡單的用mean或median替代missing，然後試試各種model不受限制

短版本2: missing 統一用乙個字元代替，然後直接上能處理missing的現成的library model（需要事先查好lib手冊確定）

Why doesn't Random Forest handle missing values in predictors?

長版本：具體情況具體分析，這兒有乙個大彙總https://

上圖就從這兒來的

機器學習處理資料時，item的某個特徵的取值是數目不定的多個特徵值，怎麼處理？

明於心197 可以有多種處理方式。1 可以使用one hot進行全部列出來 2 如果是乙個監督學習，可以使用GBDT進行訓練模型，然後應用GBDT的葉子節點進行編碼，這樣編碼長度會少很多可以參考faceback的GBDT LR模型的編碼格式 3 如果是文字特徵，可以考慮使用embedding技術 ...

深度學習對資料集中的某些特徵過擬合怎麼辦？

這不是過擬合的問題，是你自己的資料集問題。訓練集要盡可能的exhaustive，從你的描述來看，顯然是不夠exhaustive。解決辦法是盡量調查多一些人，同時增大參與者的多樣性。不知道猜測是否準確，我覺得採資料的人或者場景中有絕大部分的的特徵可能非常像比如80 以上都是同一類人或者場景高度co...

機器學習中如何處理缺失資料？

核偏最小二乘這裡的缺失值預設是輸入資料，而非標籤或者輸出。只談最簡單最經典的概率隱變數模型 Probabilistic Latent Variable Model,PLVM 正如一些答主所言，這裡我們可以通過EM Variational Inference或者Monte Carlo Infere...

機器學習中，訓練集中的資料特徵有幾百個，但是大多數特徵都很稀疏缺失率高達百分之80以上，該怎麼處理

機器學習處理資料時，item的某個特徵的取值是數目不定的多個特徵值，怎麼處理？

深度學習對資料集中的某些特徵過擬合怎麼辦？

機器學習中如何處理缺失資料？

其他用戶還看了：