機器學習中,訓練集中的資料特徵有幾百個,但是大多數特徵都很稀疏缺失率高達百分之80以上,該怎麼處理

時間 2021-05-07 17:26:32

1樓:賈老列

特徵型別不同,模型不同,特徵缺失產生的影響是不同的的,對應處理方式也不一樣.

比如樹模型可以把缺失值歸為新類,自然無需處理也可以擬合的很好

而nn對於連續值的缺失值比較敏感,但對於離散embeddimg的特徵缺失卻不敏感.

因此資料量大的條件下,一般會把所有連續特徵離散化再輸入nn模型,這就避免了缺失值可能產生的負面影響.

當然也可以嘗試直接在nn中引入連續特徵來增加資訊量,但是對於缺失部分是選擇填充預設值or均值or眾數,還是針對性做模型優化就需要針對場景慢慢嘗試了

在推薦搜尋等稀疏場景下如果是強特徵,80%的缺失率也是可以接受的,可能給模型帶來正向效果. 不過具體還是要自己試試看.

2樓:姚凱強

特徵工程是一門大學問,稀疏特徵有稀疏特徵的解決辦法,比如密集化處理,比如矩陣分解,比如降維,當然,如果不是嚴格意義。上面的係數,而是因為缺失造成的,那就是另外一說了,缺失特徵的處理又是另外一種做法。

3樓:zhao

短版本1:簡單的用mean或median替代missing,然後試試各種model不受限制

短版本2: missing 統一用乙個字元代替,然後直接上能處理missing的現成的library model(需要事先查好lib手冊確定)

Why doesn't Random Forest handle missing values in predictors?

長版本:具體情況具體分析,這兒有乙個大彙總https://

上圖就從這兒來的

機器學習處理資料時,item的某個特徵的取值是數目不定的多個特徵值,怎麼處理?

明於心197 可以有多種處理方式。1 可以使用one hot進行全部列出來 2 如果是乙個監督學習,可以使用GBDT進行訓練模型,然後應用GBDT的葉子節點進行編碼,這樣編碼長度會少很多 可以參考faceback的GBDT LR模型的編碼格式 3 如果是文字特徵,可以考慮使用embedding技術 ...

深度學習對資料集中的某些特徵過擬合怎麼辦?

這不是過擬合的問題,是你自己的資料集問題。訓練集要盡可能的exhaustive,從你的描述來看,顯然是不夠exhaustive。解決辦法是盡量調查多一些人,同時增大參與者的多樣性。不知道猜測是否準確,我覺得採資料的人或者場景中有絕大部分的的特徵可能非常像 比如80 以上都是同一類人或者場景 高度co...

機器學習中如何處理缺失資料?

核偏最小二乘 這裡的缺失值預設是輸入資料,而非標籤或者輸出。只談最簡單 最經典的概率隱變數模型 Probabilistic Latent Variable Model,PLVM 正如一些答主所言,這裡我們可以通過EM Variational Inference或者Monte Carlo Infere...