機器學習處理資料時，item的某個特徵的取值是數目不定的多個特徵值，怎麼處理？

1樓：明於心197

可以有多種處理方式。

（1）可以使用one-hot進行全部列出來；

（2）如果是乙個監督學習，可以使用GBDT進行訓練模型，然後應用GBDT的葉子節點進行編碼，這樣編碼長度會少很多（可以參考faceback的GBDT+LR模型的編碼格式）；

（3）如果是文字特徵，可以考慮使用embedding技術；

你這個問題提的太籠統了，最好是集中在某乙個任務型別，然後在進行遷移到別的方法上。

2樓：

如果不用深度學習的方法，可以借鑑傳統NLP詞袋模型的思想。假設特徵A有一萬個取值，那麼對於具體樣本x，設乙個長度為10000的向量，它有哪些具體取值就把哪一位置為1

例如，假設A有四種取值a b c d，x取了b c，對應的特徵表示就是 0 1 1 0

當然，還可以統計不同取值出現的次數，將所有罕見的都標記為未知值unk

3樓：深度學習雜談

把特徵(a-z,unk)建乙個詞庫，做乙個embeddings layer，每個特徵（a-z,unk）對應乙個embedding vector. 比如乙個樣本有3個特徵（a, f, z）和另乙個樣本有5個特徵（a,a,a,d,v）。這種情況把樣本用embedding vector表示，然後。

指定乙個樣本平均長度（最大長度也可以，取決於計算成本和精準度），進行填充。此處選6，則填充後的樣本長這樣：（a,f,z,unk,unk,unk）和（a,a,a,d,v,unk）。

填充完的就是padding過後的樣本了，等長的。然後就可以feed給帶有embeddings layer的任何一種神經網路了，且訓練完了以後，相近的embedding vector會自然聚集在一起。

機器學習中如何處理缺失資料？

核偏最小二乘這裡的缺失值預設是輸入資料，而非標籤或者輸出。只談最簡單最經典的概率隱變數模型 Probabilistic Latent Variable Model,PLVM 正如一些答主所言，這裡我們可以通過EM Variational Inference或者Monte Carlo Infere...

用機器學習的方法來處理大資料，是直接學 Spark，還是重點學習 Hadoop，了解 Spark？

stucou 搞機器學習重點是機器學習演算法和它背後的數學，底下分布式框架一波一波換，機器學習演算法原理變化不大其次是分布式計算模型下如何實現這些演算法，有什麼限制再其次是hadoop和spark這些分布式框架本身的設計和實現。王二 spark吧，hadoop了解下就行，現在各大網際網路公司，...

使用機器學習處理分類問題時，若訓練樣本比較稀疏，可否向訓練語料中增加人工構造樣本，以提公升模型泛化能力？

戴威樣本平衡肯定效果會更好如果不會帶來其他影響可以.比如任意旋轉的話.W和M.好像挺像的 github看到過乙個做這方面操作的比較全的介紹aleju imgaug 張逸萌可以。這個叫做 data augmentation。看一下 http cs231n.stanford.edu slides ...

機器學習處理資料時，item的某個特徵的取值是數目不定的多個特徵值，怎麼處理？

機器學習中如何處理缺失資料？

用機器學習的方法來處理大資料，是直接學 Spark，還是重點學習 Hadoop，了解 Spark？

使用機器學習處理分類問題時，若訓練樣本比較稀疏，可否向訓練語料中增加人工構造樣本，以提公升模型泛化能力？

其他用戶還看了：