機器學習處理資料時,item的某個特徵的取值是數目不定的多個特徵值,怎麼處理?

時間 2021-12-23 06:08:35

1樓:明於心197

可以有多種處理方式。

(1)可以使用one-hot進行全部列出來;

(2)如果是乙個監督學習,可以使用GBDT進行訓練模型,然後應用GBDT的葉子節點進行編碼,這樣編碼長度會少很多(可以參考faceback的GBDT+LR模型的編碼格式);

(3)如果是文字特徵,可以考慮使用embedding技術;

你這個問題提的太籠統了,最好是集中在某乙個任務型別,然後在進行遷移到別的方法上。

2樓:

如果不用深度學習的方法,可以借鑑傳統NLP詞袋模型的思想。假設特徵A有一萬個取值,那麼對於具體樣本x,設乙個長度為10000的向量,它有哪些具體取值就把哪一位置為1

例如,假設A有四種取值a b c d,x取了b c,對應的特徵表示就是 0 1 1 0

當然,還可以統計不同取值出現的次數,將所有罕見的都標記為未知值unk

3樓:深度學習雜談

把特徵(a-z,unk)建乙個詞庫,做乙個embeddings layer,每個特徵(a-z,unk)對應乙個embedding vector. 比如乙個樣本有3個特徵(a, f, z)和另乙個樣本有5個特徵(a,a,a,d,v)。這種情況把樣本用embedding vector表示,然後。

指定乙個樣本平均長度(最大長度也可以,取決於計算成本和精準度),進行填充。此處選6,則填充後的樣本長這樣:(a,f,z,unk,unk,unk)和(a,a,a,d,v,unk)。

填充完的就是padding過後的樣本了,等長的。然後就可以feed給帶有embeddings layer的任何一種神經網路了,且訓練完了以後,相近的embedding vector會自然聚集在一起。

機器學習中如何處理缺失資料?

核偏最小二乘 這裡的缺失值預設是輸入資料,而非標籤或者輸出。只談最簡單 最經典的概率隱變數模型 Probabilistic Latent Variable Model,PLVM 正如一些答主所言,這裡我們可以通過EM Variational Inference或者Monte Carlo Infere...

用機器學習的方法來處理大資料,是直接學 Spark,還是重點學習 Hadoop,了解 Spark?

stucou 搞機器學習重點是機器學習演算法和它背後的數學,底下分布式框架一波一波換,機器學習演算法原理變化不大 其次是分布式計算模型下如何實現這些演算法,有什麼限制 再其次是hadoop和spark這些分布式框架本身的設計和實現。 王二 spark吧,hadoop了解下就行,現在各大網際網路公司,...

使用機器學習處理分類問題時,若訓練樣本比較稀疏,可否向訓練語料中增加人工構造樣本,以提公升模型泛化能力?

戴威 樣本平衡肯定效果會更好 如果不會帶來其他影響可以.比如任意旋轉的話.W和M.好像挺像的 github看到過乙個做這方面操作的比較全的介紹aleju imgaug 張逸萌 可以。這個叫做 data augmentation。看一下 http cs231n.stanford.edu slides ...