機器學習中，有哪些特徵選擇的工程方法？

1樓：Tom Hardy

特徵選擇，其實主要通過相關性分析的方法比如皮爾遜相關，判斷哪乙個特徵對label更為重要。除此之外，還可以進行特徵組合，相加、點積等等。美團那本機器學習實戰，還是不錯的，做了詳細的闡述，你可以參考下~

2樓：Mr.蛋

最近在看feature engineering 中預處理問題 sklearn的官方文件超給力的Compare the effect of different scalers on data with outliers趕緊分享一下

3樓：codlife

特徵選擇主要分為兩大類：

特徵過濾

包裝選擇

特徵選擇過程中，可以求出每個特徵與 Label 的相關係數，然後排序進行選擇。常見的相關係數有： Pearson皮爾森相關係數（積矩相關係數）和Spearman相關係數（秩相關係數）。

Spearman 可以捕獲單調線性關係（包括非線性關係）取值範圍是[-1,1]

包2. 包裝選擇：主要有Lasso回歸進行特徵選擇，或者使用基於決策樹的特徵選擇，比如隨機森林，GBDT

4樓：

資料探勘導論Pang Ning Tan版裡有說特徵選擇（中文版2.3 P33）

1.特徵提取

各個領域有高度針對的提取方法，不同領域的方法之間侷限性很大，所以新領域需要重新開發。

2.對映資料到空間

使用一種完全不同的視角挖掘資料可能揭示出重要和有趣的特徵。

如時間序列資料，可以用傅利葉變換，小波變化構造更好的特徵。

5樓：sigmoidguo

個人了解的方法是：

單個特徵選擇，可以用決策樹的split 的方法：gini index，資訊增益等。

組合特徵選擇，決策樹的整個路徑。

6樓：mahalanobis

看kaggle獲勝者原始碼。

特別的，kaggle排名第一的owen zhang，他的github有幾個原始碼。

手機發的沒有超連結 T0T

機器學習中有哪些形式簡單卻很巧妙的idea？

涼爽的安迪很多啊簡單實用效果好，美滋滋 Drouout Batch Normalization ReLU Knowledge Distillation涼爽的安迪知識蒸餾簡述一 5.warm up 6.active learning 7.multi task learning8.transfe...

機器學習處理資料時，item的某個特徵的取值是數目不定的多個特徵值，怎麼處理？

明於心197 可以有多種處理方式。1 可以使用one hot進行全部列出來 2 如果是乙個監督學習，可以使用GBDT進行訓練模型，然後應用GBDT的葉子節點進行編碼，這樣編碼長度會少很多可以參考faceback的GBDT LR模型的編碼格式 3 如果是文字特徵，可以考慮使用embedding技術 ...

機器學習中，對特徵做行的norm，或者列的norm，這兩種norm的方式有啥區別和作用？

bear lin 剛好這兩種方法都做過，那我就簡單說下我的理解。特徵norm一般是為了特徵的歸一化。比如有些特徵數量級是萬的，有些特徵數量級是小數的，這種數量級的不對等對於神經網路，svm，相關性分析這些演算法都有影響，特徵相互之間的倍數實際會成為特徵權重，所以需要將特徵全部拉到01之間。但是如果實...

機器學習中，有哪些特徵選擇的工程方法？

機器學習中有哪些形式簡單卻很巧妙的idea？

機器學習處理資料時，item的某個特徵的取值是數目不定的多個特徵值，怎麼處理？

機器學習中，對特徵做 行的norm，或者列的norm，這兩種norm的方式有啥區別和作用？

其他用戶還看了：

機器學習中，對特徵做行的norm，或者列的norm，這兩種norm的方式有啥區別和作用？