機器學習中,有哪些特徵選擇的工程方法?

時間 2021-05-10 06:59:07

1樓:Tom Hardy

特徵選擇,其實主要通過相關性分析的方法比如皮爾遜相關,判斷哪乙個特徵對label更為重要。除此之外,還可以進行特徵組合,相加、點積等等。美團那本機器學習實戰,還是不錯的,做了詳細的闡述,你可以參考下~

2樓:Mr.蛋

最近在看feature engineering 中預處理問題 sklearn的官方文件超給力的Compare the effect of different scalers on data with outliers趕緊分享一下

3樓:codlife

特徵選擇主要分為兩大類:

特徵過濾

包裝選擇

特徵選擇過程中,可以求出每個特徵與 Label 的相關係數,然後排序進行選擇。常見的相關係數有: Pearson皮爾森相關係數(積矩相關係數)和Spearman相關係數(秩相關係數)。

Spearman 可以捕獲單調線性關係(包括非線性關係)取值範圍是[-1,1]

包2. 包裝選擇:主要有Lasso回歸進行特徵選擇,或者使用基於決策樹的特徵選擇,比如隨機森林,GBDT

4樓:

資料探勘導論Pang Ning Tan版裡有說特徵選擇(中文版2.3 P33)

1.特徵提取

各個領域有高度針對的提取方法,不同領域的方法之間侷限性很大,所以新領域需要重新開發。

2.對映資料到空間

使用一種完全不同的視角挖掘資料可能揭示出重要和有趣的特徵。

如時間序列資料,可以用傅利葉變換,小波變化構造更好的特徵。

5樓:sigmoidguo

個人了解的方法是:

單個特徵選擇,可以用決策樹的split 的方法:gini index,資訊增益等。

組合特徵選擇,決策樹的整個路徑。

6樓:mahalanobis

看kaggle獲勝者原始碼。

特別的,kaggle排名第一的owen zhang,他的github有幾個原始碼。

手機發的沒有超連結 T0T

機器學習中有哪些形式簡單卻很巧妙的idea?

涼爽的安迪 很多啊 簡單實用效果好,美滋滋 Drouout Batch Normalization ReLU Knowledge Distillation涼爽的安迪 知識蒸餾簡述 一 5.warm up 6.active learning 7.multi task learning8.transfe...

機器學習處理資料時,item的某個特徵的取值是數目不定的多個特徵值,怎麼處理?

明於心197 可以有多種處理方式。1 可以使用one hot進行全部列出來 2 如果是乙個監督學習,可以使用GBDT進行訓練模型,然後應用GBDT的葉子節點進行編碼,這樣編碼長度會少很多 可以參考faceback的GBDT LR模型的編碼格式 3 如果是文字特徵,可以考慮使用embedding技術 ...

機器學習中,對特徵做 行的norm,或者列的norm,這兩種norm的方式有啥區別和作用?

bear lin 剛好這兩種方法都做過,那我就簡單說下我的理解。特徵norm一般是為了特徵的歸一化。比如有些特徵數量級是萬的,有些特徵數量級是小數的,這種數量級的不對等對於神經網路,svm,相關性分析這些演算法都有影響,特徵相互之間的倍數實際會成為特徵權重,所以需要將特徵全部拉到01之間。但是如果實...