tf idf作為特徵如何進行資料的篩選從而降維?

時間 2021-05-12 09:07:20

1樓:

1.我覺得你是不是可以先做一下聚類分析(比如Kmeans,Hierarchical clustering),然後再分別研究下每個cluster。

2.你的feature不一定都有用,可以用random forest先算下feature importance,選重要的feature。

3.降維不一定要一定要PCA,也可以嘗試下supervised的方法,比如PLS。

4.樸素貝葉斯效果一般也說不上太好,如果你覺得模型的解釋性重要,可以考慮邏輯回歸+L1或L2懲罰。如果你覺得精度重要,那gradient boost tree是比較好的選擇。

2樓:夏小麥

關鍵還是要看你的樣本有多少,各個類怎麼分布,比如中文100億文字的二分類,如果90億文字正例10億文字反例那麼df(頻次)低於100的詞我看就可以不要了,這樣100萬的詞大概可以過濾到10萬左右吧。然後再用卡方檢驗選出前n(N取你能接受的最大值)個跟結果最相關的詞做feature。

不過你一共才1500個詞,估計樣本不多,直接做卡方檢驗吧。

3樓:大蔥

你最終目的是什麼?提高分類的精確度麼?如果是這樣樸素貝葉斯似乎在大多數情況下都是效果比較弱的分類器(當然具體問題具體分析)。一般比較多見是上SVM,效果都是有一定保證的。

至於你說的降維,你不妨先用一些簡單的特徵選擇方法(例如卡方,互資訊之類的)。沒必要一下子就pca啥的,pca涉及矩陣運算,不太適合於大資料量。不過1500維在大多數情況下其實也不算大資料

4樓:li Eta

1500維算不算『維度太高』,要看你樣本量有多少。樣本足夠多,1500維其實沒啥問題。

把你會用的模型都試一遍,沒必要非得用樸素貝葉斯。

如何進行資料統計

1.Excel就能實現,學點Excel製作自動化報表的函式和方法技巧就行了,沒必要買第三方軟體。2.利用Excel SQl Server資料庫的方式,實現半自動化也能達到你想要的效果哦。簡單介紹兩種方法,希望可以幫到您。 xiaoxiao 其實你的需求跟我很像,我每週也是要統計公司的銷售資料,資料量...

如何進行資料安全防護,避免黑客攻擊呢?

子夜 這是乙個很大的問題。首先要看你的資料到底值多少錢,敏感程度。沒什麼價值的資料不用擔心,黑客不會閒的沒事幹去找你。有著大量有價值的資料,很難避免被黑客盯上。要做的就是做好資料的防護。防護的幾條思路 1.資料分類分級,為敏感資料打標,控制並收緊流入流出路徑 2.加強對資料庫的操作審計,實時監控和限...

如何使用深度學習內容進行資料降維或特徵篩比如用20個特徵項,也就是20維資料,降低為8維。風速資料。

小宋是呢 這個實戰部落格可以幫到你 Keras深度學習淺嚐 實戰五 使用DNN自編碼器實現聚類運算元據降維 https blog.csdn.net xiaosongs hine article details 85164237 kai.han 前面的答主提到了用auto encoder做特徵降維,其...