為什麼新增特徵有時候會對模型帶來負面影響?

時間 2021-06-02 19:36:13

1樓:張大帥

做個思想實驗,假設往模型裡加入乙個隨機雜訊當特徵,那麼結果會如何?為什麼?

再做個思想實驗,假設做這樣乙個事情,假設向模型中新增一組特徵,這組特徵X可以線性組合為原來模型中較強的特徵,更進一步,新增多組這種特,那麼結果會如何?

再考慮一種情況,加入某種特徵之後,如果加L2正則,結果變差,如果不加正則,結果變好,這種情況發生的概率大嗎,為什麼!

這時再回頭看看題主的問題。

2樓:耿銳

其實這個問題描述得不好。首先你的lr是什麼lr,是logistic regression還是linear regression?沒有加入什麼貝葉斯、GP之類的?

因為不知道你說的是什麼lr,所以不知道你處理的是什麼問題,classification,還是regression。

你說的結果變差了,這個描述太不「統計學」了。如果你做的是regression,你是說MSE變大了,還是說l1或者l2變大了?你是如何做regularization的?

如果你做的是classification,你說的結果變差了,是說accuracy差了,還是recall或者precision差了,或者只是f1差了?如果是f1差了,你是說minor f1差了還是major f1差了?

而且我們脫離資料談資料也不好。資料本身是否做過standardisation?而且資料本身是否「可用」?

我就見過有人把周一周二週三這種數值直接設為1、2、3、4、5、6、0,結果還問為什麼效果變差了。而且有人連自己的資料的matrix的rank是多少都不知道,就直接擼模型。我說實話,這樣是不合適的。

你可能能做出結果,但是出了結果,你不知道怎麼調。

而且你說排除過擬合,你是怎麼排除這個可能性的?

所以說,我們常常看人做資料,手寫演算法,但是很少有人真的懂得科學的分析方法,很少有人真的能做error analysis。我是建議你重新編輯一下問題,然後大家幫你看一下。一般來說效果變差了,我的理解是,效果在training data和testing data上都變差了,而且無論訓練多少個迭代,結果不收斂。

那樣的話,要檢查你的資料本身是否可用。

3樓:

-condition你的model然後用梯度遞降之類的演算法看看還能不能降就大概知道是怎麼回事了。

數值問題和過擬合我感覺都可能;那麼多選擇feature的演算法都可以試一下。

4樓:Salon sai

同樣覺得是過擬合問題

假如乙個特徵僅僅代表某一小部分資料的特性,那麼它很明顯會陷入過擬合,儘管你用大量資料。

就像Decision tree那樣,你用其中乙個很多取值的離散特徵作為分支條件,分支條件就變得很細很特殊,雖然葉子節點的純度很高,但是會overfit train set。因此我們才需要用剪枝去掉部分特徵來提高泛化能力。

總的來說,通過cross-valid挑選適合的特徵組合來做訓練吧。或者L2/L1正則化?我很少用到L1正則,所以不知道它效果如何。

5樓:王贇 Maigo

同意就是過擬合的原因。

乙個特徵如果真的一點兒用也沒有,那得需要它被觸發很多次才能體現出來。

而實際中乙個特徵可能只在一小部分資料上被觸發,就算資料集很大,其中觸發該特徵的部分也達不到抹平一切 variance 的規模。

為什麼有時候氣息可以很長有時候很短

深圳市薄荷音社 有幾個原因 1.你的聲帶是漏氣的,可能你的發力不正確,也有可能氣息的保持沒有做好深圳市薄荷音社 你唱歌中各種問題的罪魁禍首 漏氣2.沒有吸好氣 深圳市薄荷音社 胸腹式聯合呼吸以及氣息控制的基本原理 孔林喬夢 歌唱中經常感到氣短 氣不夠用,越唱越憋,很吃力。這與不會運用氣息和保持氣息有...

為什麼談戀愛的時候女生有時候會對男生冷冰冰的?

年輕的時候喜歡乙個人,既嚮往又害怕,你知道有人要走近了,可是之後呢,會把我們帶到哪去?後來也動過腦筋,為什麼會這樣?1 擔心自己不夠優秀?對方只是喜歡表面的自己?大概潛意識裡不夠自信吧,畢竟對方是很優秀的男生。事實上,後來證明這種擔心是不必要的,在喜歡你的人眼裡你是獨一無二的。2 感情方面太內斂了,...

為什麼人有時候自信,有時候不自信?

顏靜咩 激素,妥妥的激素。可能是個人體質問題,這感覺來的太強烈了,如果我自己的人生分成兩部分,那估計是排卵前,和排卵後。姨媽過後排卵以前,很溫柔,覺得世界都是那麼可愛,對家人對男朋友很好,不粘人。前途一片光明。排卵期開始,心情逐步變差,逐漸的不自信,敏感,多疑,胡思亂想,煩躁,對家人沒耐心,覺得自己...