機器學習中,分類中可能出現不平衡資料,那麼在回歸問題中有不平衡資料這一說法嗎?

時間 2021-05-30 20:22:19

1樓:Will ZHANG

如果訓練集的「不平衡」分布與目標測試集的損失計算分布相同,那麼不平衡的問題就不是問題了。但是如果訓練集的「不平衡」分布與測試集不同,那麼就需要調整測試集分布,否則訓練的目標和測試的目標就不一致,自然效果就不會好了,這就是常見的Non-IID問題,非常影響模型的泛化能力。

2樓:精算與資料科學

分類中的「資料不平衡」現象有點類似於回歸問題中值的「極度有偏」問題。

有偏資料中可能存在兩個問題:某一區間資料集中和極端資料。連續變數的資料集中問題給模型帶來的影響與類間不平衡影響邏輯相似,而連續變數相對於分類變數有量上的意義,所以在連續變數中如果存在極端值,會對模型產生影響。

資料集中的問題可以類似於類間不平衡問題進行解決,極端值問題則可以用資料變換(如對數變換)和截尾等處理方法。

3樓:Tony

回歸出發點是通過擬合程度去衡量,explanatory variable 是否可以很好的解釋response variable 的變異.或者說對response variable的影響.所以應該不太關注explanatory variable的資料分布的平衡問題.

但是如果出現outlier會影響擬合的結果,從而影響判斷explanatory variable的解釋能力

4樓:孫嘉龍

同樣的問題在回歸問題中是存在的,但看起來並沒有被廣泛的稱之為【不平衡】。

其實實際應用中很多回歸的問題的建模並沒有足夠深入以至於能發現各檔資料不平衡影響了模型的泛化效果。畢竟如何理解高維資料對於人來說也比較難,現在很多領域ML也是剛普及還沒幾年。

如果認真來做的話,其實還是有不少方式的,分類問題中的權重調整在這也可以用,不過我更喜歡叫它更傳統的名字——分層抽樣,方便PM等其他崗位同學理解。當然實際操作是等效分層抽樣,通過權重來調整。

更仔細的建模的話,就需要你進一步思考這個不平衡是如何影響了你的模型的使用場景,有些需要引入一些先驗來調整模型結構,有些可能就是不需要處理。

5樓:

不均衡資料是資料本身特點,而資料是模型的輸入。

分類、回歸是我們期待模型對資料操作的任務,是模型的輸出。

乙個是輸入,乙個是輸出,二者不可同日而語也。

換句話說,資料特徵分布不均是資料在特徵空間的表現,屬於資料本身的表現。

和你是分類任務,還是回歸任務無關。

6樓:張小雨

首先要搞清楚,非均衡問題的實質是什麼,類別之間的樣本大小不一樣,導致模型的泛化能力較差,但是在回歸問題中,主觀上不存在類別,所以可能,人們可能並不care在回歸中的非均衡資料問題。

為什麼機器學習的分類器用logistic模型?

感覺 午後Sunny 說得很好了,補充一下自己的觀點,如果不對請指正Logisticfunction a 很優美。這個函式不但能把輸入對映到0 1之間,而且這種中間陡峭的性質使得只有少數樣本在0附近。b 便於求導 這樣使得模型的求解和實現更加方便 午後陽光 把我另外乙個回答搬過來了。logistic...

機器學習分類判別方法(一) Fisher線性判別

女生對女生說 愛你,麼麼噠。更多的是一種友情的表達吧。我腦子裡蹦出來的第乙個場景就是乙個女生跟另乙個女生說 我給你帶了水,要不要?然後 愛你,麼麼噠 然後說 我愛你 的話,天吶,作為乙個男生,我完全沒想過女生會和另乙個女生說我愛你,如果她們不是戀人關係的話。就算女生之間普遍比男生會表達友好的感情,我...

機器學習中常見的線性分類器有哪些?

梵為科技 機器學習中常用的線性分類器和非線性分類器知識了解 線性分類器有感知機,LDA,邏輯斯蒂回歸,SVM 線性核 它的模型是引數的線性函式,分類平面是 超 平面 非線性分類器有樸素貝葉斯,KNN,決策樹,SVM 非線性核 它的模型分介面可以是曲面或者超平面的組合 兩者區別 線性linear指量與...