機器學習中，分類中可能出現不平衡資料，那麼在回歸問題中有不平衡資料這一說法嗎？

1樓：Will ZHANG

如果訓練集的「不平衡」分布與目標測試集的損失計算分布相同，那麼不平衡的問題就不是問題了。但是如果訓練集的「不平衡」分布與測試集不同，那麼就需要調整測試集分布，否則訓練的目標和測試的目標就不一致，自然效果就不會好了，這就是常見的Non-IID問題，非常影響模型的泛化能力。

2樓：精算與資料科學

分類中的「資料不平衡」現象有點類似於回歸問題中值的「極度有偏」問題。

有偏資料中可能存在兩個問題：某一區間資料集中和極端資料。連續變數的資料集中問題給模型帶來的影響與類間不平衡影響邏輯相似，而連續變數相對於分類變數有量上的意義，所以在連續變數中如果存在極端值，會對模型產生影響。

資料集中的問題可以類似於類間不平衡問題進行解決，極端值問題則可以用資料變換(如對數變換)和截尾等處理方法。

3樓：Tony

回歸出發點是通過擬合程度去衡量,explanatory variable 是否可以很好的解釋response variable 的變異.或者說對response variable的影響.所以應該不太關注explanatory variable的資料分布的平衡問題.

但是如果出現outlier會影響擬合的結果,從而影響判斷explanatory variable的解釋能力

4樓：孫嘉龍

同樣的問題在回歸問題中是存在的，但看起來並沒有被廣泛的稱之為【不平衡】。

其實實際應用中很多回歸的問題的建模並沒有足夠深入以至於能發現各檔資料不平衡影響了模型的泛化效果。畢竟如何理解高維資料對於人來說也比較難，現在很多領域ML也是剛普及還沒幾年。

如果認真來做的話，其實還是有不少方式的，分類問題中的權重調整在這也可以用，不過我更喜歡叫它更傳統的名字——分層抽樣，方便PM等其他崗位同學理解。當然實際操作是等效分層抽樣，通過權重來調整。

更仔細的建模的話，就需要你進一步思考這個不平衡是如何影響了你的模型的使用場景，有些需要引入一些先驗來調整模型結構，有些可能就是不需要處理。

5樓：

不均衡資料是資料本身特點，而資料是模型的輸入。

分類、回歸是我們期待模型對資料操作的任務，是模型的輸出。

乙個是輸入，乙個是輸出，二者不可同日而語也。

換句話說，資料特徵分布不均是資料在特徵空間的表現，屬於資料本身的表現。

和你是分類任務，還是回歸任務無關。

6樓：張小雨

首先要搞清楚，非均衡問題的實質是什麼，類別之間的樣本大小不一樣，導致模型的泛化能力較差，但是在回歸問題中，主觀上不存在類別，所以可能，人們可能並不care在回歸中的非均衡資料問題。