長尾資料如何進行回歸分析?

時間 2021-06-01 11:38:44

1樓:

我覺得可以先用觀察法入手,採用切片法觀察自變數和因變數的關係:

1. 等分自變數的區間為份,每個小區間對因變數求平均值,即第個小區間的因變數的平均值為,標準差;自變數的左端點為

2. 對和做回歸,一般可以採用線性回歸,當然檢視形也可以採用二次回歸,假設;對和做回歸,一般可以採用線性回歸,當然檢視形也可以採用二次回歸,假設。

3.1 如果每個小區間的因變數都服從正態分佈,那麼你容易得到,這種情況下你應該採用高斯回歸(計算時使用極大似然估計估計引數,傳統的最小二乘回歸不合適了)

3.2 如果你發現,是較小的誤差項的話,那麼非常幸運的是,你可以採用泊松回歸(計算時仍使用極大似然估計估計引數)

3.3 如果你發現,是較小的誤差項的話,那麼非常幸運的是,你可以採用負二項回歸(計算時仍使用極大似然估計估計引數),負二項回歸的尾巴比泊松分布更長

4. 如果以上三種情況都不符合或者強行擬合的效果特別不好,那麼就應該再使用其他更加複雜的模型了,這就需要具體問題具體分析,不過總的來說方法還是和上面一樣,只不過需要更換分布的種類,譬如我曾經在研究中就用過zeta分布,雖然效果好一些,但是計算時也更複雜,一般情況不推薦。

個人是比較推薦泊松回歸和負二項回歸,因為這兩個在很多情況下都適用,尤其是計數資料;而且R等軟體內有現成的函式可以呼叫,省去了自己寫程式的麻煩。

2樓:

做多元分析的時候,自變數和因變數的分布不需要考慮。如果你對回歸分析的原理不了解,我建議你直接用已有的回歸方法,直接把資料帶去模型,執行結果。最簡單的就是用多元線性回歸去擬合自變數和因變數的關係。

如果你的自變數維數過高,我建議先做變數選擇,可以用向前或者向後選擇自變數方法。如果線性回歸擬合情況不理想,可以試試新增交叉項或者冪函式項,以及其他非線性的函式。你也可以試試神經網路。

3樓:

線性回歸裡,自變數因變數單獨看如何分布是不重要的,關鍵是誤差項是什麼分布。如果這都是類似的分布,說不定殘差圖反而接近正態分佈。

比如以下R程式所展示的

> x <- rexp(100)

> y <- rexp(100)

> z <- 3*x + 10*y + rnorm(100)> hist(x)

> hist(y)

> hist(z)

> mod <- lm(z ~ x + y)> mod

Call:

lm(formula = z ~ x + y)Coefficients:

(Interceptxy

-0.0821 3.0468 9.9083> hist(mod$residual)

如何進行薪酬資料分析?

姜春桂 先要想好分析什麼?根據分析的目標去建立指標和維度,然後選擇一定的資料分析工具,如億信華辰豌豆BI是一款免費的資料分析工具,個人用過,確實還不錯 飯先生 什麼資料分析都離不開兩個點,乙個基本面,乙個是預估和指導。首先考慮薪酬資料分析的目的是什麼,從目的出發能直接跟進。分析基本訴求應該是上級需要...

時間序列的資料如何進行主成分分析?

魚鰭的鰭 時間序列做成分分析的方法還是很多的,這個問題正好跟我博士選題撞了一部分。姑且列舉幾個選項作為參考吧,回頭有時間 有人想知道再來細說。Independent Component Analysis Hallin,M.Mehta,C.2015 R Estimation for Asymmetri...

如何進行資料分析?成為資料分析師應該怎麼做?

農夫三拳有點疼 不要看長篇大論,也不要上來就學工具,你會崩潰的。去找一組你感興趣的資料,先用統計學的東西搞資料分布,找到資料中存在的問題,嘗試從資料中發現一些規律,工具就用excel。 IT界不禿頭的姑娘 首先想成為乙個資料分析師,需要熟練掌握Excel SQL PPT Python等工具。當然僅僅...