長尾資料如何進行回歸分析？

1樓：

我覺得可以先用觀察法入手，採用切片法觀察自變數和因變數的關係：

1. 等分自變數的區間為份，每個小區間對因變數求平均值，即第個小區間的因變數的平均值為，標準差；自變數的左端點為

2. 對和做回歸，一般可以採用線性回歸，當然檢視形也可以採用二次回歸，假設；對和做回歸，一般可以採用線性回歸，當然檢視形也可以採用二次回歸，假設。

3.1 如果每個小區間的因變數都服從正態分佈，那麼你容易得到,這種情況下你應該採用高斯回歸（計算時使用極大似然估計估計引數，傳統的最小二乘回歸不合適了）

3.2 如果你發現，是較小的誤差項的話，那麼非常幸運的是，你可以採用泊松回歸（計算時仍使用極大似然估計估計引數）

3.3 如果你發現，是較小的誤差項的話，那麼非常幸運的是，你可以採用負二項回歸（計算時仍使用極大似然估計估計引數），負二項回歸的尾巴比泊松分布更長

4. 如果以上三種情況都不符合或者強行擬合的效果特別不好，那麼就應該再使用其他更加複雜的模型了，這就需要具體問題具體分析，不過總的來說方法還是和上面一樣，只不過需要更換分布的種類，譬如我曾經在研究中就用過zeta分布，雖然效果好一些，但是計算時也更複雜，一般情況不推薦。

個人是比較推薦泊松回歸和負二項回歸，因為這兩個在很多情況下都適用，尤其是計數資料；而且R等軟體內有現成的函式可以呼叫，省去了自己寫程式的麻煩。

2樓：

做多元分析的時候，自變數和因變數的分布不需要考慮。如果你對回歸分析的原理不了解，我建議你直接用已有的回歸方法，直接把資料帶去模型，執行結果。最簡單的就是用多元線性回歸去擬合自變數和因變數的關係。

如果你的自變數維數過高，我建議先做變數選擇，可以用向前或者向後選擇自變數方法。如果線性回歸擬合情況不理想，可以試試新增交叉項或者冪函式項，以及其他非線性的函式。你也可以試試神經網路。

3樓：

線性回歸裡，自變數因變數單獨看如何分布是不重要的，關鍵是誤差項是什麼分布。如果這都是類似的分布，說不定殘差圖反而接近正態分佈。

比如以下R程式所展示的

> x <- rexp(100)

> y <- rexp(100)

> z <- 3*x + 10*y + rnorm(100)> hist(x)

> hist(y)

> hist(z)

> mod <- lm(z ~ x + y)> mod

Call:

lm(formula = z ~ x + y)Coefficients:

(Interceptxy

-0.0821 3.0468 9.9083> hist(mod$residual)

如何進行薪酬資料分析？

姜春桂先要想好分析什麼？根據分析的目標去建立指標和維度，然後選擇一定的資料分析工具，如億信華辰豌豆BI是一款免費的資料分析工具，個人用過，確實還不錯飯先生什麼資料分析都離不開兩個點，乙個基本面，乙個是預估和指導。首先考慮薪酬資料分析的目的是什麼，從目的出發能直接跟進。分析基本訴求應該是上級需要...

時間序列的資料如何進行主成分分析？

魚鰭的鰭時間序列做成分分析的方法還是很多的，這個問題正好跟我博士選題撞了一部分。姑且列舉幾個選項作為參考吧，回頭有時間有人想知道再來細說。Independent Component Analysis Hallin,M.Mehta,C.2015 R Estimation for Asymmetri...

如何進行資料分析？成為資料分析師應該怎麼做？

農夫三拳有點疼不要看長篇大論，也不要上來就學工具，你會崩潰的。去找一組你感興趣的資料，先用統計學的東西搞資料分布，找到資料中存在的問題，嘗試從資料中發現一些規律，工具就用excel。 IT界不禿頭的姑娘首先想成為乙個資料分析師，需要熟練掌握Excel SQL PPT Python等工具。當然僅僅...

長尾資料如何進行回歸分析？

如何進行薪酬資料分析？

時間序列的資料如何進行主成分分析？

如何進行資料分析？成為資料分析師應該怎麼做？

其他用戶還看了：