在統計學中為什麼要對變數取對數?

時間 2021-05-06 01:38:28

1樓:Veena

可以去看下Box-Cox Transformation的文獻,我個人的理解,對於偏度很大的資料,想把資料盡可能接近正態化,對數變換只是Box-Cox Transformation公式lambda = 0時候的情況,具體做哪種變換,需要根據最大似然估計求lambda的值,來決定用哪種去偏度的變換。如果一組資料偏度非常大,那些偏度很大的資料又包含了重要的資訊,我感覺是最好是不要去偏度的....

2樓:洛基不壞

如:原資料為1、10、100、1000取以10為底對數處理後變為:0、1、2、3。有以下好處:

將一些右偏分布的資料轉化為近似正態分佈。如人均收入分布圖把一些數量級相差較大的資料做對數處理使資料分布更加均勻也更容易處理,數量級變小的同時,方差也隨之變小,同時消除異方差

把一些非線性關係轉化為線性關係

3樓:十二月極光

取對數具有經濟含義。考慮如下關係: , 那麼只要取微分很容易可以看到的是, 的經濟含義是當x變化乙個百分點的時候,y的變化比例。

另外,正如前面各位知友以及Mincer (1974)指出的,去對數可以讓偏峰資料呈現出類似正態的性質,從而更好地進行統計推斷。但是,需要注意的是,在原始文獻中,取對數一定來自於經濟的理論,例如對於工資取對數的原因並不是為了改變工資的偏峰分布,而是Mincer通過對於人力資本的折舊推導而自然得出的指數結構。不過,如今的研究中很多時候取對數成為一種經驗上的先驗規律,甚至有的時候來自於文獻的以訛傳訛和過度引用,這又是另外的話了。

不過神奇在於,由於有我們一開始定義的經濟含義(並且有「彈性」這樣的好聽名字),取對數就儼然成了一種正規化,並且由於兼具了資料scaling的功能,結果一般不會很難看(指星星少)。

4樓:海松那點事

把資料變換到了新的空間裡,這個新的空間裡,資料的線性特徵更明確了。

而數學規律不會因為空間變換而失效,所以仍然可以用回歸的方法進行處理。傅利葉變換,訊號處理都是這個道理。實際上就是一種簡單的訊號處理。

5樓:靜學社-學無止境

要研究A和B的關係,可以先研究 lnA和B的關係,因為令 z=lnA,那麼 z和B的關係搞明白了,只要取 A=e^z,則 A和B的關係也出來了。所以如果你要研究A和B的關係,那麼研究 「A的變換」和「B的變換」之間的關係也是可以的。

統計學中你要使用某個方法,就要滿足這個方法的條件,如果你所研究的變數不滿足條件,但是變數進行變換後就滿足條件了,那麼就可以進行變換。通常 「對數變換」 使用的最頻繁,因為對數變換後你會神奇的發現條件就滿足了。

比如乙個右偏非負的資料(最常見的就是工資,財富),不滿足正態,但是取對數後就符合正態了。

取對數還有其他的好處,其中乙個就是能把大的數變小。變小的同時資料的方差也變小。比如動物的體重和身高。

有老鼠,有大象,有恐龍。資料出來後你會發現恐龍,大象的資料非常大,另外方差也特別大。大象,恐龍的資料看起來就像是異常值,但是它們不是異常值,這種資料分析起來非常不好處理,怎麼辦?

身高體重都取對數,變換後你會發現豁然開朗!

總的來說,取對數就是為了把不滿足的條件變成滿足或者讓我們分析的結果變得更好一點。

6樓:李曉煦

對數把乘除變成加減,。舉乙個心理統計常見的例項:

生活滿意度 = +(收入) +

其中,自然對數log(收入) 每 0.1 個座標格的意思近似乙個漲停板(增長10.52%)。

log(收入)畫橫軸、生活滿意度畫縱軸,選不同的收入計量單位(比如元或萬元)影響橫座標的平移但不影響尺度,正如選不同的生活滿意度的量表點數單位影響縱座標的尺度。

與其說這是統計學的技術性問題,不如說是變數內涵自身的問題:從年入5萬到年入10萬的生活滿意度落差,與年入10萬到年入20萬的生活滿意度落差可比,也與年入100萬到年入200萬的生活滿意度落差可比。而年入100萬到年入105萬的生活滿意度落差與之相比則微不足道。

但是在年入5萬元人民幣以下的世界,生活的主題是物質匱乏而不是滿意,市場對匱乏的舒緩更接近線性而非指數,從年入1萬到2萬能舒緩的物質匱乏與年入2萬到3萬能舒緩的物質匱乏是一樣的。這時候收入就不要取對數。如果對生活滿意度不熟悉,可以把等式左邊的變數換為人均居住面積。

比較大的數量在不同數量級,等量的絕對增量不可比,增長的百分比可比,適合研究其對數。反過來,極小的數量比如死於某病的概率,常常也只能比較改變的倍數,不適合比較改變的絕對量。醫學統計、風險計量的各種小數量級概率都屬於這種情況。

Logistic回歸的因變數表面上是0/1(生/死)取值,其實數學模型等式左邊是 log(死的概率/生的概率),在死的概率數量級很小的時候,分母(生的概率)約等於1。比如——

log(死的概率)≈log(死的概率/生的概率)=α - 0.1 * (10*每天運動分鐘數)

研究結果可以解讀為:每天多運動10分鐘,死於某病的概率的對數可以下降0.1個刻度,死於某病的概率是個很小數量級的數,相對於自身可以降低10%(精確數值為 =9.52%)。

7樓:ApacheCN

你可以認為對數均值平均位數而不是數值本身。用於去長尾/去冪律/消除極端情況。

比如一百個你的收入和馬雲收入的均值,差不多等於馬雲的收入

但是換成對數均值,就差不多相當於你的收入。

8樓:

太水看不懂高讚:D,我貼乙個高中生水平的理解。

截圖來自,《人教版高中數學選修2-3》。

我的理解:

對資料做一些變換的目的是它能夠讓它符合我們所做的假設,使我們能夠在已有理論上對其分析。(從高讚答案抄過來的)

高中我們就只學了線性回歸(linear regression),而且是一元線性回歸(只有乙個自變數 ),估計引數的方法也只學了最小平方法(最小二乘法,least square),而且也只是學了針對一元線性回歸的最小二乘法。

也就是說高中學的那兩個算 的公式只能對樣本資料看起來像 這樣的線性關係使用,那麼對樣本資料看起來很像指數型函式,即形如 的怎麼辦?不能用已知的公式算,於是對指數模型兩邊都取對數,

令 ,右邊 ,因此有

,這裡, 與 就是一元線性關係,因此你只要把所有樣本的 都取 ,那麼就可以用已有的結論進行一元線性回歸分析,如果結果比較「線性」,那麼說明變換前也比較「指數」。

如果樣本呈對數函式型的話,可以用 ,令 , ,對自變數去對數然後應用一元線性最小二乘法算

如果樣本呈冪函式型的話,可以用 ,兩邊取對數, ,對自變數 和 都取對數,再應用一元線性最小二乘法計算

但我其實不太明白為什麼指數型和冪函式型都不再加乙個常數項,有人能回答我麼?

9樓:

上面很多同學說了,取對數,乘法變加法

這是最重要的意義,但你可能感受不到它的威力

我從影象處理的實際應用角度說一下。

做過影象處理的同學知道,有很多顏色空間可以表示顏色,比如,RGB、HSV、Lab等,不同顏色空間特性不同,不同應用所用空間也不同。

Image retrieval(影象檢索)中,如何表示一幅影象的顏色資訊是個重要問題,RGB空間比較適合「產生」顏色,但是不適合「描述」顏色(具體顏色空間的優缺點和選取問題可看這裡Color space - Wikipedia)有人提出如下的對立顏色空間來描述;

這只是對RGB進行簡單的線性變換,把亮度資訊提取出來了,而且可以很好的利用訊號值(總之對顏色檢索來講很好用就是)

接著,我們對進行乙個log變換,為什麼?接著往下看就知道了。

在做影象檢索的時候,這些影象值很容易就會受到光照顏色的影響,進而影響顏色的特徵提取(直方圖),會造成很大困擾。

解決這個問題也很簡單,通過乙個對角矩陣變換即可將乙個光源下影象顏色轉換到另外乙個光源下(色適應)。從而保證了影象在不同光照下也能夠「歸一化」到同乙個光源下。相當於找到了乙個對影象光照顏色魯棒的描述子,如下即為色適應轉換:

都是標量。現在,我們就可以看看log的好處了——————

源影象的RGB轉換到0光源下。這樣,就順利解決了光照顏色對影象顏色影響的重要問題!

最後,我們總結一下:

我們想要對彩色影象進行檢索,而不同光照下彩色影象的特徵會改變,那麼不同光源下的顏色檢索變得很困難。為了解決這個問題,我們設計了一種新的對立顏色空間,只是對原來的RGB空間進行了簡單線性改變,之後,取log,便於之後的色適應能夠對光照顏色魯棒。

就是這麼乙個小小的轉換,給彩色影象的檢索帶來質的飛躍。

而這一切。log把相乘變相加的本領居功至偉。

10樓:Mellisacat

很簡單, positive distribution 的rescale呀。 因為自然界指數分布的東東太多,所以log一下就比較容易套正態, 大數的那些理論了。 :)

11樓:王曉瑞

補充乙個,在時間序列中,如果隨時間的變化波動越來越大,則該序列的變化可能和時間t是乘法關係,則用對數變換可以把序列本身的變化和時間t引起的變化分開即

12樓:

首先,若對應的變換滿足規範正交性,則相應的沒有任何資料訊號損失,如傅利葉變換、小波變換等,此時原資料的統計特性一定是一致的;

不然,簡化對原始資料的建模,轉為用原始資料對應變換後的資料進行建模,這種變換是在原始資料先驗資訊下為滿足已有建模條件進行的約簡,也能得到某些統計特性的估計值:就像很多經濟現象,其先驗資訊是經濟資料的偏態分布,而對數變換從經濟資料生成過程出發,是對原資料為滿足回歸模型條件進行的約簡,得到的回歸係數是一種近似估計,用經濟學的話來說,就是「彈性係數」;或者,將原資料一階差分變換為增長率資料,此時稱是能保持原資料變數的經濟意義,而二階以上的差分則一般稱為沒有經濟意義,這便是其對應的先驗資訊,一階差分變換後的增長率資料,則同樣是對原資料為滿足可能平穩性的約簡,

需要注意的是,當資料變數屬於非平穩過程時,要從其統計關係推斷它們間是否存在因果關係回歸模型是相當困難、也是沒法保證的。

事實上,對於序列而言,對數變換或者差分變換,其方差或平穩性等統計特性可能將會改變,這相當於對原序列約簡處理過程,好處是可以方便的使用更多已知的模型來建模。

更多地,對於常見不平穩的多變數時間序列,通過檢驗其是否存在同階單整,然後可以在同階單整的情況下做協整分析,如果存在協整性,就相當於在非平穩過程中(原時間序列)設計出平穩的過程;重要地,這種情況是對原有資料的建模,而不是原有資料約簡後的建模,其真實性和可靠性是不同水平的!

泛函分析在統計學中有什麼應用?

羈鳥戀舊林 1.RKHS reproducing kernel Hilbert space 2.subspace embedding sketching random projection 3.Functional data analysisTo be continued 無窮維統計模型的數學基礎 ...

z value在統計學中的作用是什麼?可以用來衡量什麼值?

大飛俠 通俗解釋z value,即 z score 是對某一原始分值進行轉換,變成的乙個標準分值,該標準分值可使得原來無法比較的數值變得可比。乙個簡單的例子,中中國人小王身高 1.75 m,美中國人 James 身高 1.85 m,日本人大郎身高1.75 m,排除國籍導致的差異,請問小王 James...

在統計學裡,假設檢驗中的power 和size分別有什麼什麼含義?

刻舟求劍Keh 菜雞寫給自己看,基礎概念理一理思路。首先在假設檢驗中,我們一般認為H1是我們更感興趣的情況,比如,我們一般會將 無異常定為H0,將有異常定為H1。將某個因素無影響定為H0,有影響定為H1。將我們預期的情況定為H0,將其他未知的情況定為H1。Power是1 P no reject H0...