馬氏距離推導中，為什麼要加根號？

1樓：Iterator

是方差，是標準差，每個維度進行標準化，除以的是標準差，不是方差。至於為什麼，我下文會指出。

另，你發的這個文章有點描述錯誤，我下文也會指出。

設隨機變數具有數學期望,方差,記

注意，這個分母是標準差，不是方差，只有除以的是標準差，才能使得你說的，讓變化後的隨機變數的方差為1，證明過程如下：

簡單理解，你的問題中的一個隨機向量就是將多個一維的隨機變數組合在一起，現在考慮多維隨機向量，其中每乙個元素都是乙個一維的隨機變數。設隨機向量的期望，協方差矩陣

0)\\\\" eeimg="1"/>

文章中的乙個錯誤是，定義混亂，是矩陣，協方差公式裡面不應該出現。同時，樣本的協方差矩陣和總體的協方差矩陣並不是同乙個東西，文章所提及的是有偏估計的樣本協方差矩陣，即樣本協方差矩陣的期望與總體的協方差矩陣並不相等，直接將總體協方差矩陣等於有偏的樣本協方差矩陣並不是很嚴謹。有關總體協方差矩陣的無偏估計可見我的這個答案↓

如何證明樣本協方差矩陣是總體協方差矩陣的無偏估計？

樣本協方差矩陣的錯誤

在協方差矩陣是正定的情況下，才必定存在正交矩陣使得協方差矩陣可以對角化，且對角化後的特徵值全為正數。(因為對稱矩陣必定可以正交對角化[3]；矩陣正定的充要條件是所有特徵值大於0[4]；協方差矩陣是對稱的[5]）

即0\\\\ \tag" eeimg="1"/>

接下來，從總體中我們抽兩個樣本

我們對隨機向量作正交變換，就是左乘剛剛我們假設總體協方差矩陣正定的情況下得出的乙個正交矩陣 的轉置。（左乘轉置是為了湊出對角矩陣，下文會提到）

令那麼兩個樣本變換後的座標為

我們計算新的隨機向量的協方差矩陣[6]：

新的隨機向量的期望記為

我們發現，上述新的隨機向量的協方差矩陣正好就是式中的對角矩陣。而協方差矩陣的基本格式是什麼呢？對於隨機向量 :

因此，若協方差矩陣是對角陣，說明只有每個維度和自己的方差存在，而不同維度之間的協方差為0，故相關係數也為0，因此不同維度不相關。

所以，上述協方差矩陣就是我們之前找到的特徵值對角矩陣，每個特徵值 0)" eeimg="1"/>，即方差，即標準差的平方。

所以，文章中的另乙個錯誤是把看成了方差，但它其實是標準差。

特徵值對角矩陣應該是方差

正交變換的目的錯誤

同時，用正交變換另乙個目的是不改變兩個樣本點的歐式距離（向量相減後的模長），否則你歐式距離都變了，還算神馬。至於為什麼不改變，看我下面這個答案。

正交變換能夠改變向量的長度和夾角嗎?

因此，完成正交變換之後，我們完成了第乙個任務，消除新的隨機向量 不同維度之間的相關性，同時保持各個樣本點的歐式距離保持不變。

接下來，我們才考慮歐式距離的缺點，即不同維度，不同度量範圍（我覺的度量範圍一詞比度量單位要好理解）之間的變異性，即在算歐式距離

時不同度量範圍的維度，貢獻的的程度不一致的問題。考慮乙個最簡單的，比如在田徑比賽中，不同維度（單位都是秒）分別代表50公尺短跑的成績，100公尺短跑的成績，馬拉松一天的成績。顯然，馬拉松的成績的數字要比前兩者多的多的多，即使兩者馬拉松的成績很接近，比如只差一分鐘，但這一維度在貢獻平方項時，會造成兩人的歐式成績差大的離譜，顯然這是不合常理的。

因此，我們的目的就是使這個平方項的範圍統一，即單個隨機維度的方差=1，這樣，平均來看，不同人的不同專案的成績，距離均值的差的平方就都是1了。

故，我們分別對隨機向量的每乙個隨機變數進行標準化，即減去期望，並除以標準差。

到這一步可能有同學會疑問，剛剛正交化後的隨機向量不同維度之間的協方差等於0了，那你現在又對正交化後的每一維進行標準化，會不會使得標準化之後的不同維度之間又產生協方差呢？答案是不會產生，證明如下：

記我們對隨機向量中的每個維度分別進行標準化，並寫成矩陣的形式

我們計算標準化後的隨機向量的協方差矩陣：

這個結果很令人滿意，正好是單位矩陣。所以對於標準化後的隨機向量 ,不同維度的協方差仍然都為0，同維度的方差都為1，也就是說不同維度仍不相關。證明結束。

對於我們剛剛抽取的兩個樣本點，經過正交變換，經過標準化後，我們再計算他們的歐式距離的平方（即平方歐式距離，避免根號運算的麻煩）

將式代入式，得

由式，得(別忘了正交矩陣的逆矩陣就是它的轉置，且）

將式代入式，得

此時，我們的推導就結束了。上述式就是平方馬氏距離。

第一步：對隨機向量進行正交變換

第二步：對正交變換後的隨機向量中的每個分量進行標準化

第三步：計算正交變換後、標準化後的平方歐式距離

馬氏距離推導中，為什麼要加根號？

為什麼考研要考馬原？

為什麼馬雲馬化騰要救王健林？

在推導連續性原理和伯努利方程時為什麼要假定流管的橫截面積 S很小，所取的變化時間 t也很小？

其他用戶還看了：

馬氏距離推導中，為什麼 要加根號？

為什麼考研要考馬原？

為什麼馬雲馬化騰要救王健林？

在推導連續性原理和伯努利方程時為什麼要假定流管的橫截面積 S很小，所取的變化時間 t也很小？

其他用戶還看了：

馬氏距離推導中，為什麼要加根號？