主成分分析法到底怎麼用的？過程模模糊糊的

1樓：磊爺

您感覺PCA不理解，看別人講義也感覺模糊，這是因為別人的講義裡有些東西是他們寫的時候沒有深入思考，又或者是講義裡對你的知識面有一些assumption。

如果你想看一套從頭到尾的數學推導的話，不妨看一下我這篇：

Principal Component Analysis

2樓：寶珠道人

首先介紹一下主成分分析（PCA）的主要思想：將n維特徵對映到k維上，對映後的k維特徵也即主成分。PCA降維的主要過程是：

（1）從原始空間中順序地找出一組相互正交的座標軸。其中，第乙個新座標軸選擇是原始資料中方差最大的方向，第二個新座標軸選取是與第乙個座標軸正交的平面中使得方差最大的，第三個軸是與第1,2個軸正交的平面中方差最大的。依次類推，可以得到n個這樣的座標軸。

（2）只保留前面k個含有絕大部分方差的座標軸。事實上，在獲取新的座標軸的過程中，我們會發現：大部分方差包含在前面k個座標軸中，後面的座標軸所含的方差幾乎為0。

因此，PCA相當於只保留包含絕大部分方差的維度特徵，而忽略包含方差幾乎為0的特徵維度，實現對資料特徵的降維處理。

那麼，我們如何找到這些包含最大差異性的主成分方向呢？

答案是可以通過計算資料矩陣的協方差矩陣，然後得到協方差矩陣的特徵值特徵向量，選擇特徵值最大(即方差最大)的k個特徵所對應的特徵向量組成的矩陣。這樣就可以將資料矩陣轉換到新的空間當中，實現資料特徵的降維。

得到協方差矩陣的特徵值和特徵向量有特徵值分解協方差矩陣和奇異值分解協方差矩陣這兩種方法。在這裡僅介紹基於特徵值分解協方差矩陣實現PCA演算法的過程，並舉例講解主成分分析法的使用過程。

基於特徵值分解協方差矩陣實現PCA演算法的過程如下：前提：輸入資料集，目標：降到k維。

（1）將資料去中心化，即每一位特徵減去各自的平均值。

（2）計算協方差矩陣。

（3）用特徵值分解方法求協方差矩陣的特徵值與特徵向量。

（4）對特徵值從大到小排序，選擇其中最大的k個。然後將其對應的k個特徵向量分別作為行向量組成特徵向量矩陣P。

（5）將資料轉換到k個特徵向量構建的新空間中，即Y=PX。

下面舉例說明主成分分析法的使用過程。

目標：將矩陣降到一行。

過程如下：

（1）因為X矩陣的每行已經是零均值，所以不需要去平均值。

（2）求協方差矩陣：

（3）求協方差矩陣的特徵值與特徵向量。

求解後的特徵值為：，

對應的特徵向量為：

其中對應的特徵向量分別是乙個通解，和可以取任意實數。那麼標準化後的特徵向量為：

（4）矩陣P為：

（5）最後我們用P的第一行乘以資料矩陣X，就得到了降維後的表示：