主成分分析法到底怎麼用的?過程模模糊糊的

時間 2021-06-08 10:11:53

1樓:磊爺

您感覺PCA不理解,看別人講義也感覺模糊,這是因為別人的講義裡有些東西是他們寫的時候沒有深入思考,又或者是講義裡對你的知識面有一些assumption。

如果你想看一套從頭到尾的數學推導的話,不妨看一下我這篇:

Principal Component Analysis

2樓:寶珠道人

首先介紹一下主成分分析(PCA)的主要思想:將n維特徵對映到k維上,對映後的k維特徵也即主成分。PCA降維的主要過程是:

(1)從原始空間中順序地找出一組相互正交的座標軸。其中,第乙個新座標軸選擇是原始資料中方差最大的方向,第二個新座標軸選取是與第乙個座標軸正交的平面中使得方差最大的,第三個軸是與第1,2個軸正交的平面中方差最大的。依次類推,可以得到n個這樣的座標軸。

(2) 只保留前面k個含有絕大部分方差的座標軸。事實上,在獲取新的座標軸的過程中,我們會發現:大部分方差包含在前面k個座標軸中,後面的座標軸所含的方差幾乎為0。

因此,PCA相當於只保留包含絕大部分方差的維度特徵,而忽略包含方差幾乎為0的特徵維度,實現對資料特徵的降維處理。

那麼,我們如何找到這些包含最大差異性的主成分方向呢?

答案是可以通過計算資料矩陣的協方差矩陣,然後得到協方差矩陣的特徵值特徵向量,選擇特徵值最大(即方差最大)的k個特徵所對應的特徵向量組成的矩陣。這樣就可以將資料矩陣轉換到新的空間當中,實現資料特徵的降維。

得到協方差矩陣的特徵值和特徵向量有特徵值分解協方差矩陣和奇異值分解協方差矩陣這兩種方法。在這裡僅介紹基於特徵值分解協方差矩陣實現PCA演算法的過程, 並舉例講解主成分分析法的使用過程。

基於特徵值分解協方差矩陣實現PCA演算法的過程如下: 前提:輸入資料集,目標:降到k維。

(1)將資料去中心化,即每一位特徵減去各自的平均值。

(2) 計算協方差矩陣。

(3)用特徵值分解方法求協方差矩陣的特徵值與特徵向量。

(4) 對特徵值從大到小排序,選擇其中最大的k個。然後將其對應的k個特徵向量分別作為行向量組成特徵向量矩陣P。

(5)將資料轉換到k個特徵向量構建的新空間中,即Y=PX。

下面舉例說明主成分分析法的使用過程。

目標:將矩陣降到一行。

過程如下:

(1)因為X矩陣的每行已經是零均值,所以不需要去平均值。

(2)求協方差矩陣:

(3)求協方差矩陣的特徵值與特徵向量。

求解後的特徵值為:,

對應的特徵向量為:

其中對應的特徵向量分別是乙個通解,和可以取任意實數。那麼標準化後的特徵向量為:

(4)矩陣P為:

(5)最後我們用P的第一行乘以資料矩陣X,就得到了降維後的表示:

用層次分析法和成分分析法劃分下列句子。1 我們吃了一碗。2 我們吃了一次。怎麼劃分

蜃樓城少主 動詞後數量結構是賓語還是補語,學界並不統一,有兩種觀點 觀點一 以黃廖 胡裕樹 張斌等為代表,動詞後數量結構的語法成分有三種 1 名量,表示與動作行為相關的事物的數量,作賓語。一碗 是名量,吃了一碗 是述賓結構。2 動量,表示動作行為發生的次數,作補語。一次 是動量,吃了一次 是述補結構...

請問主成分分析,即PCA屬於哪個學科?

偉興 主成分分析是統計學裡常用手段,可以直接在統計學相關資料裡看到。其實你直接去看的話還是比較抽象的,最好是你有乙個具體的應用方向,然後用到了主成分分析,然後一邊結合你的具體研究,一邊學這樣就很容易理解,比如,影象處理方面經常用到主成分分析,然後你去思考影象處理為什麼用到主成分分析,它有什麼作用,結...

時間序列的資料如何進行主成分分析?

魚鰭的鰭 時間序列做成分分析的方法還是很多的,這個問題正好跟我博士選題撞了一部分。姑且列舉幾個選項作為參考吧,回頭有時間 有人想知道再來細說。Independent Component Analysis Hallin,M.Mehta,C.2015 R Estimation for Asymmetri...