為什麼統計學習演算法中常討論KL距離

時間 2021-06-29 13:25:31

1樓:

傅鐵強:夏農熵是唯一解

(1)粗粒化減小差異。直觀地說,兩幅影象較相似,那麼透過模糊的鏡片看去會更相似。選取X的兩個不同取值xi,xj,將事件「X=xi」和「X=xj」合併為乙個取值m表示,得到的新變數X'稱為X的粗粒化,其上自然誘導出「新」分布P'和Q』滿足P'(X'=m)=P(X=xi)+P(X=xj),它們是P和Q的模糊版。

這時直觀要求可被表示為:恒有D(P';Q』)≤D(P;Q)。

可以證明:始終滿足該點的D(P;Q)一定是f-散度。

(2)貝葉斯是正確的。當我們不能確定分布是什麼的時候,自然會猜測偏離目標分布期望最小者。即:

選取P=argmin ∑W(Qn)D(P;Qn),式中Qn表示真實分布的第n個候選,W(Qn)表示Qn恰是真實分布的概率,∑對全體n值求和。然而,貝葉斯方法給我們另一種答案:把各個Qn看作是條件概率分布,則有P(x)=∑W(Qn)·Qn(x).

這兩種方法得的P(x)總一致嗎?

可以證明:總是一致時D(P;Q)一定是Bregman散度。

(1)和(2)顯然都是合理的要求。在這基礎上,可以證明:如果在概率分布上定義的D(P;Q)既是Bregman散度又是f-散度,則它一定是Kullback-Leibler散度

所以統計距離中唯有KL散度能不違背(1)和(2)。

IEEE Transactions on Information Theory 55(11):4925 - 4931

DOI: 10.1109/TIT.2009.2030485

2樓:張戎

統計距離的定義

在歐式空間,如果要衡量兩個 維空間中的點 和 之間的距離,通常可以使用 範數來進行描述,其數學公式是:

在統計學中,如果需要衡量兩個統計物件之間的「距離」,在離散的場景下除了可以使用歐式距離之外,還可以使用其他的統計距離來描述這兩個統計物件之間的距離。與之對應的,在連續的場景下,同樣可以定義出兩個統計物件之間的距離。

距離是定義在集合 的函式 並且滿足以下條件:

對於所有的 都成立;

對於所有的 都成立;

對於所有的 都成立。

而廣義的距離會缺少其中乙個或者多個條件,例如時間序列領域中的 DTW 距離就不滿足三角不等式。

在微積分中,凸函式(convex 函式) 指的是在其定義域內的任意兩個點 滿足 換言之,如果凸函式 存在二階連續導數,那麼 是增函式,

其次,在統計距離中,通常會基於乙個函式 來定義兩個概率分布之間的距離。該函式 是乙個凸函式(convex function),並且滿足 對於空間 中的兩個概率分布 和 而言,

定義了概率分布 和 的 散度(f-divergence),其中 分別對應了 的概率密度函式。不同的函式 對應了不同的散度,常見的散度包括但不限於:

KL - 散度(KL - Divergence):

Reverse KL -散度(Reverse KL - Divergence):

Hellinger 距離(Hellinger Distance):或者

變分距離(Total Variation Distance):

Pearson - 散度(Pearson - Divergence): 或者 或者

Reverse Pearson - 散度(Reverse Pearson - Divergence):或者

Jensen-Shannon-Divergence:

L1 - 範數(L1 - Norm):

在這樣的定義下, 是非負函式,i.e. 事實上,

在數學中有如下定理:如果 是凸函式,那麼 在定義域 0\}" eeimg="1"/>也是凸函式。

根據以上定理,可以得到:對於 有

除了 散度之外,直接使用 範數也可以定義兩個概率空間的距離,特別地,當 時,其距離公式是:

統計距離的函式分析

事實上,對於 KL 散度和 Reverse KL 散度而言,令

這就是函式 分別對應著 KL-散度和 Reverse KL-散度相應函式的原因。

類似地,對於函式 和 而言,可以直接證明得到:

對於 Jensen-Shannon Divergence(簡寫為 JSD)而言,

其中 i.e.

對於 Hellinger Distance 而言, 其實這兩個函式是等價的,因為

其中 被稱為 Bhattacharyya 係數(Bhattacharyya Coefficient),Bhattacharyya 距離則定義為

統計距離的上下界分析

對於以上函式而言,由於凸函式 因此當 時,

KL 散度是沒有上界的,但是 Jensen Shannon Divergence 是具有上界的。事實上,如果 則有

同樣地, 所以可以得到

根據 Hellinger 距離的公式,可以得到: 同時,Bhattacharyya 距離 是沒有上界的,因為 可以取值到零。

考慮 範數中 三種情況:

並且上界 2 是可以取到的。

證明以上不等式使用了性質

多重集合的定義與性質

在數學中,集合(set)中不能夠包含重複的元素,但乙個多重集合(multiset)中則可以包含重複的元素,並且計算了元素的重數。例如,

當 時, 可以看成集合,也可以看成重數為 1 的多重集合,可以記為 或者

在多重集合 中,的重數是 2, 的重數是 1,可以記為 或者

在多重集合 中,的重數都是 3。

對於乙個有限集合 而言,其多重集合可以記為 或者 其中 表示元素 的重數。多重集合的乙個典型例子就是質因數分解,例如:

假設多重集合 的元素都屬於集合

子集:如果對於所有的 有 則稱多重集合 是多重集合 的子集;

交集:如果 則稱多重集合 是多重集合 的交集,記為

並集:如果 則稱多重集合 是多重集合 的並集,記為

求和:如果 則稱多重集合 是多重集合 的和,記為

求差:如果 則稱多重集合 是多重集合 的差,記為

假設 那麼

多重集合的相似度和距離

由於已經定義了多重集合的交集和並集,因此集合相似度中的 Jaccard 相似度,Overlap 相似度都可以應用到多重集合中。

對於多重集合 而言,令 因此,多重集合 對應了乙個離散的概率分布 於是,可以使用以上的統計距離(Statistical Distance)來計算兩個多重集合之間的距離。

統計距離:https://

:包括了 KL 散度的其餘變形方式。

多重集合:multiset:https://en.wikipedia.org/wiki/M

3樓:乎必烈的乎

儘管有些性質不好(對稱性),但是因為還能算而且也能刻畫一些性質,所以大家都用了。有一種叫「推土機」距離的概念,符合距離的概念,但是不好算。

4樓:王大方

舉例子直觀理解KL:

Light on Math Machine Learning: Intuitive Guide to Understanding KL Divergence

Kullback-Leibler Divergence Explained

初學機器學習:直觀解讀KL散度的數學概念

5樓:覃含章

最早KL divergence就是從資訊理論裡引入的,不過既然題主問的是ML中的應用,就不多做具體介紹。只是簡單概述給定真實概率分布P和近似分布Q,KL divergence所表達的就是如果我們用一套最優的壓縮機制(compression scheme)來儲存Q的分布,對每個從P來的sample我需要多用的bits(相比我直接用一套最優的壓縮機制來儲存P的分布)。這也叫做 Kraft–McMillan theorem。

所以很自然的它可以被用作統計距離,因為它本身內在的概率意義。然而,也正因為這種意義,題主所說的不對稱性是不可避免的。因為D(P||Q)和D(Q||P)回答的是基於不同壓縮機制下的「距離」問題。

至於general的統計距離,當然,它們其實沒有本質差別。更廣泛的來看,KL divergence可以看成是phi-divergence的一種特殊情況(phi取log)。注意下面的定義是針對discrete probability distribution,但是把sum換成integral很自然可以定義連續版本的。

用其它的divergence理論來做上是沒有本質區別的,只要phi是convex, closed的。

因為它們都有相似的概率意義,比如說pinsker's theorem保證了KL-divergence是total variation metric的乙個tight bound. 其它divergence metric應該也有類似的bound,最多就是order和常數會差一些。而且,用這些divergence定義的minimization問題也都會是convex的,但是具體的computation performance可能會有差別,所以KL還是用的多。

Reference: Bayraksan G, Love DK. Data-Driven Stochastic Programming Using Phi-Divergences.

心理統計學與教育統計學有什麼區別嗎,學習實驗心理學之前必須先學心統嗎?

起個名可真難 核心內容上基本上沒什麼區別,都是介紹常用的描述統計量及其計算和常用的推斷統計方法。雖說實驗心理學的核心是實驗設計,但任何量化研究的資料分析都需要借助一定的統計分析方法,因此先學習統計再去學習實驗心理學有助於快速掌握不同實驗設計所得資料適用的統計分析方法。 又不是這樣 教育統計學和心理統...

學校為什麼要統計學生考研成績?

建議直接說沒過線!過線了調劑會追問x3!過線了一志願錄沒錄取會追問x3!你說沒過線 清靜的很!只針對某些學校考前很Ex,考後更ex 的情況 zhy 無非就是 1.輔導員業績 2.告訴下一屆找工作要緊 3.催你籤單位提高就業率我們也統計。真的就無語,我們考研期間還有課我也認可畢竟不是所有學校都會專門安...

在統計學中為什麼要對變數取對數?

Veena 可以去看下Box Cox Transformation的文獻,我個人的理解,對於偏度很大的資料,想把資料盡可能接近正態化,對數變換只是Box Cox Transformation公式lambda 0時候的情況,具體做哪種變換,需要根據最大似然估計求lambda的值,來決定用哪種去偏度的變...