為什麼統計學習演算法中常討論KL距離

1樓：

傅鐵強：夏農熵是唯一解

（1）粗粒化減小差異。直觀地說，兩幅影象較相似，那麼透過模糊的鏡片看去會更相似。選取X的兩個不同取值xi,xj，將事件「X=xi」和「X=xj」合併為乙個取值m表示，得到的新變數X'稱為X的粗粒化，其上自然誘導出「新」分布P'和Q』滿足P'（X'=m）=P(X=xi)+P（X=xj），它們是P和Q的模糊版。

這時直觀要求可被表示為：恒有D（P';Q』)≤D（P;Q）。

可以證明：始終滿足該點的D（P;Q）一定是f-散度。

（2）貝葉斯是正確的。當我們不能確定分布是什麼的時候，自然會猜測偏離目標分布期望最小者。即：

選取P=argmin ∑W(Qn)D（P;Qn），式中Qn表示真實分布的第n個候選，W(Qn)表示Qn恰是真實分布的概率，∑對全體n值求和。然而，貝葉斯方法給我們另一種答案：把各個Qn看作是條件概率分布，則有P（x）=∑W(Qn)·Qn（x）.

這兩種方法得的P（x）總一致嗎？

可以證明：總是一致時D（P;Q）一定是Bregman散度。

（1）和（2）顯然都是合理的要求。在這基礎上，可以證明：如果在概率分布上定義的D（P;Q）既是Bregman散度又是f-散度，則它一定是Kullback-Leibler散度。

所以統計距離中唯有KL散度能不違背（1）和（2）。

IEEE Transactions on Information Theory 55(11):4925 - 4931

DOI: 10.1109/TIT.2009.2030485

2樓：張戎

統計距離的定義

在歐式空間，如果要衡量兩個維空間中的點和之間的距離，通常可以使用範數來進行描述，其數學公式是：

在統計學中，如果需要衡量兩個統計物件之間的「距離」，在離散的場景下除了可以使用歐式距離之外，還可以使用其他的統計距離來描述這兩個統計物件之間的距離。與之對應的，在連續的場景下，同樣可以定義出兩個統計物件之間的距離。

距離是定義在集合的函式並且滿足以下條件：

對於所有的都成立；

對於所有的都成立。

而廣義的距離會缺少其中乙個或者多個條件，例如時間序列領域中的 DTW 距離就不滿足三角不等式。

在微積分中，凸函式（convex 函式）指的是在其定義域內的任意兩個點滿足換言之，如果凸函式存在二階連續導數，那麼是增函式，

其次，在統計距離中，通常會基於乙個函式來定義兩個概率分布之間的距離。該函式是乙個凸函式（convex function），並且滿足對於空間中的兩個概率分布和而言，

定義了概率分布和的散度（f-divergence），其中分別對應了的概率密度函式。不同的函式對應了不同的散度，常見的散度包括但不限於：

KL - 散度（KL - Divergence）：

Reverse KL -散度（Reverse KL - Divergence）：

Hellinger 距離（Hellinger Distance）：或者

變分距離（Total Variation Distance）：

Pearson - 散度（Pearson - Divergence）：或者或者

Reverse Pearson - 散度（Reverse Pearson - Divergence）：或者

Jensen-Shannon-Divergence：

L1 - 範數（L1 - Norm）：

在這樣的定義下，是非負函式，i.e. 事實上，

在數學中有如下定理：如果是凸函式，那麼在定義域 0\}" eeimg="1"/>也是凸函式。

根據以上定理，可以得到：對於有

除了散度之外，直接使用範數也可以定義兩個概率空間的距離，特別地，當時，其距離公式是：

統計距離的函式分析

事實上，對於 KL 散度和 Reverse KL 散度而言，令

這就是函式分別對應著 KL-散度和 Reverse KL-散度相應函式的原因。

類似地，對於函式和而言，可以直接證明得到：

對於 Jensen-Shannon Divergence（簡寫為 JSD）而言，

其中 i.e.

對於 Hellinger Distance 而言，其實這兩個函式是等價的，因為

其中被稱為 Bhattacharyya 係數（Bhattacharyya Coefficient），Bhattacharyya 距離則定義為

統計距離的上下界分析

對於以上函式而言，由於凸函式因此當時，

KL 散度是沒有上界的，但是 Jensen Shannon Divergence 是具有上界的。事實上，如果則有

同樣地，所以可以得到

根據 Hellinger 距離的公式，可以得到：同時，Bhattacharyya 距離是沒有上界的，因為可以取值到零。

考慮範數中三種情況：

並且上界 2 是可以取到的。

證明以上不等式使用了性質

多重集合的定義與性質

在數學中，集合（set）中不能夠包含重複的元素，但乙個多重集合（multiset）中則可以包含重複的元素，並且計算了元素的重數。例如，

當時，可以看成集合，也可以看成重數為 1 的多重集合，可以記為或者

在多重集合中，的重數是 2，的重數是 1，可以記為或者

在多重集合中，的重數都是 3。

對於乙個有限集合而言，其多重集合可以記為或者其中表示元素的重數。多重集合的乙個典型例子就是質因數分解，例如：

假設多重集合的元素都屬於集合

子集：如果對於所有的有則稱多重集合是多重集合的子集；

交集：如果則稱多重集合是多重集合的交集，記為

並集：如果則稱多重集合是多重集合的並集，記為

求和：如果則稱多重集合是多重集合的和，記為

求差：如果則稱多重集合是多重集合的差，記為

假設那麼

多重集合的相似度和距離

由於已經定義了多重集合的交集和並集，因此集合相似度中的 Jaccard 相似度，Overlap 相似度都可以應用到多重集合中。

對於多重集合而言，令因此，多重集合對應了乙個離散的概率分布於是，可以使用以上的統計距離（Statistical Distance）來計算兩個多重集合之間的距離。

統計距離：https://

：包括了 KL 散度的其餘變形方式。

多重集合：multiset：https://en.wikipedia.org/wiki/M

3樓：乎必烈的乎

儘管有些性質不好（對稱性），但是因為還能算而且也能刻畫一些性質，所以大家都用了。有一種叫「推土機」距離的概念，符合距離的概念，但是不好算。

4樓：王大方

舉例子直觀理解KL：

Light on Math Machine Learning: Intuitive Guide to Understanding KL Divergence

Kullback-Leibler Divergence Explained

初學機器學習：直觀解讀KL散度的數學概念

5樓：覃含章

最早KL divergence就是從資訊理論裡引入的，不過既然題主問的是ML中的應用，就不多做具體介紹。只是簡單概述給定真實概率分布P和近似分布Q，KL divergence所表達的就是如果我們用一套最優的壓縮機制(compression scheme)來儲存Q的分布，對每個從P來的sample我需要多用的bits（相比我直接用一套最優的壓縮機制來儲存P的分布）。這也叫做 Kraft–McMillan theorem。

所以很自然的它可以被用作統計距離，因為它本身內在的概率意義。然而，也正因為這種意義，題主所說的不對稱性是不可避免的。因為D(P||Q)和D(Q||P)回答的是基於不同壓縮機制下的「距離」問題。

至於general的統計距離，當然，它們其實沒有本質差別。更廣泛的來看，KL divergence可以看成是phi-divergence的一種特殊情況（phi取log）。注意下面的定義是針對discrete probability distribution,但是把sum換成integral很自然可以定義連續版本的。

用其它的divergence理論來做上是沒有本質區別的，只要phi是convex, closed的。

因為它們都有相似的概率意義，比如說pinsker's theorem保證了KL-divergence是total variation metric的乙個tight bound. 其它divergence metric應該也有類似的bound，最多就是order和常數會差一些。而且，用這些divergence定義的minimization問題也都會是convex的，但是具體的computation performance可能會有差別，所以KL還是用的多。

Reference: Bayraksan G, Love DK. Data-Driven Stochastic Programming Using Phi-Divergences.

為什麼統計學習演算法中常討論KL距離

心理統計學與教育統計學有什麼區別嗎，學習實驗心理學之前必須先學心統嗎？

學校為什麼要統計學生考研成績？

在統計學中為什麼要對變數取對數？

其他用戶還看了：