PAC Learning是在講什麼？

1樓：小小何先生

當在設計乙個演算法的時候：

怎麼樣才能學習地更有效率？

什麼樣的問題天生很難學？

需要多少樣本才能學好？

所學出來的model泛化能力好嗎？

PAC Learning就是建立了乙個分析上述問題的框架。

採用Hoeffding inequality來得到generalization error

和empirical error

之間的關係。

Corollary(推論)：固定0" eeimg="1"/>，對於任意hypothesis

，有以下inequalities：

union在一起，得到：

Theorem(learning bound - finite

, inconsistent case)：是乙個finite hypothesis 集合。對於任意0" eeimg="1"/>，有概率至少以下式子成立：

Proof：是中的elements。採用corollary將其union在一起得到：

\epsilon\right] \\ &=\mathbb\left[\left(\left|\widehat_\left(h_\right)-R\left(h_\right)\right|>\epsilon\right) \vee \ldots \vee\left(\left|\widehat_\left(h_|}\right)-R\left(h_|}\right)\right|>\epsilon\right)\right] \\ & \leq \sum_} \mathbb\left[\left|\widehat_(h)-R(h)\right|>\epsilon\right] \\ & \leq 2|\mathcal| \exp \left(-2 m \epsilon^\right) \end\\" eeimg="1"/>

令右邊等於得證。從這裡就可以得到hypothesis的大小，樣本大小和誤差之間的關係。

上述證明來自：https://

cs.nyu.edu/~mohri/mlbook/

2樓：皓波

PAC Learning不是乙個模型，而是對各類演算法模型可學習性的乙個證明。

PAC Learnable說明，只要樣本量大於某個值，那麼就能保證執行ERM learner以後，這個機器學習模型在不小於的概率下，其經驗風險和真實風險的差值會小於某個閾值。（當然我們的ERM learner要保證能夠找到樣本集合上的最小經驗風險）

也就是說，乙個PAC可學習的演算法，只要樣本量夠多，我們可以保證真實風險非常低！

只要「風險」的定義是可信的（比如二分類裡的0-1誤差、回歸的平方誤差、Surrogate Loss），那麼我們的演算法可以保證資料量足夠的情況下就work。

我個人認為在煉丹時代，學習一下計算學習理論能夠幫助我們建立對AI的信心，也可以應用到文章裡增強自己的理論貢獻。

不過如果題主做的是深度學習，或者並不準備深入理論的話，簡單了解一下就好。

PAC Learning是在講什麼？

如何看待看奇葩說一直在彈幕刷「不知道在講什麼」的人

在集體行為中，到底什麼是「講政治」？

Nicki Minaj在整個嘻哈文化裡是什麼地位？

其他用戶還看了：