為什麼極大似然估計求導為 0 就是要求的值呢?

時間 2021-06-02 13:46:24

1樓:常辰飛

模型概率分布與真實概率分布之間的差異程度用KL散度度量,你要最小化KL散度,就是間接最小化模型概率分布的相關引數也就是求模型的導數為0。

2樓:

最大似然問題就是把求引數估值的問題,轉化為似然函式最大化問題。

似然函式最大化問題,實際上就是求函式在定義域內最大值的問題。求導是求最值的工具之一。求MLE的本質並不是求導,而是求最值。

也有不能用求導來做的題目。

3樓:

其實很簡單,就是函式形式複雜求二階導挺煩的,很多老師和書上就乾脆不求了。

經濟學裡有的數學模型不求二階導也是這個原因。

當然這樣不嚴謹,不過恰好最終結論是正確的

4樓:

不一定…你題目能那麼做是因為分布都比較好…舉個反例的話,我最近在做的模型,假定的error服從asymmetric Laplace distribution…它長這樣子…

然後求導方法就沒啥子用了…

函式形式是線性的時候還能用linear programming去解… 非線性的現在是我正在做的,卡殼中…

5樓:panjandrum

題目做少了唄。我見過似然函式是單調函式的,也見過有多個最大值的,做題目要多,但是也要會用。找幾個模型做一下,體會下怎麼用就可以了。

6樓:HarryYang

這裡有乙個極大似然函式的收斂性問題。Fisher證明了極大似然估計的一致性,也就是n趨近於∞的時候這個估計值依概率收斂到真值。

也就是說,到n很大的時候,極大似然值落到了真值附近的乙個小鄰域內,這個鄰域內真值是區域性最大值。

當然另乙個問題是,數值演算法能不能找到這個估計值,會不會收斂到其他的區域性最小值。目前我知道的,當極大似然函式非凹,沒有很好的解決方法,大多數人是用MM演算法去找。

7樓:偽娘重口味

似然函式的意義就是把所有觀測樣本的概率密度函式值相乘,只要不斷調整引數值使得似然函式最大,那麼此時引數的值便是最優解。

理論上,通常各種分布的概率密度函式的形狀特徵(例如正態分佈、gamma分布、珀松分布等連續型分布都只有乙個頂點,多項式分布、狄利克雷分布等離散型分布也必然會存在某一最高點,均勻分布一般不會單獨去構成似然函式)都會使得似然函式只存在乙個頂點,所以只要求一階導數就行了。

然而現實中,幾乎所有資料都不是完全服從以上提及的概率分布,例如混合高斯(混合正態分佈就可能存在兩個頂點,不過我們一般利用計算機去取樣嘗試個個點的似然函式值,直到找到最大那乙個點),一般不太會採用求導數的方法來尋找最優解。

8樓:刻舟求劍Keh

那是因為求MLE裡面只有求導是能用來考試的,不然讓你手算最優化麼。

驗證是不是極大值那是求二階導的事情,這個東西應該是要算分的。

9樓:Jacob

其實不僅僅是求極大似然估計,許多其他最值問題都是這樣,尤其當你看的不是數學書而是其他科目的書,比如經濟學時……微積分教材上寫,在實際問題中,若函式僅有乙個駐點,該點「往往」就是最大值或最小值點,再結合問題的實際意義,索性就不管二階條件了……畢竟二階條件還是挺麻煩的。

簡單說就是偷懶不嚴謹,有出錯的概率。

10樓:shana

就是解答不完全。

出個簡單的題目,你就知道了。

Q:如果隨機變數Xi符合引數為的均勻分布,那麼 的極大似然估計是多少?

A:max(X_1,X_2...X_n))" eeimg="1"/>其中1()是示性函式,函式內條件為真等於1,否則為0.

不用取對數了,你求導看看,這個函式是小於0的。

很自然的,這裡theta肯定是在取值範圍內越小,L越大,也就是說你碰到的題目恰好都是指數分布族,樓上lixin liu這方面已經講的很好了,我就不廢話了。

如果你學一些優化理論,你就發現有邊界條件的Likelihood都是有lambda什麼的。這些在微觀經濟學裡面分析還是很常見的,幾乎沒什麼是likelihood取0的時候。所以本問題本質上是個先問是不是再問為什麼的問題……

11樓:Chilton Nieh

按道理的確要驗證,但一般情況下,這種題目估計的引數絕大部分都是均值,方差,或者這兩者的組合,並且總體90%都是服從正態分佈,9%是指數分布,其餘1%可能是均勻分布,這種情況下99%其極大似然函式是凸函式,當然有1%遇到均勻分布等,這時你都不能求導。

12樓:「已登出」

你說的是數學上的問題,的確梯度為零時不一定是極值點或極大值點。但是實際問題中,往往是(先知道)確實是存在乙個最大值的,那麼出現乙個梯度為零的點,那就是要求的。

涉及到做題的情況,其實被摺疊的兄弟說的有道理,高中考察的是對於導數為零的點的分類情況,因此要求寫明,大學考察的是清不清楚極大似然估計「極大」的意義,能有思路把極大值點求對就行了。

13樓:Sakura

一般你說的這種應該是只有乙個極值點吧,譬如說用極大似然估計估計線性回歸的回歸係數和方差的時候,就是對對數求導然後得到極值點就確定是最大值點了,因為最值點肯定就出現在極值點上,當出現幾個極值點時肯定要驗證哪個極值點是最大或最小,只有乙個極值點的時候肯定就是最值點了啊,所以不用驗證了。

14樓:

說來有點慚愧,我竟從來沒想過這個問題,感覺微積分學的很不紮實。不過思考了一下,確實絕大部分情況下,這個最大值是不需要驗證、自然就可以成立的。我們常用的分布基本都屬於指數分布族,而指數分布族的性質就可以保證似然函式是個凹函式,因此極大值自然就是最大值了。

我就從頭講一下吧,懂得就跳讀。

1。指數分布族

指數分布族是一類概率分布的總稱,這類分布的密度函式可以寫成這樣的形式:

這裡 是密度函式的自變數,也是隨機變數 的取值,

叫做充分統計量,是 的向量值函式,也就是個隨機向量, 是 的取值,

是乙個引數向量,維度和充分統計量相同,

是乙個只和 有關的函式,一般叫 base measure ,不知道怎麼翻譯,

叫做 log partition function ,統計物理裡面好像翻譯叫配分函式,機器學習領域我好像還沒見過中文怎麼翻譯。本質上就是個歸一化常量(常量是相對於 來說的),以保證整個密度函式對 積分為 1 。

給定 、 和 ,這個分布其實就是確定的了。因為我們只要算出 ,就一定有 ,那麼 就是乙個概率密度函式。

這裡舉個例子,我們最常用的正態分佈就屬於指數分布族,因為

因此,令 , , , ,就可以把正態分佈的密度化為指數分布族的形式。

我們常用的分布,比如伯努利分布、二項分布、指數分布、泊松分布、高斯分布、beta分布、gamma分布、Diricilet分布,都是指數分布族,參考資料[1]裡面有個表,列了很多分布。

2。 的凸性

指數分布族和這個問題最相關的部分還是這個 log partition function :這個 是個凸函式。

證明也不是很複雜,我這裡找了兩個參考資料 [2] [3] 。 [2] 直接通過 的定義,利用 Holder 不等式證明的凸性。[3] 則證明了 的海森矩陣等於充分統計量的協方差陣,協方差陣半正定,從而證明 是凸函式。

順帶一提,[3]也證明了 的梯度等於充分統計量的期望,這也是 有趣的兩條性質。

3。最大似然問題

乙個最大似然問題是這樣定義的:給定資料集 ,乙個待擬合的分布族 ,求 使得似然 最大。

而如果這裡 屬於指數分布族的話,我們就有 ,這裡 是個常數, 是個關於 的凸函式, 就是凹函式, 是個關於 的線性函式,三者求和還是個凹函式。

所以如果導數等於零有解的話,一定只有乙個,而且就是最大值。

4。一般情況下驗證最大值是否是必要的?

是必要的,考慮如下例子:

待擬合的概率密度族 ,這裡 表示正態分佈的密度函式, 是正比於符號,寫正比於符號就不需要算歸一化常數了。

資料集 為單點集,那麼似然函式導數為零的點有五個,極大值三個,分別為 和 ,極小值兩個,大概在 附近,但最大似然在 取得。

更一般的,給定定義在實數集上的積分有界且可導函式 ,這裡 可以包含極大值、極小值、駐點,各種各樣導數為零但是不是最大值的情況。

考慮平移族 ,資料集為單點集 ,那麼似然函式 ,求導並令導數為0,可以解出所有 的 值,但這裡面最大值只有乙個,因此是需要逐一驗證的。

15樓:王贇 Maigo

解答不嚴格唄。

當然,在有些情況下,是知道至多僅有乙個極大值的,比如在函式為凹函式的時候。如果要嚴格,就還需要證明函式為凹。

但如果你的書是講最大似然估計的應用,而不是講求最大值的方法本身,那就常常省略驗證的步驟。

矩估計與極大似然估計之間的關係?

mas船長 矩估計 MM 和最大似然估計 MLE 都是具有代表性的引數估計方法,而引數估計和抽樣分布,以及假設檢驗又被並成為推斷統計的三大核心部分。既然是推斷統計,就是想通過區域性去推斷全貌,通過樣本去推斷總體。比如說,我們知道一元正態分佈的概率密度函式為 當然概率密度函式 簡稱pdf 是針對總體而...

極大似然估計一定是相合估計嗎?

balabalala MLE的良好性質是依賴一系列正則條件的。這裡再舉出乙個有趣的反例,來自文章 Basu,D.1955 An inconsistency of the method of maximum likelihood.Annals of Mathematical Statistics,26...

對於高斯分布,怎麼直觀理解極大似然估計得到的方差是有偏的?

羅楊 終於再次拿起了PRML的書,開始重頭看一次。其實在課程上學的時候就想當然的認為應該是的,反正公式都在那了。今天再讀問了下自己 why?2 其次,很好理解的是 結合PRML書上P28頁的那個圖1.15,我們每一次採集N個點作為資料的擬合點求其最大似然估計 重複M次。可以想象 我們在這M次上得到方...