在統計學中,最大概似估計(英語:maximum likelihood estimation,簡作MLE),也稱極大概似估計,是用來估計一個概率模型的參數的一種方法。
下方的討論要求讀者熟悉概率論中的基本定義,如概率分佈、概率密度函數、隨機變量、數學期望值等。讀者還須先熟悉連續實函數的基本性質,比如使用微分來求一個函數的極值(即極大值或極小值)。
同時,讀者須先擁有概似函數的背景知識,以了解最大概似估計的出發點及應用目的。
給定一個概率分佈
,已知其概率密度函數(連續分佈)或概率質量函數(離散分佈)為
,以及一個分佈參數
,我們可以從這個分佈中抽出一個具有
個值的採樣
,利用
計算出其概似函數:
![{\displaystyle {\mbox{L}}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a9702eeec5a8eb416883af66665ac11bd8151f0f)
若
是離散分佈,
即是在參數為
時觀測到這一採樣的概率;若其是連續分佈,
則為
聯合分佈的概率密度函數在觀測值處的取值。一旦我們獲得
,我們就能求得一個關於
的估計。最大概似估計會尋找關於
的最可能的值(即,在所有可能的
取值中,尋找一個值使這個採樣的「可能性」最大化)。從數學上來說,我們可以在
的所有可能取值中尋找一個值使得概似函數取到最大值。這個使可能性最大的
值即稱為
的最大概似估計。由定義,最大概似估計是樣本的函數。
- 這裏的概似函數是指
不變時,關於
的一個函數。
- 最大概似估計不一定存在,也不一定唯一。
最大概似估計可以從相對熵推導而來。相對熵衡量了使用一個給定分佈
來近似另一個分佈
時的資訊損失,對於離散型隨機變量,可以用以下公式:
其中,
是真實分佈,
是近似分佈。在最大概似估計的情景下,假設分佈擁有一系列參數
,我們希望通過樣本得到參數的估計值
。我們可以利用相對熵來評判估計的好壞:
根據期望值的定義,我們可以將上式改寫為:
KL值越大,參數估計越壞,因此,需要通過改變估計參數
的值來獲得最小的值,所對應的參數極為最佳估計參數。即:
假設有
個樣本,根據大數定理,可以進行替換:
即,可以通過下式評估:
對於一個已知的分佈,其參數
是確定的。因此,
為常數。因此,我們可以通過最小化KL值獲得最佳估計參數:
因此,要得到最佳參數估計值,只需要最大化
,這就是最大概似函數。對於連續型隨機變量,有相同的結論。
考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次(即,我們獲取一個採樣
並把正面的次數記下來,正面記為H,反面記為T)。並把拋出一個正面的概率記為
,拋出一個反面的概率記為
(因此,這裏的
即相當於上方的
)。假設我們拋出了49個正面,31個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裏頭取出的。這三個硬幣拋出正面的概率分別為
,
,
,這些硬幣沒有標記,所以我們無法知道哪個是哪個。使用最大概似估計,基於二項分佈中的概率質量函數公式,通過這些試驗數據(即採樣數據),我們可以計算出哪個硬幣的可能性最大。這個概似函數取以下三個值中的一個:
![{\displaystyle {\begin{matrix}\mathbb {L} (p=1/3\mid {\mbox{H=49, T=31 }})&=&\mathbb {P} ({\mbox{H=49, T=31 }}\mid p=1/3)&=&{80 \choose 49}(1/3)^{49}(1-1/3)^{31}\approx 0.000\\&&\\\mathbb {L} (p=1/2\mid {\mbox{H=49, T=31 }})&=&\mathbb {P} ({\mbox{H=49, T=31 }}\mid p=1/2)&=&{80 \choose 49}(1/2)^{49}(1-1/2)^{31}\approx 0.012\\&&\\\mathbb {L} (p=2/3\mid {\mbox{H=49, T=31 }})&=&\mathbb {P} ({\mbox{H=49, T=31 }}\mid p=2/3)&=&{80 \choose 49}(2/3)^{49}(1-2/3)^{31}\approx 0.054\\\end{matrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/345e94cfdbd3816d8f4ef2097fd5074c23e037be)
我們可以看到當
時,概似函數取得最大值。
顯然地,這硬幣的公平性和那種拋出後正面的概率是2/3的硬幣是最接近的。這就是
的最大概似估計。
現在假設例子1中的盒子中有無數個硬幣,對於
中的任何一個
, 都有一個拋出正面概率為
的硬幣對應,我們來求其概似函數的最大值:
![{\displaystyle {\begin{matrix}{\mbox{L}}(\theta )&=&f_{D}({\mbox{H=49,T=80-49}}\mid p)={80 \choose 49}p^{49}(1-p)^{31}\\\end{matrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7df28add705ee1601e4f842ff0b386a1595daf98)
其中
.
我們可以使用微分法來求極值。方程兩邊同時對
取微分,並使其為零。
![{\displaystyle {\begin{matrix}0&=&{80 \choose 49}{\frac {d}{dp}}\left(p^{49}(1-p)^{31}\right)\\&&\\&\propto &49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\&&\\&=&p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\\end{matrix}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/81b7fb6e9919cb1dfb002ae1a4dab53b9e79d38a)
在不同比例參數值下一個二項式過程的可能性曲線t = 3, n = 10;其最大概似估計值發生在其眾數並在曲線的最大值處。
其解為
,
,以及
.使可能性最大的解顯然是
(因為
和
這兩個解會使可能性為零)。因此我們說最大概似估計值為
.
這個結果很容易一般化。只需要用一個字母
代替49用以表達伯努利試驗中的被觀察數據(即樣本)的「成功」次數,用另一個字母
代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大概似估計值:
![{\displaystyle {\widehat {p}}={\frac {t}{n}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/786cb8761187bd83cf0495bb796a6627d6b7b9d9)
對於任何成功次數為
,試驗總數為
的伯努利試驗。
最常見的連續概率分佈是正態分佈,其概率密度函數如下:
![{\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4abaca87a10ecfa77b5a205056523706fe6c9c3f)
現在有
個正態隨機變量的採樣點,要求的是一個這樣的正態分佈,這些採樣點分佈到這個正態分佈可能性最大(也就是概率密度積最大,每個點更靠近中心點),其
個正態隨機變量的採樣的對應密度函數(假設其獨立並服從同一分佈)為:
![{\displaystyle f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}e^{-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5c2a1c4199b49d10eaf38634a45f85fb29841060)
也可以寫為:
,
這個分佈有兩個參數:
.有人可能會擔心兩個參數與上方的討論的例子不同,上方的例子都只是在一個參數上對可能性進行最大化。實際上,在兩個參數上的求最大值的方法也差不多:只需要分別把可能性
在兩個參數上最大化即可。當然這比一個參數麻煩一些,但是一點也不複雜。使用上方例子同樣的符號,我們有
.
最大化一個概似函數同最大化它的自然對數是等價的。因為自然對數log是一個連續且在概似函數的值域內嚴格遞增的上凹函數。[注意:可能性函數(概似函數)的自然對數跟資訊熵以及費雪訊息聯繫緊密。]求對數通常能夠一定程度上簡化運算,比如在這個例子中可以看到:
![{\displaystyle {\begin{aligned}0&={\cfrac {\partial }{\partial \mu }}\log \left(\left({\cfrac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}e^{-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}}\right)\\&={\cfrac {\partial }{\partial \mu }}\left(\log \left({\cfrac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}-{\cfrac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=0-{\cfrac {-2n({\bar {x}}-\mu )}{2\sigma ^{2}}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/842608d76f670eb3c7637aa5a5719617f2028abe)
這個方程的解是
.這的確是這個函數的最大值,因為它是
裏頭惟一的一階導數等於零的點並且二階導數嚴格小於零。
同理,我們對
求導,並使其為零。
![{\displaystyle {\begin{aligned}0&={\cfrac {\partial }{\partial \sigma }}\log \left(\left({\cfrac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}e^{-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}}\right)\\&={\cfrac {\partial }{\partial \sigma }}\left({\cfrac {n}{2}}\log \left({\cfrac {1}{2\pi \sigma ^{2}}}\right)-{\cfrac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=-{\cfrac {n}{\sigma }}+{\cfrac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{\sigma ^{3}}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f8f4fddadc2c68507dac81806ec5a4ff701d25ae)
這個方程的解是
.
因此,其關於
的最大概似估計為:
.
泛函不變性(Functional invariance)
[編輯]
如果
是
的一個最大概似估計,那麼
的最大概似估計是
。函數g無需是一個對射。[1]
最大概似估計函數在採樣樣本總數趨於無窮的時候達到最小方差,其證明可見於克拉馬-羅下限。當最大概似估計非偏時,等價的,在極限的情況下我們可以稱其有最小的均方差。
對於獨立的觀察來說,最大概似估計函數經常趨於正態分佈。
最大概似估計的偏差是非常重要的。考慮這樣一個例子,標有
到
的
張票放在一個盒子中。從盒子中隨機抽取票。如果
是未知的話,那麼
的最大概似估計值就是抽出的票上標有的
,儘管其期望值的只有
.為了估計出最高的
值,我們能確定的只能是
值不小於抽出來的票上的值。
最大概似估計最早是由羅納德·費雪在1912年至1922年間推薦、分析並大範圍推廣的。[2](雖然以前高斯、拉普拉斯、托瓦爾·尼古拉·蒂勒和F. Y. 埃奇沃思也使用過)。[3] 許多作者都提供了最大概似估計發展的回顧。[4]
大部分的最大概似估計理論都在貝氏統計中第一次得到發展,並被後來的作者簡化。[2]
- 關於拉奧-布萊克韋爾定理(Rao-Blackwell theorem)的文章中討論到如何利用Rao-Blackwellisation過程尋找最佳無偏估計(即使均方差最小)的方法。而最大概似估計通常是一個好的起點。
- 讀者可能會對最大概似估計(如果存在)總是一個關於參數的充分統計量(sufficient statistic)的函數感興趣。
- 最大概似估計跟廣義矩估計(generalized method of moments)有關。
|
---|
相關領域 | |
---|
基本概念 | |
---|
推理方法 | |
---|
前沿課題 | |
---|
類群特徵 | |
---|
類群性質 | |
---|
其他術語 | |
---|
|