在貝葉斯統計學 中,「最大後驗概率估計」是後驗概率 分佈的眾數 。利用最大後驗概率估計可以獲得對實驗數據中無法直接觀察到的量的點估計 。它與最大似然估計 中的經典方法有密切關係,但是它使用了一個增廣的最佳化目標 ,進一步考慮了被估計量的先驗概率 分佈。所以最大後驗概率估計可以看作是規則化 的最大似然估計。
假設我們需要根據觀察數據
x
{\displaystyle x}
估計沒有觀察到的總體參數
θ
{\displaystyle \theta }
,讓
f
{\displaystyle f}
作為
x
{\displaystyle x}
的採樣分佈 ,這樣
f
(
x
|
θ
)
{\displaystyle f(x|\theta )}
就是總體參數為
θ
{\displaystyle \theta }
時
x
{\displaystyle x}
的概率。函數
θ
↦
f
(
x
|
θ
)
{\displaystyle \theta \mapsto f(x|\theta )\!}
即為似然函數 ,其估計
θ
^
M
L
(
x
)
=
arg
max
θ
f
(
x
|
θ
)
{\displaystyle {\hat {\theta }}_{\mathrm {ML} }(x)=\arg \max _{\theta }f(x|\theta )\!}
就是
θ
{\displaystyle \theta }
的最大似然估計。
假設
θ
{\displaystyle \theta }
存在一個先驗分布
g
{\displaystyle g}
,這就允許我們將
θ
{\displaystyle \theta }
作為 貝氏統計 中的隨機變量 ,這樣
θ
{\displaystyle \theta }
的後驗分布就是:
θ
↦
f
(
x
|
θ
)
g
(
θ
)
∫
Θ
f
(
x
|
θ
′
)
g
(
θ
′
)
d
θ
′
{\displaystyle \theta \mapsto {\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}\!}
其中
Θ
{\displaystyle \Theta }
是
g
{\displaystyle g}
的domain,這是貝氏定理 的直接應用。
最後驗估計方法於是估計
θ
{\displaystyle \theta }
為這個隨機變量的後驗分布的眾數 :
θ
^
M
A
P
(
x
)
=
arg
max
θ
f
(
x
|
θ
)
g
(
θ
)
∫
Θ
f
(
x
|
θ
′
)
g
(
θ
′
)
d
θ
′
=
arg
max
θ
f
(
x
|
θ
)
g
(
θ
)
{\displaystyle {\hat {\theta }}_{\mathrm {MAP} }(x)=\arg \max _{\theta }{\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}=\arg \max _{\theta }f(x|\theta )\,g(\theta )\!}
後驗分布的分母與
θ
{\displaystyle \theta }
無關,所以在最佳化過程中不起作用。注意當先驗
g
{\displaystyle g}
是常數函數 時最大後驗估計與最大似然估計重合。
最大後驗估計可以用以下幾種方法計算:
解析方法,當後驗分布的模能夠用 解析解 方式表示的時候用這種方法。當使用共軛先驗 的時候就是這種情況。
通過如共扼積分法 或者牛頓法 這樣的數值 最佳化 方法進行,這通常需要一階或者導數 ,導數需要通過解析或者數值方法得到。
通過 期望值最大化算法 的修改實現,這種方法不需要後驗密度的導數。
儘管最大後驗估計與貝氏統計共享先驗分布的使用,通常並不認為它是一種貝葉斯方法,這是因為最大後驗估計是點估計,然而貝葉斯方法的特點是使用這些分佈來總結數據、得到推論。貝葉斯方法試圖算出後驗均值 或者中值 以及posterior interval ,而不是後驗模。尤其是當後驗分布沒有一個簡單的解析形式的時候更是這樣:在這種情況下,後驗分布可以使用 Markov chain Monte Carlo 技術來模擬,但是找到它的模的最佳化是很困難或者是不可能的。
M. DeGroot, 最優統計決策 , McGraw-Hill, (1970).