在贝叶斯统计学 中,“最大后验概率估计”是后验概率 分布的众数 。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计 。它与最大似然估计 中的经典方法有密切关系,但是它使用了一个增广的优化目标 ,进一步考虑了被估计量的先验概率 分布。所以最大后验概率估计可以看作是规则化 的最大似然估计。
假设我们需要根据观察数据
x
{\displaystyle x}
估计没有观察到的总体参数
θ
{\displaystyle \theta }
,让
f
{\displaystyle f}
作为
x
{\displaystyle x}
的采样分布 ,这样
f
(
x
|
θ
)
{\displaystyle f(x|\theta )}
就是总体参数为
θ
{\displaystyle \theta }
时
x
{\displaystyle x}
的概率。函数
θ
↦
f
(
x
|
θ
)
{\displaystyle \theta \mapsto f(x|\theta )\!}
即为似然函数 ,其估计
θ
^
M
L
(
x
)
=
arg
max
θ
f
(
x
|
θ
)
{\displaystyle {\hat {\theta }}_{\mathrm {ML} }(x)=\arg \max _{\theta }f(x|\theta )\!}
就是
θ
{\displaystyle \theta }
的最大似然估计。
假设
θ
{\displaystyle \theta }
存在一个先验分布
g
{\displaystyle g}
,这就允许我们将
θ
{\displaystyle \theta }
作为 贝叶斯统计 中的随机变量 ,这样
θ
{\displaystyle \theta }
的后验分布就是:
θ
↦
f
(
x
|
θ
)
g
(
θ
)
∫
Θ
f
(
x
|
θ
′
)
g
(
θ
′
)
d
θ
′
{\displaystyle \theta \mapsto {\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}\!}
其中
Θ
{\displaystyle \Theta }
是
g
{\displaystyle g}
的domain,这是贝叶斯定理 的直接应用。
最后验估计方法于是估计
θ
{\displaystyle \theta }
为这个随机变量的后验分布的众数 :
θ
^
M
A
P
(
x
)
=
arg
max
θ
f
(
x
|
θ
)
g
(
θ
)
∫
Θ
f
(
x
|
θ
′
)
g
(
θ
′
)
d
θ
′
=
arg
max
θ
f
(
x
|
θ
)
g
(
θ
)
{\displaystyle {\hat {\theta }}_{\mathrm {MAP} }(x)=\arg \max _{\theta }{\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}=\arg \max _{\theta }f(x|\theta )\,g(\theta )\!}
后验分布的分母与
θ
{\displaystyle \theta }
无关,所以在优化过程中不起作用。注意当先验
g
{\displaystyle g}
是常数函数 时最大后验估计与最大似然估计重合。
最大后验估计可以用以下几种方法计算:
解析方法,当后验分布的模能够用 解析解 方式表示的时候用这种方法。当使用共轭先验 的时候就是这种情况。
通过如共扼积分法 或者牛顿法 这样的数值 优化 方法进行,这通常需要一阶或者导数 ,导数需要通过解析或者数值方法得到。
通过 期望最大化算法 的修改实现,这种方法不需要后验密度的导数。
尽管最大后验估计与贝叶斯统计共享先验分布的使用,通常并不认为它是一种贝叶斯方法,这是因为最大后验估计是点估计,然而贝叶斯方法的特点是使用这些分布来总结数据、得到推论。贝叶斯方法试图算出后验均值 或者中值 以及posterior interval ,而不是后验模。尤其是当后验分布没有一个简单的解析形式的时候更是这样:在这种情况下,后验分布可以使用 Markov chain Monte Carlo 技术来模拟,但是找到它的模的优化是很困难或者是不可能的。
M. DeGroot, 最优统计决策 , McGraw-Hill, (1970).