机器学习:最大似然估计与最大后验概率估计

在机器学习领域,概率估计是经常用到的一种模型,而概率估计中,我们经常会看到两种估计模型,一种是最大似然估计,即 Maximum likelihood, 另外一种就是最大后验概率估计,即 Maximum posterior , 两种模型可以由贝叶斯定理演化而来。

在介绍这两种模型之前,我们先来看一下贝叶斯定理:

这里, 表示后验概率分布 posterior distribution。

的概率最大。所以最大似然估计可以表示为:

的概率分布, 根据贝叶斯定理,我们可以看出:

即:

而贝叶斯定理中的分母 是一个归一化变量, 可以看出

换句话说,后验概率与似然函数和先验概率之积是成比例的。

我们可以看到,无论是最大似然估计还是最大后验概率估计,似然函数都发挥着重要作用。但这两种估计,反应了两种观点。最大似然估计是古典统计学派的观点,古典统计学派认为,参数 的。

这两种模型,孰优孰劣,一直以来都是莫衷一是,未有定论。最大似然估计被人诟病之处是估计存在bias,在某些极端情况下,是违反经验与直觉的。最大后验概率估计可以有效地减弱这种bias,但是最大后验概率需要引入先验概率分布 , 所以最大后验概率估计的效果,也取决于先验概率的设定,一个糟糕的先验概率将会导致一个糟糕的后验概率估计。

>
Andrew Ng, “Machine Learning”, Stanford University.
C.M.Bishop, “Pattern Recognition and Machine Learning”.