回归分析中的参数估计为什么是最小二乘法(least squares),不是最小一乘法(least absolute deviations)

回归分析中的参数估计为何是最小二乘法(least squares),不是最小一乘法(least absolute deviations)

如题,面试被问到了。今天网上找了些资料,整理了一下。

回归分析就是找到一条最合适的拟合线来逼近所有的观测点。如何衡量拟合的好坏程度呢,直接地,就是看拟合值与观测值之间的距离了。在这种情况下,我们直接用拟合值与观测值差的绝对值就可以衡量误差(如公式1),为什么要用差的平方呢(如公式2)?

回归分析中的参数估计为什么是最小二乘法(least squares),不是最小一乘法(least absolute deviations)

文献1给出了一个牵强的解释,不过说的也确实很有道理。文献1中的说法就是求解公式(2)的最小值很容易(见公式(3)(4),分别对a,b求偏导,令偏导等于0,求解线性方程组就可以了),但是对于公式(1)来说,由于存在绝对值,求导就不那么容易了。所以,从微积分求解a,b两个参数的角度来看,公式(2)优于(1),即最小二乘法胜过最小一乘法。这种说法虽然有点牵强,但是想想在计算机能力有限的年代,从公式(1)推导出合适的a,b是不可能的,公式(2)就占据了主流,渐渐地,人们就习惯用最小二乘法来做参数估计了~。

                                    回归分析中的参数估计为什么是最小二乘法(least squares),不是最小一乘法(least absolute deviations)

但是对于参数估计的准确度来说,公式(1)和公式(2)哪个更好呢?网上有说公式(1)优于(2)的,并且文献1也提到了公式(1)求解出的a,b值能够更好地拟合观测值。如果想了解一下权威透彻的解释,就看看文献2吧~!

微软的牛人刘未鹏从最大似然概率的角度给了一个巧妙的解释(文献3)。现将其总结如下:

用O记作观测值,L记作拟合的曲线。那么我们最大化的后验概率就是公式(5):回归分析中的参数估计为什么是最小二乘法(least squares),不是最小一乘法(least absolute deviations)

每条拟合曲线的先验概率都是相等的,因为在没有观测值衡量的情况下,很难说拿条曲线好,哪条曲线坏。于是,我们尽量最大化p(O|L)就是了。但是怎么计算p(O|L)呢,如何才能使p(O|L)最大化呢?试想如果L是给定的拟合线,那么拟合线产生某一特定观测点的概率有多大?这个概率是跟观测点到拟合线的距离有关的。假设拟合线产生观测点的概率符合正态分布,偏离拟合线越远的观测点,其产生的概率就越小。那么p(O|L)的计算就如公式(6):

回归分析中的参数估计为什么是最小二乘法(least squares),不是最小一乘法(least absolute deviations)

其中Delta(di)指的是观测值与拟合值间的距离,其实就是公式(2)中的(yi-(a+bxi))。最大化公式(6)的本质就是最小化公式(2)。这也算是最小二乘法的一个来源吧~~!

参考文献:

文献1:Why we use “least squares” regression instead of “least absolute deviations” regression,http://www.bradthiessen.com/html5/docs/ols.pdf

文献2:Analysis of least absolute deviation,http://www.math.ust.hk/~makchen/papers/LAD.pdf

文献3:数学之美番外篇:平凡而又神奇的贝叶斯方法,http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/