最大熵方法求概率密度函数

信息熵,不确定度的描述,熵增加,不确定度增加,熵减小,不确定度减小。

  1. 离散型随机变量的信息熵

    考虑一个一维的离散的随机变量X(此处不考虑扩展到多维的情况),可以取离散的值最大熵方法求概率密度函数,对应的概率分别为最大熵方法求概率密度函数则离散型随机变量的信息熵为:

    最大熵方法求概率密度函数

  2. 连续型随机变量的信息熵

    考虑一个一维的连续型的随机变量X,若它的概率密度分布函数为f(x),那X在(a,b)之间的信息熵为:

    最大熵方法求概率密度函数

假设某个公司内部对所有员工进行了一次英语测试,测试结果分5个档次,分别为1分,2分,3分,4分,5分,假设已经知道平均分3.3分,每一个档次的概率分别为最大熵方法求概率密度函数,可以看出概率分布是不确定的

  • 最大熵方法求概率密度函数

  • 最大熵方法求概率密度函数

能满足上面式子的解有无限多个,要确定一组我们认为最合理,最好的解,就需要利用最大熵原则

要求出最大熵就先要写出最大熵的表达式:

最大熵方法求概率密度函数

要最大化上面的熵表达式,同时要满足最大熵方法求概率密度函数因此可以用拉格朗日乘子发求条件极值,得到下面的拉格朗日乘子式

最大熵方法求概率密度函数

分别对 最大熵方法求概率密度函数进行求导,并让求导后的为0,求解出最大熵方法求概率密度函数最大熵方法求概率密度函数,得到如下等式

最大熵方法求概率密度函数

可以求解出最大熵方法求概率密度函数的表达式如下:

最大熵方法求概率密度函数

接着把最大熵方法求概率密度函数的解析式代入:最大熵方法求概率密度函数得到如下等式

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

可以看出,对取值离散的随机过程,最大熵意味着取平均概率,也就是说当取值概率相等的时候,熵最大化,下面看连续变量的情况

我们从离散情况过度到连续情况,有如下等式

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数是平均值,它是一个常量,最大熵方法求概率密度函数是对应随机变量取值x的时候的值,同样,需要先写出熵信息的等式,然后在约束条件下求出熵信息最大化的参数值

最大熵方法求概率密度函数

最大熵方法求概率密度函数

对L(x)求f(x)的偏导,得到下式:

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

得到f(x) 的解析式:

最大熵方法求概率密度函数

只要求出最大熵方法求概率密度函数就可以得到f(x)的解析表达式,剩下的工作就是估计这些未知的参数了。

从上面的分析可以看出,我们只要在最大熵的条件下,加上约束条件,就可能得到不同的概率分布解析式,下面我们加上均值和方差为常量的约束,看看可以得到什么样的解析式,约束条件如下:

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

根据前面我们求出来的最大熵条件下连续变量概率密度表达式最大熵方法求概率密度函数可以得到约束条件下的解析表达式如下:

最大熵方法求概率密度函数

整理其形式,得到如下形式

最大熵方法求概率密度函数

其中,C是修整以后代替最大熵方法求概率密度函数的待定系数,并做如下替换

最大熵方法求概率密度函数

加上约束条件:最大熵方法求概率密度函数,可以得到下式:

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

这里用到了一个概率积分的结果最大熵方法求概率密度函数,这里不讨论这个结果的证明,搜索概率积分有很多次结论的文章,利用这个结论可以得到下式结果:

最大熵方法求概率密度函数

把平均值条件最大熵方法求概率密度函数考虑进来,有下式:

最大熵方法求概率密度函数

做一个整理,有下式:

最大熵方法求概率密度函数

最大熵方法求概率密度函数

因为有约束: 最大熵方法求概率密度函数,因此得到

最大熵方法求概率密度函数

因为yf(y)为奇函数,因此其积分应为0,因此有: 最大熵方法求概率密度函数,因此有最大熵方法求概率密度函数因此可以得到下面的结果

最大熵方法求概率密度函数

在利用方差约束:最大熵方法求概率密度函数,和自然对数函数积分公式,得到如下结果:

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数,整理得到:

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

 

根据洛比达法则,计算极限:最大熵方法求概率密度函数,所以有下面的式子

最大熵方法求概率密度函数

我们重点看里面这块的积分

最大熵方法求概率密度函数

 

最大熵方法求概率密度函数

整理得到下面结论:

最大熵方法求概率密度函数

现在得到了最大熵方法求概率密度函数,代入最大熵方法求概率密度函数得到下式:

最大熵方法求概率密度函数

这就是我们熟悉的正态分布的形式。

 

从上面可以看到,在给定约束条件下,基于最大熵原理可以得到某种概率分布函数,给定常量的均值和方差,可以得出正态分布,这个思路指明了不同的约束会导致不同的概率分布结果。其他的约束不再讨论了。重点是在用这个原理可以求概率分布,我们可以看到概率分布已经是指数形式了,所以只是求其中的系数问题,可以通过学习的方法从样本中得到。

 

我们来看看其中的参数怎么求?

这里会用到上面的结论,约束条件和连续概率密度函数表达式:

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

为了方便起见,这里做一个替换最大熵方法求概率密度函数得到下面结论:

最大熵方法求概率密度函数

将概率密度表达式代入概率积分为1的条件可以得到下面结果:

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数

最大熵方法求概率密度函数求偏导,得到下式:

最大熵方法求概率密度函数

整理得到

最大熵方法求概率密度函数

最大熵方法求概率密度函数求偏导数

最大熵方法求概率密度函数

于是得到

最大熵方法求概率密度函数

可以看出这是含有最大熵方法求概率密度函数的m个方程组。如果从样本去估计他们的真实参数值会有一点的偏差,因此可以做如下变化:

最大熵方法求概率密度函数

实际的计算中,只可能是近似等于1,那么其中的误差部分就是:

最大熵方法求概率密度函数

我们希望这样的误差要满足均方误差最小,即下式:

最大熵方法求概率密度函数

规划求解可以得出答案

 

转自:http://blog.csdn.net/omade/article/details/17449471