机器学习十讲——第五讲学习总结

凸函数:假设f(x)为多元函数,如果对任意t∈[0,1],均满足:机器学习十讲——第五讲学习总结。则称f(x)为凸函数。

 Jensen不等式:如果f是凸函数,X是随机变量,则机器学习十讲——第五讲学习总结

 该不等式的另一种描述:机器学习十讲——第五讲学习总结。ai表示权重。取等号的条件是:f(xi)是常量。

凸函数图示:

机器学习十讲——第五讲学习总结

  聚类

本质:将数据集中相似的样本进行分组的过程。

簇:分组后每个组称为一个簇,每个簇的样本对应一个潜在的类别。样本没有类别标签,因此是聚类一种典型的无监督学习方法

簇的条件:相同簇的样本之间距离较近;不同簇的样本之间距离较远。

聚类方法:层次聚类,K-Means,谱聚类等等。

       算法介绍

K-Means模型:

起源:最初起源于信号处理,是一种比较流行的聚类方法。

数据集:机器学习十讲——第五讲学习总结,将样本划分为k个簇,每个簇中心为cj(1<=j<=k)。

优化目标:最小化所有样本点到所属簇中心的距离平方和(失真度量)。

 机器学习十讲——第五讲学习总结

模型求解:

机器学习十讲——第五讲学习总结

公式中rij是离散形式,优化使用图示中的交替迭代法

固定c,优化r:

优化目标:机器学习十讲——第五讲学习总结

不同的Ji(ri)相互独立,可以分别优化:机器学习十讲——第五讲学习总结

对于样本xi,对最近的中心j,rij=1,将其指派给最近的类

固定r,优化c:

优化目标:机器学习十讲——第五讲学习总结

不同的Jj(cj)相互独立,分别优化,且均为二次凸函数:

机器学习十讲——第五讲学习总结

分母(蓝色)表示cj这一类里总共有多少样本,分子(绿色)表示对应的第j类中每一个样本的求和。因此结果为第j类中心为j类样本均值。

K-Means算法流程:

1, 随机选择k个点作为初始中心。

2, Repeat:将每个样本指派到最近的中心,形成k个类;重新计算每个类的中心为该类样本均值。

3, 直到中心不发生变化。

高斯混合模型(GMM):

机器学习十讲——第五讲学习总结

GMM求解:

机器学习十讲——第五讲学习总结

 应用到Jensen不等式,注意优化目标中是ln函数,在函数图像上显示为凹函数,因此原Jensen不等式表示机器学习十讲——第五讲学习总结中,将<=改为>=。(即第二行)

EM算法:

机器学习十讲——第五讲学习总结