《机器学习实战》学习（1）—— kNN算法

一些碎碎念：失踪人口回归（虽然也没人fo我，一个人自娱自乐啦）。新学期开始好久了，感觉需要系统性地学习一些东西，扫了一眼书架发现之前买的《机器学习实战》这本书还没看完，于是从这本书开始搭建自己的机器学习基础体系啦，顺便学习一下python。如果正文有什么描述不对的地方，麻烦给与指正啦...争取周更，不能拖拉。

star了一个github项目（本书配套代码） https://github.com/pbharrin/machinelearninginaction

kNN算法是分类算法，主要是通过测量比较输入测试数据与分类过的训练数据的（特征）距离进行分类的。当输入一个新的未分类（没有标签）的数据时，与样本集中的数据特征进行比较，选出与新数据最接近的k个数据，将出现频率最高的分类作为新数据的分类。

首先需要对数据进行处理，数据清洗和归一化，数据清洗是为了剔除异常数据，归一化是为了使各个特征不受数据取值大小的影响，当然也可以根据数据的重要性定权重。

以下是kNN的核心代码：

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()
    classCout = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCout[voteIlabel] = classCout.get(voteIlabel, 0) + 1
    sortedClassCout = sorted(classCout.items(),
                             key = operator.itemgetter(1), reverse = True)
    return sortedClassCout[0][0]

其中inX是输入数据（向量形式），dataSet和labels分别是样本数据和标签（分类），k是参与评价的点数。

代码首先求了输入数据与样本数据的距离，然后对距离排序，选出距离最近的k个点，返回k点内出现频率最高的标签作为分类结果。

此处距离的求解方法是欧式距离，还可以选用其他距离公式，视具体数据情况为定。

kNN简单有效但是当数据集较大时，所需内存和计算量也较大，也不能体现出各个数据特征之间的区别，这种分类方法还是十分硬核的，适用于简单的情况。

《机器学习实战》学习（1）—— kNN算法

相关推荐