Convolutional Neural Networks for Visual Recognition 1

Introduction

这是斯坦福计算机视觉大牛李菲菲最新开设的一门关于deep learning在计算机视觉领域的相关应用的课程。这个课程重点介绍了deep learning里的一种比较流行的模型:Convolutional Neural Networks,简称CNN,主要利用CNN来做visual recognition,或者说是image classification,object recognition等。我自己在学习的过程中,一边翻译一边总结,整理出这些中文版的lecture notes,英文好的同学可以直接看原文,课程的网址是:

http://cs231n.stanford.edu/

学习这门课程,需要一定的数学基础,包括线性代数,概率论,统计等,还要对传统的机器学习有一定的了解,可以参考斯坦福大学机器学习大牛Anderw的课程,另外一个前提条件是编程,这门课程没有用matlab,而是用了当下比较流行的一种语言python,课程中所有的程序都是用python写成的,所以还要学习python编程,这门课程对python有简单的介绍,并且还推荐了相应的python版本及编译器,这些信息都可以在课程网站上找到。

我在这里转译的中文lecture notes,认为大家都已经搞定了上述所需的前提条件,就是有一定的数学基础,也了解机器学习,并且安装了相应的python和IDE(推荐Eclipse+Pydev),能够利用python进行编程。所以没有这些基础知识。下面是正式的课程内容。

Image Classification

首先介绍的是计算机视觉领域一个重要而基础的问题:图像分类。简单来说,就是将一幅图像赋以一个语义标签,对这幅图像进行标识,如下图所示:

Convolutional Neural Networks for Visual Recognition 1
图像分类的任务就是将一个给定的图像赋予一个或者一组语义标签。

我们看到的是一只猫,但是对于计算机来说,看到的只是一个三维的数组,这个图像是248个像素宽,400像素高,而且有R,G,B三个通道,所以是一个2483的数组,一共有296700个像素,每个像素的值在0-255的范围内,图像分类的任务就行将这所有的像素用一个语义标签进行标识,比如“cat”。

一般来说,对于visual recognition,我们需要解决以下一些困难或挑战:
Viewpoint variation:一个物体由于照相机拍摄的视角不同,会呈现不同的方向。
Scale variation: 尺度的变化,这是比较常见的一个问题。
Deformation: 有些物体可能会发现形变。
Occlusion: 物体的局部有可能被遮挡。
Illumination conditions:光照条件的变化有可能改变图像的像素值的分布。
Background clutter: 背景纹理与物体的纹理相似的话,会对识别造成很大影响。
Intra-class variation: 即使属于同一类的物体,也有可能呈现不同的形状,比如椅子,杯子等。

Convolutional Neural Networks for Visual Recognition 1

一个好的图像分类模型,应该能够很好地处理这些问题。

我们如何写一个算法来做这项工作呢,这个不像排序那么简单,因为我们不能直接写一个算法来确定图像里的物体。因此,一般来说,我们会先给计算机一些样本,通过这些样本让计算机了解每一类物体的性质,这种方法称为data-driven(数据驱动),因为这类方法要依赖于事先收集的一些训练数据。下图给出了一些训练数据的示例:

Convolutional Neural Networks for Visual Recognition 1

在实际的应用中,可能会有几千个类别而每一类可能会有成千上万个样本。一个完整的图像分类模型包含以下几个步骤:
Input:我们的输入包括个不同的类别,这组图像称为训练集。
Learning: 我们的任务是通过训练集让计算机知道每一类的性质,这个过程称为训练阶段或者学习阶段。
Evaluation: 最后,我们要用训练好的模型来评估一些从未见过的图像,对这些图像进行分类,并将预测标签与该图像的真实标签比较。

Nearest Neighbor Classifier

我们先介绍一种很简单的分类模型:最近邻分类器,这个模型与我们将要介绍的CNN没有什么关系,而且在实际应用中,也很少用到这个模型,但是可以用这个模型来了解图像分类的处理流程。

这里我们要用到的数据库是: extbf{CIFAR-10},这是一个非常流行的用于图像分类的数据库,这个数据库包含10类图像,一共含有60000张图,每张图的宽和高都是32,每张图都有一个类标签,这60000万张图分成两部分,其中50000张图作为训练集,剩下的10000张图作为测试集。下图给出了该训练集的一些样图:

Convolutional Neural Networks for Visual Recognition 1

左图:训练集里的一些样图。右图:第一列是测试图,其它图是与该测试图最相似的训练图。

现在,假设我们有这样一个数据库,包含属于10个类别的共50000个训练样本,每个类别有5000张图,最近邻分类器拿到一张测试图,会将该测试图与训练集的每一个
样本进行比较,挑出离该测试图最近的训练样本,并且将该训练样本的类标签赋给该测试图,换句话说,离该测试图最近的样本是什么类,那么该测试图就属于该类,
我们可以看到,利用这个分类器,上面右边的10个测试样本只有三个赋予了正确的类标签,其它7个样本都错了,比如第8个样本是一个马的头,但是离它最近的训练样本
是汽车,这样这个马头的图像就被赋予汽车的标签了。

现在我们来定义Nearest Neighbor Classifier,最简单的一种定义就是像素级的比较,我们将一张323的图看成一个高维的向量,两张图的差距
定义为


还有一种常用的度量,是

实验证明,利用度量的效果并不理想,只有30%多一点,一种比较常见的改进是K-NN,我们不能只参考离测试样本最近的一个样本,我们要参考离测试样本最近的K个样本,然后利用投票策略,即,这K个样本中,哪一类的样本最多,我们就认为测试样本属于这一类。但是K-NN中的K到底要取多大?这个K可以称为hyperparameters,在机器学习中,如何选择参数也是一个需要仔细考虑的问题,一般来说test set只能用来做最后的评估,而且只能用一次,不能用test set来选择最佳的hyperparameters,一个可行的方案是将训练集分成两部分,我们将拥有绝大多数训练样本的那部分用来训练,称为training set,而只有很少一部分训练样本的那部分用来评估不同的参数对模型的影响,这部分称为validation set。

当样本总数很少的时候,我们一般会采取另外一种策略称为cross validation,将样本分为相同规模的几份,比如5份或者10份,然后,挑出一份做validation,剩下的做训练,这样循环一遍,以保证每一份都能被评估,这种策略相对来说比较耗时,因为需要循环地做训练和测试。

Pros and Cons of Nearest Neighbor classifier

接下来,我们要总结一下Nearest Neighbor classifier的优缺点,很显然,这种分类器的优点就是简单,易懂,而且不需要训练,但是它的缺点也很明显,一个是效率太低,测试的时候非常耗时,因为要和训练集
的样本逐个比较,在实际应用中,我们比较关心测试阶段的效率,因为训练可以提前做好,所以最近邻分类器不能满足实时检测,在实际应用中,很少用到这种分类器。最近邻分类器另外一个缺点是对像素亮度值的变化非常敏感,因为这个是基于像素值的比较,所以同一个物体,在不同光照,或者有遮挡的情况下,会出现很大的差距,更加合理的度量应该基于物体的语义及结构信息。如下图所示:

Convolutional Neural Networks for Visual Recognition 1

图像的偏移,部分遮挡,光照变化会使距离度量相差很大。

最后做一点总结:
我们介绍了图像分类的概念,并且介绍了一种很简单的分类器:最近邻分类器,而且我们也介绍了如何利用validation set或者cross validation来调整hyperparameters,我们也看到最近邻分类器的效果并不是很理想,最后我们探讨了L1,L2度量的缺陷,就是对像素值的变化比较敏感,而没有基于物体的语义及结构信息来进行度量。

声明:lecture notes里的图片都来源于该课程的网站,只能用于学习,请勿作其它用途,如需转载,请说明该课程为引用来源。

课程网站 http://cs231n.stanford.edu/