机器学习-周志华-第一章

绪论

1.1 引言

什么是机器学习?

它是一门致力于研究如何通过计算的手段,利用经验来改善系统自身性能的一门学科。所研究的主要内容是计算机如何通过数据产生模型,即学习算法。有了学习算法后,当我们给它提供经验数据时就能基于这些数据产生模型。在面对新数据时学习算法会给我们相应的判断。经验通常以数据的形式存在

名词理解

模型:一类问题的解题步骤

算法:一个问题的解题步骤

学习算法:由数据产生的一类问题的解题步骤。通过学习算法从数据中获得模型

ps:阿尔法狗零自学三天以100:0战胜阿尔法狗。这里阿尔法狗零利用人类经验提升自身能力,这就是机器学习

1.2 基本术语

数据集

示例

属性、特征

属性空间、样本空间、输入空间:数据的维度空间

特征向量:

学习、训练:从数据中学得模型的过程

训练数据:训练过程中使用的数据

训练样本:

训练集:多个训练样本的集合

假设:学到的模型

真相:数据某种潜在的规律

标记:示例的结果信息

样例:有标记信息的示例

标记空间、输出空间:(x,y),y:所有标记的集合

 分类:预测值是离散的学习任务

二分类:只涉及两个类别的分类

多分类:

回归:预测值是连续的学习任务

聚类:将训练集中的示例分组

监督学习:训练数据中拥有标记信息的学习任务 。如分类和回归

无监督学习:训练数据中不包含标记信息的雪人任务;如聚类 

泛化能力:学得模型适用于新样本的能力

1.3  假设空间

科学推理两大基本手段:归纳和演绎

归纳:从特殊到一般的泛化过程,即从具体事实归纳出一般性规律。从样例中学习,显然是一个归纳过程,也称归纳学习

演绎:从一般到特殊的特化过程,即从基础原理推演出具体状况。例如在数学中,由一组公理推到出定理,这就是演绎

归纳学习有广义和狭义之分

广义归纳学习基本是从样例(带有标记信息的训练数据)中学习

狭义归纳学习要求从训练数据中学得概念,称为概念学习。概念学习技术目前研究和应用都比较少

由概念学习学得概念,由概念得知假设空间。图1.1 西瓜问题的假设空间

整个学习过程:概念学习学得好瓜概念,可以得出好瓜可能的组合,再根据样例数据排除非好瓜的组合,最好得出好瓜的假设

版本空间:一组与训练集一致的假设 如何求取版本空间

求取版本空间:版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。

1.4 归纳偏好

当学得模型(多个)面临新样本时,产生不同的输出,这样的学习结果是没有意义的。在产生不同输出时必须选择一个更信赖的模型,这就是归纳偏好。一个有效的学习算法,必须有归纳偏好。大多数时候归纳偏好直接决定了学习算法能否取得好的性能

 归纳偏好原则:

奥卡姆剃刀(occam's razor):若有多个假设与与观察一致,选择最简单的

 没有免费午餐定理(no freee lunch theorem 简称NFL定理 ):若A算法在某些问题上比B算法要好,那必然存在在某些问题上B算法比A算法要好。即没有一个算法试用于任何情况。NFL最重要的寓意是让我们清楚的认识到,脱离具体问题空谈什么学习算法更好是没有意义的。因为若考虑所有潜在问题NFL已经证明了所有算法一样好。

问题:

为什么概念学习中使用样例数据?按照狭义归纳学习应该使用训练数据

课后习题:完整答案 

1.1

先看看版本空间定义,文章写得不错

版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。

解:

假设空间指的是问题所有假设组成的空间,我们可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。

假设数据集有n种属性,第i个属性可能的取值有titi种,加上该属性的泛化取值(*),所以可能的假设有∏i(ti+1)∏i(ti+1)。再用空集表示没有正例,假设空间中一共∏i(ti+1)+1∏i(ti+1)+1种假设。
现实问题中常面临很大的假设空间,我们可以寻找一个与训练集一致的假设集合,称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。


编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响 是
2 乌黑 稍蜷 沉闷 否
数据集有3个属性,每个属性2种取值,一共 3∗3∗3+1=283∗3∗3+1=28种假设,分别为

1.色泽=青绿 根蒂=蜷缩 敲声=浊响
2.色泽=青绿 根蒂=蜷缩 敲声=沉闷
3.色泽=青绿 根蒂=稍蜷 敲声=浊响
4.色泽=青绿 根蒂=稍蜷 敲声=沉闷
5.色泽=乌黑 根蒂=蜷缩 敲声=浊响
6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷
7.色泽=乌黑 根蒂=稍蜷 敲声=浊响
8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷
9.色泽=青绿 根蒂=蜷缩 敲声=*
10.色泽=青绿 根蒂=稍蜷 敲声=*
11.色泽=乌黑 根蒂=蜷缩 敲声=*
12.色泽=乌黑 根蒂=稍蜷 敲声=*
13.色泽=青绿 根蒂=* 敲声=浊响
14.色泽=青绿 根蒂=* 敲声=沉闷
15.色泽=乌黑 根蒂=* 敲声=浊响
16.色泽=乌黑 根蒂=* 敲声=沉闷
17.色泽=* 根蒂=蜷缩 敲声=浊响
18.色泽=* 根蒂=蜷缩 敲声=沉闷
19.色泽=* 根蒂=稍蜷 敲声=浊响
20.色泽=* 根蒂=稍蜷 敲声=沉闷
21.色泽=青绿 根蒂=* 敲声=*
22.色泽=乌黑 根蒂=* 敲声=*
23.色泽=* 根蒂=蜷缩 敲声=*
24.色泽=* 根蒂=稍蜷 敲声=*
25.色泽=* 根蒂=* 敲声=浊响
26.色泽=* 根蒂=* 敲声=沉闷
27.色泽=* 根蒂=* 敲声=*
28.空集Ø
编号1的数据可以删除 2−8,10−12,14−16,18−20,22,24,26,282−8,10−12,14−16,18−20,22,24,26,28(不包含数据1)
编号1的数据可以删除 2727(包含了数据2)
所以版本空间为:
1.色泽=青绿 根蒂=蜷缩 敲声=浊响
9.色泽=青绿 根蒂=蜷缩 敲声=*
13.色泽=青绿 根蒂=* 敲声=浊响
17.色泽=* 根蒂=蜷缩 敲声=浊响
21.色泽=青绿 根蒂=* 敲声=*
23.色泽=* 根蒂=蜷缩 敲声=*
25.色泽=* 根蒂=* 敲声=浊响
一般情况下版本空间是正例的泛化,但由于数据集中只有1个正例,所以在版本空间中依然包含了这个样本的假设(假设1)。
---------------------
作者:四去六进一
来源:CSDN
原文:https://blog.csdn.net/icefire_tyh/article/details/52065224
版权声明:本文为博主原创文章,转载请附上博文链接!

1.2

析取范式 合取范式的概念  https://baike.baidu.com/item/%E6%9E%90%E5%8F%96/2841171?fr=aladdin

析取:逻辑或运算,并集;符号:∨

合取:逻辑与运算,交集;符号:∧

范式:范式为各种千变万化的命题公式提供了一个统一(规范)的表达形式

简单析取式:有限个文字构成的析取式

简单合取式:有限个文字构成的合取式

析取范式:有限个简单合取式构成的析取式

合取范式:有限个简单析取式构成的合取式