《机器学习》笔记 第1章——绪论 : 基本术语/假设空间的基础概念
1.1 引言
- 一句话概念: 机器学习致力于通过计算来获得经验, 并通过经验来改善系统自身的性能.
- 经验: 使用学习算法 训练数据集产生 经验
- 学习算法: 能基于数据集产生模型(model), 如"一颗决策树"; 或者局部性结果: 例如一条规则.
- "模型": 泛指从数据中学得结果, 面对新的输入数据可以进行抉择
- 总之: 机器学习是 一门"学习算法"的学问
1.2 基本术语 (以卖西瓜为例)
-
数据集: 所有西瓜的集合
-
样本: 每条记录
-
属性/特征: 每个维度
-
属性空间/样本空间: 例如将西瓜的颜色/质量/敲省三个向量组合成一个坐标向量, 也被成为"特征向量"
-
维数: 西瓜的特殊数量
-
学习/训练: 学得模型的过程
-
分类: 将要预测的结果值是离散的, 如好瓜/坏瓜, 如冬瓜/西瓜等
-
回归: 将要预测的是连续值, 例如西瓜九月份的成熟度: 0.12,0.13,0.14..., 此类任务称为回归
-
聚类: 将训练集中的西瓜分成若干组, 每个组称为一个"簇", 例如按颜色分类: 红色西瓜/绿色西瓜/黑色西瓜等, 如按皮的薄厚进行区分..
-
簇: 具有某一共同特征的集合
-
监督学习(学习任务类型): 分类和回归
-
非监督学习(学习任务类型): 聚类是非监督学习的代码
-
泛化(generalization): 学得模型适用于新样本的能力, 称为"泛化"; 泛化能力越强, 适用于整个样本空间的能力也越强
-
分布(distribution): 假设样本空间中全体样本服从于一个未知的分布, 一般人物, 训练样本越多, 我们得到关于"分布"的信息也越多, 泛化能力一般可以得到提高
-
独立同分布: 我们获得的样本都是从这个样本空间中获取的, 简称i,i,d
1.3 假设空间
- 归纳(induction): 是从特殊到一般的泛化过程,是从具体的事实归纳出一般性规律
- 演绎(deduction): 一般到特殊的过程, 例如: 基于一组公理和推理规则导出与之相恰的定理, 即为演绎
- 归纳学习: 从样例中学习
- 广义: 广义的归纳学习大体相当于从样例中学习
- 狭义: 狭义的归纳学习则要求从训练数据中学得概念CONCEPT, 亦可称为"概念学习"或者"概念形成" - 奥卡姆剃刀: 是一种常用的/自然科学研究中最基本的原则, 即 "最简单原则"