[关闭]
@spiritnotes 2016-08-24T14:59:04.000000Z 字数 3888 阅读 3506

《机器学习》 - 周志华

机器学习 读书笔记 DOING


1 绪论

1.1 引言

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

1.2 基本术语

数据集、样本、属性(特征)、属性值、属性空间(样本空间、输入空间)、特征向量
从数据中学得模型的过程称为“学习”或“训练”
训练数据、训练样本、训练集、假设、真相
预测任务是希望通过对训练集进行学习,建立一个从输入空间到输出空间的映射
测试集、测试样本
泛化、独立同分布

1.3 假设空间

归纳:从特殊到一般的泛化
演绎:从一般到特殊的特化

将学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设;可以有许多策略对这个假设空间进行搜索,例如从顶而下、从一般到特殊或是自底而上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设。

可能存在多个假设与训练集一致(训练集是有限的),即存在“假设集合”,称为“版本空间”(version space)

1.4 归纳偏好

通过学习得到的模型对应了假设空间中的一个假设
机器学习算法中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为偏好
归纳偏好可看着学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”

奥卡姆剃刀: 如果有多个假设与观察一致,则选最简单的那个

NFL定理(No Free Lunch Theorem)
表示算法A基于X产生假设h的概率,则在训练集外误差为

todo

1.5 发展历程

推理 -> 知识工程 -> 机器学习

机器学习

第2章 模型评估与选择

2.1 经验误差与过拟合

错误率:分类错误的样本数占样本总数的比例
精度: = 1 - 错误率
误差:实际预测输出与样本的真实输出之间的差异
训练误差/经验误差:学习器在训练集上的误差
泛化误差:学习器在新样本上的误差

过拟合
欠拟合

模型选择:理想解决方案就是对候选模型的泛化误差进行评估,然后选择泛化误差最小的那个模型

2.2 评估方法

假设测试样本也是从样本真实分布中独立同分布采样而得。测试集应该尽可能与训练集互斥。

留出法

交叉验证法

k折交叉验证,通常取10
通常随机划分p次,取p次的平均值
留一法,不受随机样本划分方式的影响,比较准确;缺点:训练时间长,由于训练样本原因,其不一定比其他评估方法准确

自助法

针对数据集随机抽取并放回,取与样本空间数量相等的样本数作为训练集,未在训练集中出现的作为测试集
未采用概率为


优点:数据集较少不容易划分测试、训练集;对集成学习有好处;
缺点:改变初始数据集的分布,引入估计偏差;

调参与最终模型

两类参数

往往对参数选择一个范围和变化步长,减少评估的值

2.3 性能度量

回归任务常见的性能度量是“均方误差”(mean squared error)

更一般对于数据分布D和概率密度函数,均方误差可描述为

2.4 比较检验

涉及多个方面

假设检验

todo

第3章 线性模型

3.1 基本形式

线性模型可表示为


许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。线性模型可以用元素重要性来解释,因此其具有可解释性。

3.2 线性回归

对于离散属性,若属性值间存在“序”关系,则可通过连续化将其转化为连续值,例如(高,中,矮)转化为(1,0.5,0),若属性间不存在序关系,则可将其转为k维向量。

线性回归视图学得

使
使用均方误差作为性能度量
均方误差有非常好几何意义,对应于欧几里得距离。基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。求解w和b使用该值最小化的过程称为线性回归模型的最小二乘“参数估计”。

第7章 贝叶斯分类器

7.1 贝叶斯决策论

条件风险,


任务是寻找准则h使得

则在每个样本上选择使条件风险最小的类别标记

贝叶斯最优分类器,为贝叶斯风险,为理论最好性能
使用0-1错误率则有

因此最小化分类错误率的贝叶斯最优分类器为


P(c):先验
P(x|c):似然
P(x):证据

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注