@spiritnotes
2016-07-25T12:24:06.000000Z
字数 5566
阅读 1981
机器学习
读书笔记
DOING
模式识别领域关注的是利用计算机算法自动发现数据中的规律,以及使用这些规律采取将数据分类等行动。正确分类与训练集不同的新样本的能力叫做泛化(generalization)。
原始数据通常需要预处理(pre-processed),变换到新的变量空间。预处理阶段有时候也叫做特征提取(feature extration)。
分类(classification):目标是给每个向量分配到有限数量离散标签中的一个;
回归(regression):要求输出由一个或者多个连续变量组成;
聚类(clustering):目标是发现数据中相似样本的分组;
密度估计(density estimation):目标是决定输入空间中数据的分布;
数据可视化(visualization):数据从高维空间投影到二维或者三维空间;
不确定性,可以由测量的误差引起,也可能由数据集的有限大小引起。
如果两个变量的联合分布可以分解成两个边缘分布的乘积,即则称X和Y相互独立。
连续环境下,x位于区间(a,b)之间的概率由下式给出
考虑变量变换 ,则有
概率观点认为w是一个固定的参数,它的值由某种形式的估计来确定。估计的误差通过考察可能的数据集D的概率分布来得到。贝叶斯观点看,只有一个数据集D,参数的不确定性通过w的概率分布来表达。批评是先验的选择通常是为了计算的方便而不是为了反映先验的知识。先验选择不好可能会得到错误的结果。
也称为正态分布
多曲线拟合可以通过误差最小化问题来表示。曲线拟合问题的模目标是能够根据N个输入组成的数据集和他们对应的目标t,再给出输入变量的x的新值的情况下,对目标变量t进行预测。我们假定给定x的值,对应的t值服从高斯分布,分布的均值为y(x, w),精度为,其值有,于是有
贝叶斯方法就是使用概率的加和和乘积规则。
存在一个最优的多项式阶数,能够给出最好的结果。多项式的阶数控制了模型的自由参数的个数。因此控制了模型的复杂度。
交差验证,选择数据集的进行训练,同时使用所有的数据进行评估表现。缺点是随着S的增加训练很耗时。而且可能单个模型有多个复杂度参数(可能有若干个正则化参数),其组合可能为参数个数的指数函数。
考虑测试点与近处的训练点之间的关系。简单方式是将输入空间划分成小的单元格。判断其输入哪个输入格,类别就是所属单元格内最多的类。
多项式拟合会随着维度的增加而导致系数数量快速增大。
D维空间的半径为r的球体的体积一定是的倍数,有,因此有半径与1之间的部分占球的总体积百分比
从训练数据集中确定p(x,t)是一个推断问题,决策论就是在给定的合适的概率的前提下,如何进行最优的决策。
我们将每个x分配到后验概率中最大的类别中,那么我们分类错误的概率就会最小。
对于K类,最大化正确率会简单一些
最优解是使损失函数最小的解。损失函数依赖于真实的类别。
在某些分类不很明确的情况下,避免做出决策是更合适的选择。这样会使得模型的分类错误率降低。
引入一个阀值,拒绝后验概率小于等于该值的输入x。值为1,所有值都拒绝,值小于将会确保没有样本被拒绝。
又称为PCA,应用领域包括维度降低、有损数据压缩、特征抽取、数据可视化。
用概率的乘积规则来表示观测序列的联合概率分布。形式为