@semanticyong
2017-05-10T07:56:32.000000Z
字数 1412
阅读 1205
统计学习方法
这两年人工智能大热,从新闻报道 到 政府报告,再到各大电视台。为此 CCAV,不对,是 CCTV,还专门策划了一档节目《机智过人》(今年夏天 将 CCTV 1 播放)。
稍微关注下此类新闻、技术文章,就会对这些词不陌生 CNN、RNN、阿法狗,其基础算法都离不开统计学习(statistical learning)。
统计学习包括监督学习、非监督学习、半监督学习及强化学习,李航老师的这本《统计学习方法》主要讨论监督学习问题。以下概念的定义也是在监督学习的范畴内。
为啥楼主对这本书情有独钟呢?第一,是入门机器学习的经典;第二,出自李航老师之笔;第三,也是最关键的,楼主专门请李航老师为我手中的这本开了光,哦,不对,是签了名 :-)
第一个基本概念是 输入空间(input space) ,其定义为 输入所有可能取值的集合,根据北师大郇中丹老师的《数学分析》,集合用双线空心的大写字母表示。因此,输入空间的符号表示为 。
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。
除特别声明外,书中向量均为列向量,输入实例 x 的特征向量记作
其中, 表示 x 的第 i 个特征。
输出所有可能取值的集合称为输出空间(output space),符号表示为 。
输入变量、输出变量的本质是随机变量。了解有关随机变量的知识,请公众号直接回复“随机变量”。
输入变量是定义在输入空间(也是特征空间)上的随机变量,用大写的 X 表示。
输出变量是定义在输出空间上的随机变量,用大写的 Y 表示。
一个具体的输入是输入变量的取值,用小写的 x 表示,与之相对应的输出是输出变量的取值,用小写的 y 表示
上过计算机基础课的童鞋肯定还记得有个 与 (and) 运算,以下是其直值表:
0 | 0 | 0 |
0 | 1 | 0 |
1 | 0 | 0 |
1 | 1 | 1 |
如果将这个直值表看作是要训练的数据,其输入空间为
那么这个直值表所对的数据集如下表如示
一个输入与输出对,称为一个样本, 表示第 i 个样本(也称样本点),如果是在训练集中,也可称 第 i 个训练数据点
符号 | 含义 |
---|---|
输入空间 | |
输出空间 | |
输入,实例 | |
输出,实例 | |
输入随机变量 | |
输出随机变量 | |
训练数据集 | |
样本容量 | |
第 i 个训练数据点 | |
输入向量 的第 j 分量 |