[关闭]
@semanticyong 2017-05-10T07:56:32.000000Z 字数 1412 阅读 1205

统计学习方法-笔记-001-基本概念及定义

统计学习方法


这两年人工智能大热,从新闻报道 到 政府报告,再到各大电视台。为此 CCAV,不对,是 CCTV,还专门策划了一档节目《机智过人》(今年夏天 将 CCTV 1 播放)。

稍微关注下此类新闻、技术文章,就会对这些词不陌生 CNN、RNN、阿法狗,其基础算法都离不开统计学习(statistical learning)。

统计学习包括监督学习、非监督学习、半监督学习及强化学习,李航老师的这本《统计学习方法》主要讨论监督学习问题。以下概念的定义也是在监督学习的范畴内。

为啥楼主对这本书情有独钟呢?第一,是入门机器学习的经典;第二,出自李航老师之笔;第三,也是最关键的,楼主专门请李航老师为我手中的这本开了光,哦,不对,是签了名 :-)

输入空间与特征空间

第一个基本概念是 输入空间(input space) ,其定义为 输入所有可能取值的集合,根据北师大郇中丹老师的《数学分析》,集合用双线空心的大写字母表示。因此,输入空间的符号表示为

每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。

除特别声明外,书中向量均为列向量,输入实例 x 的特征向量记作

其中, 表示 x 的第 i 个特征。

输出空间

输出所有可能取值的集合称为输出空间(output space),符号表示为

输入变量、输出变量

输入变量、输出变量的本质是随机变量。了解有关随机变量的知识,请公众号直接回复“随机变量”。
输入变量是定义在输入空间(也是特征空间)上的随机变量,用大写的 X 表示。
输出变量是定义在输出空间上的随机变量,用大写的 Y 表示。

输入与输出

一个具体的输入是输入变量的取值,用小写的 x 表示,与之相对应的输出是输出变量的取值,用小写的 y 表示

举例说明

上过计算机基础课的童鞋肯定还记得有个 与 (and) 运算,以下是其直值表:

0 0 0
0 1 0
1 0 0
1 1 1

如果将这个直值表看作是要训练的数据,其输入空间为

那么这个直值表所对的数据集如下表如示

一个输入与输出对,称为一个样本, 表示第 i 个样本(也称样本点),如果是在训练集中,也可称 第 i 个训练数据点

符号表

符号 含义
输入空间
输出空间
输入,实例
输出,实例
输入随机变量
输出随机变量
训练数据集
样本容量
第 i 个训练数据点
输入向量 的第 j 分量

后记

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注