@zhouyy
2017-02-08T02:49:50.000000Z
字数 486
阅读 572
<ML实战>
1、收集数据。exp:网络爬虫 从RSS反馈或API中得到信息 设备数据 公开数据
2、准备输入数据。
3、分析输入数据。
4、训练算法
5、测试算法
6、使用算法。转化为应用程序
1、分类
决定使用某个机器算法进行分类后,首先要做的是算法训练,即学习如何分类。
通常我们为算法输入大量已分类数据作为训练样本的训练集
为了测试算法的效果,通常使用两套独立的样本集:
训练数据和测试数据
当鸟类分类程序经测试满足进度要求工作称之为知识表示。知识表示可以采用规则集的形式,也可以采用概率分布的形式。
2、回归
预测数值型数据-数据拟合曲线
分类和回归属于监督学习,因为算法必须知道预测什么。
与之相对的无监督学习,此类数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成类似对象组成的多个类称之为聚类;将寻找描述数据统计值的过程称之为密度估计。
3、如何选择合适的算法
如果目标变量是离散型,如是/否,红黄黑,则可以选择分类器算法;如果目标是连续型的数值0.0~100.0等,则需要选择回归算法。
4、NumPy数据库
from numpy import *
