@spiritnotes
2016-02-25T14:56:05.000000Z
字数 5656
阅读 1647
机器学习
公开课
例子:
监督学习:输入为(data, right_answer)
回归:预测连续值
分类:预测离散值
发现数据内部的结构
例子:新闻聚类、社会网络分析、市场分组、太空数据分析、鸡尾酒晚会(两人说话,分析出来SVD)
假设表示:
cost function:
梯度下降:
设,则
使每个feature位于-1~1之间
平均归一化
房子的面积 = 长 × 宽
梯度下降 | Normal Equation(m samples,n features) |
---|---|
需要选择 | 不需要选择 |
需要多次迭代 | 不需要迭代 |
需要计算 | |
n很大也可以 | n很大时计算很慢 |
,有限个离散值
使用线性回归的问题
使用均方作为cost function是非凸,不能保证全局最优
(log_a(x))'=1/(xlna)
Conjugate gradient
BFGS
L-BFGS
三种数据以120度均分圆平面的数据会有分类错误。
把特征非线性化
计算机视觉:判别图像是否为Car
50*50pixel->2500features if gray 7500if GRB
起源:模拟大脑
发展:80年代、90年代使用广泛
现在:很多应用的最高水平
one learning algorithm 假设,大脑中学习触觉、听、视觉都是同一种算法,例子:人回声听位(声呐)
sigmod(logistic) activation function
x0: bias unit
每层均有bias unit
Input Layer: 1
Hidden Layer: n
Output Layer: 1
"activation" of unit i in layer j
matrix of weights controlling function mapping form layer j to layer j+1,
Layer j层个节点,j+1层,则的维度为
神经网络学习它自己的特征,隐藏层可以有多层
multiple output units:one-vs-all
y是向量而不是离散值
L:total no. of layer in network
sl:no. of units(not counting bias unit) in layer l
Theta1,Theta2....
D1,D2...
可以使用很小的变量,计算出导数,
No. input units: x
No. output units: y
reasonable default: 1 hidden layer or if >1, have same no. of hidden units in every layer(usually the more the better)