[关闭]
@spiritnotes 2016-02-25T14:56:05.000000Z 字数 5656 阅读 1513

Coursera: Machine Learning

机器学习 公开课


1 介绍

机器学习

例子:

监督学习

监督学习:输入为(data, right_answer)
回归:预测连续值
分类:预测离散值

非监督学习

发现数据内部的结构
例子:新闻聚类、社会网络分析、市场分组、太空数据分析、鸡尾酒晚会(两人说话,分析出来SVD)

单变量线性回归

假设表示:
cost function:
梯度下降:


同步更新后再计算下一次迭代

线性代数

矩阵
向量(vector)
矩阵+矩阵
矩阵×标量(Scalar multiplication)
矩阵×向量
矩阵×矩阵
矩阵性质
Identity Matrix
inverse
A is an m×m matrix; ;不是所有矩阵都有逆
Transpose,倒置

2 多变量线性回归

multiple features(variables)

,则

梯度下降

feature scaling

使每个feature位于-1~1之间

平均归一化

Learning Rate

非线性转换

房子的面积 = 长 × 宽

多项式回归
choose

Normal Equation

梯度下降 Normal Equation(m samples,n features)
需要选择 不需要选择
需要多次迭代 不需要迭代
需要计算
n很大也可以 n很大时计算很慢

3 逻辑回归

分类

,有限个离散值

使用线性回归的问题

假设表征

sigmod function/logistic function
表示y=1在输入x时的可能性

判决边界(Decision Boundary)


Decision Boundary
Non-linear decision boundaries

cost function

使用均方作为cost function是非凸,不能保证全局最优

(log_a(x))'=1/(xlna)

简化cost function,梯度下降


计算可得:

与线性回归一样是因为

高级优化

Conjugate gradient
BFGS
L-BFGS

多分类

one-vs-all(one-vs-rest)
针对每个类别

三种数据以120度均分圆平面的数据会有分类错误。

4 神经网络:表征

非线性假设

把特征非线性化

计算机视觉:判别图像是否为Car
50*50pixel->2500features if gray 7500if GRB

神经元与大脑

起源:模拟大脑
发展:80年代、90年代使用广泛
现在:很多应用的最高水平

one learning algorithm 假设,大脑中学习触觉、听、视觉都是同一种算法,例子:人回声听位(声呐)

表征

logsitic unit

sigmod(logistic) activation function
x0: bias unit

Neural Network

每层均有bias unit
Input Layer: 1
Hidden Layer: n
Output Layer: 1

"activation" of unit i in layer j
matrix of weights controlling function mapping form layer j to layer j+1,

Layer j层个节点,j+1层,则的维度为

神经网络学习它自己的特征,隐藏层可以有多层

例子

非线性分类例子 XOR/XNOR

多分类

multiple output units:one-vs-all
y是向量而不是离散值

5 神经网络:学习

cost function

L:total no. of layer in network
sl:no. of units(not counting bias unit) in layer l

Backpropagation algorithm

Forward propagation
Intuition
"error" of node j in layer l
For each output unit(Layer L=4)
Set
for i=1 to m
set
Perform forward propagation to computer for l = 2,3,...L
Using ,compute
Compute


unrolling parameters

Theta1,Theta2....
D1,D2...

Gradient checking

可以使用很小的变量,计算出导数,


每个增加分别计算获得gradApprox(j),检查gradApprox 约等于 Dvec

Random Initialization

ALL

No. input units: x
No. output units: y
reasonable default: 1 hidden layer or if >1, have same no. of hidden units in every layer(usually the more the better)

6 神经网络:设计

7 SVM

8 非监督学习

9 推荐

10 大规模机器学习

11 应用实例

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注