[关闭]
@haoqiang 2018-03-06T07:43:46.000000Z 字数 3310 阅读 104

线性回归

机器学习


1. 假设函数

h(x)=i=0nθixi=θTx

其中,θ为权重,x为样本,xi为特征,x0=1


2. 最小二乘损失函数

J(θ)=12i=1m(hθ(x(i))y(i))2

目标:寻找θ,使理论值hθ(x(i))接近于观测值y


3. 求解

将损失函数改写成矩阵形式:

J(θ)=12(Xθy)T(Xθy)

当导数为0时,取到极小值:

θJ(θ)=θ12(Xθy)T(Xθy)=12θ(θTXTXθθTXyyTXθ+yTy)=12(XTXθ+XTXθ2XTy)=XTXθXTy

θJ(θ)=0,可得:θ=(XTX)1XTy


4. 用极大似然估计解释为什么选择最小二乘

y(i)=θTx(i)+ε(i)

其中,y(i)为观测值,h(x)=θTx(i)为理论值,ε(i)为预测误差。

ε(i)N(0,σ2),即:

p(ε(i))=12πσexp((ε(i))22σ2)

y(i)N(θTx(i),σ2),即:

p(y(i)|x(i);θ)=12πσexp(y(i)θTx(i))22σ2

p(y(i)|x(i);θ)表示给定x(i)θ后,y(i)的分布。

极大似然估计

L(θ)=i=1mp(y(i)|x(i);θ)=i=1m12πσexp(y(i)θTx(i))22σ2

maxL(θ)等价于maxlogL(θ)

l(θ)=logL(θ)=logi=1m12πσexp((y(i)θTx(i))22σ2)=i=1mlog12πσexp((y(i)θTx(i))22σ2)=mlog12πσ1σ2(12i=1m(y(i)θTx(i))2)

maxl(θ)等价于:

min12i=1m(y(i)θTx(i))2

即最小二乘损失函数。


5. 正则化

J(θ)=12mi=1m(hθ(x(i))y(i))2+λj=1nθ2j

注意:θ0为偏置,不加正则。

梯度下降
j=0时,即偏置:

θ0:=θ0α1mi=1m(hθ(x(i))y(i))x(i)0

j>0时,即权重:

θj:=θj(1αλm)α1mi=1m(hθ(x(i))y(i))x(i)j

其中,αλm略小于1,每次更新后会削减权重。


6. 扩展

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注