@haoqiang 2018-02-27T05:53:03.000000Z 字数 2402 阅读 60

逻辑回归

机器学习

1. Sigmoid 函数

g (z) = 1 1 + e - z

$g(z)=\frac{1}{1+e^{-z}}$

g' (z) = g (z) (1 - g (z))

$g\prime(z)=g(z)(1-g(z))$

2. 假设函数

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_\theta(x)=g(\theta^{T}x)=\frac{1}{1+e^{-\theta^{T}x}}$

逻辑回归将线性回归的预测值转换成范围是(0,1)的概率值，主要用于二分类。

P (y = 1 | x; θ) P (y = 0 | x; θ) = h θ (x) = 1 - h θ (x) = h θ (- x)

$\begin{aligned} P(y=1|x;\theta)&=h_\theta(x)\\ P(y=0|x;\theta)&=1-h_\theta(x)=h_\theta(-x) \end{aligned}$

输出 $Y$ 的对数几率是输入 $x$ 的线性函数：

log P ( y = 1 | x ; θ ) P ( y = 0 | x ; θ ) = θ T x

$\log{\frac{P(y=1|x;\theta)}{P(y=0|x;\theta)}}=\theta^{T}x$

分离超平面： $\theta^{T}x=0$

当 $\theta^{T}x>0$ 时，预测为1；
当 $\theta^{T}x<0$ 时，预测为0。

3. 损失函数

J (θ) = - 1 m \sum i = 1 m [y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))]

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}{\left[y^{(i)}\log{h_{\theta}(x^{(i)})}+(1-y^{(i)})\log{(1-h_{\theta}(x^{(i)}))}\right]}$

$y^{(i)}$ 为真实类别0或1， $h_{\theta}(x^{(i)})$ 为类别1的预测概率。

4. 梯度下降法

更新第 $j$ 个 $\theta$ ：

θ j : = θ j - α \partial \partial θ j J (θ)

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$

\partial \partial θ j J (θ) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\frac{\partial}{\partial\theta_j}J(\theta)=\frac{1}{m}\sum_{i=1}^{m}{\left(h_{\theta}(x^{(i)})-y^{(i)}\right)}x^{(i)}_j$

5. 用极大似然估计推导损失函数

综合表示条件概率：

P (y | x; θ) = h θ (x) y (1 - h θ (x)) 1 - y

$P(y|x;\theta)=h_\theta(x)^y(1-h_\theta(x))^{1-y}$

似然函数：

L (θ) = \prod i = 1 m P (y (i) | x (i); θ) = \prod i = 1 m h θ (x (i)) y (i) (1 - h θ (x (i))) 1 - y (i)

$L(\theta)=\prod_{i=1}^{m}{P(y^{(i)}|x^{(i)};\theta)}=\prod_{i=1}^{m}h_\theta(x^{(i)})^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}$

对数似然函数：

l (θ) = log L (θ) = \sum i = 1 m [y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))]

$l(\theta)=\log{L(\theta)}=\sum_{i=1}^{m}{\left[y^{(i)}\log{h_{\theta}(x^{(i)})}+(1-y^{(i)})\log{(1-h_{\theta}(x^{(i)}))}\right]}$

J (θ) = - 1 m l (θ)

$J(\theta)=-\frac{1}{m}l(\theta)$

将最大化 $l(\theta)$ 转化为最小化 $J(\theta)$ 。

6. 正则化

J (θ) = - 1 m \sum i = 1 m [y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}{\left[y^{(i)}\log{h_{\theta}(x^{(i)})}+(1-y^{(i)})\log{(1-h_{\theta}(x^{(i)}))}\right]+\frac{\lambda}{2m}\sum_{j=1}^{n}{\theta_j^2}}$

梯度下降
$j=0$ 时，即偏置：

θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0

$\theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^{m}{\left(h_{\theta}(x^{(i)})-y^{(i)}\right)}x^{(i)}_0$

$j>0$ 时，即权重：

θ j : = θ j - α [1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j + λ m θ j]

$\theta_j:=\theta_j-\alpha\left[\frac{1}{m}\sum_{i=1}^{m}{\left(h_{\theta}(x^{(i)})-y^{(i)}\right)}x^{(i)}_j+\frac{\lambda}{m}\theta_j\right]$

7. 多分类

P (Y = k | x) = e θ T k x 1 + \sum K - 1 k = 1 e θ T k x, (k = 1, 2, . . ., K - 1)

$P(Y=k|x)=\frac{e^{\theta_k^{T}x}}{1+\sum_{k=1}^{K-1}{e^{\theta_k^{T}x}}}, (k=1,2,...,K-1)$

P (Y = K | x) = 1 1 + \sum K - 1 k = 1 e θ T k x

$P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}e^{\theta_k^{T}x}}$