@xialu 2017-01-11T04:10:23.000000Z 字数 1959 阅读 1287

逻辑回归

turtorialML

回顾线性回归

输入与输出： $(x_1,y_1)...(x_m,y_m)，其中x_k \in R^n， x_k = \begin{bmatrix} x^{k}_1\\ x^{k}_2\\ ...\\ x^{k}_n\\ \end{bmatrix}$

回归方程： $h^θ(x) = θ_0 + θ_1x^{k}_1~ + ... + θ_nx^{k}_n$

代价函数：我们用代价函数表明当前模型的预测值与真实值的偏离程度

$J(\theta_0,\theta_1...\theta_n) = \frac{1}{2m} * \sum\limits_{i=1}^n(h_\theta(x_i)-y_i)^2$

使 $\Theta=\begin{bmatrix} \theta_0\\ ...\\ \theta_n\\ \end{bmatrix}$ 目标：我们希望得到一个 $\Theta_{min}，使得J(\Theta_{min})获得最小值$
方法，梯度下降：

repeat until $\Delta \theta<?$ {
　　 ${ \theta }_{ j }={ \theta }_{ j }+\alpha ({ y }^{ (i) }-{ h }_{ \theta }({ x }^{ (i) }))$
　　同时对 $\theta_0...\theta_n$ 做操作
}

逻辑回归

线性回归是一个回归算法，目的是预测一个连续的值。
逻辑回归是分类算法，目的是预测某个离散的值。不妨假设只有二分类。

$h^θ(x) = θ_0 + θ_1x^{k}_1~ + ... + θ_nx^{k}_n$ 的结果是一个连续值。
我们想要对它进行转换，使得转换后
1. 大于0小于1
2. 给定一个阈值,小于阈值的为0，大于阈值的为1。
3. 能够反映出： $h^\theta(x)$ 越大，越趋近于1，反之趋近于0，这一特点。
即

$h^θ(x)\in R\\ 0<g(h^θ(x))<1\\ g(h^θ(x))连续，单调递增$

这里我们选择sigmoid函数，它取值空间为(0,1)，单调递增，连续可导，导数形式非常简单，是一个在机器学习领域常见的函数。公式和图形如下：

$g(h^\theta(x))=\frac{1}{1+e^{-h^\theta(x)}}$
至于为什么选择这一个，可以参看：http://www.zhihu.com/question/35322351

我们设 $g_\theta(x)=g(h^\theta(x))$ ， $y^{(i)}$ 为输入变量 $x^{(i)}$ 对应的真实值，那么直接往下看：

代价函数和梯度下降

$J(\theta) = -\frac{1}{m}[\sum\limits_{i=1}^my^{(i)}log(g_\theta(x^{(i)})) - (1-y^{(i)})log(1-g_\theta(x^{(i)}))]$
Target
$\min\limits_\theta J(\theta)$
Repeat {
　　 $\theta_j := \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)$
　　simultaneous update all $\theta_j$
}

这里梯度下降的原理我们清楚，这个代价函数就看不懂了，线性回归是取方差作为代价，这里的log是怎么回事？

代价方程原理推导

想想看，我们想要的代价函数需要有什么性质？
如果真实值为1， $h_\theta(x)$ 越大 $g_\theta(x^{(i)})$ 越趋近于1，也就是预测的越准确。代价函数随 $h_\theta(x)$ 单调递减。
反之，如果真实值为0， $h_\theta(x),$ 代价函数随 $h_\theta(x)$ 单调递增。

先说下为什么不用方差和
download.png-9.4kB

接下来给出代价方程的另一种形式

$J(\theta) = \frac{1}{m}\sum\limits_{i=1}^m\begin{cases} -log(g_\theta(x^{(i)})) & \text{if $y^{(i)}$ = 1}\\ -log(1-g_\theta(x^{(i)})) & \text{if $y^{(i)}$ = 0}\\ \end{cases}$

我们把 $g(h^\theta(x))=\frac{1}{1+e^{-h^\theta(x)}}$ 带入代价方程，得到

$J(\theta) = \frac{1}{m}\sum\limits_{i=1}^m\begin{cases} log(1+e^{-h_\theta(x)}) & \text{if $y^{(i)}$ = 1}\\ log(1+e^{h_\theta(x)}) & \text{if $y^{(i)}$ = 0}\\ \end{cases}$

满足最初提到的性质。
以上证明了逻辑回归代价函数的合理性，而推导过程涉及到最大似然估计，见http://blog.csdn.net/zouxy09/article/details/20319673#python

逻辑回归

回顾线性回归

逻辑回归

代价函数和梯度下降

代价方程原理推导

内容目录

选择主题