@gump88 2016-09-08T14:47:43.000000Z 字数 1839 阅读 1921

title: 机器学习笔记(七)Logistic Regression

机器学习笔记(七) 初探Logistic Regression

date: 2015-08-09 10:18:55

`MachineLearning`

1. Logistic Regression的导出

对于一般的线性回归而言，会有

$y = w^Tx +b$ ，但是如果y和x之间不存在这种线性关系时，这种模型就是不成立的。这时，我们可以考虑用线性模型的预测值去逼近y的衍生物，例如，

$g(y)$ ，这样可以得到

$g(y) = w^Tx + b$ ，从而得到

$y = g^{-1}(w^Tx + b)$ ，当这里的

$g^{-1}()$ 取 Sigmoid函数时

$y = \frac{1}{1 + e^{-x}}$ ，该模型就成为Logistic Regression：

$y = \frac{1}{1 + e^{-(w^Tx+b)}}$ 。
Sigmoid函数

2. 学习方法

这里使用最大似然估计方法学习参数 $w$ ，似然函数写成

$\prod_{i = 1}^{N}(p_i^{y_i} (1 - p_i)^{1 - y_i})$ ，其中

$p_i(x) = \frac{1}{1 + e^{-(w^Tx+b)}}$ 。

一般地，我们不直接对上述似然函数求解，而是将其转化为对数似然函数：

$L(w) = \sum_{i = 1}^N(y_ilnp_i + (1 - y_i)ln(1 - p_i))$ ，最大化似然函数等价于最小化

$-L(w)$ ，常常采用的方法有梯度下降法、牛顿法等。下面给出梯度下降法的求解过程：

$-L(w) = \sum_{i = 1}^{N}(y_iln(1 +e^{-(w^Tx_i + b)}) + (1 - y_i)(w^Tx_i+b + ln(1 + e^{-(w^Tx_i + b)})))$

$=\sum_{i = 1}^{N}((1 - y_i)(w^Tx_i + b) + ln(1 + e^{-(w^Tx_i + b)}))$

$= \sum_{i = 1}^{N}(-y_i(w^Tx_i + b) + ln(1 + e^{w^Tx_i + b}))$ (1)

对(1)式求w的偏导数，得到

$\nabla(-L(w)) = \sum_{i = 1}^{N}(-y_ix_i + \frac{x_i}{e^{-(w^Tx_i + b)} + 1}) = \sum_{i = 1}^{N}(-y_ix_i + x_ip(x_i))$

所以，w的更新公式为 $w:= w - \alpha\nabla(-L(w))$ ，这里的 $\alpha$ 是步长。通过迭代，就可以求出最优解 $w^*$ 。

3 随机梯度下降

使用梯度下降存在一些问题，比如，计算梯度时需要遍历所有样本点，计算缓慢；梯度下降容易落到局部最优解。针对这些问题，我们可以使用Stochastic gradient descent，SGD在每次迭代计算时，不是计算所有样本点，而是随机选择一个样本点进行计算

$w:=w-\alpha(-y_ix_i + p_i(x_i)x_i)$ 随机梯度下降收敛速度快，不容易落入局部最优解。

4.预测

求得 $w^{*}$ 后，预测模型即为：

$y = \frac{1}{1 + e^{-(w^{*T}x+b)}}$ ,如果算得y的值大于0.5，一般可以认为类别为1，否则为0。

5.多分类情况

5.1 softmax函数

softmax函数是将多个标量映射为一个概率分布。对K个标量 $x_1,x_2,...,x_k$ ，softmax函数定义为

$z_k = softmax(x_k) = \dfrac{exp(x_k)}{\sum_{i = 1}^{K}exp(x_i)}$

这样我们可以将K个向量 $x_1,x_2,...x_k$ 转换成一个分布： $z_1,z_2,...z_K$ ，满足

$z_k[0,1],\sum_{i = 1}^K z_k= 1$

损失函数：

$J(\theta) = -\dfrac{1}{N}\sum_{i}^N\sum_i^NI(y_i = j)log\dfrac{e^{\theta^Tx}}{\sum e^{\theta^Tx}}$

求解方式：梯度下降

5.2 one vs. one 和 one vs. rest

one vs. one和one vs. rest都是将二分类算法推广到多分类的手段，下面分别简单介绍：

one vs. one：假设训练数据集D中有K个类别，那么对K个类别中的每两个类别之间都训练一个二分类器，一共需要训练 $n =\dfrac{K(K-1)}{2}$ 个分类器。在这n个分类器中，一般采用多数表决的方法，输出最终的类别。
one vs. rest：假设训练数据集D中有K个类别，那么对每个类别和剩下$(K-1)个类别数据训练一个二分类器，一共需要训练K个分类器。在这K个分类其中，一般也采用多数表决的方法，输出最终的类别。