@xuchongfeng 2018-01-08T13:40:58.000000Z 字数 1116 阅读 137

逻辑斯蒂回归与最大熵模型

机器学习 logistic-regression maximum-entropy

逻辑斯蒂回归和最大熵模型都是对数线性模型。

设 $X$ 是连续随机变量， $X$ 服从逻辑斯蒂分布是指 $X$ 具有下列分布函数和密度函数：
$\mu$ 为位置参数， $\gamma > 0$ 为形状参数

$F(x) = P(X \leq x) = \frac{1}{1+e^{-(x-\mu)/\gamma}}$

$f(x) = F^{'}(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma{(1+e^{-(x-\mu)/\gamma})}^2}$

定义：二项逻辑斯蒂回归模型是如下的条件分布：

$P(Y=1|x) = \frac{exp(w*x+b)}{1+exp(w*x+b)}$

$P(Y=0|x) = \frac{1}{1+exp(w*x+b)}$

将权值向量和输入向量加以扩充，仍记作 $w,x$ ，即 $w = {(w^1, w^2, ... w^n, b)}^T, x = {(x^1, x^2, ..., x^n, 1)}^T$ ，则

$P(Y=1|x) = \frac{exp(w*x)}{1+exp(w*x)}$

$P(Y=0|x) = \frac{1}{1+exp(w*x)}$

一个事件的几率是指事件发生的概率和事件不发生的概率的比值。

$logit(p) = log\frac{p}{1-p}$

$logit(p) = log\frac{P(Y=1|x)}{1-P(Y=1|x)} = w*x$

采用最大似然估计法

$P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x)$
似然函数为

$\prod_{i=1}^{N}{[\pi(x_i)]}^{y_i}{[1-\pi(x_i)]}^{1-y_i}$
对数似然函数

$\begin{align*} L(w) &= \sum_{i=1}^{N} [y_i log\pi(x_i) + (1-y_i)log(1-\pi(x_i))] \\ &= \sum_{i=1}^{N}[y_i(w*x_i) - log(1+exp(w*x_i))] \end{align*}$

使用梯度下降，或者拟牛顿法进行求解。

最大熵原理可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散型随机变量 $X$ 的概率分布为 $P(X)$ ，则其熵为

$H(P) = -\sum_{x}P(x)logP(x)$

对于给定的训练数据集 $T=\{(x_1, y_1), (x_2, y_2), ... ,(x_N, y_N)\}$ 以及特征函数 $f_i(x,y),i=1,2,...,n$ ，最大熵模型的学习等价于约束最优化问题：

$\max_{P \in C} H(P) = -\sum_{x,y}P^~(x)P(y|x)logP(y|x)$