@devilloser 2018-12-18T07:39:04.000000Z 字数 6353 阅读 1726

从信息论到GAN

deeplearning

本文希望能从信息论开始整理，最后完成以信息论为基础的生成对抗网络的发展思路。
本文讨论的文章如下：
GAN
LSGAN
DCGAN
WGAN
WGAN-GP
DRAGAN
EBGAN
BGAN
SGAN
bayesian gan
条件生成型GAN:
CGAN
ACGAN
infoGAN
CycleGAN
StarGAN
目录

信息论

信息量与信息熵

目的是对一个信号的信息量进行量化。
信息熵：接收的每条消息中包含的信息的平均量，
（1）单调性：越不可能发生的事信息量越大,比如国足输了比国足赢了信息量要小
（2）非负性：信息熵不能为负，不能在得到信息之后不确定性更大
（3）累加性：多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和，即 $H(A,B)=H(A)+H(B)$
定义X=x事件的自信息量为： $I(x)=-log(P(x))$
定义变量X的信息熵为： $H(X)=E_{x\sim p}I(x)=-E_{x\sim p}(log(x))$

K-L散度（Kullback-Leibler Divergence）

对两个不同的分布P(x)和Q(x)，可以用K-L散度度量两个分布的差值：

$D_{KL}(P||Q)=E_{X\sim P}(log\frac{P(x)}{Q(x)})\\=E_{X\sim P}log(P(x))-E_{X\sim P}(log(Q(x))$
K-L散度具有非负性，可证：

$D_{KL}=E_{X\sim P}(log\frac{P(x)}{Q(x)})\\\\=-E_{x\sim P}(log\frac {Q(x)}{P(x)}) \\\\ \geqslant -log(E_{X\sim P}(\frac{Q(x)}{P(x)})\\=-log(\sum Q(x))=0$
K-L散度的问题是只有三角不等式和非负性，没有共轭对称性，不是一个距离空间。

交叉熵（cross entropy)

$H(P,Q)=H(P)+D_{KL}(P||Q)=-E_{X\sim P}log(Q(x))$
这里因为真实样本分布的信息熵为确定值，所以最小化交叉熵就是在最小化K-L散度
当真实样本服从概率为P的(0,1)分布，即

$X\sim B(1,P)$
同时预测样本分布服从概率为Q的(0,1)分布，即

$X\sim B(1,Q)$
则：

$H(P,Q)=-E_{X\sim P}log(Q(x))\\=-P_P(x=1)log(P_Q(x=1))-P_P(x=0)log(P_Q(x=0))\\=-Plog(Q)-(1-P)log(1-Q)$
cross entropy的优势：
（1）对logits来说交叉熵是凸函数，平方损失函数非凸，二阶导数可能小于0
（2）交叉熵的梯度为:

$\frac{\partial L}{\partial \theta_j}=-\sum_i(y_i-h_i(x))x_{ij}$
平方损失函数为：

$\frac{\partial L}{\partial \theta_j}=-\sum_i(y_i-h_i(x))h_i^{'}(x_j)$
在sigmoid激活函数中可能会梯度消失。

极大似然估计

假设有m个样本的数据集，由未知的真实数据分布 $p_{data}(x)$ 独立生成。令 $p_{model}(x;\theta)$ ,为由 $\theta$ 确定的概率分布，确定的概率分布， $p_{model}(x;\theta)$ 将任意输入将任意输入x映射到实数来估计真实概率映射到实数来估计真实概率 $p_{data}(x)$

$\theta^*=arg\max_{\theta}\prod_{i=1}^mP_{model}(x^i,\theta)=arg\max_{\theta}log(\prod_{i=1}^mP_{model}(x^i,\theta))\\=arg\max_{\theta}\sum_{i=1}^mlog(P_{model}(x^i,\theta))\approx arg\max_{\theta}E_{X\sim P_{data}}log(P_{model}(x^i,\theta))\\=arg\max_{\theta}E_{X\sim P_{data}}log(P_{model}(x^i,\theta))-E_{x\sim P_{data}}log(P_{data}(x))\\=arg\min_\theta D_{KL}(P_{data}(x)||P_G(x;\theta))$
数据集越大，抽样越能代表真实数据的分布，更能认为是等于。

GAN

$\min_G \max_DV(D,G)=E_{x\sim P_{data}(x)}log(D(x))+E_{z\sim P_{z}(z)}log(1-D(G(z)))\\=E_{x\sim {Pdata(x)}}log(D(x))+E_{x\sim P_G(x)}log(1-D(x))$
从公式把握思想：
判别器D：
当

$x\sim P_{data}(x)$ 时,最大化

$E_{x\sim P_{data}(x)}log(D(x))$ 的目的是令判别器在x服从data的概率分布时能准确的预测
当

$x\sim P_G(x)$ 时，最大化

$E_{x\sim P_G(x)}log(1-D(x))$ 的目的是当x服从生成数据的分布时，判别器

$D(x)=0$
生成器G:
最小化

$E_{x\sim P_G(x)}log(1-D(x))$ 是让判别器

$D(x)=1$

理论推导

对于最优判别器：

$f(D(x))=\int_xP_{data}(x)log(D(x))+P_G(x)(log(1-D(x))$

$f'(D(x))=\frac{P_{data}(x)}{D(x)}-\frac{P_G(x)}{1-D(x)}=0\Rightarrow D^*(x)=\frac{P_{data}(x)}{P_{data}(x)+P_{G}(x)}$

$f''(x)<0$
所以

$V(D,G)=\int_xP_{data}(x)log(D(x))+P_G(x)(log(1-D(x)) \\\leqslant\int_xP_{data}(x)log(\frac{P_{data}(x)}{P_{data}(x)+P_{G}(x)})+P_G(x)log(\frac{P_{G}(x)}{P_{data}(x)+P_{G}(x)}) \\=\int_x-P_{data}(x)log2+P_{data}(x)log(\frac{P_{data}(x)}{\frac{P_{data}(x)+P_{G}(x)}{2}})+(-P_{G}(x)log2)+P_G(x)log(\frac{P_{G}(x)}{\frac{P_{data}(x)+P_{G}(x)}{2}}) \\=-log4+D_{KL}(P_{data}||\frac{P_{data}+P_G}{2})+D_{KL}(P_{G}||\frac{P_{data}+P_G}{2})$

JS散度

$JSD(P||Q)=\frac{1}{2}D(P||M)+\frac{1}{2}D(Q||M)$

$M=\frac{1}{2}(P+Q)$
解决了K-L散度没有对称性的缺点

$V(D,G)\leqslant-log4+2JSD(P_{data}||P_G)$
所以生成器最优时：

$JSD(P_{data}||P_G)=0$

GAN的问题

（1）梯度不稳定
（2）模型崩塌

原因

（1）我们将真实数据和生成数据通过判别器从高维流形映射到低维流形比较，当判别器很好时，且生成数据的低维流形与真实数据的低维流形不存在重合，

$V(D,G)=-log4+D_{KL}(P_{data}||\frac{P_{data}+P_G}{2})+D_{KL}(P_{G}||\frac{P_{data}+P_G}{2})=0$
因为

$x\sim P_{data}$ 时

$P_G=0$ ,

$D_{KL}(P_{data}||\frac{P_{data}+P_G}{2})=D_{KL}(P_{data}||\frac{P_{data}}{2})=log2$
同理另一项也为

$log2$ ,梯度消失。而且JSD散度没法衡量不重合的两个分布中间到底距离有多大。

GAN的改进

$E_{x\sim P_{G}}(-logD(x))$
在最优判别器的情况下用散度表示：

$E_{x\sim P_G}[-logD(x)]=D_{KL}(P_G||P_{data})-2JS(P_{data}||P_G)+2log2+E_{x\sim P_{data}}logD(x)$
（1）最小化

$E_{x\sim P_{data}}(-logD(x))$ 会同时最小化

$D_{KL}(P_G||P_{data})$ 的同时最大化

$2JS(P_{data}||P_G)$ ,非常矛盾
（2）同时前面一项时

$D_{KL}(P_G||P_{data})$
当

$P_G=0$ ，

$P_{data}=1$ 时，

$D_{KL}(P_G||P_{data})=0$ ，生成器生成了不真实的数据，惩罚小
当

$P_G=1$ ，

$P_{data}=0$ 时，

$D_{KL}(P_G||P_{data})=+\infty$ ，生成器生成了不存在的数据，惩罚大
多样性降低

Least Squares Generative Adversarial Networks

f散度族

这是JS散度的推广：

$D_f(P_r||P_g)=\int_xP_g(x)f(\frac{P_r(x)}{P_g(x)})dx$
其中需要满足f是凸函数，且

$f(1)=0$ 。
同样

非 负

$D_f(P_r||P_g)非负$

LSGAN

Loss:

$\min_DV_{LSGAN}(D)=\frac{1}{2}E_{x\sim P_{data}(x)}(D(x)-b)+\frac{1}{2}E_{z\sim P_{z}(z)}(D(G(z))-a)$

$\min_GV_{LSGAN}(G)=\frac{1}{2}E_{z\sim P_z(z)}(D(G(z))-c)$
令

$b-a=2$ ，

$b-c=1$ :
对于最优判别器：

$D^*(x)=\frac{bP_{data}+aP_g}{P_{data}+P_g}$
代入得：

$2V_{LSGAN}(D,G)=\int_\chi \frac{(b-c)(P_{data}(x)+P_g(x))-(b-a)P_g(x)}{P_{data}(x)+P_g(x)}dx \\=\int_\chi \frac{P_g(x)-P_{data}(x)}{P_d(x)+P_g(x)}dx\\= \chi^2_{Pearson}(P_{data}+P_g||2P_g)$
选择

$\chi^2_{Pearson}$ 散度的原因是不会梯度消失，对离群点（fake sample）惩罚更大，缺点是多样性小了，也又f散度的通病

DCGAN

一些guidelines:
（1)用strided convolutions代替pooling
（2）除了generator的output用Tanh其余用ReLU
（3）在G和D中用batchnorm
（4）去掉了fully connected hidden layers
（5）discriminator中用LeakyReLU

WGAN

Wasserstein distance

$W(P_{data},P_{G})=\inf_{\gamma\in\prod(P_{data},P_G)}E_{(x,y)\sim \gamma}(||x-y||)$
其中

$\prod(P_{data},P_G)$ 是联合概率分布
论文中的example 1:

$P_0$ 服从

分 布 服 从 的 随 机 分 布

$(0,z)分布,z服从(0,1)的随机分布$

$P_\theta$ 服从

分 布 服 从 的 随 机 分 布

$(\theta,z)分布,z服从(0,1)的随机分布$
TIM截图20180128164224.png-34.3kB

Wasserstein distance理论

（1）当G对 $\theta$ 连续时，Wasserstein distance对 $\theta$ 连续
证明：

$W(P_{\theta},P_{\theta'})=\inf_{\gamma\in(P_{\theta},P_{\theta'})}E_{(x,y)\sim\gamma}||x-y||\\\leqslant\int_{\chi\times\chi}||x-y||d\gamma \\=E_{(x,y)\sim \gamma}||x-y|| \\=E_z||g_\theta(z)-g_{\theta'}(z)||$
如果G对

$\theta$ 连续，

$W(P_{\theta},P_{\theta'}) \leqslant E_z||g_\theta(z)-g_{\theta'}(z)||\rightarrow_{\theta\rightarrow\theta'}0$

$\therefore |W(P_r,P_\theta)-W(P_r,P_{\theta'})|\leqslant W(P_\theta,P_{\theta'})\rightarrow_{\theta\rightarrow\theta'}0$
（2）如果G满足Lipschitz定理，则wasserstein distance处处连续，而且几乎处处不相等
Lipschitz定理：存在常数

$K>0$ ，满足

$|f(x_1)-f(x_2)|\leqslant K|x_1-x_2|$
证明：

$||g_\theta(z)-g_{\theta'}(z')||\leqslant L(\theta,z)(||\theta-\theta'||+||z-z'||)$
求期望而且认为

与

$z与z'$ 相等，

$E_z||g_\theta(z)-g_{\theta'}(z)||\leqslant||\theta-\theta'||E_z(L(\theta,z))$
定义

$L(\theta)=E_z(L(\theta,z))$

$\therefore |W(P_r,P_\theta)-W(P_r,P_{\theta'})|\leqslant W(P_\theta,P_{\theta'})\leqslant L(\theta)||\theta-\theta'||$
所以Wasserstein distance满足Lipschitz定理，即W距离在任意

$\theta$ 处连续，且导数不会是无穷
（3） Wasserstein distance比KL散度，JS散度更适合从一个分布的低维映射学习到该分布
证明：暂略，看不懂

WGAN Loss

$W(P_r,P_\theta)=\sup_{||f||_L\leqslant 1}E_{x\sim P_r}(f(x))-E_{x\sim P_\theta}(f(x))$
这里将K改成了1，因为K只会让f的梯度变成K倍，可以通过对W的clip让

$||f||_L$ 满足条件，然后由于是比较两个低维分布的Wasserstein distance，所以需要将softmax去掉，然后近似的将下式看作W距离
所以问题等价成了：

$\min_g\max_w L=E_{x\sim P_r}(f_w(x))-E_{x\sim P_g}(f_w(x))$
所以，WGAN只改动了四点：
(1)判别器最后一层去掉sigmoid
(2)生成器和判别器的loss不取log
(3)每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c
(4)不要用基于动量的优化算法（包括momentum和Adam），推荐RMSProp，SGD也行
最后一条是玄学