@mShuaiZhao 2017-11-23T12:56:38.000000Z 字数 2318 阅读 427

Chapter 3

`Micheal_Nielson_Book(NNDL)` `2017.11`

Chapter 3

ref1: http://neuralnetworksanddeeplearning.com/chap3.html
ref2: https://en.wikipedia.org/wiki/Binary_entropy_function

Improving the way neural networks learn

cross-entropy cost function

activation function - sigmoid function
注意在不使用sigmoid函数的情况下，情况有很大不同。
使用quadratic cost function
权重和偏置的更新速度与激活函数的倒数成正相关(可以说是正比)。
回想sigmoid函数的图像，在函数值接近0和1的时候曲线十分平缓，梯度较小，导致学习速度变慢。
当初始化的初值偏离正确值很大时，会有一段缓慢学习的过程。
接近正确值时，学习速度也会变得缓慢。
信息论相关
- 信息量
  $r.v. X$ 是离散型随机变量，取值集合为 $\chi$ ，概率分布函数为 $p(x)=Pr(X=x)$ ，对于一个事件 $X=x_0$ ，定义其信息量为
  
  $\begin{align*} I(x_0) = -log\big( p(x_0) \big) \end{align*}$
  一个事件，发生的概率越大信息量越小。
- 熵
  $r.v. X$ 所有可能取值的信息量的期望
  
  $\begin{align*} H(X) &= E_p \big( I(x) \big) \\ &= -\sum\limits_{x \in \chi} p(x) log\big( p(x) \big) \end{align*}$
  如果 $r.v.X$ 是连续型随机变量，改为积分。
  约定， $when \ p(x) \to 0, \ p(x) log\big( p(x) \big) \to 0$ 。
  底数为2，单位为 $"bit"$ ；底数为 $e$ ，单位为“奈特”。
  不确定度越大，熵越大。
- 相对熵
  relative entropy，又称为KL离散度(Kullback-Leibler divergence)，KL距离。
  是两个随机分布间距的度量。
  
  $\begin{align*} D_{KL}(p \parallel q) &= E_p ( log\frac{p(x)}{q(x)}) \\ &= \sum\limits_{x \in \chi} p(x) log\big( \frac{p(x)}{q(x)} \big) \\ &= \sum\limits_{x \in \chi} p(x) log\big( p(x) \big) -\sum\limits_{x \in \chi} p(x) log\big( q(x) \big) \\ &= -H(p) + E_p(-log(q(x))) \\ &= H_p(q) - H_p(p) \end{align*}$
  度量当真实分布为p时，假设分布q的无效性。
  $p=q$ 时，相对熵为0。
  约定， $0\log \frac{0}{0}=0，0\log \frac{0}{q}=0，p\log \frac{p}{0}=\infty$ 。
  
  上式最后的 $H_p(q)$ 表示在 $p$ 分布下，使用 $q$ 进行编码需要的bit数，而 $H(p)$ 表示对真实分布 $p$ 所需要的最小编码bit数。基于此，相对熵的意义就很明确了： $D_{KL}(p \parallel q)$ 表示在真实分布为 $p$ 的前提下，使用 $q$ 分布进行编码相对于使用真实分布 $p$ 进行编码（即最优编码）所多出来的bit数。
- 交叉熵
  有两个分布 $p,q$ ，他们的交叉熵定义如下
  
  $\begin{align*} CEH(p,q) &= E_p[-\log(q) ] \\ &= -\sum\limits_{x \in \mathcal{X} } p(x)\log q(x) \\ &= H(p)+D_{KL}(p \parallel q) \end{align*}$
  若 $p$ 已知， $H(p)=constant$ ，交叉熵与KL距离等价，都反应了 $p,q$ 的相似程度。
  Q1：交换 $p,q$ 会如何？
  Q2：binary entropy的情况？
使用cross-entropy作为cost function
消去了sigmoid函数的导数项，更新速度取决于输出与activation的值。

Regularization

避免overfitting

L2 regularization

$\begin{eqnarray} C = C_0 + \frac{\lambda}{2n}\sum_w w^2 \notag \end{eqnarray}$
偏向小权重，有权重衰减效果。
L1 regularization

$\begin{align*} C = C_0 + \frac{\lambda}{n} \sum_w |w| \end{align*}$
有

$\begin{eqnarray} \frac{\partial C}{\partial w} = \frac{\partial C_0}{\partial w} + \frac{\lambda}{n} \, {\rm sgn}(w) \notag \end{eqnarray}$
惩罚大的权重，偏向小的权重。
Dropout

This technique reduces complex co-adaptations of neurons, since a neuron cannot rely on the presence of particular other neurons. It is, therefore, forced to learn more robust features that are useful in conjunction with many different random subsets of the other neurons.

Chapter 3

Micheal_Nielson_Book(NNDL) 2017.11

cross-entropy cost function

Regularization

内容目录

`Micheal_Nielson_Book(NNDL)` `2017.11`