@mShuaiZhao 2018-03-31T13:02:16.000000Z 字数 4415 阅读 843

backpropagation

CNN 2017.10

backpropagation
前馈神经网络的反向传播算法

前馈神经网络的反向传播算法

1. 图例和符号规范

前馈神经网络（Feedforward Neural Network），为人工智能领域中，最早发明的简单人工神经网络类型。在它内部，参数从输入层向输出层单向传播。有异于递归神经网络，它的内部不会构成有向环。（就是多层感知机）

微分的chain rule和简单的前馈神经网络误差反向传播模型如下图所示。

nn_1

微分的chain rule和简单的前馈神经网络模型

图片来自1。

本质上，现在所见的反向传播算法都是基于chain rule的。
变量 $z$ 与 $y$ 相关， $y$ 又与 $x$ 相关，那么存在：

$\frac{\partial z}{\partial x} = \frac{\partial z}{\partial y} \frac{\partial y}{\partial x} \tag{1}$

一些符号的定义：

$w_{jk}^l$ ：连接第 $(l-1)^{th}$ 层神经网络第 $k^{th}$ 神经元和第 $l^{th}$ 层神经网络第 $j^{th}$ 个神经元的边的权重。

nn_2

边的权重示意

$b_j^l$ ：第 $l^{th}$ 层神经网络第 $j^{th}$ 个神经元的偏置量。

nn_3

神经元的偏置量示意

$a_j^l$ ：第 $l^{th}$ 层神经网络第 $j^{th}$ 个神经元的activation value。
$\sigma$ ：神经元对应的activation function。
对应的，有

$a_j^l = \sigma \Big( \sum\limits_k( w_{jk}^l a_k^{l-1} ) + b_j^l \tag{2}$

对于每层神经网络，定义一个权重矩阵 $\mathbf{w^l}$ ， $j^{th}$ 行、 $k^{th}$ 列的矩阵元素就是连接第 $(l-1)^{th}$ 层神经网络第 $k^{th}$ 神经元和第 $l^{th}$ 层神经网络第 $j^{th}$ 个神经元的边的权重 $w_{jk}^l$ 。

可以将前馈神经网络的前向计算过程写为：

$\begin{align} \mathbf{ a^l } &= \sigma \Big( \mathbf{ w^l a^{l-1} } + \mathbf{ b^l } \Big) \tag{3}\\ \mathbf{z^l} &= \mathbf{ w^l a^{l-1} } + \mathbf{ b^l } \tag{4} \\ \mathbf{ a^l } &= \sigma ( \mathbf{z^l} ) \tag{5} \end{align}$

不失一般性，定义样本整体的loss function为平方损失函数

$C = \frac{1}{2n} \sum\limits_x \parallel \mathbf{ y(x) } - \mathbf{a^L}(x) \parallel^2 \tag{6}$

$L$ 是神经网络的深度(总的网络层数)， $\mathbf{a^L} = \mathbf{a^L}(x)$ 是当网络的输入是 $x$ 时网络的输出。

这里有两个假设前提

第一，loss function可以写为多个训练样本的平均， $C=\frac{1}{n}\sum\limits_x C_x$ 。对于单个训练样本，存在 $C_x = \frac{1}{2}\parallel y - a^L \parallel^2$ 。

第二，loss function可以被表示为与神经网络的输出相关的函数。

2. Vanilla Backpropagation

vanilla是香草的意思，这里vanlilla backpropagation指的是由2提出来的标准的反向传播学习算法。也叫做online backpropagation，因为每次都只输入一个training pattern(一个样本)。

这个名字是无关紧要的。
进行batch learning时，仅仅进行简单的累加和平均。

反向传播算法的目的是找到误差关于权重系数和偏置系数的偏导(梯度)，由此我们可以利用梯度下降(SGD等)的方法来进行权重系数和偏置系数的更新。
我们最终的目的是求得网络中误差关于其对应的权重系数和偏置系数的偏导的量化表达。即求得 ${\partial C} / {\partial w_{jk}^l }$ 和 ${\partial C} / {\partial b_j^l }$ 。
定义 $\delta_j^l$ 为第 $l$ 层神经网络的第 $j$ 个神经元所产生的error(或称为sensitivity,敏感、扰动之意)。

有如下定义

$\delta_j^l \equiv \frac{ \partial C }{ \partial z_j^l } \tag{7}$
可以单纯把其当做一个数学符号(或者“代号”)。

对于输出层而言

$\delta_j^L = \frac{ \partial C }{ \partial a_j^L } \sigma^\prime(z_j^L) \tag{8}$

$\textit{Proof.}$

$\begin{align} \delta_j^L &= \frac{ \partial C }{ \partial z_j^L } \nonumber \\ &= \sum\limits_k \frac{ \partial C }{ \partial a_k^L } \frac{ \partial a_k^L }{ \partial z_j^L } \nonumber \\ &= \frac{ \partial C }{ \partial a_j^L } \frac{ \partial a_j^L }{ \partial z_j^L } \nonumber \nonumber \\ &= \frac{ \partial C }{ \partial a_j^L } \sigma^\prime(z_j^L) \tag{9} \end{align}$

只有当 $k=j$ 时， $a_k^L$ 与 $z_j^L$ 才相关。
这样，输出层的error用矩阵形式可写为

$\begin{align*} \bigtriangledown_a C &= \mathbf{a^L} - \mathbf{y} \nonumber \\ \mathbf{\delta^L} &= ( \mathbf{a^L} - \mathbf{y} ) \odot \sigma^\prime( \mathbf{z^L} ) \end{align*}$

符号 $\odot$ 和matlab中的 $.*$ 运算代表的意思相同(点乘)，相同形式的两个矩阵对应位置上的元素相乘。

$(l+1)^{th}$ 层的error与 $l^{th}$ 层的sensitivity之间的关系如下

$\mathbf{ \delta^{ l } } = \mathbf{ \Big( ( w^{l+1} )^T \delta^{ l+1 } \Big) } \odot \sigma^\prime( \mathbf{z^l} ) \tag{10}$

这个公式说明了为什么误差是反向传播的，解释了文章开始的图中中为什么误差的传播与前向传播的过程相反。是前馈神经网络中误差反向传播的核心。

也可以理解为前向计算过程中，误差是逐步累积的，现在再迭代回去求每层的误差。

$\textit{Proof.}$

$\begin{align*} \delta_j^l &= \frac{ \partial C }{ \partial z_j^l } \nonumber \\ &= \sum\limits_k \frac{ \partial C }{ \partial z_k^{l+1} } \frac{ \partial z_k^{l+1} }{ \partial z_j^l } \nonumber \\ &= \sum\limits_k \frac{ \partial z_k^{l+1} }{ \partial z_j^l } \delta_k^{l+1} \end{align*}$
有

$\begin{align*} z_k^{l+1} &= \sum\limits_i \Big( w_{ki}^{l+1} a_i^l \Big) + b_k^{+1} \\ z_k^{l+1} &= \sum\limits_i \Big( w_{ki}^{l+1} \sigma( z_i^l ) \Big) + b_k^{+1} \\ \frac{ \partial z_k^{l+1} }{ \partial z_j^l } &= w_{kj}^{l+1} \sigma^\prime( z_j^l ) \tag{11} \\ \delta _j^l &= \sum\limits_k w_{kj}^{l+1} \delta_k^{l+1} \sigma^\prime( z_j^l ) \end{align*}$
公式(11)中是因为只有当

$i=j$ 的时候二者才相关，其余情况都等于0。

sensitivity关于偏置系数的偏导为

$\frac{\partial C}{\partial b_j^l } = \delta_j^l \tag{12}$

$\textit{Proof.}$

$\begin{align*} \frac{\partial C}{\partial b_j^l } &= \frac{ \partial C }{ \partial z_j^l } \frac{ \partial z_j^l }{ b_j^l } \nonumber \\ \frac{ \partial z_j^l }{ b_j^l } &= 1 \nonumber \\ \frac{\partial C}{\partial b_j^l } &= \frac{ \partial C }{ \partial z_j^l } \nonumber \\ \frac{\partial C}{\partial b_j^l } &= \delta_j^l \nonumber \end{align*}$

cost关于权重系数的偏导为

$\frac{\partial C}{ \partial w_{jk}^l } = a_k^{l-1} \delta_j^l \tag{13}$

$\textit{Proof.}$

$\begin{align} \frac{\partial C}{ \partial w_{jk}^l } &= \frac{\partial C}{ \partial z_j^l } \frac{\partial z_j^l }{ \partial w_{jk}^l } \nonumber \\ \frac{\partial C}{ \partial w_{jk}^l } &= a_k^{l-1} \delta_j^l \nonumber \end{align}$

3. 算法实现

偷懒贴两张图

nn_5

反向传播算法(batch learning)

nn_6

反向传播算法(online learning)

最后，这边文章最重要的参考是3。可以去里面找更多的细节，3也提供了用python实现的简单的前向神经网络的框架，https://github.com/mnielsen/neural-networks-and-deep-learning。

参考文献

1 Y. LeCun, Y. Bengio, G. Hinton. (2015). Deep learning.

2 D.E. Rumelhart and J.L. McClelland. Parallel Distributed Processing, volume 1. MIT Press, 1986.

3 http://neuralnetworksanddeeplearning.com/chap2.html

backpropagation

前馈神经网络的反向传播算法

1. 图例和符号规范

2. Vanilla Backpropagation

3. 算法实现

参考文献

内容目录