@Feiteng 2015-07-11T13:40:59.000000Z 字数 6543 阅读 19611

分分钟推导神经网络

Feiteng Email：lifeiteng0422@gmail.com
原文发在[分分钟推导神经网络],但网站不能解析Latex，转到这里。

对矩阵、向量求导的“秘密法则”
以MLP(多层感知器)为例，谈谈神经网络的求导

一、快速矩阵、向量求导

这一节展示对矩阵、向量求导过程使用链式法则、转置、组合等技巧来快速完成求导
一个原则维数相容，这是我发明的词汇，实质是多元微分基本知识：

维数相容就是，如果 $x\in R^{m\times n}, f(x)\in R^1$ ,那么 $\frac{\partial f(x)}{\partial x} \in R^{m\times n}$ ;
如果 $x\in R^{m\times 1}, f(x)\in R^n$ ,那么 $\frac{\partial f(x)}{\partial x} \in R^{n\times m}$ .

举例：

$J=(Xw-y)^T(Xw-y)=||Xw-y||^2, 其中X\in R^{m \times n}, w \in R^{n \times 1}, y \in R^{m \times 1}$ ,
求 $\frac{\partial J}{\partial X}、\frac{\partial J}{\partial w}、\frac{\partial J}{\partial y}$

解：

step1.把所有参数当做实数来求导， $J=(Xw-y)^2$ ，

依据链式法则有 $\frac{\partial J}{\partial X}=2(Xw-y)w、\frac{\partial J}{\partial w}=2(Xw-y)X、\frac{\partial J}{\partial y}=-2(Xw-y)$
可以看出除了 $\frac{\partial J}{\partial y}=-2(Xw-y)$ ， $\frac{\partial J}{\partial X}$ 和 $\frac{\partial J}{\partial w}$ 的求导结果连矩阵乘法都不满足
step2.根据step1的求导结果，依据维数相容原则做出调整[前后换序、转置]

依据维数相容原则 $\frac{\partial J}{\partial X} \in R^{m \times n}$ ，但是 $2(Xw-y)w中(Xw-y)\in R^{m \times 1}、w \in R^{n \times 1}$ ,自然得我们调整为 $\frac{\partial J}{\partial X}=2(Xw-y)w^T$
同理： $\frac{\partial J}{\partial w} \in R^{n \times 1}$ , 但是 $2(Xw-y)X中 (Xw-y) \in R^{m \times 1}、X \in R^{m \times n}$ ,那么通过换序和转置我们可以得到维数相容的结果 $2X^T(Xw-y)$

对于矩阵、向量求导：

“将它们当做一维实数然后使用链式法则，最后做维数相容的调整，使之符合矩阵乘法原则并且维数相容即可”是快速准确的策略；
“对单个元素求导、再整理成矩阵形式”这种方式整理是困难的、过程是缓慢的

二、神经网络求导

神经网络的训练过程：反向传播求得“各层”参数W和b的导数之后，做梯度下降[一阶的GD、SGD，二阶的LBFGS、共轭梯度]。
反向传播是求导的链式法则和相容原则的完美体现，对每一层的参数求导都利用上一层的中间结果来完成。
这里的标号，参考UFLDL教程
前向传播记号（公式1）：

z (l + 1) = W (l) a (l) + b (l) a (l + 1) = f (z (l + 1))

$z^{(l+1)}=W^{(l)}a^{(l)}+b^{(l)}\\ a^{(l+1)} =f(z^{(l+1)})$

z(l) $z^{(l)}$ 为第

l $l$ 层的中间计算结果，

a(l) $a^{(l)}$ 为第

l $l$ 层的激活值，其中第

l+1 $l+1$ 层包含元素[输入

a(l) $a^{(l)}$ ，参数

W(l) $W^{(l)}$ 、

b(l) $b^{(l)}$ ，激活函数

f() $f()$ ，中间结果

z(l+1) $z^{(l+1)}$ ，输出

a(l+1) $a^{(l+1)}$ ]
设整个MLP的损失函数为

J(W,b) $J(W,b)$ ,根据求导的链式法则有：

▽ W (l) J (W, b) = \partial J ( W , b ) \partial z ( l + 1 ) \partial z ( l + 1 ) \partial W ( l ) = δ (l + 1) (a (l)) T ▽ b (l) J (W, b) = \partial J ( W , b ) \partial z ( l + 1 ) \partial z ( l + 1 ) \partial b ( l ) = δ (l + 1)

$\bigtriangledown_{W^{(l)}}J(W,b)=\frac{\partial J(W,b)}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial W^{(l)}}=\delta ^{(l+1)}(a ^{(l)})^T \\ \bigtriangledown_{b^{(l)}}J(W,b)=\frac{\partial J(W,b)}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial b^{(l)}}=\delta ^{(l+1)}$
这里我们记

∂J(W,b)∂z(l+1)=δ(l+1) $\frac{\partial J(W,b)}{\partial z^{(l+1)}}=\delta ^{(l+1)}$ ,

∂z(l+1)∂W(l)=a(l) $\frac{\partial z^{(l+1)}}{\partial W^{(l)}}=a ^{(l)}$ 、

∂z(l+1)∂b(l)=1 $\frac{\partial z^{(l+1)}}{\partial b^{(l)}}=1$ 都可以由公式(1)得出
我们看到

a(l) $a ^{(l)}$ 加了转置符号

(a(l))T $(a ^{(l)})^{T}$ ，根据维数相容原理作出的调整
如何递推求

δ(l)=∂J(W,b)∂z(l) $\delta ^{(l)}=\frac{\partial J(W,b)}{\partial z^{(l)}}$ ？可使用如下递推[根据维数相容原理作出了调整]

δ (l) = \partial J \partial z ( l ) = \partial J \partial z ( l + 1 ) \partial z ( l + 1 ) \partial a ( l ) \partial a ( l ) \partial z ( l ) = ((W (l)) T δ (l + 1)) \cdot f' (z (l))

$\delta ^{(l)}=\frac{\partial J}{\partial z^{(l)}}=\frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial a^{(l)}} \frac{\partial a^{(l)}}{\partial z^{(l)}}= ((W^{(l)})^{T}\delta ^{(l+1)}) \cdot f'(z^{(l)})$
其中

∂J∂z(l+1)=δ(l+1)、∂z(l+1)∂a(l)=W(l)、∂a(l)∂z(l)=f′(z(l)) $\frac{\partial J}{\partial z^{(l+1)}} =\delta ^{(l+1)} 、\frac{\partial z^{(l+1)}}{\partial a^{(l)}} = W^{(l)} 、\frac{\partial a^{(l)}}{\partial z^{(l)}} = f'(z^{(l)})$
那么我们可以从最顶层逐层往下，就可以递推求得每一层的

δ(l)=∂J(W,b)∂z(l) $\delta ^{(l)} = \frac{\partial J(W,b)}{\partial z^{(l)}}$
注意：

∂a(l)∂z(l)=f′(z(l)) $\frac{\partial a^{(l)}}{\partial z^{(l)}} = f'(z^{(l)})$ 是逐维求导，在递推中是“·”乘的形式
反向传播的整个流程如下：
1) 进行前向传播计算，利用前向传播公式，得到隐藏层和输出层的激活值。
2) 对输出层(第

nl $n_l$ 层)，计算残差：

δ (n l) = \partial J ( W , b ) \partial z ( n l ) （ 不 同 损 失 函 数 ， 结 果 不 同 ， 这 里 不 给 出 具 体 形 式 ）

$\delta ^{(n_l)} =\frac{\partial J(W,b)}{\partial z^{(n_l)}}（不同损失函数，结果不同，这里不给出具体形式）$
3) 对于

l=nl−1,nl−2,...,2 $l=n_l-1, n_l-2 ,...,2$ 的隐藏层，计算：

δ (l) = \partial J \partial z ( l ) = \partial J \partial z ( l + 1 ) \partial z ( l + 1 ) \partial a ( l ) \partial a ( l ) \partial z ( l ) = ((W (l)) T δ (l + 1)) \cdot f' (z (l))

W(l) $W^{(l)}$ 与

b(l) $b^{(l)}$ 的偏导数：

▽ W (l) J (W, b) = \partial J ( W , b ) \partial z ( l + 1 ) \partial z ( l + 1 ) \partial W ( l ) = δ (l + 1) (a (l)) T ▽ b (l) J (W, b) = \partial J ( W , b ) \partial z ( l + 1 ) \partial z ( l + 1 ) \partial b ( l ) = δ (l + 1)

三、编程实现的问题

很多DL的opensoure(caffe,Kaldi/src/nnet)实现并不是按照上面的层[ $W^{(l)}$ 、 $b^{(l)}$ 、激活函数 $f()$ ]来做的,通常把[ $W^{(l)}$ 、 $b^{(l)}$ ]作为一个layer、[激活函数 $f()$ ]作为一个layer(sigmoid,relu,softplus等以及softmax),
各层在BP的时候偏导数的时候，分清楚该层的输入、输出即能正确编程实现,如：

z (l + 1) = W (l) a (l) + b (l) (1) a (l + 1) = f (z (l + 1)) (2)

$z^{(l+1)}=W^{(l)}a^{(l)}+b^{(l)} (1)\\ a^{(l+1)} =f(z^{(l+1)}) (2)$
我们可以把(1)式作为一个AffineTransform层[W,b]，以下是伪代码：

class AffineTransform 
{  //a(l)=in(列向量), z(l+1)=out(列向量)
    void Forward(const Vector &in, Vector *out) 
    {
        out = W*in + b;
    }
    void Backward(const Vector &in, const Vector &out, const Vector &out_diff, const Vector *in_diff)
    {
        in_diff = W^T * out_diff; //(注)
    }
    void Update(const Vector &out_diff, const Vector& in) 
    { 
        W_diff = out_diff * in^T; 
        b_diff = out_diff;
        W = W - learn_rate*W_diff;
        b = b - learn_rate*b_diff;
    }
    private:
    Matrix W;
    Matrix W_diff;
    Vector b;
    Vector b_diff;
}

(注) out_diff $= \frac{\partial J}{\partial z^{(l+1)}}$ 已经求得,

i n_d i f f = \partial J \partial a ( l ) = \partial J \partial z ( l + 1 ) \partial z ( l + 1 ) \partial a ( l ) = W T * o u t_d i f f W_d i f f = \partial J \partial z ( l + 1 ) \partial z ( l + 1 ) \partial W ( l ) = o u t_d i f f * i n T b_d i f f = \partial J \partial z ( l + 1 ) \partial z ( l + 1 ) \partial b ( l ) = o u t_d i f f * 1

$in\_diff = \frac{\partial J}{\partial a^{(l)}} = \frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial a^{(l)}} = W^T * out\_diff \\ W\_diff =\frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial W^{(l)}} = out\_diff * in^T \\ b\_diff =\frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial b^{(l)}} = out\_diff * 1$

我们可以把(2)式作为一个Sigmoid层

class Sigmoid 
{  //a(l)=in(列向量), z(l+1)=out(列向量)
    void Forward(const Vector &in, Vector *out) 
    {
        out = sigmoid(in);//y = 1/(1+e^-x)
    }
    void Backward(const Vector &in, const Vector &out, const Vector &out_diff, const Vector *in_diff)
    {
        in_diff = out.*(1-out).*out_diff; //dy = y(1-y)dx
    }
    void Update(const Vector &out_diff, const Vector& in)=0
    private:
}

(注) out_diff $= \frac{\partial J}{\partial a^{(l+1)}}$ 已经求得,

i n_d i f f = \partial J \partial z ( l + 1 ) = \partial J \partial a ( l + 1 ) \partial a ( l + 1 ) \partial z ( l + 1 ) = o u t_d i f f . * o u t . * (1 - o u t)

$in\_diff = \frac{\partial J}{\partial z^{(l+1)}} = \frac{\partial J}{\partial a^{(l+1)}} \frac{\partial a^{(l+1)}}{\partial z^{(l+1)}} = out\_diff .*out.*(1-out)$
在实际编程实现时,in、out可能是矩阵(以一行存储一个输入向量,矩阵的行数就是batch_size),那么上面的C++代码就要做出变化（改变前后顺序、转置，把函数参数的Vector换成Matrix，此时Matrix out_diff 每一行就要存储对应一个Vector的diff，在update的时候就要做这个batch的加和，这个加和可以通过矩阵相乘out_diff*input[适当的转置]得到，如果你熟悉SVD分解的过程，逆过来就可以轻松理解这种通过乘积来做加和的技巧）。

四、卷积神经网络卷积层的求导

卷积怎么求导呢？实际上卷积可以通过矩阵乘法来实现[caffe里面是不是有image2col()]，也可以使用FFT在频率域做加法，通常后者更快一些。
那么既然通过矩阵乘法，我们上面的秘密武器仍然可以运用，但卷积层求导这块还是要比MLP复杂一些，要做些累加的操作。具体怎么做还要看编程时选择什么样的策略、数据结构。

掌握了理论推导，就会觉得工程经验才是干货！