@mShuaiZhao
2017-11-23T12:56:38.000000Z
字数 2318
阅读 399
Micheal_Nielson_Book(NNDL)
2017.11
ref1: http://neuralnetworksanddeeplearning.com/chap3.html
ref2: https://en.wikipedia.org/wiki/Binary_entropy_function
Improving the way neural networks learn
activation function - sigmoid function
注意在不使用sigmoid函数的情况下,情况有很大不同。
使用quadratic cost function
权重和偏置的更新速度与激活函数的倒数成正相关(可以说是正比)。
回想sigmoid函数的图像,在函数值接近0和1的时候曲线十分平缓,梯度较小,导致学习速度变慢。
当初始化的初值偏离正确值很大时,会有一段缓慢学习的过程。
接近正确值时,学习速度也会变得缓慢。
信息论相关
上式最后的表示在分布下,使用进行编码需要的bit数,而表示对真实分布所需要的最小编码bit数。基于此,相对熵的意义就很明确了:表示在真实分布为的前提下,使用分布进行编码相对于使用真实分布进行编码(即最优编码)所多出来的bit数。
避免overfitting
L2 regularization
L1 regularization
Dropout
This technique reduces complex co-adaptations of neurons, since a neuron cannot rely on the presence of particular other neurons. It is, therefore, forced to learn more robust features that are useful in conjunction with many different random subsets of the other neurons.