@devilogic
2017-05-12T20:24:27.000000Z
字数 4551
阅读 1414
devilogic
点融网沙龙 - 神经网络权值直接确定法的探讨
这是一个人人都在谈大数据的时代,貌似你不谈就显的格外Low...
真实的目标是一个未知的函数,而这个函数多数情况下也是没有正解的。在最一般的情况下,神经网络是要逼近一个最小二乘解。
那就是说用模型的最小二乘解来逼近目标的最小二乘解。
确切的解与逼近都是特殊情况。
这是一个控制维度的游戏,在神秘的世界中找寻到那个维度
一般而言 是一个超定方程组,只能求最小二乘解。
一个熵计算的过程。按照熵的最小化程度来进行分类。
让我们替换一下上面的公式为:
降维打击算式对特征的提纯吧~~~
再回来想想神经网络这种东西吧,本来已经证明了三层BP网络具有任意的非线性逼近能力了。为什么还要那么多层呢?而层数的确定以及激励函数的为什么又那么不确定呢?
控制层数与选择激励函数可以看成是对找寻神秘特征与削减不必要特征的一次次尝试。
这是一个在轮迭代过程中调解权值矩阵的过程,通过这个过程最终来逼近到目标函数。
1.导数为正则说明比正解大
2.导数为负则说明比正解小
根据以上我们需要按照导数的反方向来调节。
让我们来看下根据梯度下降法的完整学习过程。这里首先说明一些条件。
这里的函数可以替换成任何传输函数
通过公式来计算出网络最终的输出与目标的误差
其实也可以其他误差函数,但是均方差是可微函数。
我们对这个误差进行链式求导来得到梯度。
那么我们主要是对来进行计算,其中的 可以替换成任意要修订层的情况。
我们再来看下任意隐藏单元的情况,必须考虑间接的影响网络输出,从而影响。
上式中
重新组织各项并使用表示,我们得到:
是sigmod的导数,那么如果我们将这个替换成任意激励函数的导函数则有:
在上述调节过程中,首先是梯度的产生在整个学习过程中起到关键作用。所以我们先来看看的产生。
这里的其实就是真实的目标值,那么按照我们文章所说这其实是目标函数的一个最小二乘解(一般状况下)。而这里的是我们对解的一个逼近。那么单使用权和逼近有点弱暴了。接下来我们使用幂函数作为一个特殊情况来逼近目标函数则
当无限大,就是说训练已经收敛时,那么最良好的情况是,则说明了梯度为,那么:
首先感谢点融网给了这次做技术交流的平台,由于时间原因,一个会写代码的CTO并不能完整的探讨此类话题,这份演讲稿显得仓促之急,没有对此中技术的充分讨论以及应用。希望下次还有这样的机会和大家分享。