[关闭]
@Pigmon 2017-10-18T12:20:07.000000Z 字数 1284 阅读 890

【《优化神经网络模型结构新方法》 PPT + 演讲实录】笔记1

实习


清华大学 张长水 教授

资源

演讲实录页面
内含PPT下载链接

优化目标

  • 训练时间
  • Predict 时间
  • 内存占用
  • 耗电量
    手机平台,车辆

主要优化对象

  • 超参数
  • 神经网络结构 (也是超参数?)

已有方法

贝叶斯方法

假设某超参数的先验服从某种分布,再确定该分布的参数(如均值,方差等)

导数方法(梯度方法?)

建立超参数与损失函数之间的关系函数,然后通过梯度下降求最优解。
(只能针对可导的情况。)
(除学习率以外的超参数,如何推导其与损失函数的函数关系?)

网格搜索

先为某个超参数设定一组可选值,然后穷举这组可选值所有的组合,再找出这些组合中的最优解。
计算量大。

人工调参

耗时,一旦环境发生变化要重来。

权重矩阵的低秩近似

对权重矩阵的秩的值做一个约束,通过去掉小的权重,将权重矩阵低秩化,进而优化网络结构。
主要应用在全连接层。

量化权重

将浮点型的参数量化成整形。
准确率降低,速度变快。可应用在手机平台(追求低耗电,容错率高)

子模函数和超模函数

子模函数

对于在集合上的函数, 如果对于的任意子集,存在 ,则称函数子模函数
参考演讲实录中的传感器覆盖范围的例子。

子模函数的性质

定义在正的线性组合空间是封闭的。
为集合上的一组子模函数,,那么: 也是子模函数。

超模函数

对于在集合上的函数, 如果为子模函数,则为超模函数。

子模函数求优

PPT 21页对应内容。应用前面提到的“小集合加上一个元素带来的改进更大,而在大的集合上增加同样的元素以后,它带来的影响会比较小一些。”这个性质,后面应该会有更详细的内容。


PPT 21页为止的内容
2017.10.18 END


J. Snoek, H. Larochelle. Practical Bayesian Optimization of Machine Learning Algorithms. 2012.
J.S.Bergstra. NIPS 2011. ICML 2013.
F.Hutter. LION. 2011.
A.G.Baudom. Computer Science. 2014.
D.Maclaurin. ICML 2015.
BergstraJ, BengioY. Random search for hyper-parameter optimization. The Journal of Machine Learning Research. 2012. 13(1):281–305.
A. Krause, C. Guestrin. Submodularity Tutorial. http://www.select.cs.cmu.edu/tutorials/icml08submodularity.html. Carnegie Mellon University. 2008.

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注