@Pigmon 2017-10-18T12:20:07.000000Z 字数 1284 阅读 1180

【《优化神经网络模型结构新方法》 PPT + 演讲实录】笔记1

实习

清华大学张长水教授

资源

演讲实录页面
内含PPT下载链接

优化目标

训练时间

Predict 时间

内存占用

耗电量
手机平台，车辆

主要优化对象

超参数

神经网络结构（也是超参数？）

已有方法

贝叶斯方法

假设某超参数的先验服从某种分布，再确定该分布的参数（如均值，方差等） $^{[1][2][3]}$

导数方法（梯度方法？）

建立超参数与损失函数之间的关系函数，然后通过梯度下降求最优解。 $^{[4][5]}$
（只能针对可导的情况。）
（除学习率以外的超参数，如何推导其与损失函数的函数关系？)

网格搜索

先为某个超参数设定一组可选值，然后穷举这组可选值所有的组合，再找出这些组合中的最优解。 $^{[6]}$
计算量大。

人工调参

耗时，一旦环境发生变化要重来。

权重矩阵的低秩近似

对权重矩阵的秩的值做一个约束，通过去掉小的权重，将权重矩阵低秩化，进而优化网络结构。
主要应用在全连接层。

量化权重

将浮点型的参数量化成整形。
准确率降低，速度变快。可应用在手机平台（追求低耗电，容错率高）

子模函数和超模函数 $^{[7]}$

子模函数

对于在集合 $V$ 上的函数 $F$ , 如果对于 $V$ 的任意子集 $A, B$ ，存在 $F(A)+F(B) \geq F(A \cup B)+F(A \cap B)$ ，则称函数 $F$ 为子模函数。
参考演讲实录中的传感器覆盖范围的例子。

子模函数的性质

定义在正的线性组合空间是封闭的。
$F_1,F_2,...,F_m$ 为集合 $V$ 上的一组子模函数， $\lambda_1, \lambda_2,...,\lambda_m > 0$ ，那么： $F(A)=\sum_i \lambda_iF_i(A)$ 也是子模函数。

超模函数

对于在集合 $V$ 上的函数 $F$ , 如果 $-F$ 为子模函数，则 $F$ 为超模函数。

子模函数求优

PPT 21页对应内容。应用前面提到的“小集合加上一个元素带来的改进更大，而在大的集合上增加同样的元素以后，它带来的影响会比较小一些。”这个性质，后面应该会有更详细的内容。

PPT 21页为止的内容
2017.10.18 END

$[1]$ J. Snoek, H. Larochelle. Practical Bayesian Optimization of Machine Learning Algorithms. 2012.
$[2]$ J.S.Bergstra. NIPS 2011. ICML 2013.
$[3]$ F.Hutter. LION. 2011.
$[4]$ A.G.Baudom. Computer Science. 2014.
$[5]$ D.Maclaurin. ICML 2015.
$[6]$ BergstraJ, BengioY. Random search for hyper-parameter optimization. The Journal of Machine Learning Research. 2012. 13(1):281–305.
$[7]$ A. Krause, C. Guestrin. Submodularity Tutorial. http://www.select.cs.cmu.edu/tutorials/icml08submodularity.html. Carnegie Mellon University. 2008.