@devilloser
2018-09-10T06:26:53.000000Z
字数 1939
阅读 1110
deeplearning
target probabilities:,
本文思想是学习一种认知的过程
对,,

线性核:
多项式核:, 文中采用,
高斯核::高斯核中设为两网络特征的平均距离
利用kernel trick将feature map映射到高维空间,是因为他认为attention map的做法粒度还是比较大。当kernel取二阶多项式核的时候,根据gram矩阵的性质,feature map的channel之间的内积可以转化为feature map空间的相关性,即让student模型学习teacher模型的feature map通道之间的关系或者空间像素点之间的关系。
