@devilloser
2018-09-06T02:48:46.000000Z
字数 1321
阅读 1027
action
attention主要是为了让model区分出无用信息
make hard binary choices
uses weighted average instead of hard selection
a special form of non-local network
在计算attention时都是对单独的frame计算attention,但是frame之间的interaction没有考虑
对第i层的输出,flatten成
对层到第层,downsample成统一大小,即
流程如上图。
其中的认为是PCA中找到的一个新的基底,对不同channel的feature map作为样本,得到过滤后的feature map。
用表示K frames的数据。
PCA的目标是方差最大化,所以