@ShawnNg 2016-12-14T14:27:51.000000Z 字数 2814 阅读 5007

Ask Me Anything: Dynamic Memory Networks for Natural Language Processing

深度学习 QA

一、文章信息

作者

Ankit Kumar, Peter Ondruska, Mohit Iyyer, James Bradbury, Ishaan Gulrajani, Victor Zhong, Romain Paulus, Richard Socher

单位

MetaMind

文章来源

ICML 2016

二、文章内容

1 模型-动态记忆网络（Dynamic Memory Network ）

1.1 输入模块（Input Module）

1.1.1 输入

输入有可能是一个句子，一段文章，或者几篇文章，问题的答案就在这些文档当中。输入序列是长度为 $T_I$ 的词序列 $w_1,\dots,w_{T_I}$ 。

1.1.2 模型

GRU-RNN

$h_t = GRU(L[w_t],h_{t-1})$

$L[w_t]$ 是word embedding。
模型也可以选LSTM-RNN，但是表现一样而计算复杂度增加了。

1.1.3 输出

当输入是单个句子时，输出每个词的hidden state，因此输出序列的长度为 $T_C=T_I$
当输入是多个句子时，有 $T_S$ 条，连接所有句子的词序列作为输入，输出每个句子的eos（end of sentence）对应的hidden state，因此输出序列的长度为 $T_C=T_S$ 。

1.2 问题模块（Question Module）

1.2.1 输入

输入是一个句子，对应的词序列，长度为 $T_Q$

1.2.2 模型

和Input module一样，使用GRU-RNN

$q_t = GRU(L[w_t^Q],q_{t-1})$
这里的L和Input module的L是共用的。

1.2.3 输出

输出就是final hidden state，也就是 $q_{T_Q}$

1.3 事件记忆模块（Episodic Memory Module）

这是Memory Network的核心模块，由一个Attention Mechannism和一个Memory Update Mechanism来组成。其中使用RNN来作Memory update。
该模块的输入分别是Input module的输出和Question Module的输出。
使用 $m^i$ 来表示第 $i$ 次迭代的Memory，使用 $q$ 来代表Question Module的输出， $m^0=q$ ，使用 $c$ 来代表Input Module的输出， $c_t$ 为第t个位置的向量。

1.3.1 Attention Mechannism

1.3.1.1 输入

候选事实 $c_t$
上一轮迭代的Memory， $m_{i-1}$
question representation， $q$

对于每一轮迭代，使用以上三者来作为输入。

1.3.1.2 输出

输出是第i次迭代，对应第t位置的一个得分，文中称为gate

$g_t^i = G(c_t,m^{i-1},q)$

1.3.1.3 模型

对G建模，需要使用上述输入构建一个特征集 $z(c,m,q)$

$z(c,m,q)=[c,m,q,c\circ q,|c-q|,|c-m|,c^TW^{(b)}q,c^TW^{(b)}m]$

G是一个两层的前向神经网络

$G(c,m,q) = \sigma(W^{(2)}\tanh(W^{(1)}z(c,m,q)+b^{(1)})+b^{(2)})$

如果一些数据集给定了问题对应的事实，那就可以进行对Attention模型进行有监督学习，可以使用cross-entropy作为目标函数。

1.3.2 Memory Update Mechanism

RNN用来迭代更新Memory

1.3.1.1 输入

事实序列 $c_1,\dots,c_{T_C}$
基于事实序列 $c_t$ 的门得分 $g^i_t$

1.3.1.2 模型

对GRU作出改变

$\begin{align*} h_t^i &= g_t^iGRU(c_t,h_{t-1}^i)+(1-g_t^i)h_{t-1}^i\\ e^i_t &= h_{t}^i \end{align*}$

Episodic Memory Module需要一个停止迭代的信号。如果是有监督的attention，我们可以加入一个特殊的end-of-passes的信号到inputs中，如果gate选中了该特殊信号，则停止迭代。对于没有监督的数据集，可以设一个迭代的最大值。

1.3.1.3 输出

输出最后一次迭代的 $m=m^{T_M}$

1.4 回答模块（Answer Module）

该模块是最终结果输出的模块，主要是输出答案序列，作为一个decoder。

1.4.1 输入

Question Module的输出 $q$
Episode Memory Module的输出 $m^{T_M}$

1.4.2 输出

输出序列 $y_1,\dots,y_{T_A}$ ，每个 $y$ 都是词典长度大小。

1.4.3 模型

这也是一个GRU-RNN，但是跟普通的decoder不一样，因为它的初始状态 $a_0=m^{T_M}$ ，而且每一次都用上一次生成的词 $y_{t-1}$ 和问题向量 $q$ 作为输入。

$\begin{align*} y_t &= \text{softmax}(W^{(a)}a_t)\\ a_t &= GRU([y-t,q],a_{t-1}) \end{align*}$

2 训练

训练过程可以看作是一个有监督分类，对答案的输出序列使用cross-entroy目标函数。如果数据集有gate的监督数据，还可以将gate的cross-entroy加到总的cost上去，一起训练。训练直接使用backpropagation和gradient descent就可以。

三、简评

这是DMN的开章，因此这也是最原始的动态记忆网络。文中详细地讲述了DMN的结构，这是理解DMN必读的文章。

四、实现

尽管github上已经有不少的DMN实现，有用theano的，也有用tensorflow的。但是我希望通过复现来仔细学习DMN，因此我使用tensorflow进行实现。
Code: https://github.com/Shawn1993/Dynamic-Memory-Network-for-Tensorflow

Ask Me Anything: Dynamic Memory Networks for Natural Language Processing

一、文章信息

作者

单位

文章来源

二、文章内容

1 模型-动态记忆网络（Dynamic Memory Network ）

1.1 输入模块（Input Module）

1.1.1 输入

1.1.2 模型

1.1.3 输出

1.2 问题模块（Question Module）

1.2.1 输入

1.2.2 模型

1.2.3 输出

1.3 事件记忆模块（Episodic Memory Module）

1.3.1 Attention Mechannism

1.3.1.1 输入

1.3.1.2 输出

1.3.1.3 模型

1.3.2 Memory Update Mechanism

1.3.1.1 输入

1.3.1.2 模型

1.3.1.3 输出

1.4 回答模块（Answer Module）

1.4.1 输入

1.4.2 输出

1.4.3 模型

2 训练

三、简评

四、实现

内容目录