[关闭]
@sixijinling 2017-11-02T02:28:04.000000Z 字数 730 阅读 235

Sogou比赛——QA

未分类


背景

将整个知识库都encode在一个复杂的深度网络中,然后再和encode过的问题结合起来decode生成答案。

WebQA数据介绍(含纯净版下载)
1、如果用Python的json库读取后,得到一个字典me_train,字典的键是Q_TRN_010878这样的问题标号;

2、通过me_train['Q_TRN_010878']获得单条记录,每条记录也是一个字典,字典下有两个键:question和evidences;

3、me_train['Q_TRN_010878']['question']就可以获得问题的文本内容,如“勇敢的心霍笑林的父亲是谁出演的”;

4、evidences是问题的材料和对应答案,也是一个字典,字典的键是Q_TRN_010878#06这样的标号;

5、me_train['Q_TRN_010878']['evidences']['Q_TRN_010878#05']获得单条记录,也是一个字典,字典有两个键:evidence和answer;

6、evidence为对应的材料,如“答:《勇敢的心》霍绍昌与华夫人的儿子杨志刚饰霍啸林简介男主角,霍家少爷,领衔主演寇振海饰霍绍昌简介霍啸林的父亲‘举人’,主演史可饰华夫人简介霍啸林和赵舒城的母亲,主演”,answer是一个答案列表(因为答案可能有多个),如[u'寇振海'],如果材料中并没有答案,那么答案是[u'no_answer']。

词向量

中文wiki训练word2vec

Context表示

问题表示

比较短,适于双向rnn拼接(适用于短句)

Reference

深度学习解决机器阅读理解任务的研究进展

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注