@Frankchen
2016-06-05T07:13:30.000000Z
字数 1755
阅读 1351
Paper
Word2Vec
词嵌入的三要素:模型、语料和参数。通过同一个语料来比较当前基于神经网络模型的词嵌入,而每一个词嵌入用三种方式来评估:语义特性、用做监督学习的参数以及神经网络模型的初始值。得出了以下结论:
现有的模型多种多样,没有一种统一的评价模型的优劣的标准,对于实际任务来讲,也没有标准告诉我们如何设计好的词嵌入算法。因此,本文从模型构建、训练语料和参数选择三方面详细分析了训练词嵌入模型。
通过在三种应用场景下的8个task的实验,得出以下结论:
- 对于模型构建,复杂模型相比简单模型需要更大的语料,但是大多数情况下,简单模型已经足够有效。在语义分析任务中,通过来预测的模型(前五个)比通过和的共现来打分的C&W更有效。
- 对于语料,给定领域下,语料越大越好,领域越相关,表现也越好,而语料的领域对于词嵌入表现的影响比语料的大小更加显著。
- 用实际任务的表现来评估过拟合比交叉验证效果更好
- 对于语义分析任务,更大的词向量维度能带来更好的表现,而对于NLP任务,维度影响有限,多数情况下50维足够。
分别介绍了Skip-gram 、CBOW、Order、LBL、NNLM 、C&W 以及GloVe模型。
NNLM是这些模型的始祖,基本定义了之后的语言模型的诸多要素
相比NNLM移除了非线性变换函数
只是对于相关的上下文和目标词进行打分,目标词是上下文中间的那个词。
忽略词的词序信息,对于上下文的表示只使用逻辑回归预测目标词(没有了隐藏层),引入负采样代替softmax函数,都是为了减小复杂度。
Order是为了对比词顺序和隐藏层对于词嵌入的分别影响创造的,其保留词顺序信息而去除隐藏层。
GloVe是一种词文矩阵(矩阵元素代表上下文和词汇的共现)。
主要是五种NNLM衍生模型与C&W模型的区别
代表是上下文时的嵌入,五种NNLM衍生模型对于上下文的表示是的不同变种。
由于两点原因:
在8个任务上比较各种模型的性能。
主要介绍实现任务的工具,模型的设置,各种参数的统一等等。