@spiritnotes 2016-07-26T08:12:37.000000Z 字数 1673 阅读 2292

基于神经网络的词和文档语义向量表示方法研究

论文 DOING NLP

Word and Document Embeddings based on
Neural Network Approaches

摘要

BOW模型问题

数据稀疏
不能保留词序

绪论

背景：词袋模型有缺点。特征工程在传统机器学习中有不可替代的作用。
图像和语言领域：基本数据是信号数据，可以通过距离度量判断信号是否相似。文本是符号数据，字面不一样，就难以刻画它们之间的联系，也就是语义鸿沟现象。在判断两幅图片是否相似时，只需通过观察图片本身就能给出回
答；而判断两个词是否相似时，还需要更多的背景知识才能做出回答。

1954 年，Harris 提出分布假说（distributional hypothesis），即“上下文相似的词，其语义也相似”[35]，为词的分布表示提供了理论基础。在分布假说中，需要关注的对象有两个：词和上下文，其中最
关键的是上下文的表示。神经网络模型生成的词表示通常被称为词向量（word embedding），是一个低维的实数向量表示，通过这种表示，可以直接对词之间的相似度进行刻画。

对于文本分类、信息检索等实际需求而言，仅使用词级别的语义表示不足以
有效地完成这些任务，因此还需要通过模型，得到句子和文档级别的语义表示。
但是，由于文档的多样性，直接使用分布假说构建文档的语义向量表示时，会遇
到严重的数据稀疏问题；同时由于分布假说是针对词义的假说，这种通过上下
文获取语义的方式对句子和文档是否有效，还有待讨论。为了获得句子和文档
的语义表示，研究人员一般采用语义组合的方式。现有的句子或者文档表示也通常以该思路为基础，通过语义组合的方式获得。主流的神经网络语义组合方法包括递归神经网络、循环神经网络和卷积神经网络，这些方法采用了不同的组合方式从词级别的语义组合到句子和文档级别。

第二章现有词的分布表示技术

2.1 分布表示

one-hot representation仅仅将词符号化，不包含任何语义信息
Harris：上下文相似的词，其语义也相似
Firth：词的语义由其上下文决定

它们的核心思想也都由两部分组成：一、选择一种方式描述上下文；二、选择一种模型刻画某个词（下文称“目标词”）与其上下文之间的关系。

2.1.1 基于矩阵的分布表示

基于矩阵的分布表示通常又称为分布语义模型（distributional semantic models）
这类方法需要构建一个“词-上下文”矩阵，从矩阵中获取词的表示。在“词-上下文”矩阵中，每行对应一个词，每列表示一种不同的上下文，矩阵中的每个元素对应相关词和上下文的共现次数。

一、选取上下文。最常见的有三种方法：第一种，将词所在的文档作为上
下文，形成“词-文档”矩阵 [56]；第二种，将词附近上下文中的各个词（如上
下文窗口中的 5 个词）作为上下文，形成“词-词”矩阵 [70, 90]；第三种，将
词附近上下文各词组成的 n 元词组（n-gram）作为上下文 [45]。在这三种方法
中，“词-文档”矩阵非常稀疏，而“词-词”矩阵相对较为稠密，效果一般好于
前者。“词-n 元词组”相对“词-词”矩阵保留了词序信息，建模更精确，但由于
比前者更稀疏，实际效果不一定能超越前者。

二、确定矩阵中各元素的值。“词-上下文”共现矩阵根据其定义，里面各元
素的值应为词与对应的上下文的共现次数。然而直接使用原始共现次数作为矩
阵的值在大多数情况下效果并不好 [3]，因此研究人员提出了多种加权和平滑方
法，最常用的有 tf-idf、PMI 和直接取 log。

三、矩阵分解（可选）。在原始的“词-上下文”矩阵中，每个词表示为一个
非常高维（维度是不同上下文的总个数）且非常稀疏的向量，使用降维技术可以将这一高维稀疏向量压缩成低维稠密向量。降维技术可以减少噪声带来的影响，
但也可能损失一部分信息。最常用的分解技术包括奇异值分解（SVD）、非负矩
阵分解（NMF）、典型关联分析（Canonical Correlation Analysis，CCA）[22, 23]、
Hellinger PCA（HPCA）

基于神经网络的词和文档语义向量表示方法研究

摘要

绪论

第二章 现有词的分布表示技术

2.1 分布表示

2.1.1 基于矩阵的分布表示

Global Vector 模型（GloVe）

内容目录

第二章现有词的分布表示技术