《统计自然语言处理 2e》
NLP
读书笔记
DOING
第1章 绪论
1.1 基本概念
语言由语音、词汇和语法构成。语音和文字是构成语言的两个基本属性,语音是外壳,文字是书写符号系统。
自然语言处理也称自然语言理解。“其核心包含语音和语符的自动识别以及语音的自动合成。”
关于“理解”的标准:图灵测试。
1.2 研究内容和困难
研究内容
- 机器翻译 MT
- 自动文摘
- 信息检索
- 文档分类:主题、内容、情感
- 问答系统
- 信息过滤:满足特定条件的文档
- 信息抽取:抽取出特定的事件或事实信息
- 文本挖掘
- 舆情分析
- 隐喻计算
- 文字编辑和自动校对
- 作文自动评分
- 光读字符识别
- 语音识别
- 文语转换
- 说话人识别/认证/验证
涉及层次
- 形态学:词的内部结构,包括屈折变化和构词法
- 语法学:句子结构成分之间的关系和组成句子子序列的规则,怎么说
- 语义学:研究语言意义,对象是语言的各级单位(词素、词、词组、句子、句子群、话语、文章、整篇著作)的意义,说了什么
- 语用学:
第2章 预备知识
2.1 概率论基本概念
概率是从随机试验中的事件到实数域的映射函数,用以表示事件发生的可能性。
公理
最大似然估计:采用样本中的事件的频率作为事件的本身概率。随着样本数量增多,其频率越接近概率。
- 条件概率
- 在已知事件B发生下,事件A的概率
非负性: P(A|B)>=0
规范性:
可列可加性:,Ai与Aj条件独立当且仅当
- 贝叶斯法则
- ,给定事件A发生情况下可能发生事件B的概率,
全概率公式:
于是有
- 随机变量
- 随机变量是试验结果的函数。概率分布为
分布函数为
- 二项式分布
- ,事件独立重复n次。B(n,p)
- 联合概率分布
- 条件概率分布
- 贝叶斯决策规则
- 统计方法处理模式分类问题的基本理论,假设有c各类别,各类别状态用表示,各个类别的先验概率为,x为观察到的特征向量,后验概率如下:
- 期望值
- 期望值是随机变量取值的概率平均。
- 方差
- 描述的是随机变量的值偏离其期望值的程度。
方差的平方根称为标准差。
2.2 信息论基本要素
- 熵
- 又称自信息,可以视为一个随机变量的不确定性的数量,表示信源X每发一个符号所提供的平均信息量,熵越大,不确定越大,正确估计其值的可能性越小,越不确定的随机变量越需要大的信息量用于确定其值。
在只掌握关于未知分布的部分知识的情况下,符合已知知识的概率分布可能有很多,使熵最大的概率分布最真实反映了事件的分布情况,当熵最大时,随机变量最不确定,最难预测其行为。
- 联合熵
- 描述一堆随机变量平均所需要的信息量
- 条件熵
- 给定随机变量X的情况下,随机变量Y的条件熵
由上式组合有
推广到一般情况有
- 互信息
- 由有
称为X和Y的互信息,
第6章 概率图模型
6.1 概述
6.2 贝叶斯网络