[关闭]
@spiritnotes 2016-08-29T01:33:43.000000Z 字数 2050 阅读 1314

《统计自然语言处理 2e》

NLP 读书笔记 DOING


第1章 绪论

1.1 基本概念

语言由语音、词汇和语法构成。语音和文字是构成语言的两个基本属性,语音是外壳,文字是书写符号系统。

自然语言处理也称自然语言理解。“其核心包含语音和语符的自动识别以及语音的自动合成。”

关于“理解”的标准:图灵测试。

1.2 研究内容和困难

研究内容

涉及层次

第2章 预备知识

2.1 概率论基本概念

概率是从随机试验中的事件到实数域的映射函数,用以表示事件发生的可能性。

公理

最大似然估计:采用样本中的事件的频率作为事件的本身概率。随着样本数量增多,其频率越接近概率。

条件概率
在已知事件B发生下,事件A的概率

非负性: P(A|B)>=0
规范性:
可列可加性:,Ai与Aj条件独立当且仅当
贝叶斯法则
,给定事件A发生情况下可能发生事件B的概率,
全概率公式:
于是有
随机变量
随机变量是试验结果的函数。概率分布为
分布函数为
二项式分布
,事件独立重复n次。B(n,p)
联合概率分布
条件概率分布
贝叶斯决策规则
统计方法处理模式分类问题的基本理论,假设有c各类别,各类别状态用表示,各个类别的先验概率为,x为观察到的特征向量,后验概率如下:
期望值
期望值是随机变量取值的概率平均。
方差
描述的是随机变量的值偏离其期望值的程度。
方差的平方根称为标准差。

2.2 信息论基本要素

又称自信息,可以视为一个随机变量的不确定性的数量,表示信源X每发一个符号所提供的平均信息量,熵越大,不确定越大,正确估计其值的可能性越小,越不确定的随机变量越需要大的信息量用于确定其值。

在只掌握关于未知分布的部分知识的情况下,符合已知知识的概率分布可能有很多,使熵最大的概率分布最真实反映了事件的分布情况,当熵最大时,随机变量最不确定,最难预测其行为。
联合熵
描述一堆随机变量平均所需要的信息量
条件熵
给定随机变量X的情况下,随机变量Y的条件熵
由上式组合有
推广到一般情况有
互信息
称为X和Y的互信息,

第6章 概率图模型

6.1 概述

6.2 贝叶斯网络

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注