@spiritnotes 2016-08-29T01:33:43.000000Z 字数 2050 阅读 1523

《统计自然语言处理 2e》

NLP 读书笔记 DOING

第1章绪论

1.1 基本概念

语言由语音、词汇和语法构成。语音和文字是构成语言的两个基本属性，语音是外壳，文字是书写符号系统。

自然语言处理也称自然语言理解。“其核心包含语音和语符的自动识别以及语音的自动合成。”

关于“理解”的标准：图灵测试。

1.2 研究内容和困难

研究内容

机器翻译 MT
自动文摘
信息检索
文档分类：主题、内容、情感
问答系统
信息过滤：满足特定条件的文档
信息抽取：抽取出特定的事件或事实信息
文本挖掘
舆情分析
隐喻计算
文字编辑和自动校对
作文自动评分
光读字符识别
语音识别
文语转换
说话人识别/认证/验证

涉及层次

形态学：词的内部结构，包括屈折变化和构词法
语法学：句子结构成分之间的关系和组成句子子序列的规则，怎么说
语义学：研究语言意义，对象是语言的各级单位（词素、词、词组、句子、句子群、话语、文章、整篇著作）的意义，说了什么
语用学：

第2章预备知识

2.1 概率论基本概念

概率是从随机试验中的事件到实数域的映射函数，用以表示事件发生的可能性。

公理

非负性 $P(A)\ge 0$
规范性 $P(\Omega)=1$
可列可加性，如果事件不相交 $P(\bigcup_{i=0}^\infty)=\sum_{i=0}^\infty P(A_i)$

最大似然估计：采用样本中的事件的频率作为事件的本身概率。随着样本数量增多，其频率越接近概率。

条件概率: 在已知事件B发生下，事件A的概率
$P(A|B)={P(A\cap B)\over P(B)}$
非负性： P(A|B)>=0
规范性： $P(\Omega |B)=1$
可列可加性： $P(\sum_{i=1}^\infty A_i|B)=\sum_{i=1}^\infty P(A_i|B)$ ，Ai与Aj条件独立当且仅当 $P(A_i,A_j|B)=P(A_i|B)*P(A_j|B)$
贝叶斯法则: $P(B|A)={P(A|B)P(B)\over P(A)}$ ,给定事件A发生情况下可能发生事件B的概率， $arg\max_B P(B|A)=arg\max_B P(A|B)P(B)$
全概率公式: $P(A)=\sum_i P(A|B_i)P(B_i)$
于是有
$P(B_j|A)={P(A|B_j)P(B_j)\over \sum_{i=1}^n P(A|B_i)P(B_i)}$
随机变量: 随机变量是试验结果的函数。概率分布为 $p_i=P(X=a_i),全部可能值为\{a_1,a_2...\}，\sum_{i=1}p_i=1$
分布函数为 $P(X\le x)=F(x),-\infty<x<\infty，0\le F(x)\le 1$
二项式分布: $p_i={n\choose i}p^i(1-p)^{n-i},i=0,1,...,n$ ，事件独立重复n次。B(n,p)
联合概率分布: $p_{ij}=P(X_1=a_i,X_2=b_j)$
条件概率分布: $P(X_1=a_i|X_2=b_j)={p_{ij}\over P(X_2=b_j)}={p_{ij}\over \sum p_{kj}}$
贝叶斯决策规则: 统计方法处理模式分类问题的基本理论，假设有c各类别，各类别状态用 $\omega_i$ 表示，各个类别的先验概率为 $P(\omega_i)$ ，x为观察到的特征向量，后验概率如下：
$P(w_i|x)={p(x|w_i)P(w_i)\over \sum_{j=1}^c p(x|w_j)P(w_j)}$
期望值: 期望值是随机变量取值的概率平均。
$，如果该值绝对收敛$
$E(X)=\sum_{k=1}^\infty x_kp_k，如果该值绝对收敛$
方差: 描述的是随机变量的值偏离其期望值的程度。
$var(X)=E((X-E(X))^2)=E(X^2)-E^2(X)$ 方差的平方根称为标准差。

2.2 信息论基本要素

熵: 又称自信息，可以视为一个随机变量的不确定性的数量，表示信源X每发一个符号所提供的平均信息量，熵越大，不确定越大，正确估计其值的可能性越小，越不确定的随机变量越需要大的信息量用于确定其值。
$H(X)=-\sum_{x\in R}p(x)\log_2p(x)$
在只掌握关于未知分布的部分知识的情况下，符合已知知识的概率分布可能有很多，使熵最大的概率分布最真实反映了事件的分布情况，当熵最大时，随机变量最不确定，最难预测其行为。
联合熵: 描述一堆随机变量平均所需要的信息量
$H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x,y)$
条件熵: 给定随机变量X的情况下，随机变量Y的条件熵
$H(Y|X)=\sum_{x\in X}p(x)H(Y|X=x)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(y|x)$ 由上式组合有
$H(X,Y)=H(X)+H(Y|X)$ 推广到一般情况有
$H(X_1,X_2...)=H(X_1)+H(X_2|X_1)+...+H(X_n|X_1,...,X_{n-1})$
互信息: 由 $H(X,Y)=H(X)+H(Y|X)$ 有
$H(X)-H(X|Y)=H(Y)-H(Y|X)$ 称为X和Y的互信息，

《统计自然语言处理 2e》

第1章绪论

1.1 基本概念

1.2 研究内容和困难

第2章预备知识

2.1 概率论基本概念

2.2 信息论基本要素

第6章概率图模型

6.1 概述

6.2 贝叶斯网络

《统计自然语言处理 2e》

第1章 绪论

1.1 基本概念

1.2 研究内容和困难

第2章 预备知识

2.1 概率论基本概念

2.2 信息论基本要素

第6章 概率图模型

6.1 概述

6.2 贝叶斯网络

内容目录

第1章绪论

第2章预备知识

第6章概率图模型