[关闭]
@spiritnotes 2016-06-18T01:17:27.000000Z 字数 713 阅读 1373

《统计自然语言处理基础》

NLP 读书笔记 DOING


第1章 绪论

语言学的目的是描述和解释我们的语言现象。
为了解释语言的结构,人们设计了一些规则来将语言表达结构化。人们总是扩展和改变规则,以满足他们遇到的语言交流的需要。

1.1 理性主义者和经验主义者的方法

理性主义期望建立一种系统,在这个智能系统中通过手工编码大量的先验知识和推理机制,得以复制人类大脑中的语言能力。
经验主义假设大脑中存在认知能力,不是开始于细化的规则集,也不是程序集。而是具有联想、模式识别和概括的一般能力。

1.2 科学内容

统计自然语言处理的主要工作是解决第一个问题

传统语言学将二直判断句子结构是否完好,而不管句子是否是人们习惯的表达方式或者句子是否有正确的语义。该方法提供的信息太少,而且对于非母语者,语法错误很正常,但其还是有其含义
语言中有很多非绝对现象,其和语言的演变历史有关。这种特性使得用概率来理解语言很有必要。
语言和认知是随机现象

1.3 语言中的歧义问题是自然语言难以处理的原因

统计模型的使用可以很好地解决歧义问题

1.4 第一手资料

词频
Zipf法则:一个词在语料中出现的频率和它的排列位置之间的关系成反比,有f*r=k,说话者用小的常用词表,听者用一个大的冷僻词表来减少他们各自的精力付出
语义数法则:说话者希望一个词表示所有意思,听者希望每个意思用不同词汇表示。 m正比于
强法则:如果通过随机产生n个字符和一个空格来组成词语,则满足zipf原则,越短词越频繁出现,越长的词语越多

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注