[关闭]
@xlx9765 2017-06-23T15:10:12.000000Z 字数 1786 阅读 282

分词工具包调研报告


一、什么是分词

中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文只是字、句和段能通过明显的分界符来简单划界,但是词没有一个形式上的分界符,很难划分。

二、实现分词的技术与算法

(一)分词技术

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。

根据查找资料发现,目前主要有常见的分词技术。字符串匹配、词义分词和统计分词。

1、字符串匹配分词方法
作为最常见的匹配算法,又有四种分词方式。
(1)正向最大匹配法:从左到右实现分词。
(2)反向最大匹配法:从右至左实现分词。
(3)最短路径分词法:一段话里面要求切出的词数是最少的。
(4)双向最大匹配法:关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,进行正反向同时进行分词匹配。

2、词义分词法
机器进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。这种分词方法还不成熟,处在测试阶段。

3、统计分词法
根据词组进行统计,找出两个相邻的字出现的频率多的词,作为用户提供字符串中的分隔符。

三、现有分词工具的使用结果展示与分析

输入的文本

此处输入图片的描述

(一)BosonNLP

词性分析

此处输入图片的描述

实体识别
此处输入图片的描述

情感分析
此处输入图片的描述

新闻摘要
此处输入图片的描述

新闻分类
此处输入图片的描述

关键词提取
此处输入图片的描述

小结:功能齐全,分词比较准确。在该段文本的分词结果中,专有名词“一瓣科技”和动词“意愿”没有被分出来。实体识别、新闻摘要、关键词提取结果比较准确。新闻分类在现有的分类系统中的结果也是正确的,但是系统本身分类太过于宽泛。推测是正向字符匹配算法。

(二)NLPIR

分词标注
此处输入图片的描述

实体抽取
此处输入图片的描述

词频统计
此处输入图片的描述

文本分类
此处输入图片的描述

情感分析
此处输入图片的描述

关键词提取
此处输入图片的描述

摘要提取
此处输入图片的描述

小结:除了展示的功能外,还有敏感词提取与地图的可视化功能。由于输入文本内容的原因,这段文本没有提取到相关信息。在以上的结果中,分词时将分出来的词做了词性标注,这是和第一个不相同的地方,但是就分词总体效果而言,不如第一款分词那么准确。“想要”“打造”“旅游委”等都没有分出来。并且所属分类不太准确,摘要提取部分将文本全部提出来,没有进行分析。总体优势是呈现效果更加多元,并且可视性强,让人一目了然。另外词频统计功能第一款没有,这里给出了比较准确的词频统计结果。

四、主观比较与使用感受

两种分词工具都具有较好的分词功能,就准确程度而言,第一种BosonNLP主观感受更准确。第二种NLPIR结果呈现形式更为直观。关键词以字体大小和颜色区分重要程度和相关程度,较于第一种的列表罗列更为直观。实体抽取结果也是如此。能够很清晰的看出有哪几个实体,每个实体相关的分词结果是什么。两种分词工具功能都比较齐全,支持摘要提取、 类别提取、情感分析、关键词提取、实体抽取等。

五、典型分词工具的结果比较(来源于资料)

准确度比较

此处输入图片的描述

此处输入图片的描述

以上是主流分词工具在爬取新闻数据、微博数据、汽车论坛、餐饮点评信息时的准确的比较。可以看出BosonNLP工具在爬取这四种类型的数据时,准确程度都是最高的。语言云次之。NLPIR更适合新闻数据、微博数据的爬取。结巴分词更适合汽车论坛、餐饮点评类数据的爬取。

新闻数据:用词规整,符合语法规则。
微博数据:用词多样、话题广泛,并常包含错别字及网络流行词。
汽车数据:针对汽车领域的专业评价数据,会出现很多的专业术语。
餐饮点评数据:顾客评论数据,更偏重口语化和很多不规范的表达,使分词更加困难。

不同的文本内容具有不同的词法、词源特点。在选择分词工具时我们应选择更适合自己项目数据本身的分词工具。就我们组所在的项目苍蝇馆子而言,就很类似于最后一种餐饮点评类数据。这次作业也给了我们小组一个启示。

参考链接:
1 http://www.afenxi.com/post/9700
2 http://baike.baidu.com/link?url=PYSVm2ICv-TXhKxPYQ_cbvnN6Yw4hWj4zqU1FjpwAjbwIM5IZVo3iIkNTEtjDO1I8_AVOETlNjAc1GhqFC_SvmB3ea6HrPTkmER4aAW3FKSb2eWUdt4tRz0DoUyZW_wO

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注