@xlx9765
2017-06-23T15:10:12.000000Z
字数 1786
阅读 282
中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文只是字、句和段能通过明显的分界符来简单划界,但是词没有一个形式上的分界符,很难划分。
(一)分词技术
分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。
根据查找资料发现,目前主要有常见的分词技术。字符串匹配、词义分词和统计分词。
1、字符串匹配分词方法
作为最常见的匹配算法,又有四种分词方式。
(1)正向最大匹配法:从左到右实现分词。
(2)反向最大匹配法:从右至左实现分词。
(3)最短路径分词法:一段话里面要求切出的词数是最少的。
(4)双向最大匹配法:关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,进行正反向同时进行分词匹配。
2、词义分词法
机器进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。这种分词方法还不成熟,处在测试阶段。
3、统计分词法
根据词组进行统计,找出两个相邻的字出现的频率多的词,作为用户提供字符串中的分隔符。
输入的文本
(一)BosonNLP
词性分析
实体识别
情感分析
新闻摘要
新闻分类
关键词提取
小结:功能齐全,分词比较准确。在该段文本的分词结果中,专有名词“一瓣科技”和动词“意愿”没有被分出来。实体识别、新闻摘要、关键词提取结果比较准确。新闻分类在现有的分类系统中的结果也是正确的,但是系统本身分类太过于宽泛。推测是正向字符匹配算法。
(二)NLPIR
分词标注
实体抽取
词频统计
文本分类
情感分析
关键词提取
摘要提取
小结:除了展示的功能外,还有敏感词提取与地图的可视化功能。由于输入文本内容的原因,这段文本没有提取到相关信息。在以上的结果中,分词时将分出来的词做了词性标注,这是和第一个不相同的地方,但是就分词总体效果而言,不如第一款分词那么准确。“想要”“打造”“旅游委”等都没有分出来。并且所属分类不太准确,摘要提取部分将文本全部提出来,没有进行分析。总体优势是呈现效果更加多元,并且可视性强,让人一目了然。另外词频统计功能第一款没有,这里给出了比较准确的词频统计结果。
两种分词工具都具有较好的分词功能,就准确程度而言,第一种BosonNLP主观感受更准确。第二种NLPIR结果呈现形式更为直观。关键词以字体大小和颜色区分重要程度和相关程度,较于第一种的列表罗列更为直观。实体抽取结果也是如此。能够很清晰的看出有哪几个实体,每个实体相关的分词结果是什么。两种分词工具功能都比较齐全,支持摘要提取、 类别提取、情感分析、关键词提取、实体抽取等。
以上是主流分词工具在爬取新闻数据、微博数据、汽车论坛、餐饮点评信息时的准确的比较。可以看出BosonNLP工具在爬取这四种类型的数据时,准确程度都是最高的。语言云次之。NLPIR更适合新闻数据、微博数据的爬取。结巴分词更适合汽车论坛、餐饮点评类数据的爬取。
新闻数据:用词规整,符合语法规则。
微博数据:用词多样、话题广泛,并常包含错别字及网络流行词。
汽车数据:针对汽车领域的专业评价数据,会出现很多的专业术语。
餐饮点评数据:顾客评论数据,更偏重口语化和很多不规范的表达,使分词更加困难。
不同的文本内容具有不同的词法、词源特点。在选择分词工具时我们应选择更适合自己项目数据本身的分词工具。就我们组所在的项目苍蝇馆子而言,就很类似于最后一种餐饮点评类数据。这次作业也给了我们小组一个启示。
参考链接:
1 http://www.afenxi.com/post/9700
2 http://baike.baidu.com/link?url=PYSVm2ICv-TXhKxPYQ_cbvnN6Yw4hWj4zqU1FjpwAjbwIM5IZVo3iIkNTEtjDO1I8_AVOETlNjAc1GhqFC_SvmB3ea6HrPTkmER4aAW3FKSb2eWUdt4tRz0DoUyZW_wO