[关闭]
@xlx9765 2017-06-23T15:12:00.000000Z 字数 1697 阅读 196

中文分词实验报告----基于mmseg4j


一、认识中文分词包(mmseg4j)(下载、安装与运行)

1、简介

mmseg是蔡志浩(Chih-HaoTsai)提出的基于字符串匹配(亦称基于词典)的中文分词算法。基于单纯的最大匹配无法完美地解决歧义这一问题,MMSeg在正向最大匹配的基础上设计了四个启发式规则。

2、算法

MMSeg的字符串匹配算法分为两种:
(1)Simple,简单的正向最大匹配,即按能匹配上的最长词做切分;
(2)Complex,在正向最大匹配的基础上,考虑相邻词的词长,设计了四个去歧义规则(Ambiguity Resolution Rules)指导分词。如下:

在complex分词算法中,MMSeg将切分的相邻三个词作为词块(chunk),应用如下四个消歧义规则:
1、备选词块的长度最大(Maximum matching),即三个词的词长之和最大;
2、备选词块的平均词长最大(Largest average word length),即要求词长分布尽可能均匀;
3、备选词块的词长变化最小(Smallest variance of word lengths );
4、备选词块中(若有)单字的出现词自由度最高(Largest sum of degree of morphemic freedom of one-character words)。

3、运行

(1)下载
(2)检查java环境

输入java -version
此处输入图片的描述

输入javac
此处输入图片的描述

3、运行mmseg4j-core-1.10.0.jar
此处输入图片的描述

可以看到分词结果,如下:
此处输入图片的描述

二、分词方法与效果分析

1、分词文本

2013级本科20名同学分为三组,由乔健、何玲、史江、蔡娜老师带队,分别在院、校两级实习基地进行了为期一月的毕业集中实习,截止5月5日,实习圆满结束。西南电力设计院是今年挂牌的院级实习基地,秘书档案系首次与之合作开展毕业集中实习活动,同学们分两批次在该院轮流实习。另一组同学则在校级实习基地成都金控航星公司实习。在为期一月的集中实习过程中,20名同学接触到实际的档案工作,熟悉了档案工作的各业务环节内容及工作程序,加深了对今后从事档案工作的认识。在实习中,同学们将课堂上所学的档案学理论知识与档案工作实践结合起来,在实习基地业务老师的指导下深入学习档案业务管理知识,掌握了许多档案管理实践的操作技能。比如:底图档案的扫描和入库、数字档案馆中图纸的挂接、人事档案、文书档案和业务档案的整理和分类、档案数字化中的档案数据和索引录入、紫晶文档一体化管理系统操作等等,使所学理论知识在实践中得以充分运用并得到巩固提高。

2、分词方法结果比较

(1)complex方法

分词结果:
此处输入图片的描述

统计分析

文本 错误分词结果 类型
乔建 乔/建 人名
何玲 何/玲 人名
史江 史/江 人名
蔡娜 蔡/娜 人名
西南电力设计院 西南/电力/设计院 专有名词
秘书档案系 秘书/档案/系 系名
成都金控航星公司 成都/金/控/航/星/公司 公司名
各/业务/环节 各业/务/环节
底图档案 底/图档/案 专有名词
紫晶文档 紫/晶/文档 专有名词

共10次错误,绝大多数是人名和专有名词。

(2)simple方法

分词结果:
此处输入图片的描述

统计分析

文本 错误分词结果 类型
乔建 乔/建 人名
何玲 何/玲 人名
史江 史/江 人名
蔡娜 蔡/娜 人名
西南电力设计院 西南/电力/设计院 专有名词
秘书档案系 秘书/档案/系 系名
成都金控航星公司 成都/金控/航星/公司 公司名
各/业务/环节 各业/务/环节
底图档案 底/图档/案 专有名词
紫晶文档 紫/晶/文档 专有名词

也是10次错误,分词结果和complex大体相同。公司名称分词结果有差异。

三、分词结果提交

1、转换为纯文本类型

使用tika将上次得到的新闻xml文件转化为纯文本格式,保存在c盘

四、基于分词结果的词云分析(词频统计+可视化)

1、词云

此处输入图片的描述

2、词频统计

在此展示结果前两页

页面1
此处输入图片的描述

页面2
此处输入图片的描述

参考文章:中文分词 简单高效的mmseg

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注