@xlx9765
2017-06-23T15:12:00.000000Z
字数 1697
阅读 196
mmseg是蔡志浩(Chih-HaoTsai)提出的基于字符串匹配(亦称基于词典)的中文分词算法。基于单纯的最大匹配无法完美地解决歧义这一问题,MMSeg在正向最大匹配的基础上设计了四个启发式规则。
MMSeg的字符串匹配算法分为两种:
(1)Simple,简单的正向最大匹配,即按能匹配上的最长词做切分;
(2)Complex,在正向最大匹配的基础上,考虑相邻词的词长,设计了四个去歧义规则(Ambiguity Resolution Rules)指导分词。如下:
在complex分词算法中,MMSeg将切分的相邻三个词作为词块(chunk),应用如下四个消歧义规则:
1、备选词块的长度最大(Maximum matching),即三个词的词长之和最大;
2、备选词块的平均词长最大(Largest average word length),即要求词长分布尽可能均匀;
3、备选词块的词长变化最小(Smallest variance of word lengths );
4、备选词块中(若有)单字的出现词自由度最高(Largest sum of degree of morphemic freedom of one-character words)。
(1)下载
(2)检查java环境
输入java -version
输入javac
3、运行mmseg4j-core-1.10.0.jar
可以看到分词结果,如下:
2013级本科20名同学分为三组,由乔健、何玲、史江、蔡娜老师带队,分别在院、校两级实习基地进行了为期一月的毕业集中实习,截止5月5日,实习圆满结束。西南电力设计院是今年挂牌的院级实习基地,秘书档案系首次与之合作开展毕业集中实习活动,同学们分两批次在该院轮流实习。另一组同学则在校级实习基地成都金控航星公司实习。在为期一月的集中实习过程中,20名同学接触到实际的档案工作,熟悉了档案工作的各业务环节内容及工作程序,加深了对今后从事档案工作的认识。在实习中,同学们将课堂上所学的档案学理论知识与档案工作实践结合起来,在实习基地业务老师的指导下深入学习档案业务管理知识,掌握了许多档案管理实践的操作技能。比如:底图档案的扫描和入库、数字档案馆中图纸的挂接、人事档案、文书档案和业务档案的整理和分类、档案数字化中的档案数据和索引录入、紫晶文档一体化管理系统操作等等,使所学理论知识在实践中得以充分运用并得到巩固提高。
(1)complex方法
分词结果:
统计分析
文本 | 错误分词结果 | 类型 |
---|---|---|
乔建 | 乔/建 | 人名 |
何玲 | 何/玲 | 人名 |
史江 | 史/江 | 人名 |
蔡娜 | 蔡/娜 | 人名 |
西南电力设计院 | 西南/电力/设计院 | 专有名词 |
秘书档案系 | 秘书/档案/系 | 系名 |
成都金控航星公司 | 成都/金/控/航/星/公司 | 公司名 |
各/业务/环节 | 各业/务/环节 | |
底图档案 | 底/图档/案 | 专有名词 |
紫晶文档 | 紫/晶/文档 | 专有名词 |
共10次错误,绝大多数是人名和专有名词。
(2)simple方法
分词结果:
统计分析
文本 | 错误分词结果 | 类型 |
---|---|---|
乔建 | 乔/建 | 人名 |
何玲 | 何/玲 | 人名 |
史江 | 史/江 | 人名 |
蔡娜 | 蔡/娜 | 人名 |
西南电力设计院 | 西南/电力/设计院 | 专有名词 |
秘书档案系 | 秘书/档案/系 | 系名 |
成都金控航星公司 | 成都/金控/航星/公司 | 公司名 |
各/业务/环节 | 各业/务/环节 | |
底图档案 | 底/图档/案 | 专有名词 |
紫晶文档 | 紫/晶/文档 | 专有名词 |
也是10次错误,分词结果和complex大体相同。公司名称分词结果有差异。
使用tika将上次得到的新闻xml文件转化为纯文本格式,保存在c盘
在此展示结果前两页
页面1
页面2
参考文章:中文分词 简单高效的mmseg