@xlx9765
2017-06-25T13:36:12.000000Z
字数 934
阅读 299
1、简介
Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。
2、主要功能
浏览文件编号
查看文件/复制到剪贴板
检索条件的最常见的排名名单
执行搜索和浏览结果
搜寻结果分析
有选择地从索引中删除文件
重构原始文档,修改并重新插入到索引
优化索引
3、Luke下载
官方下载地址:https://github.com/DmitryKey/luke/releases
笔者使用的是Luke-6.3.0.
4、Luke使用
双击luke-with-deps 打开
打开后可导入索引文件,找到本地内索引文件,进行导入
导入成功后显示如下:
导入成功后则默认在overview选项卡,该选项卡下主要由三部分构成,上部分显示了Document,Field,Term的统计信息,上图中显示的有100个Document,21个Field,884个Term;下部分左侧显示了所有的Field,以及每个Field下的分词个数,每个Field的出现频率,每个Field的编码格式。下部分右侧显示的则是详细信息,按照出现频率进行排名,显示了每个Field的分词文本。
Documents选项卡
可以用来增删文档,也可以用来通过编号查找记录,并可以显示该记录的详细信息,如下查找第5条记录,显示的信息如图:
点击Recoonstruct&Edit可以查看和更改当前Document的值与属性。如下:
也可以查看Field的值,如下所示:
search选项卡
搜索选项卡,可以进行匹配查询,如下:
commits选项卡
可以查看每个索引的名称,大小等信息,以供索引分析,
Plugins选项卡
可以将文本进行分词,并且有多种分词方法可以选择,如下:
Scripting Luke提供了一个JavaScript的交互式Shell,如下:
关于Vocabulary Analysisi Tool
关于Zipf distribution
将索引导出为xml格式。
导出后内容
检查索引正确性
Tools->check Index Tool进行索引检查
5、总结
Luke可以实现对索引的分词,可以对分词结果进行优化,显示详细索引信息,还可通过可视化界面显示词频信息,流行度统计。