[关闭]
@xlx9765 2017-06-25T13:36:12.000000Z 字数 934 阅读 299

windows下Luke索引实验报告


1、简介
Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。
2、主要功能
浏览文件编号
查看文件/复制到剪贴板
检索条件的最常见的排名名单
执行搜索和浏览结果
搜寻结果分析
有选择地从索引中删除文件
重构原始文档,修改并重新插入到索引
优化索引
3、Luke下载
官方下载地址:https://github.com/DmitryKey/luke/releases
笔者使用的是Luke-6.3.0.

4、Luke使用
双击luke-with-deps 打开
此处输入图片的描述

打开后可导入索引文件,找到本地内索引文件,进行导入
此处输入图片的描述
此处输入图片的描述

导入成功后显示如下:
此处输入图片的描述

导入成功后则默认在overview选项卡,该选项卡下主要由三部分构成,上部分显示了Document,Field,Term的统计信息,上图中显示的有100个Document,21个Field,884个Term;下部分左侧显示了所有的Field,以及每个Field下的分词个数,每个Field的出现频率,每个Field的编码格式。下部分右侧显示的则是详细信息,按照出现频率进行排名,显示了每个Field的分词文本。
Documents选项卡
可以用来增删文档,也可以用来通过编号查找记录,并可以显示该记录的详细信息,如下查找第5条记录,显示的信息如图:
此处输入图片的描述

点击Recoonstruct&Edit可以查看和更改当前Document的值与属性。如下:
此处输入图片的描述

也可以查看Field的值,如下所示:
此处输入图片的描述

search选项卡
搜索选项卡,可以进行匹配查询,如下:
此处输入图片的描述

commits选项卡
可以查看每个索引的名称,大小等信息,以供索引分析,
此处输入图片的描述

Plugins选项卡
可以将文本进行分词,并且有多种分词方法可以选择,如下:
此处输入图片的描述

Scripting Luke提供了一个JavaScript的交互式Shell,如下:
此处输入图片的描述

关于Vocabulary Analysisi Tool
此处输入图片的描述

关于Zipf distribution
此处输入图片的描述

将索引导出为xml格式。
此处输入图片的描述

导出后内容
此处输入图片的描述
此处输入图片的描述

检查索引正确性
Tools->check Index Tool进行索引检查
此处输入图片的描述

5、总结
Luke可以实现对索引的分词,可以对分词结果进行优化,显示详细索引信息,还可通过可视化界面显示词频信息,流行度统计。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注