@big-bear
2016-04-21T01:26:28.000000Z
字数 1911
阅读 1542
hibernate
优点:高效,准确,分词
缺点:需要单独的硬盘空间来保存索引文件
全文检索允许用户输入一些关键字,从数据层中查找到所需要的信息.类似于google,百度都是全文检索.
1)全文检索和数据库"LIKE"语句相比,远比数据库的开销小,因为检索过程全部从通过检索文件完成,因此效率非常高。
2)在全文检索领域,用户输入的搜索信息叫做关键字,而全文检索系统把海量信息按照这些关 键字进行结构化处理,把文章打散成段落、文字,最后,按关键字对文章的数据进行分类。这个处理后的数据文本叫做检索文件,检索文件往往比实际数据小得多,但它的数据所包含的信息量损失却非常小。当用户输入一个关键字时,全文检索引擎可以很快地定位到相关文本。
当我们从事互联网产品有了互联网用户以及用户的相关数据以后,数据量明显的会逐渐变大,在数据量庞大到我们数据库的模糊查询的低效率明显影响到用户体验的时候,使用全文检索就要明显优于数据库的模糊查询.
lucene是一个是一个开源的全文检索引擎,Apache基金会赞助项目.lucene有很多优点,包括:它的文本分析器可以定制,检索文件存储方式可以定制,查询引擎也有不同的可选方案.此外,它提供一套非常强大的API接口,使客户用起来很方便.
使用lucene的一些相关概念:
- Document:在Lucene中,一个Document即一个搜索单元。举例来说:如果对一个用户表做检索,那么每条用户信息就是一个Document。
- Field:每一个Document都包含一或多个Field,每一个Field都是key-value数据对。
- Analyzer:分析器/断字器。这是全文检索引擎的心脏,如何将一篇文章打散成一些关键字,并能够不丢失信息量,这是一门单独的学科。Lucene提供多种Analyzer,并提供开放的接口让社区的专家提供新的Analyzer。
- Index:系统生成的检索信息,这里面存储了Document。
- IndexSearcher:IndexSearcher负责检索Index内容负责给出检索结果。
- IndexWriter:IndexWriter负责调用Analyzer,分析后生成Index。
如果基于数据库的项目中直接使用Lucene,会面临下面这样的问题:
- 当数据库中的数据发生变化时,就必须手工触发 Lucene,让它随之更新检索文件中的内容,使之与数据库中的实际数据保持一致。这也就意味着dao中的每一个函数都要插入一段Lucene的代码.
- 此外model类别如何映射到全文检索引擎中,这也是一个问题,必须要手工处理这种映射关系,这样 使用Lucene的代价就大大增加了
hibernate search 是基于lucene的一个hibernate子项目.相比lucene,hibernate search能够利用hibernate非常高效的完成实体对象到索引文件的映射关系,在lucene中这部分工作需要手工的去做大量的处理;另外,hibernate search会在数据库操作与索引相关的数据的时候自动的对索引进行维护,减少了维护索引的代价.可以理解为,hibernate search帮我们完成了实体对象到索引文件的映射以及实现了索引文件的自动维护,大大降低了我们使用Lucene的代价.
首先,我们需要在maven中引入相应的jar包
<dependency>
<groupId>org.hibernate</groupId>
<artifactId>hibernate-search-orm</artifactId>
<version>5.6.0.Alpha3</version>
</dependency>
然后需要在hibernate配置文件中配置hibernate search
<!--将hibernate search的索引保存到硬盘上 -->
<property name="hibernate.search.default.directory_provider">
org.hibernate.search.store.impl.FSDirectoryProvider
</property>
<!-- hibernate search生成的索引的存放位置-->
<property name="hibernate.search.default.indexBase">c:/temp/lucene/indexes</property>