Lucene基本都是概念的东西，希望等我自己回头看的时候还能记起来点就行

BitTigerio

2018-05-09

关注关注

Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能。

lLucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供

lLucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻，在Java开发环境里Lucene是一个成熟的免费开放源代码工具

lLucene并不是现成的搜索引擎产品，但可以用来制作搜索引擎产品

我的理解Luene其实就是一个搜索的插件或者框架，但是不是一个完整的产品，需要自己代码去完善

Lucene与搜索引擎的区别

全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统，包括建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。例如：百度搜索、eclipse帮助搜索、淘宝网商品搜索等。

搜索引擎是全文检索技术最主要的一个应用，例如百度。搜索引擎起源于传统的信息全文检索理论，即计算机程序通过扫描每一篇文章中的每一个词，建立以词为单位的倒排文件，检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率，对包含这些检索词的文章进行排序，最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。

Lucene和搜索引擎不同，Lucene是一套用java或其它语言写的全文检索的工具包，为应用程序提供了很多个api接口去调用，可以简单理解为是一套实现全文检索的类库，搜索引擎是一个全文检索系统，它是一个单独运行的软件系统

顺序扫描法

所谓顺序扫描，例如要找内容包含一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。这种方法是顺序扫描方法，数据量大就搜索慢。

倒排索引

倒排索引（也称为倒排文件）是一种存储了来自文本中的映射的索引数据结构。比如单词或者数字，对应到它们在数据库、一个文件或者一组文件中的位置。它是在文档检索系统中使用的最流行的数据结构，在搜索引擎中有大规模使用案例

例如我们使用新华字典查询汉字，新华字典有偏旁部首的目录（索引），我们查字首先查这个目录，找到这个目录中对应的偏旁部首，就可以通过这个目录中的偏旁部首找到这个字所在的位置（文档）。

倒排索引做两件事情：

1、提取资源中关键信息，建立索引（目录）

2、搜索时，根据关键字（目录），找到资源的位置

应用场景：

1、单机软件的搜索（word中的搜索）

2、站内搜索（baidu贴吧、论坛、京东、taobao）

3、垂直领域的搜索（docin豆丁、拉勾、100offer）

4、专业搜索引擎公司（google、baidu）

搜索引擎全文检索 lucene em 索引全文索引

安科网

Lucene基本都是概念的东西，希望等我自己回头看的时候还能记起来点就行

BitTigerio

Lucene与搜索引擎的区别

相关术语

顺序扫描法

倒排索引

BitTigerio

相关推荐

由于Elasticsearch是在 Lucene 基础上构建

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

如何在Linux下安装部署分布式全文搜索引擎

全文搜索引擎 Elasticsearch

数据专家CNZZ简介

倒排索引

网站优化：分析网站的快照没有更新的原因是什么?

Elasticsearch到底哪点好？

1、网络爬虫

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

【汉文】SEO白帽和SEO黑帽的技术区别

信息搜集之搜索引擎

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

Go语言中文分词技术使用技巧（一）

怎么防止优化好的关键词忽然排名下降

搜索引擎之倒排索引浅析

世界需要Cliqz，世界需要更多的搜索引擎

搜索引擎之倒排索引浅析

网站排名下降了怎么办？

做好网站优化，必须注意这些问题

BitTigerio