Lucene

编码之路

2020-02-20

1 什么是全文检索？

1.1 数据分类

我们生活中的数据总体分为两类：结构化数据和非结构化数据。
结构化数据：指的是具有固定格式和有限长度的数据。比如数据库的数据等。
非结构化数据：指的是不具有固定格式或非有限长度的数据，比如邮件、Word文档等磁盘上的文件。

1.2 结构化数据搜索

常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现，通常都是使用SQL语句进行查询，而且能很快的得到查询结果。

为什么数据库搜索很容易？
因为数据库中的数据存储是由规律的，有行有列而且数据格式、长度都是固定的。

1.3 非结构化数据查询方法

1.3.1 顺序扫描法

所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的查询，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档是我们要找的文件，接着看下一个文件，直到扫描完所有的文件。例如利用windows的搜索也可以搜索文件内容，只是相当的慢。

1.3.2 全文检索

将非结构化数据的一部分信息提取出来，重新组织，使其变得具有一定的结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的母的。这部分从非结构化数据中提取的然后重新组织的信息，我们称之为索引。
例如：字典。字典的拼音表和部首检查字表就相当于字典的索引，对于每一个字的解释是非结构化的，如果字典没有拼音表或部首查字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们非结构化的数据--对字的解释。

上面这种先建立索引，再对索引进行搜索的过程叫全文检索。
虽然创建索引的过程也是非常耗时的，但是索引一旦创建就可以多次使用，全文检索主要处理的是查询，所以耗时间创建索引是值得的。

1.4 如何实现全文检索

可以使用Lucene实现全文检索。

1.5 全文检索的应用场景

对于数据量大、数据结构不固定的数据可采用全文检索的方式进行搜索，比如百度、Google等搜索引擎、论坛站内搜索、电商网站等等。

2 使用Lucene实现全文检索的流程

2.1 Lucene简介

Lucene是Apache下的一个开源的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。
Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便在目标系统中实现全文检索的功能。

2.2 索引和搜索的流程图

Lucene

绿色表示创建索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：获取文档-->构建文档对象-->分析文档（对内容分词）-->创建索引。
红色表示查询索引过程，从索引库中搜索内容，搜索过程包括：

全文检索 lucene ul 数据检索索引全文索引数据库

编码之路

0 关注 0 粉丝 0 动态

相关推荐

lucene&solr全文检索_7solr后台界面的介绍

Logging：solr的运行日志，如果出现问题会告诉你什么问题。Core Admin:solr core 的管理界面。solr core是solr 的一个独立运行实例单位，他可以对外提供索引和搜索服务，一个solr工程可以运行多个solrcore，一个c

lionelf 2020-02-03

lucene&solr全文检索_3查询索引

创建完索引之后，我们需要查询。// 第一步：创建一个java工程，并导入jar包。// 2）指定一个分析器，对文档内容进行分析。Directory directory =FSDirectory.open;//创建document

TyCoding 2020-02-01

《从Lucene到Elasticsearch全文检索实战》的P184页

其次，他说使用了books.json,在P183页说保存为books.json这个文件是直接放在curl解压缩后的文件夹的bin目录下的。汗，我第一次，关于这个问题搞了半天，之前我一直使用Kibana的，坑。后来百度看到有人说这个都出现localhost:

PinkBean 2020-01-29

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算

编码之路 2020-01-01

全文检索Lucene

索引一次创建可以多次使用，表现为每次查询速度都很快。把非结构化数据进行字符串拆分，得到一个单词的列表，基于单词列表创建一个索引，然后查询索引，根据单词和文档的对应关系找到文档列表，这个过程就叫做全文索引

PasserbyX 2020-01-01

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算

qiuzhuoxian 2019-12-31

Lucene全文检索引擎

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却

xiaoxiaoabc 2017-08-04

全文检索Lucene使用与优化

Lucene是一个全文搜索框架，而不是应用产品。因此它并不像www.baidu.com或者googleDesktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品。要回答这个问题，先要了解lucene的本质。实际上lucene的功能很单一，说到底，

exitzhang 2012-03-22

Lucene(全文检索技术)入门级笔记整之一——第一个Lucene程序 .

目前最新的的版本是3.0.3。本文的示例代码基于 Lucene3.0.1 编写。Lucene，主要是做站内搜索，即对一个系统内的资源进行搜索。这个索引的集合称为索引库。索引库对在大数据量下的查询效率有非常高的要求。因此，索引库的结构是根据全文检索的特征，专

PasserbyX 2011-10-24

lucense全文检索

Lucene是一个基于Java的全文索引工具包。另外，如果是在选择全文引擎，现在也许是试试Sphinx的时候了：相比Lucene速度更快，有中文分词的支持，而且内置了对简单的分布式检索的支持；他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功

大伟爱自由 2011-08-15

Lucene3.6实现全文检索的小例子

System.out.println("开始创建索引。。。System.out.println("这花费了"+(endTime-stime)+"毫秒来把数据增加到索引"+indexPath+"里面

qiuzhuoxian 2013-02-21

lucene全文索引

总听说lucene，总听到“全文检索”，一直不大明白什么意思。这里小述一下以往的迷惑，“全文检索”其实和在Google输入几个关键字搜索目标差不多，需要通过关键字建立对所有目标的反向索引。值得一说的是，数据库中也有索引，是用B树结构来维护，但不能支持全文检

某某某 2012-11-08

django 对接elasticsearch实现全文检索

# python manage.py rebuild_index #数据库有多少条数据，全部会被同步到es中。object = BookSerializer # 只读,不可以进行反序列化。fields = # text 由索引类进行返回, object

明瞳 2020-08-19

浅析MongoDB 全文检索

全文检索对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。MongoDB 从 2.4 版本开始支持全文检索，目前支

zhushenghan 2020-08-16

Lucene概述

Lucene是apache软件基金会4jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提

qiuzhuoxian 2014-07-23

Sphinx : 高性能SQL全文检索引擎

快速创建索引：3分钟左右即可创建近100万条记录的索引，并且采用了增量索引的方式，重建索引非常迅速。为很多脚本语言设计了检索API，如PHP,Python,Perl,Ruby等，因此你可以在大部分编程应用中很方便地调用Sphinx的相关接口。为MySQL设

vitasfly 2016-12-28

Sphinx logo 全文检索引擎 Sphinx

Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Per

半壁灯 2013-06-15

开放源代码的全文检索引擎Lucene

第一节全文检索系统与Lucene简介··· 3. 1．项··· 16

繌子 2011-05-01

lucene进行全文检索的一个简单例子

最近在研究关于lucene检索文档的问题，参考网上一些人的例子，但是结果只能检索英文的，有人说要通过中文分词，但我也用了，结果是一样的，不能检索中文。后来经过一些高手的指点，解决了中文的问题。我用的lucene版本为3.0.2，中文分词是IKAnalyze

qiuzhuoxian 2011-03-09

Mysql实现全文检索、关键词跑分的方法实例

今天一个同事问我，如何使用 Mysql 实现类似于 ElasticSearch 的全文检索功能，并且对检索关键词跑分？我当时脑子里立马产生了疑问？简单好用还贼快。但是听他说，数据量不多，客户给的时间非常有限，根本没时间去搭建es，所以还是看一下 Mysql

sofia 2020-09-03

编码之路

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号