ElasticSearch实战详解之-010基础概念

bjkamui

2019-05-17

基本概念

有几个概念是Elasticsearch的核心。从一开始就理解这些概念将极大地帮助简化学习过程。

一、近实时（NRT）

Elasticsearch是一个近乎实时的搜索平台。这意味着从索引文档到可搜索文档之间有一个轻微的延迟(通常是一秒钟)。

二、集群（Cluster）

集群是一个或多个节点(服务器)的集合，它们一起保存您的整个数据，并跨所有节点提供联邦索引和搜索功能。集群由一个惟一的名称标识，默认情况下该名称是“elasticsearch”。这个名称很重要，因为只有将节点设置为按其名称加入集群时，节点才能成为集群的一部分。

确保不要在不同的环境中重用相同的集群名称，否则可能会导致节点加入错误的集群。例如，您可以对开发、测试和生产集群使用logging-dev、logging-stage和logging-prod。

请注意，只有一个节点的集群是有效的，而且非常好。此外，您还可以拥有多个独立的集群，每个集群都有自己独特的集群名称。

三、节点（Node）

节点是一个服务器，它是集群的一部分，存储数据，并参与集群的索引和搜索功能。与集群一样，节点也是通过名称来标识的，默认情况下，名称是在启动时分配给节点的随机全局惟一标识符(UUID)。如果不需要缺省值，可以定义任何需要的节点名称。对于您想要标识网络中的哪些服务器对应于Elasticsearch集群中的哪些节点的管理目的，这个名称非常重要。

可以通过集群名称将节点配置为连接特定的集群。默认情况下，每个节点都被设置为加入一个名为“elasticsearch”的集群，这意味着如果您启动网络上的多个节点——假设它们能够彼此发现——它们将自动形成并加入一个名为elasticsearch的集群。

在单个集群中，您可以拥有任意多的节点。此外，如果您的网络上没有其他运行的Elasticsearch节点，那么默认情况下，启动单个节点将形成一个名为“elasticsearch"的新单节点集群。

四、索引（Index）

索引是具有某种类似特征的文档集合。例如，可以为客户数据建立索引，为产品目录建立另一个索引，为订单数据建立另一个索引。索引由名称标识(必须全部为小写)，当对其中的文档执行索引、搜索、更新和删除操作时，此名称用于引用索引。

在一个集群中，您可以定义任意多的索引。

五、类型（Type）【在V6.0.0中弃用了】

注意：

在Elasticsearch 7.0.0或更高版本中创建的索引不再接受_default_映射。索引在6中创建。x将继续在Elasticsearch 6.x中运行。类型在api 7.0中是不受支持的，它会中断对索引创建、put映射、get映射、put模板、get模板和get字段映射api的更改。

什么是映射类型?（What are mapping types ?）

自从第一次发布Elasticsearch以来，每个文档都存储在一个索引（Index）中，并分配了一个映射类型（mapping type）。映射类型用于表示被索引的文档或实体的类型（Type），例如twitter索引可能具有用户类型和tweet类型。

每个映射类型都可以有自己的字段，因此用户类型可以有full_name字段、user_name字段和电子邮件字段，而tweet类型可以有内容字段、tweeted_at字段，和用户类型一样，还有user_name字段。

每个文档都有一个包含类型名称的_type元字段，通过在URL中指定类型名称，可以将搜索限制为一个或多个类型

GET twitter/user,tweet/_search { "query": { "match": { "user_name": "kimchy" } } }

_type字段与文档的_id相结合生成_uid字段，因此具有相同_id的不同类型的文档可以存在于一个索引中。

还使用映射类型在文档之间建立父子关系，因此类型为question的文档可以是类型为answer的文档的父文档。

为什么弃用了（Why are mapping types being removed?）

最初，我们讨论了类似于SQL数据库中的“数据库”的“索引”，以及等价于“表”的“类型”。

这是一个错误的类比，导致了错误的假设。在SQL数据库中，表是相互独立的。一个表中的列与另一个表中具有相同名称的列没有关系。这与映射类型中的字段不同。

在Elasticsearch索引中，不同映射类型中具有相同名称的字段在内部由相同的Lucene字段支持。换句话说，使用上面的示例，user类型中的user_name字段存储在与tweet类型中的user_name字段完全相同的字段中，而且两个user_name字段在这两种类型中必须具有相同的映射(定义)。

例如，当您想要删除一个类型中的日期字段和同一个索引中的另一个类型中的布尔字段时，这可能会导致失败。

最重要的是，存储在同一索引中具有很少或没有共同字段的不同实体会导致数据稀疏，并影响Lucene有效压缩文档的能力。

基于这些原因，我们决定将映射类型的概念从Elasticsearch中移除。

五、文档（Document）

文档是可以建立索引的基本信息单元。例如，您可以为单个客户创建一个文档，为单个产品创建另一个文档，为单个订单创建另一个文档。该文档用JSON (JavaScript对象表示法)表示，这是一种无处不在的internet数据交换格式。在索引中，可以存储任意数量的文档。

六、分片和副本（Shards & Replicas） 

索引可能存储大量数据，这些数据可能超过单个节点的硬件限制。例如，一个包含10亿个文档的索引占用1TB的磁盘空间，这个索引可能不适用于单个节点的磁盘，或者速度太慢，无法满足单个节点的搜索请求。

为了解决这个问题，Elasticsearch提供了将索引细分为多个分片的功能。创建索引时，可以简单地定义所需的分片数量。每个分片本身都是一个功能齐全且独立的“索引”，可以托管在集群中的任何节点上。

分片之所以重要，主要有两个原因:

它允许您水平分割/缩放内容卷
它允许跨切分(可能在多个节点上)分布和并行化操作，从而提高性能/吞吐量

分片如何分布以及如何将其文档聚合回搜索请求的机制完全由Elasticsearch管理，并且对用户是透明的。

在随时可能出现故障的网络/云环境中，如果分片/节点由于某种原因离线或消失，那么使用故障转移机制是非常有用的，强烈建议使用这种机制。为此，Elasticsearch允许将索引分片的一个或多个副本复制到所谓的复制分片中。

复制之所以重要，主要有两个原因:

它在分片/节点失败时提供高可用性。出于这个原因，需要注意的是，复制分片永远不会与复制它的原始/主分片分配在相同的节点上。
它允许您扩展搜索量/吞吐量，因为可以在所有副本上并行执行搜索。

总而言之，每个索引可以分成多个分片。索引也可以被复制零次(即没有副本)或多次。复制后，每个索引将具有主分片(从其中复制的原始分片)和复制分片(主分片的副本)。可以在创建索引时为每个索引定义分片和副本的数量。创建索引之后，还可以随时动态更改副本的数量。您可以使用_shrink和_split api更改现有索引的分片数量，但是这不是一项简单的任务，预先计划正确的分片数量是最佳方法。

默认情况下，Elasticsearch中的每个索引分配一个主分片和一个副本，这意味着如果您的集群中至少有两个节点，那么您的索引将有一个主分片和另一个副本分片(一个完整的副本)，每个索引总共有两个分片。

elasticsearch line-height white-space 集群服务器 text-indent

bjkamui

0 关注 0 粉丝 0 动态

关注关注

ElasticSearch7.1.1集群搭建

接下来我们就可以在此基础上配置ElasticSearch集群了，均用于保存数据且可被选为master节点。服务版本elasticsearch 7.1.1jdk 1.82、elasticsearch.yml配置说明：。cluster.name: myes#

IceStreamLab 2020-06-25

Elasticsearch py客户端库安装及使用方法解析

elasticsearch-py是一个官方提供的low-level的elasticsearch python客户端库。因为它只是对elasticsearch的rest API接口做了一层简单的封装，因此提供了最大的灵活性，但是于此同时使用起来就不是太方便。

newbornzhao 2020-09-14

ElasticSearch最全详细使用教程

本文介绍了ElasticSearch的必备知识：从入门、索引管理到映射详解。Green - everything is good ，即最佳状态。Yellow - all data is available but some replicas are not

做对一件事很重要 2020-09-07

十张图说清Elasticsearch原理！

说到 Elasticsearch，其中最明显的一个特点就是 near real-time 准实时，当文档存储在 Elasticsearch 中时，将在 1 秒内以几乎实时的方式对其进行索引和完全搜索。Segment：也叫段，类似于倒排索引，相当于一个数据

renjinlong 2020-09-03

ElasticSearch 交互使用

tcp 0 0 10.0.0.121:5601 0.0.0.0:* LISTEN 88636/node

李玉志 2020-08-19

django 对接elasticsearch实现全文检索

# python manage.py rebuild_index #数据库有多少条数据，全部会被同步到es中。object = BookSerializer # 只读,不可以进行反序列化。fields = # text 由索引类进行返回, object

明瞳 2020-08-19

Spring Boot 集成 Elasticsearch 实战

可以在 ES 官方文档中发现，ES 为 Java REST Client 提供了两种方式的 Client：Java Low Level Client 和 Java High Level REST Client。低级别客户端，它允许通过 HTTP 请求与 E

李玉志 2020-08-19

如何对 ElasticSearch 集群进行压力测试

当 ElasticSearch 的业务量足够大，比如每天都会产生数百 GB 数据的时候，你就会自然而然的需要一个性能更强的 ElasticSearch 集群。特别是当你使用的场景是一些典型的大量数据进入的场景，比如网站日志、用户行为记录、大型电商网站的站内

mengyue 2020-08-07

操作ElasticSearch插件和可视化工具 Kibana

当 ElasticSearch 的实例并运行，您可以使用 localhost:9200,基于 JSON 的 REST API 与ElasticSearch 进行通信。在 ElasticSearch 自己的文档中，所有示例都使用 curl。但是，当使用 AP

molong0 2020-08-06

Elasticsearch实战 | match_phrase搜不出来，怎么办？

title=公路局正在治理解放大道路面积水问题。实际应用中可能需要： 1）检索关键词”理解”、”解放”、”道路”、“理解放大”，都能搜出这篇文档。标准分析仪是默认分析仪，如果没有指定，则默认使用该分词器。但，会出现冗余数据非常多。针对要求2），排除matc

AFei00 2020-08-03

Elasticsearch聚合后分页深入详解

不支持，看看Elasticsearch员工如何解读。这个问题，2014年在github上有很长的讨论。究其为什么ES不支持聚合后分页？可概括如下： 1）性能角度——聚合分页会在大量的记录中产生性能问题。2）正确性角度——聚合的文档计数不准确。所以奇怪的事情

molong0 2020-08-03

Elasticsearch大文件检索性能提升20倍实践（干货）

ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。项目中，有时候需要将一些扫描件、PDF文档、Word、Excel、PPT等文档内容导入Elasticsearch。比如：将《深入理解Elasticsearch》这边书导入ES，而这

wenwentana 2020-08-03

重磅 | 死磕Elasticsearch方法论认知清单（国庆更新版）

每个人都会犯错，别再让相同的错误一再发生，别再让我们为那些错误付出沉痛的代价。清单不是写在纸上的，而是印在心上的。我们别无选择，清单，正在一步步变革我们的生活，变革这个复杂的世界......——[美] 阿图-葛尔德《清单革命》。实战 | Elasticse

YYDU 2020-08-03

Elasticsearch实战 | 必要的时候，还得空间换时间!

另外一部分，则需要先做聚类、分类处理，将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引，同时将每个聚合主题相关的数据存入每个document下面的某个field下。

sifeimeng 2020-08-03

Elasticsearch索引增量统计及定时邮件实现

如何以相对简单的图形化效果展示数据的增量呢？本文给出思路和实现。2）crontab实现定时任务处理。步骤1，步骤2数据可以Excel统计得出。步骤3:Excel生成图表。3）开发中其他相关物理机器内存、CPU、磁盘读写性能等指标的监控等。

心丨悦 2020-08-03

如何在Linux下安装部署分布式全文搜索引擎

Elasticsearch是一个开源的分布式全文本搜索和分析引擎。它支持RESTful操作，并允许您实时存储，搜索和分析大量数据。Elasticsearch是最流行的搜索引擎之一，可为具有复杂搜索要求的应用程序提供动力，例如大型电子商务商店和分析应用程序。

liangwenrong 2020-07-31

ElasticSearch的下载、安装使用

下载ik中文分词器。浏览器访问是否启动成功。安装ik中文分词插件。解压分词插件包—->放到es的plugins目录下—->重新启动es即可

sifeimeng 2020-08-01

我也是才知道ElasticSearch条件更新是这么玩的

ElasticSearch 的使用度越来越普及了，很多公司都在使用。有做日志搜索的，有做商品搜索的，有做订单搜索的。大部分使用场景都是通过程序定期去导入数据到 ElasticSearch 中，或者通过 CDC 的方式来构建索引。在这种场景下，更新数据都是单

mengyue 2020-07-30

读写成功率达99.999%，提升ElasticSearch系统稳定性的秘密

ElasticSearch 是一个分布式的开源搜索和分析引擎，因其功能强大、简单易用而被应用到很多业务场景。在生产环境使用 ES 时，如果未进行优化则服务的稳定性可能得不到保障，目前我们使用 ES 作为账单平台的基础组件为微信支付提供服务时就遇到这种问题。

tigercn 2020-07-29

es快照备份到minio

用 API 删除快照很重要，而不能用其他机制。因为快照是增量的，有可能很多快照依赖于过去的段。deleteAPI 知道哪些数据还在被更多近期快照使用，然后会只删除不再被使用的段。但是，如果你做了一次人工文件删除，你将会面临备份严重损坏的风险，因为你在删除的

IceStreamLab 2020-07-29

安科网

ElasticSearch实战详解之-010基础概念

bjkamui

bjkamui

相关推荐

ElasticSearch7.1.1集群搭建

Elasticsearch py客户端库安装及使用方法解析

ElasticSearch最全详细使用教程

十张图说清Elasticsearch原理！

ElasticSearch 交互使用

django 对接elasticsearch实现全文检索

Spring Boot 集成 Elasticsearch 实战

如何对 ElasticSearch 集群进行压力测试

操作ElasticSearch插件和可视化工具 Kibana

Elasticsearch实战 | match_phrase搜不出来，怎么办？

Elasticsearch聚合后分页深入详解

Elasticsearch大文件检索性能提升20倍实践（干货）

重磅 | 死磕Elasticsearch方法论认知清单（国庆更新版）

Elasticsearch实战 | 必要的时候，还得空间换时间!

Elasticsearch索引增量统计及定时邮件实现

如何在Linux下安装部署分布式全文搜索引擎

ElasticSearch的下载、安装使用

我也是才知道ElasticSearch条件更新是这么玩的

读写成功率达99.999%，提升ElasticSearch系统稳定性的秘密

es快照备份到minio

bjkamui