elasticsearch集群搭建及参数详解

做对一件事很重要

2019-12-03

关注关注

介绍

elasticsearch集群的搭建教程很多。网上一搜都是，但是，搭建不难。更重要的是明白集群原理，性能以及运维知识点。所以，本文将从这些点着重介绍。

配置参数详解

在elasticsearch配置文件中有以下这些参数，将逐一介绍(其实配置文件中英文描述已经非常清楚)：

cluster.name
集群名，自定义集群名，默认为elasticsearch，建议修改，因为低版本多播模式下同一网段下相同集群名会自动加入同一集群，如生产环境这样易造成数据运维紊乱。
node.name
节点名，同一集群下要求每个节点的节点名不一致，起到区分节点和辨认节点作用
node.master
是否为主节点，选项为true或false，当为true时在集群启动时该节点为主节点，在宕机或任务挂掉之后会选举新的主节点，恢复后该节点依然为主节点
node.data
是否处理数据，选项为true或false。负责数据的相关操作
path.data
默认数据路径，可用逗号分隔多个路径
path.logs
默认日志路径
bootstrap.mlockall
内存锁，选项为true或false，用来确保用户在es-jvm中设置的ES_HEAP_SIZE参数内存可以使用一半以上而又不溢出
network.host
对外暴露的host，0.0.0.0时暴露给外网
http.port
对外访问的端口号，默认为9200，所以外界访问该节点一般为http://ip:9200/
transport.tcp.port
集群间通信的端口号，默认为9300
discovery.zen.ping.unicast.hosts
集群的ip集合，可指定端口，默认为9300，如 ["192.168.1.101","192.168.1.102"]
discovery.zen.minimum_master_nodes
最少的主节点个数，为了防止脑裂，最好设置为(总结点数/2 + 1)个
discovery.zen.ping_timeout
主节点选举超时时间设置
gateway.recover_after_nodes
值为n，网关控制在n个节点启动之后才恢复整个集群
node.max_local_storage_nodes
值为n，一个系统中最多启用节点个数为n
action.destructive_requires_name
选项为true或false，删除indices是否需要现实名字

理解主节点、副节点、分片与复制分片

关系

起初创建节点与分片的关系，设置shards=2,replicas=1

elasticsearch集群搭建及参数详解

elasticsearch节点与分片的关系图.png

解析

node-master主节点
集群中用于元数据(metadata)的请求处理，比如确定分片位置，索引的新增、删除请求分配等
node
包括client node和 data node

1. `client node` node.master=true,node.data=false 用于转发请求，起到平衡负载的作用
2. `data node` node.master=flase,node.data=true
&gt; 节点上保存了数据分片。它负责数据相关操作，比如分片的 CRUD，以及搜索和整合操作。这些操作都比较消耗 CPU、内存和 I/O 资源

shards 分片
在设置索引时默认(5)或自己设置的分片数量，即indices(1)--shards(n)，而每插入一条数据都会在唯一主分片中，即Document(n)--shards(1)
replicas 复制分片
同样在设置索引时会默认(1)或自定义复制分片数量，该数量对应关系为每个主分片对应的复制分片，即shards(1)--replicas(n)

要点

当集群健康状态为yello表示存在复制分片未被分配(unassigned)到节点中（或者分配的复制节点个数少于设置的个数）,这时如果硬件有故障将无法找回数据。
在同一个节点上既保存原始数据又保存副本是没有意义的，因为一旦失去了那个节点，我们也将丢失该节点上的所有副本数据。
主分片数量一般是在建立索引时就固定的，一般是不作修改的，如果减少分片数量意味着数据将要丢失
复制分片一定意义上可以起到负载的功能，提高数据的冗余量。但如果只是在相同节点数目的集群上增加更多的副本分片并不能提高性能，因为每个分片从节点上获得的资源会变少。你需要增加更多的硬件资源来提升吞吐量

节点与分片模型

同样设置shards=2,replicas=1

elasticsearch集群搭建及参数详解

elasticsearch节点与分片可分配关系图.png

elasticsearch集群搭建及参数详解

elasticsearch节点与分片正常存储关系图.png

分布式文档存储的关系原理

这个在官网指南中写的很清楚了。

集群搭建

配置集群

修改配置文件

# vi /etc/elasticsearch/elasticsearch.yml

# 统一的集群名
cluster.name: syncwt-es
# 当前节点名
node.name: syncwt-es-node-1
# 对外暴露端口使外网访问
network.host: 0.0.0.0
# 对外暴露端口
http.port: 9200
# ...还有很多可以设置，这些是基础的。具体看上面的配置参数说明

重启并查看集群健康状态：

# sudo systemctl start elasticsearch.service
# curl -XGET &#39;http://localhost:9200/_cat/health?v&#39;

集群可视化插件安装elasticsearch-head

# cd ${elasticsearch_HOME}
# ./plugin install mobz/elasticsearch-head

页面访问效果(单节点)：
http://119.29.248.199:9200/_plugin/head/

elasticsearch集群搭建及参数详解

elasticsearch_head效果图.png

注意

集群中es的版本应保持一致，最好内网部署，外网不是很稳定。
可用容器(如docker)封装统一部署集群各节点以保持配置一致性
可在一台机器上运行多个节点来构建集群，只是性能会和机器配置相关

总结

集群中节点选型策略。node-data节点(随着数据增加而增加)，note-client(随着查询压力而增加)节点
集群节点数量上升时，多关注配置参数，如gateway.recover_after_nodes等，会带来很多效率的提高
当集群数量较大时，建议横向扩展集群。单纯增加es节点的内存和CPU不会有很大提升，建议多增加节点

elasticsearch集群搭建及参数详解

elasticsearch data

做对一件事很重要

0 关注 0 粉丝 0 动态

关注关注

Elasticsearch py客户端库安装及使用方法解析

elasticsearch-py是一个官方提供的low-level的elasticsearch python客户端库。因为它只是对elasticsearch的rest API接口做了一层简单的封装，因此提供了最大的灵活性，但是于此同时使用起来就不是太方便。

newbornzhao 2020-09-14

ElasticSearch最全详细使用教程

本文介绍了ElasticSearch的必备知识：从入门、索引管理到映射详解。Green - everything is good ，即最佳状态。Yellow - all data is available but some replicas are not

做对一件事很重要 2020-09-07

十张图说清Elasticsearch原理！

说到 Elasticsearch，其中最明显的一个特点就是 near real-time 准实时，当文档存储在 Elasticsearch 中时，将在 1 秒内以几乎实时的方式对其进行索引和完全搜索。Segment：也叫段，类似于倒排索引，相当于一个数据

renjinlong 2020-09-03

ElasticSearch 交互使用

tcp 0 0 10.0.0.121:5601 0.0.0.0:* LISTEN 88636/node

李玉志 2020-08-19

django 对接elasticsearch实现全文检索

# python manage.py rebuild_index #数据库有多少条数据，全部会被同步到es中。object = BookSerializer # 只读,不可以进行反序列化。fields = # text 由索引类进行返回, object

明瞳 2020-08-19

Spring Boot 集成 Elasticsearch 实战

可以在 ES 官方文档中发现，ES 为 Java REST Client 提供了两种方式的 Client：Java Low Level Client 和 Java High Level REST Client。低级别客户端，它允许通过 HTTP 请求与 E

李玉志 2020-08-19

如何对 ElasticSearch 集群进行压力测试

当 ElasticSearch 的业务量足够大，比如每天都会产生数百 GB 数据的时候，你就会自然而然的需要一个性能更强的 ElasticSearch 集群。特别是当你使用的场景是一些典型的大量数据进入的场景，比如网站日志、用户行为记录、大型电商网站的站内

mengyue 2020-08-07

操作ElasticSearch插件和可视化工具 Kibana

当 ElasticSearch 的实例并运行，您可以使用 localhost:9200,基于 JSON 的 REST API 与ElasticSearch 进行通信。在 ElasticSearch 自己的文档中，所有示例都使用 curl。但是，当使用 AP

molong0 2020-08-06

Elasticsearch实战 | match_phrase搜不出来，怎么办？

title=公路局正在治理解放大道路面积水问题。实际应用中可能需要： 1）检索关键词”理解”、”解放”、”道路”、“理解放大”，都能搜出这篇文档。标准分析仪是默认分析仪，如果没有指定，则默认使用该分词器。但，会出现冗余数据非常多。针对要求2），排除matc

AFei00 2020-08-03

Elasticsearch聚合后分页深入详解

不支持，看看Elasticsearch员工如何解读。这个问题，2014年在github上有很长的讨论。究其为什么ES不支持聚合后分页？可概括如下： 1）性能角度——聚合分页会在大量的记录中产生性能问题。2）正确性角度——聚合的文档计数不准确。所以奇怪的事情

molong0 2020-08-03

Elasticsearch大文件检索性能提升20倍实践（干货）

ES建立索引完成全文检索的前提是将待检索的信息导入Elaticsearch。项目中，有时候需要将一些扫描件、PDF文档、Word、Excel、PPT等文档内容导入Elasticsearch。比如：将《深入理解Elasticsearch》这边书导入ES，而这

wenwentana 2020-08-03

重磅 | 死磕Elasticsearch方法论认知清单（国庆更新版）

每个人都会犯错，别再让相同的错误一再发生，别再让我们为那些错误付出沉痛的代价。清单不是写在纸上的，而是印在心上的。我们别无选择，清单，正在一步步变革我们的生活，变革这个复杂的世界......——[美] 阿图-葛尔德《清单革命》。实战 | Elasticse

YYDU 2020-08-03

Elasticsearch实战 | 必要的时候，还得空间换时间!

另外一部分，则需要先做聚类、分类处理，将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引，同时将每个聚合主题相关的数据存入每个document下面的某个field下。

sifeimeng 2020-08-03

Elasticsearch索引增量统计及定时邮件实现

如何以相对简单的图形化效果展示数据的增量呢？本文给出思路和实现。2）crontab实现定时任务处理。步骤1，步骤2数据可以Excel统计得出。步骤3:Excel生成图表。3）开发中其他相关物理机器内存、CPU、磁盘读写性能等指标的监控等。

心丨悦 2020-08-03

如何在Linux下安装部署分布式全文搜索引擎

Elasticsearch是一个开源的分布式全文本搜索和分析引擎。它支持RESTful操作，并允许您实时存储，搜索和分析大量数据。Elasticsearch是最流行的搜索引擎之一，可为具有复杂搜索要求的应用程序提供动力，例如大型电子商务商店和分析应用程序。

liangwenrong 2020-07-31

ElasticSearch的下载、安装使用

下载ik中文分词器。浏览器访问是否启动成功。安装ik中文分词插件。解压分词插件包—->放到es的plugins目录下—->重新启动es即可

sifeimeng 2020-08-01

我也是才知道ElasticSearch条件更新是这么玩的

ElasticSearch 的使用度越来越普及了，很多公司都在使用。有做日志搜索的，有做商品搜索的，有做订单搜索的。大部分使用场景都是通过程序定期去导入数据到 ElasticSearch 中，或者通过 CDC 的方式来构建索引。在这种场景下，更新数据都是单

mengyue 2020-07-30

读写成功率达99.999%，提升ElasticSearch系统稳定性的秘密

ElasticSearch 是一个分布式的开源搜索和分析引擎，因其功能强大、简单易用而被应用到很多业务场景。在生产环境使用 ES 时，如果未进行优化则服务的稳定性可能得不到保障，目前我们使用 ES 作为账单平台的基础组件为微信支付提供服务时就遇到这种问题。

tigercn 2020-07-29

es快照备份到minio

用 API 删除快照很重要，而不能用其他机制。因为快照是增量的，有可能很多快照依赖于过去的段。deleteAPI 知道哪些数据还在被更多近期快照使用，然后会只删除不再被使用的段。但是，如果你做了一次人工文件删除，你将会面临备份严重损坏的风险，因为你在删除的

IceStreamLab 2020-07-29

Elasticsearch是一把梭，用起来再说？！

我们这边es 都是我们在推,很多开发不会用或者用的不规范！问题3：不评估可行性和高可用性，先搞起来。如下图，某公司26岁的程序员王某的Elasitcsearch一把梭用法，能很形象的说出了问题产生的根因。2019年12月初安全事件《Elasticsearc

IceStreamLab 2020-07-29

安科网

elasticsearch集群搭建及参数详解

做对一件事很重要

介绍

配置参数详解

理解主节点、副节点、分片与复制分片

分布式文档存储的关系原理

集群搭建

总结

做对一件事很重要

相关推荐

Elasticsearch py客户端库安装及使用方法解析

ElasticSearch最全详细使用教程

十张图说清Elasticsearch原理！

ElasticSearch 交互使用

django 对接elasticsearch实现全文检索

Spring Boot 集成 Elasticsearch 实战

如何对 ElasticSearch 集群进行压力测试

操作ElasticSearch插件和可视化工具 Kibana

Elasticsearch实战 | match_phrase搜不出来，怎么办？

Elasticsearch聚合后分页深入详解

Elasticsearch大文件检索性能提升20倍实践（干货）

重磅 | 死磕Elasticsearch方法论认知清单（国庆更新版）

Elasticsearch实战 | 必要的时候，还得空间换时间!

Elasticsearch索引增量统计及定时邮件实现

如何在Linux下安装部署分布式全文搜索引擎

ElasticSearch的下载、安装使用

我也是才知道ElasticSearch条件更新是这么玩的

读写成功率达99.999%，提升ElasticSearch系统稳定性的秘密

es快照备份到minio

Elasticsearch是一把梭，用起来再说？！

做对一件事很重要