elasticsearch 搜索结果的扫描 scan和滚动 scroll

YYDU

2017-07-13

scan 搜索类型和 scroll API 会一起用来从 elasticsearch 中获得大量文档，不会受到深度分页（deep pagination）的影响。

scroll 滚动搜索 允许我们进行一个初始搜索并保证批量从 Elasticsearch 中拉取结果直到没有更多结果。这看起来有点像传统数据库中的 cursor。滚动搜索会及时取一个快照。这不会受到后来对索引的改变的影响。通过保持旧数据来实现，所以可以看做是保持了在开始搜索时候的一个“视图”。
scan 深度分页的最耗资源的部分就是对结果的整体排序，但是如果我们关闭排序，那么可以消耗极少资源返回所有的文档。对这个情况，我们可以使用 scan 搜索类型。scan 告诉 elasticsearch 不去排序，而是仅仅从每个仍然有结果的分片中返回下一批（batch）。

要使用 scan-and-scroll，我们执行设置 search_type 为 scan 的搜索请求，然后传递一个 scroll 参数告诉 elasticsearch 需要保持 scroll 开放多久：

GET /old_index/_search?search_type=scan&scroll=1m ...(1)
{
    "query": { "match_all": {}},
    "size": 1000
}

(1) 将 scroll 开放 1 分钟

对该请求的反应不会包含任何的命中 hits，但是会包含一个 _scroll_id，这是一个 64 位的字符串编码。现在我们将 _scroll_id 传递给 _search/scroll 来检索结果的第一批：

GET /_search/scroll?scroll=1m                                             ...(1)
c2Nhbjs1OzExODpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExOTpRNV9aY1VyUVM
4U0NMd2pjWlJ3YWlBOzExNjpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNzpRNV9
aY1VyUVM4U0NMd2pjWlJ3YWlBOzEyMDpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzE
7dG90YWxfaGl0czoxOw==                                                     ...(2)

(1) 保持 scroll 再开放一分钟|
(2) _scroll_id 可以通过 body，URL，或者 query 参数进行传递

注意到，我们这里又指定了 ?scroll=1m。这个 scroll 终结时间在我们每执行一次 scroll 请求时刷新，所以仅需要给我们足够的时间来处理当前结果的批，而不是整个匹配查询的文档。

这个scroll的响应包含第一批的结果。尽管我们指定了 size 为 1000，我们获得了更多的文档。在 scan 的时候，size 作用在每个分片上，所以你将会在每批得到最大为 size * number_of_primary_shards 的文档。

注意：scroll 请求同样会返回一个新的 _scroll_id。每次我们产生下一个 scroll 请求，我们必须传递上一个 scroll 请求的 _scroll_id。

若没有更多的命中，我们就处理完了所有匹配的文档。

注意：有些official Elasticsearch clients 提供 scan-and-scroll 帮助方法来提供易用的封装。

作者：Not_GOD
链接：http://www.jianshu.com/p/098896664bf7
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

elasticsearch scroll

安科网

elasticsearch 搜索结果的扫描 scan和滚动 scroll

YYDU

YYDU

相关推荐

Elasticsearch大文件检索性能提升20倍实践（干货）

Elasticsearch大文件检索性能提升20倍实践（干货）

Elasticsearch py客户端库安装及使用方法解析

ElasticSearch最全详细使用教程

十张图说清Elasticsearch原理！

ElasticSearch 交互使用

django 对接elasticsearch实现全文检索

Spring Boot 集成 Elasticsearch 实战

如何对 ElasticSearch 集群进行压力测试

操作ElasticSearch插件和可视化工具 Kibana

Elasticsearch实战 | match_phrase搜不出来，怎么办？

Elasticsearch聚合后分页深入详解

重磅 | 死磕Elasticsearch方法论认知清单（国庆更新版）

Elasticsearch实战 | 必要的时候，还得空间换时间!

Elasticsearch索引增量统计及定时邮件实现

如何在Linux下安装部署分布式全文搜索引擎

ElasticSearch的下载、安装使用

我也是才知道ElasticSearch条件更新是这么玩的

读写成功率达99.999%，提升ElasticSearch系统稳定性的秘密

es快照备份到minio

YYDU