Elasticsearch

时间：2019-07-03 13:30:12 阅读：71 评论：0 收藏：0 [点我收藏+]

Elasticsearch是Elastic Stack核心的分布式搜索和分析引擎。Logstash和Beats有助于收集，聚合和丰富您的数据并将其存储在Elasticsearch中。Kibana使您能够以交互方式探索，可视化和分享数据洞察，并管理和监控堆栈。Elasticsearch是索引，搜索和分析魔术发生的地方。

Elasticsearch为所有类型的数据提供实时搜索和分析。无论您是结构化文档还是非结构化文本，数字数据或地理空间数据，Elasticsearch都可以以支持快速搜索的方式有效地存储和索引它。您可以远远超出简单的数据检索和聚合信息，以发现数据中的趋势和模式。随着您的数据和查询量的增长，Elasticsearch的分布式特性使您的部署能够与其一起无缝地增长

数据输入：文档和索引编辑

Elasticsearch是一个分布式文档存储。Elasticsearch不是将信息存储为列数据行，而是存储已经序列化为JSON文档的复杂数据结构。当群集中有多个Elasticsearch节点时，存储的文档将分布在群集中，并且可以从任何节点立即访问。

存储文档时，它会在1秒内实时索引并完全可搜索。Elasticsearch使用称为倒排索引的数据结构，支持非常快速的全文搜索。倒排索引列出任何文档中出现的每个唯一单词，并标识每个单词出现的所有文档。

索引可以被视为优化的文档集合，每个文档都是字段的集合，这些字段是包含数据的键值对。默认情况下，Elasticsearch会为每个字段中的所有数据编制索引，并且每个索引字段都具有专用的优化数据结构。例如，文本字段存储在反向索引中，数字和地理字段存储在BKD树中。使用每个字段的数据结构来汇编和返回搜索结果的能力使Elasticsearch如此之快。

Elasticsearch还具有无模式的能力，这意味着可以索引文档而无需显式指定如何处理文档中可能出现的每个不同字段。启用动态映射后，Elasticsearch会自动检测并向索引添加新字段。这种默认行为使您可以轻松索引和浏览数据 - 只需开始索引文档，Elasticsearch将检测并将布尔值，浮点和整数值，日期和字符串映射到相应的Elasticsearch数据类型。

信息输出：搜索和分析编辑

虽然您可以将Elasticsearch用作文档存储并检索文档及其元数据，但真正的强大功能来自于能够轻松访问基于Apache Lucene搜索引擎库构建的全套搜索功能。

Elasticsearch提供了一个简单，一致的REST API，用于管理集群，索引和搜索数据。出于测试目的，可以直接从命令行或通过Kibana中的Developer Console轻松提交请求。

可伸缩性和弹性：集群，节点和分片编辑

Elasticsearch始终可用，可根据您的需求进行扩展。它通过自然分配来实现这一点。您可以将服务器（节点）添加到群集以增加容量，Elasticsearch会自动在所有可用节点上分配数据和查询负载。无需彻底检查您的应用程序，Elasticsearch了解如何平衡多节点群集以提供规模和高可用性。节点越多，越好。

这是如何运作的？在封面下，Elasticsearch索引实际上只是一个或多个物理分片的逻辑分组，其中每个分片实际上是一个自包含的索引。通过跨多个分片在索引中分发文档，并将这些分片分布在多个节点上，Elasticsearch可以确保冗余，这可以防止硬件故障，并在节点添加到群集时提高查询容量。随着集群的增长（或收缩），Elasticsearch会自动迁移分片以重新平衡集群。

有两种类型的分片：原色和副本。索引中的每个文档都属于一个主分片。副本分片是主分片的副本。副本提供数据的冗余副本，以防止硬件故障并增加服务读取请求（如搜索或检索文档）的容量。

索引中的主分片数在创建索引时是固定的，但副本分片的数量可以随时更改，而不会中断索引或查询操作。

可伸缩性和弹性：集群，节点和分片编辑

Elasticsearch始终可用，可根据您的需求进行扩展。它通过自然分配来实现这一点。可以将服务器（节点）添加到群集以增加容量，Elasticsearch会自动在所有可用节点上分配数据和查询负载。无需彻底检查您的应用程序，Elasticsearch了解如何平衡多节点群集以提供规模和高可用性。节点越多，越好。

索引中的主分片数在创建索引时是固定的，但副本分片的数量可以随时更改，而不会中断索引或查询操作。

关于分片大小和为索引配置的主分片数量，存在许多性能考虑因素和折衷方案。分片越多，维护这些索引的开销就越大。分片大小越大，当Elasticsearch需要重新平衡群集时，移动分片所需的时间越长。

查询大量小分片使得每个分片的处理速度更快，但查询意味着更多的开销，因此查询较少数量的较大分片可能会更快。简而言之......这取决于。

作为一个起点：

* 旨在将平均分片大小保持在几GB到几十GB之间。对于具有基于时间的数据的用例，通常会看到20GB到40GB范围内的分片。

* 避免大量碎片问题。节点可以容纳的分片数量与可用堆空间成比例。作为一般规则，每GB堆空间的分片数应小于20。

出于性能原因，群集中的节点需要位于同一网络上。在不同数据中心的节点之间平衡群集中的分片只需要太长时间。但是高可用性架构要求您避免将所有鸡蛋放在一个篮子里。如果在一个位置发生重大中断，则另一个位置的服务器需要能够接管。无缝连接。答案？跨群集复制（CCR）。

CCR提供了一种自动将索引从主群集同步到可作为热备份的辅助远程群集的方法。如果主群集出现故障，则辅助群集可以接管。您还可以使用CCR创建辅助群集，以便在地理位置接近用户时提供读取请求。

跨群集复制是主动 - 被动的。主群集上的索引是活动的leader索引并处理所有写入请求。复制到辅助群集的索引是只读关注者。

Elasticsearch

标签：优化更改范围令行浮点模式远程简单的地理

原文地址：https://www.cnblogs.com/gqymy/p/11125666.html