第14篇-Python中的Elasticsearch入门

[2018-05-27T17：36：11,744] [INFO] [oehnNetty4HttpServerTransport] [c6hEGv4] publish_address {127.0.0.1:9200}、bound_addresses {[:: 1]：9200}，{127.0.0.1:9200}

但是，既然眼见为实，http://localhost:9200那就在浏览器中或通过cURL 访问URL ，下面的内容应该会很欢迎您。

{

“ name”：“ c6hEGv4”，

“ cluster_name ”：“ elasticsearch”，“ cluster_uuid”：“

HkRyTYXvSkGvvvHX2Q1-oQ”，

“ version”：{

“ number”：“ 6.2.4”，

“ build_hash”：“ ccec39f”，

“ build_date”：“ 2018-04-12T20：37：28.497551Z”，

“ build_snapshot”：false，

“ lucene_version”：“ 7.2.1”，

“ minimum_wire_compatibility_version”：“ 5.6.0”，

“ minimum_index_compatibility_version”：“ 5.0。 0“

}，

”标语“：”您知道，要搜索“

}

现在，在我继续使用Python访问Elastic Search之前，让我们做一些基本的事情。正如我提到的，ES提供了REST API，我们将使用它来执行不同的任务。

基本范例

您要做的第一件事就是创建一个指数。一切都存储在索引中。RDBMS相当于指数是一个数据库因此，请勿将其与您在RDBMS中学习的典型索引概念混淆。我正在使用PostMan运行REST API。

如果运行成功，您将在下面看到类似的响应。

{

“ acknowledged”：true，

“ shards_acknowledged”：true，

“ index”：“ company”

}

因此，我们创建了一个名为company的数据库。换句话说，我们创建了一个名为company的索引。如果您通过浏览器进行访问，则会看到类似以下内容：

http://localhost:9200/company

{

“ company”：{

“ aliases”：{

}，

“ mappings”：{

}，

“ settings”：{

“ index”：{

“ creation_date”：“ 1527638692850”，

“ number_of_shards”：“ 5”，

“ number_of_replicas”： “ 1”，

“ uuid”：“ RnT-gXISSxKchyowgjZOkQ”，

“ version”：{

“ created”：“ 6020499”

}，

“ provided_name”：“ company”

}

稍等片刻mappings，我们稍后再讨论。实际上只不过是创建文档的架构而已。creation_date是不言自明的。的number_of_shards讲述，将让这个数据分区的数量指标。将全部数据保存在单个磁盘上根本没有任何意义。如果您正在运行包含多个Elastic节点的集群，则整个数据将在它们之间拆分。简而言之，如果有5个分片，则整个数据可在5个分片上使用，并且ElasticSearch集群可以处理来自其任何节点的请求。

副本谈论数据的镜像。如果您熟悉主从概念，那么这对您来说应该不是新知识。您可以在此处了解有关基本ES概念的更多信息。

创建索引的cURL版本是单行的。

?elasticsearch-6.2.4 curl -X PUT本地主机：9200 / company

{“ acknowledged”：true，“ shards_acknowledged”：true，“ index”：“ company”}％

您还可以一次执行索引创建和记录插入任务。您要做的就是以JSON格式传递记录。在PostMan中，您可以像下面这样。

确保设置Content-Type为application/json

company如果它不存在，它将在此处创建一个名为的索引，然后在此处创建一个名为employee的新类型。类型实际上是RDBMS 中表的ES版本。

上面的请求将输出以下JSON结构。

{

“ _index”：“公司”，

“ _ type ”：“员工”，

“

_ id”：“ 1”，“ _ version”：1，

“结果”：“已创建”，

“ _ shards”：{

“总计”：2，

“成功”：1，

“失败”：0

}，

“ _ seq_no”：0，

“ _ primary_term”：1

}

您通过/1作为记录的ID。虽然没有必要。要做的就是_id用value 设置field 1。然后，您以JSON格式传递数据，该数据最终将作为新记录或文档插入。如果您http://localhost:9200/company/employees/1从浏览器访问，您将看到以下内容。

{“ _index”：“公司”，“ _ type”：“员工”，“ _ id”：“ 1”，“ _ version”：1，“ found”：true，“ _ source”：{

“ name”：“ Adnan Siddiqi” ，

“职业”：“顾问”

}

您可以看到实际记录以及元数据。如果您愿意，可以将请求更改为http://localhost:9200/company/employees/1/_source，它将仅输出记录的JSON结构。

cURL版本为：

{

"name" : "c6hEGv4",

"cluster_name" : "elasticsearch",

"cluster_uuid" : "HkRyTYXvSkGvkvHX2Q1-oQ",

"version" : {

"number" : "6.2.4",

"build_hash" : "ccec39f",

"build_date" : "2018-04-12T20:37:28.497551Z",

"build_snapshot" : false,

"lucene_version" : "7.2.1",

"minimum_wire_compatibility_version" : "5.6.0",

"minimum_index_compatibility_version" : "5.0.0"

"tagline" : "You Know, for Search"

}

如果您想更新该记录怎么办？好吧，这很简单。您要做的就是更改JSON记录。如下所示：

它将生成以下输出：

{

"company": {

"aliases": {

"mappings": {

"settings": {

"index": {

"creation_date": "1527638692850",

"number_of_shards": "5",

"number_of_replicas": "1",

"uuid": "RnT-gXISSxKchyowgjZOkQ",

"version": {

"created": "6020499"

"provided_name": "company"

}

请注意，该_result字段现在设置为updated而不是created

当然，您也可以删除某些记录。

而且，如果您快要疯了或者您的女朋友已经抛弃了您，则可以通过curl -XDELETE localhost:9200/_all从命令行运行来烧毁整个世界。

让我们做一些基本的搜索。如果运行http://localhost:9200/company/employees/_search?q=adnan，它将搜索类型下的所有字段employees并返回相关记录。

{

"_index": "company",

"_type": "employees",

"_id": "1",

"_version": 1,

"result": "created",

"_shards": {

"total": 2,

"successful": 1,

"failed": 0

"_seq_no": 0,

"_primary_term": 1

}

该max_score字段指示记录的相关性，即记录的最高分数。如果有多个记录，那么它将是另一个数字。

您还可以通过传递字段名称来将搜索条件限制为某个字段。因此，http://localhost:9200/company/employees/_search?q=name:Adnan将仅在name文档的字段中搜索。它实际上等效于SQLSELECT * from table where name=‘Adnan‘

我只介绍了基本示例。ES可以做很多事情，但是我将通过阅读文档让您进一步探索它，然后切换到使用Python访问ES。

在Python中访问ElasticSearch

老实说，ES的REST API足够好，您可以使用requests库来执行所有任务。不过，您可以将Python库用于ElasticSearch，以专注于主要任务，而不必担心如何创建请求。

通过pip安装它，然后可以在Python程序中访问它。

pip install elasticsearch

为确保已正确安装，请从命令行运行以下基本代码段：

?elasticsearch-6.2.4 python

Python 3.6.4 | Anaconda自定义（64位）| （默认值，2018年1月16日，12：04：33）

在darwin上使用[GCC 4.2.1兼容的Clang 4.0.1（标签/ RELEASE_401 / final）]输入以下内容的

“帮助”，“版权”，“信用”或“许可证”更多信息。

? elasticsearch-6.2.4 python

Python 3.6.4 |Anaconda custom (64-bit)| (default, Jan 16 2018, 12:04:33)

[GCC 4.2.1 Compatible Clang 4.0.1 (tags/RELEASE_401/final)] on darwin

Type "help", "copyright", "credits" or "license" for more information.

>>> from elasticsearch import Elasticsearch

>>> es = Elasticsearch([{‘host‘: ‘localhost‘, ‘port‘: 9200}])

>>> es

<Elasticsearch([{‘host‘: ‘localhost‘, ‘port‘: 9200}])>

网页搜索和Elasticsearch

让我们讨论一下使用Elasticsearch的一些实际用例。目的是访问在线食谱并将其存储在Elasticsearch中以用于搜索和分析目的。我们将首先从Allrecipes抓取数据并将其存储在ES中。如果是ES，我们还将创建一个严格的Schema或映射，以便确保以正确的格式和类型对数据进行索引。我只是拉沙拉食谱的清单而已。让我们开始！

抓取数据

结论

Elasticsearch是一个功能强大的工具，通过提供强大的功能以返回最准确的结果集，可以帮助您搜索现有或新应用。我刚刚介绍了要点。阅读文档并熟悉这个强大的工具。特别是模糊搜索功能非常出色。如果有机会，我将在以后的文章中介绍Query DSL。

第14篇-Python中的Elasticsearch入门

标签：ima 类型保存高度分区 imp nan rds web

原文地址：https://www.cnblogs.com/Elasticsearchalgolia/p/13138481.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行