使用Elasticsearch Python SDK 查询Easysearch

随着数据分析需求的不断增长,能够高效地查询和分析大数据集变得越来越重要。Elasticsearch作为一种强大的分布式搜索和分析引擎,被广泛应用于各种场景。Easyearch 支持原生 Elasticsearch 的 DSL 查询语法,确保原业务代码无需调整即可无缝迁移。同时,EasySearch还支持 SQL 查询,为熟悉 SQL 的开发人员提供更加便捷的数据分析方式。此外,EasySearch 兼容 Elasticsearch 的 SDK 和现有索引存储格式,支持冷热架构和索引生命周期管理,确保用户能够轻松实现数据的无缝衔接。

Elasticsearch Python客户端提供了一种简便的方法,使得开发者可以通过DSL、SQL语法对Elasticsearch索引进行查询。同时,Elasticsearch Python客户端还提供了高级功能如批量操作API。本文将详细介绍如何安装和使用Elasticsearch Python客户端,以便在Python应用程序中对Elasticsearch执行DSL和SQL查询。

1. 安装 Elasticsearch Python 客户端

要使用Elasticsearch Python客户端,首先需要通过pip进行安装。打开终端或命令提示符,并运行以下命令:

pip install elasticsearch==7.13.1

如果使用默认版本安装,会安装8.x的依赖,可能会报错 elasticsearch.UnsupportedProductError: The client noticed that the server is not Elasticsearch and we do not support this unknown product.

由于Elasticsearch 7.10.2以后变更了许可模式,引入了 Server Side Public License (SSPL) 和 Elastic License,很多基于Elasticsearch 7.10.2分支出来的搜索引擎需要使用7.x版本的SDK和agent,比如Beats全家桶。

在这里插入图片描述
这是一个获取集群信息的demo,使用es.cluster.health() 调用 Elasticsearch 集群的健康检查API,返回集群的健康状态。

由于使用了自签名证书,所以在初始化时加上 verify_certs=False 参数,同时使用 warnings.filterwarnings("ignore") 设置 Python 的警告系统,忽略所有发出的警告。这在生产代码中通常不推荐,因为它会隐藏潜在的问题,但在开发或测试环境中,如果警告信息太多干扰调试,可能会暂时使用。

import urllib3
import elasticsearch
from elasticsearch import Elasticsearch
import warnings
from pprint import pprint# 禁用所有警告
warnings.filterwarnings("ignore")print(elasticsearch.VERSION)
# 禁用警告
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)url = "https://ip:9200/"
user_passwd = ('user', 'passwd')# 建立连接
es = Elasticsearch([url],http_auth=user_passwd,verify_certs=False,
)# 检查集群健康状态
health = es.cluster.health()
pprint(health)

2. 准备示例数据

在进行查询之前,我们需要在 Easyearch 中创建一些示例数据。

# 定义示例数据
sample_data = [{"index": {"_index": "my_index"}},{"field": "value1", "another_field": 10},{"index": {"_index": "my_index"}},{"field": "value2", "another_field": 20},{"index": {"_index": "my_index"}},{"field": "value3", "another_field": 30},{"index": {"_index": "my_index"}},{"field": "bulk_value1", "another_field": 100},{"index": {"_index": "my_index"}},{"field": "bulk_value2", "another_field": 200},{"index": {"_index": "my_index"}},{"field": "bulk_value3", "another_field": 300}
]# 批量插入示例数据
response = es.bulk(body=sample_data)
print(response)

3. 使用 REST API 进行查询

REST API 是与 EasySearch 进行通信的常用方式。通过 REST API,开发者可以发送 HTTP 请求来执行各种操作,包括索引文档、搜索数据等。以下示例展示了如何在 Python 中执行 REST 查询。

由于是REST API,我们可以先使用Postman进行测试。

在这里插入图片描述

我们可以看到HTTP端点可以正常返回,然后就可以使用编程方式进行访问了:

import requests
from requests.auth import HTTPBasicAuth
from pprint import pprinturl = "https://ip:9200/"
user_passwd = ('user', 'passwd')# 构建查询参数
query = {"query": {"match": {"field": "value1"}}
}dsl = f"{url}/my_index/_search"response = requests.get(dsl, json=query, auth=HTTPBasicAuth(*user_passwd), verify=False)
pprint(response.json())# 处理查询结果
if response.status_code == 200:results = response.json()for hit in results['hits']['hits']:print(hit)
else:print(f"Error: {response.status_code}")

4. 使用 Elasticsearch Python SDK 进行 DSL 增删改查

DSL(Domain-Specific Language)是 Elasticsearch/EasySearch的原生查询语言,允许用户构建复杂的查询。以下示例展示了如何在 Elasticsearch Python SDK 中执行 DSL 查询。

# 构建 DSL 查询
dsl_query = {"query": {"match": {"field": "value1"}}
}# 执行 DSL 查询
response = es.search(index="my_index", body=dsl_query)results = response.get("hits")
# 处理查询结果
if results:for hit in results['hits']:print(hit)
else:print(f"Error: {response.status_code}")

插入数据

如果不指定document ID,那么随机生成一个ID并写入。

doc = {"field": "value4", "another_field": 9999}
response = es.index(index="my_index", body=doc)
print(response)

更新数据

指定ID为1来手动更新索引:

doc = {"field": "value4", "another_field": 9999}
response = es.index(index="my_index", body=doc, id=1)
print(response)

更新单条数据

# 更新单条数据
update_body = {"doc": {"another_field": 50}}
response = es.update(index="my_index", id="1", body=update_body)
pprint(response)

删除数据

# 删除单条数据
response = es.delete(index="my_index", id="1")
pprint(response)

5. 使用 Elasticsearch Python SDK 进行 SQL 查询

创建客户端实例后,我们可以使用 sql 方法执行 SQL 查询。以下示例展示了如何执行一个简单的 SELECT 查询。

# 执行 SQL 查询
query_sql = {"query": "SELECT * FROM my_index"
}res = es.sql.query(body=query_sql)
pprint(res)

6. 使用 Elasticsearch Python SDK 进行批量操作

批量操作 API 允许用户一次性对多个文档进行创建、更新或删除操作,极大提高了操作效率。以下示例展示了如何使用 Elasticsearch Python SDK 中的批量操作。

批量插入数据

# 定义批量插入数据
bulk_data = [{"index": {"_index": "my_index"}},{"field": "bulk_value1", "another_field": 100},{"index": {"_index": "my_index"}},{"field": "bulk_value2", "another_field": 200},{"index": {"_index": "my_index"}},{"field": "bulk_value3", "another_field": 300}
]# 执行批量插入操作
response = es.bulk(body=bulk_data)
pprint(response)

批量更新数据

# 定义批量更新数据
bulk_update_data = [{"update": {"_id": "1", "_index": "my_index"}},{"doc": {"another_field": 110}},{"update": {"_id": "2", "_index": "my_index"}},{"doc": {"another_field": 220}}
]# 执行批量更新操作
response = es.bulk(body=bulk_update_data)
pprint(response)

批量删除数据

# 定义批量删除数据
bulk_delete_data = [{"delete": {"_id": "1", "_index": "my_index"}},{"delete": {"_id": "2", "_index": "my_index"}}
]# 执行批量删除操作
response = es.bulk(body=bulk_delete_data)
print(response)

7. 使用 Elasticsearch Python SDK 进行索引级别操作

Elasticsearch Python SDK 还支持索引级别的操作,如创建索

引、删除索引和检查索引是否存在。以下是一些示例:

创建索引

# 创建索引
index_body = {"settings": {"number_of_shards": 1,"number_of_replicas": 0},"mappings": {"properties": {"field": {"type": "text"},"another_field": {"type": "integer"}}}
}
response = es.indices.create(index="new_index", body=index_body)
pprint(response)

删除索引

# 删除索引
response = es.indices.delete(index="new_index")
pprint(response)

检查索引是否存在

# 检查索引是否存在
response = es.indices.exists(index="new_index")
pprint(response)

8. 总结

Elasticsearch Python SDK 提供了一种简便的方法,使得开发者可以通过熟悉的 DSL 和 SQL 语法对 EasySearch 进行查询。同时,SDK 还提供了一些高级功能如批量操作 API,使得查询和数据操作更加高效。开发者可以更灵活地构建复杂查询,充分利用 EasySearch 的强大功能。无论您是执行简单的 SQL 查询,还是构建复杂的 DSL 和 REST 查询,Elasticsearch Python SDK 都能满足您的需求。如果您还未尝试过这个强大的工具,现在就安装并使用它吧!通过 EasySearch,您将能够更加高效地处理和分析大数据集,为您的数据驱动决策提供有力支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/377361.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记录些MySQL题集(1)

Innodb 是如何实现事务的? InnoDB是MySQL数据库的一个存储引擎,它支持事务处理。事务处理是数据库管理系统执行过程中的一个逻辑单位,由一个或多个SQL语句组成,这些语句要么全部执行,要么全部不执行,是一个…

idea修改全局配置、idea中用aliyun的脚手架,解决配置文件中文乱码

idea修改全局配置 idea中用aliyun的脚手架,创建springBoot项目 解决配置文件中文乱码

C判断一个点在三角形上

背景 鼠标操作时,经常要判断是否命中显示控件,特开发此算法快速判断。 原理 三角形三等分点定理是指在任意三角形ABC中,可以找到三个点D、E和F,使得线段AD、BE和CF均等分三角形ABC。 这意味着三个等分点分别位于三个边界上&…

Maven学习笔记——如何在pom.xml中通过坐标为项目导入jar包

注意:我们只导入了一个jar包坐标,但右边项目中确多出来了好几个jar包,这是因为我们导入的该jar包所依赖其他jar包,maven自动帮我们导入了进来

【网络运维的重要性】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

【C++进阶学习】第七弹——AVL树——树形结构存储数据的经典模块

二叉搜索树:【C进阶学习】第五弹——二叉搜索树——二叉树进阶及set和map的铺垫-CSDN博客 目录 一、AVL树的概念 二、AVL树的原理与实现 AVL树的节点 AVL树的插入 AVL树的旋转 AVL树的打印 AVL树的检查 三、实现AVL树的完整代码 四、总结 前言&#xff1a…

[Vulnhub] Simple CuteNews-CMS+Kernel权限提升

信息收集 IP AddressOpening Ports192.168.8.104TCP:80 $ nmap -p- 192.168.8.104 --min-rate 1000 -sC -sV PORT STATE SERVICE VERSION 80/tcp open http Apache httpd 2.4.7 ((Ubuntu)) |_http-title: Please Login / CuteNews |_http-server-header: Apache/2.4.7…

a-table 表格 根据序号展示不同的颜色

、 代码如下: :row-class-name"(_record, index) > (index % 2 1 ? table-striped : null)" 样式 .table-striped { background-color: #F6F9FA !important; } .table-striped .ant-table-cell-fix-right { background-color: #F6F9FA !important; …

第一百六十五节 Java IO教程 - Java标准输入/输出/错误流

Java IO教程 - Java标准输入/输出/错误流 我们可以使用System.out和System.err对象引用,只要我们可以使用OutputStream对象。 我们可以使用System.in对象,只要我们可以使用InputStream对象。 System类提供了三个静态设置器方法setOut(),set…

flutter 列表下拉框加搜索

1.使用控件搜索加下拉框dropdown_search: ^0.4.9和获取中文拼音lpinyin: ^1.1.1 2.加入中文查询和首字查询 在当中找到相应的packages,再在SelectDialog.dart当中加入引入拼音搜索 import package:lpinyin/lpinyin.dart; 更改匹配方法manageItemsByFilter使其可…

第一个AI应用(文心智能体平台)

第一个AI应用(文心智能体平台) 官网:https://agents.baidu.com/ 平台简介:https://agents.baidu.com/docs/ 部分内容由AI生成,注意甄别 一、什么是AI应用及其功能 AI应用,即人工智能应用,是利用…

Instagram品牌账号运营:从零到一的全攻略

Instagram是一个分享日常生活的平台,同时也是品牌与消费者建立联系和进行互动的场所。拥有超过10亿月活跃用户的Instagram,为品牌提供了与消费者进行深入沟通和建立联系的绝佳机会。本文将为您揭示如何从零开始,一步步构建并优化您的Instagra…

银河麒麟高级服务器操作系统V10加固操作指南

1:检查系统openssh安全配置: 2:检查是否设置口令过期前警告天数: 3:检查账户认证失败次数限制: 修改/etc/pam.d/system-auth文件中deny的参数即可 4:检查是否配置SSH方式账户认证失败次数限制:

CSS【详解】边框 border,边框-圆角 border-radius,边框-填充 border-image,轮廓 outline

边框 border border 是以下三种边框样式的简写: border-width 边框宽度 —— 数值 px(像素),thin(细),medium(中等),thick(粗)border-style 边框线型 —— none【默认值…

数据结构(4.4)——求next数组

next数组的作用:当模式串的第j个字符失配时,从模式串的第next[j]的继续往后匹配 求模式串的next数组(手算) next[1] 任何模式串都一样,第一个字符不匹配时,只能匹配下一个子串,因此,往后,next[1]都无脑写…

51单片机6(P0P1P2P3结构框架图)

一、GPIO结构框架图与工作原理 1、接下来我们介绍一下这个GPIO结构框图和工作原理,我们使用51单片机的GPIO分为了P0,P1,P2,P3这四组端口,下面我们就分别来介绍这四组端口它的一个内部结构,只有了解了内部的…

排序相关算法--3.选择排序

之前涉及的堆排序就是选择排序的一种,先进行选择。 基本选择排序: 最简单,也是最没用的排序算法,时间复杂度高并且还是不稳定的排序方法,项目中很少会用。 过程: 在一个长度为 N 的无序数组中,…

Python使用策略模式和openpyxl库创建Excel文件并追加内容

from openpyxl import load_workbook# 数据数组 data [[1, 2, 3],[4, 5, 6],[7, 8, 9] ]# 打开现有的 Excel 文件 excel_file sheetApend_example.xlsx wb load_workbook(excel_file)# 选择要追加数据的工作表 sheet_name test_Sheet2 # 指定要追加数据的工作表名称 sheet…

最值得推荐的10款Windows软件!

AI视频生成:小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频播放量破百万https://aitools.jurilu.com/1.音乐播放器——Dopamine Dopamine是一款音乐播放器,设计简洁美观。它支持多种音频格式,包括wav、mp3、ogg…

爬虫管理解决方案:让数据收集变得高效且合规

一、为何数据收集的效率与合规性同等重要? 随着大数据技术的飞速发展,数据收集已成为企业决策与市场洞察的核心驱动力。然而,在信息海洋中精准捕捞的同时,如何确保这一过程既高效又不触碰法律的红线,是每个数据实践者…