Elasticsearch:Serarch tutorial - 使用 Python 进行搜索 (一)

本实践教程将教你如何使用 Elasticsearch 构建完整的搜索解决方案。 在本教程中你将学习:

  • 如何对数据集执行全文关键字搜索(可选使用过滤器)
  • 如何使用机器学习模型生成、存储和搜索密集向量嵌入
  • 如何使用 ELSER 模型生成和搜索稀疏向量
  • 如何使用 Elastic 的倒数排名融合 (RRF) 算法组合上述方法的搜索结果

本教程最重要的方面是,它将向你展示如何在你将在自己的计算机上运行的项目上实现所有这些功能,所有这些功能都通过小的增量步骤完成。

你将学习的示例是用 Python 编写的,但概念是通用的,可以应用于你最喜欢的语言或技术堆栈。

为了充分利用本教程,我们建议你遵循并运行所有示例。在如下的展示中,我将使用最新的 Elastic Stack 8.11 来进行展示。

安装

安装 Elasticsearch 及 Kibana

如果你还没有安装好自己的 Elasticsearch 及 Kibana,那么请参考一下的文章来进行安装:

  • 如何在 Linux,MacOS 及 Windows 上进行安装 Elasticsearch

  • Kibana:如何在 Linux,MacOS 及 Windows 上安装 Elastic 栈中的 Kibana

在安装的时候,请选择 Elastic Stack 8.x 进行安装。在安装的时候,我们可以看到如下的安装信息:

Python

你可以安装自己喜欢的 Python 版本。版本在 3.8 及以上。本教程假设你之前没有 Elasticsearch 或一般搜索主题的知识,但它希望你对以下技术有基本的熟悉,至少在初学者水平:

  • Python开发
  • Python 的 Flask Web 框架
  • 操作系统中的命令提示符或终端应用程序

项目设置

在本教程中,你将使用一个基于 Flask Web 框架的小型 Python 应用程序。 以下部分提供了帮助你在计算机上设置和运行此应用程序的说明。 要完成本部分,你需要在操作系统的终端或命令提示符窗口上工作。

下载入门应用程序

单击下面的链接下载入门搜索应用程序。

  • 下载教程入门应用程序

为你的项目找到合适的父目录,例如 Documents 目录,然后在其中提取 zip 文件的内容。 这应该添加一个搜索教程目录,其中包含多个子目录和文件。

安装 Python 依赖包

从你的终端,切换到上一节中创建的 search-tutorial 目录。遵循 Python 最佳实践,你现在将创建一个虚拟环境,一个专用于该项目的私有 Python 环境。 使用以下命令执行此操作:

python3 -m venv .venv
$ pwd
/Users/liuxg/python/search-tutorial
$ python3 -m venv .venv
$ ls -al
total 144
drwx------   11 liuxg  staff    352 Jan  4 09:38 .
drwxr-xr-x  115 liuxg  staff   3680 Jan  2 20:09 ..
-rw-r--r--    1 liuxg  staff     34 Oct 31 19:34 .flaskenv
drwxr-xr-x    6 liuxg  staff    192 Jan  4 09:38 .venv
-rw-r--r--@   1 liuxg  staff   1085 Nov  1 15:23 LICENSE
-rw-r--r--    1 liuxg  staff    110 Nov  7 20:21 README.md
-rw-r--r--    1 liuxg  staff    409 Nov  7 19:46 app.py
-rw-r--r--    1 liuxg  staff  51647 Oct 31 15:54 data.json
-rw-r--r--@   1 liuxg  staff    745 Oct 31 19:05 requirements.txt
drwx------    3 liuxg  staff     96 Jan  2 20:09 static
drwx------    5 liuxg  staff    160 Jan  2 20:09 templates

此命令在 .venv (dot-venv) 目录中创建 Python 虚拟环境。 你可以将此命令中的 .venv 替换为你喜欢的任何名称。 请注意,在某些 Python 安装中,你可能需要使用 python 而不是 python3 来调用 Python 解释器。

下一步是激活虚拟环境,这是使该虚拟环境成为你所在终端会话的活动 Python 环境的一种方法。如果你使用的是基于 UNIX 的操作系统(例如 Linux 或 macOS),请激活 虚拟环境如下:

source .venv/bin/activate
$ source .venv/bin/activate
(.venv) $ pwd
/Users/liuxg/python/search-tutorial

如果你在 Microsoft Windows 计算机上的 WSL 环境中工作,上述激活命令也适用。 但如果你使用的是 Windows 命令提示符或 PowerShell,激活命令会有所不同:

.venv\Scripts\activate

激活虚拟环境后,命令行提示符将更改为显示环境名称:

(.venv) $ _

注意:如果你以前没有使用过虚拟环境,则应记住激活命令不是永久性的,仅适用于输入命令的终端会话。 如果你打开第二个终端窗口,或者在前一天关闭计算机后返回继续学习本教程,则必须重复激活命令。

配置 Python 环境的最后一步是安装入门应用程序所需的一些包。 确保上一步中已激活虚拟环境,然后运行以下命令安装这些依赖项:

pip install -r requirements.txt

拷贝 Elasticsearch 证书

我们把 Elasticsearch 的证书拷贝到当前的目录下:

(.venv) $ pwd
/Users/liuxg/python/search-tutorial
(.venv) $ cp ~/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt .
(.venv) $ ls http_ca.crt 
http_ca.crt

运行应用

此时,你应该能够使用以下命令启动应用程序:

flask run

要确认应用程序正在运行,请打开浏览器并导航到 http://localhost:5001。

注意:早期阶段的应用程序只是一个空壳。 如果你愿意,你可以在搜索框中输入内容并请求搜索,但响应始终是没有结果。 在以下部分中,你将了解如何在 Elasticsearch 索引中加载一些内容并执行搜索。

Flask 应用程序配置为在开发模式下运行。 当它检测到源文件已更改时,它将自动重新启动以合并更改。 当你继续学习本教程时,你可以让该终端会话保持应用程序运行,并且当你进行更改时,应用程序将重新启动以进行更新。

全文搜索

在本教程的这一部分中,你将学习如何使用 Elasticsearch 的全文搜索功能。 这将向你介绍几个核心主题,例如使用 Python 客户端库、创建和更新索引、进行查询以及使用搜索结果,所有这些也适用于你稍后将学习的更高级的搜索方法。

设置 Elasticsearch Python 客户端

在本部分中,你将安装适用于 Python 的 Elasticsearch 客户端库并使用它连接到 Elasticsearch 服务。

安装

Elasticsearch 客户端库是一个与 pip 一起安装的 Python 包。 确保之前创建的虚拟环境已激活,然后运行以下命令安装客户端:

pip install elasticsearch
$ pip3 install elasticsearch
Looking in indexes: http://mirrors.aliyun.com/pypi/simple/
Requirement already satisfied: elasticsearch in /Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages (8.11.1)
Requirement already satisfied: elastic-transport<9,>=8 in /Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages (from elasticsearch) (8.10.0)
Requirement already satisfied: urllib3<3,>=1.26.2 in /Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages (from elastic-transport<9,>=8->elasticsearch) (2.1.0)
Requirement already satisfied: certifi in /Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages (from elastic-transport<9,>=8->elasticsearch) (2023.11.17)
$ pip3 list | grep elasticsearch
elasticsearch             8.11.1
rag-elasticsearch         0.0.1        /Users/liuxg/python/rag-elasticsearch/my-app/packages/rag-elasticsearch

始终建议使用所有依赖项更新 requirements.txt 文件,因此这是更新此文件以包含新安装的软件包的好时机。 从终端运行以下命令:

pip3 freeze > requirements.txt

我们可以看到最终的 requirements.txt 文件中的 elasticsearch 版本被修正了:

连接到 Elasticsearch

要创建与 Elasticsearch 服务的连接,必须使用适当的连接选项创建 Elasticsearch 对象。

在代码编辑器中创建一个新的 search.py 文件,该文件位于 search-tutorial 目录中。 search.py 文件将定义所有搜索函数。 为搜索功能创建一个单独的文件的想法是,这将使你可以轻松地提取该文件并稍后将其添加到你自己的项目中。

在 search.py中输入以下代码添加 Search 类:

import json
from pprint import pprint
import os
import timefrom dotenv import load_dotenv
from elasticsearch import Elasticsearchload_dotenv()class Search:def __init__(self):self.es = Elasticsearch()  # <-- connection options need to be added hereclient_info = self.es.info()print('Connected to Elasticsearch!')pprint(client_info.body)

这里有很多东西需要解释。 导入后立即调用的 load_dotenv() 函数来自 python-dotenv包。 该包知道如何使用 .env 文件,这些文件用于存储配置变量,例如密码和密钥。 load_dotenv() 函数读取存储在 .env 文件中的变量,并将它们作为环境变量导入到 Python 进程中。

Search 类有一个构造函数,用于创建 Elasticsearch 客户端类的实例。 这是与 Elasticsearch 服务通信的所有客户端逻辑所在的位置。 请注意,此行当前不完整,因为需要包含适合你的服务的连接选项。你将在下面了解哪些选项适用于你的案例。 创建后,Elasticsearch 对象将存储在名为 self.es 的实例变量中。

为了确保客户端对象可以与你的 Elasticsearch 部署进行通信,将调用 info() 方法。 此方法调用请求基本信息的服务。 如果此调用成功,则你可以假设你已与该服务建立了有效连接。

然后,该方法打印一条状态消息,指示连接已建立,然后使用 Python 中的 pprint 函数以易于阅读的格式显示服务返回的信息。

注意:你可能已经注意到,Python 标准库中的 json 包已导入到此文件中,但并未使用。 不要删除此导入,因为稍后将使用此包。

为了完成 Search 类的构造函数,需要为 Elasticsearch 对象提供适当的连接选项。 以下小节将告诉你安装方法需要哪些选项。

创建 .env 文件

我们接着在当前项目的根目录下创建如下的一个文件 .env:

.env

ES_USER="elastic"
ES_PASSWORD="yarOjyX5CLqTsKVE3v*d"
ES_ENDPOINT="localhost"
(.venv) $ pwd
/Users/liuxg/python/search-tutorial
(.venv) $ cat .env
ES_USER="elastic"
ES_PASSWORD="yarOjyX5CLqTsKVE3v*d"
ES_ENDPOINT="localhost"

如上所示:

  • ES_USER 定义了访问 Elasticsearch 的用户名。在我们的配置中,我们使用超级用户 elastic
  • ES_PASSWORD 定义了 ES_USER 用户的密码
  • ES_ENDPOINT 定义了访问 Elasticsearch 的地址

你们需要根据自己的配置二进行相应的改变。接下来,我们需要针对 search.py 来进行修改:

search.py

import json
from pprint import pprint
import os
import timefrom dotenv import load_dotenv
from elasticsearch import Elasticsearchload_dotenv()class Search:def __init__(self):url = f"https://{ES_USER}:{ES_PASSWORD}@{ES_ENDPOINT}:9200"self.es = Elasticsearch(url, ca_certs = "./http_ca.crt", verify_certs = True) client_info = self.es.info()print('Connected to Elasticsearch!')pprint(client_info.body)

测试连接

此时,你已准备好连接到 Elasticsearch 服务。 为此,请确保已激活 Python 虚拟环境,然后键入 python 以启动 Python 交互式会话。  你应该看到熟悉的 >>> 提示符,你可以在其中输入 Python 语句。

导入 Search 类如下:

from search import Search

接下来,实例化新类:

es = Search()

你应该看到一条已连接的消息,后面是客户端的 info() 方法返回的信息。 除了标识符和版本号的差异之外,输出应如下所示:

(.venv) $ pwd
/Users/liuxg/python/search-tutorial
(.venv) $ python
Python 3.11.6 (v3.11.6:8b6ee5ba3b, Oct  2 2023, 11:18:21) [Clang 13.0.0 (clang-1300.0.29.30)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> from search import Search
>>> es = Search()
Connected to Elasticsearch!
{'cluster_name': 'elasticsearch','cluster_uuid': 'SXGzrN4dSXW1t0pkWXGfjg','name': 'liuxgm.local','tagline': 'You Know, for Search','version': {'build_date': '2023-11-04T10:04:57.184859352Z','build_flavor': 'default','build_hash': 'd9ec3fa628c7b0ba3d25692e277ba26814820b20','build_snapshot': False,'build_type': 'tar','lucene_version': '9.8.0','minimum_index_compatibility_version': '7.0.0','minimum_wire_compatibility_version': '7.17.0','number': '8.11.0'}}

如果收到错误,请确保在 .env 文件中输入正确的凭据。更多关于如何连接到 Elasticsearch 的知识,请参阅文章 “Elasticsearch:关于在 Python 中使用 Elasticsearch 你需要知道的一切 - 8.x”。

将 Elasticsearch 与 Flask 应用程序集成

本节的最后一步是将迄今为止完成的工作集成到你之前安装的小 Flask 应用程序中。 目标是应用程序在启动时自动创建与 Elasticsearch 的连接。

为此,请在代码编辑器中打开 app.py。 在现有导入下方添加 search.py 模块的导入语句:

from search import Search

然后找到创建 app 变量的行,然后创建新 Search 类的实例:

es = Search()

就是这样! 现在应用程序有一个 es 对象可以在需要时使用。 如果你仍在终端中运行 Flask 应用程序,则保存文件后你应该会看到应用程序重新加载。 重新加载的结果是,由 Search 类构造函数打印的连接信息应该出现,并且从现在起每次应用程序重新启动时都会继续出现。

如果你没有运行 Flask 应用程序,现在是启动它的好时机。 更改到终端窗口中的项目目录,激活 Python 虚拟环境,然后使用以下命令启动应用程序:

flask run

为了帮助你在收到错误时进行故障排除,以下是带有集成 Elasticsearch 客户端的 app.py 的完整代码:

app.py

import re
from flask import Flask, render_template, request
from search import Searchapp = Flask(__name__)
es = Search()@app.get('/')
def index():return render_template('index.html')@app.post('/')
def handle_search():query = request.form.get('query', '')return render_template('index.html', query=query, results=[], from_=0, total=0)@app.get('/document/<id>')
def get_document(id):return 'Document not found'

当我们修改完这个文件后,我们可以在运行 flask 的 terminal 中看到如下的输出:

创建一个 Elasticsearch 索引

Elasticsearch 中两个非常重要的概念是文档和索引。你如果对这个还是很糊涂的话,那么请详细阅读我之前的文章 “Elasticsearch 中的一些重要概念: cluster, node, index, document, shards 及 replica”。

文档是字段及其关联值的集合。 要使用 Elasticsearch,你必须将数据组织到文档中,然后将所有文档添加到索引中。 你可以将索引视为以高度优化的格式存储的文档集合,旨在执行高效的搜索。

如果你使用过其他数据库,你可能知道许多数据库需要模式定义,它本质上是对你要存储的所有字段及其类型的描述。 如果需要,Elasticsearch 索引可以配置模式,但它也可以自动从数据本身派生模式(Elasticsearch 根据数据的类型进行推测)。 在本节中,你将让 Elasticsearch 自行计算模式,这对于文本、数字和日期等简单数据类型非常有效。 稍后,在了解更复杂的数据类型后,你将学习如何提供显式模式定义。

创建索引

这是使用 Python 客户端库创建 Elasticsearch 索引的方法:

self.es.indices.create(index='my_documents')

在此示例中,self.es 是 Elasticsearch 类的实例,在本教程中它存储在 search.py 的 Search 类中。 Elasticsearch 部署可用于存储多个索引,每个索引都由名称标识,例如上例中的 my_documents。

也可以删除索引:

self.es.indices.delete(index='my_documents')

如果你尝试使用已分配给现有索引的名称创建索引,则会收到错误消息。 有时,创建一个索引并自动删除该索引的先前实例(如果存在)会很有用。 这在开发应用程序时特别有用,因为你可能需要多次重新生成索引。

让我们在 search.py 中添加一个 create_index() 辅助方法。 在代码编辑器中打开此文件,然后在底部添加以下代码,保留现有内容不变:

class Search:# ...def create_index(self):self.es.indices.delete(index='my_documents', ignore_unavailable=True)self.es.indices.create(index='my_documents')

create_index() 方法首先删除名为 my_documents 的索引。 ignore_unavailable=True 选项可防止在找不到索引名称时此调用失败。 该方法中的以下行创建一个具有相同名称的全新索引。

提示:本教程中的示例应用程序需要一个 Elasticsearch 索引,因此它将索引名称硬编码为 my_documents。 对于使用多个索引的更复杂的应用程序,你可以考虑接受索引名称作为参数。

将文档添加到索引

在 Python 的 Elasticsearch 客户端库中,文档表示为键/值字段的字典。 具有字符串值的字段会自动建立索引以进行全文和关键字搜索,但除了字符串之外,你还可以使用其他字段类型,例如数字、日期和布尔值,这些字段类型也会建立索引以进行过滤等高效操作。 你还可以构建复杂的数据结构,其中字段设置为列表或带有子项的字典。了解有关 Elasticsearch 类型的更多信息。

要将文档插入索引,请使用 Elasticsearch 客户端的 index() 方法。 例如:

document = {'title': 'Work From Home Policy','contents': 'The purpose of this full-time work-from-home policy is...','created_on': '2023-11-02',
}
response = es.index(index='my_documents', body=document)
print(response['_id'])

index() 方法的返回值是 Elasticsearch 服务返回的响应。 此响应中返回的最重要的信息是一个键名为 _id 的项目,表示在将文档插入索引时分配给该文档的唯一标识符。 该标识符可用于检索、删除或更新文档。

现在你已经知道如何插入文档了,让我们继续在 search.py 中构建一个有用的 helpers 库,并为 Search 类添加一个新的 insert_document() 方法。 在 search.py 底部添加此方法:

class Search:# ...def insert_document(self, document):return self.es.index(index='my_documents', body=document)

该方法接受 Elasticsearch 客户端和来自调用者的文档,并将文档插入到 my_documents 索引中,返回服务的响应。

注意:本教程不涉及这些操作(修改及删除),但 Elasticsearch 客户端也可以修改和删除文档。 请参阅 Python 库文档中的 Elasticsearch 类参考,了解所有可用的操作。更多内容,请阅读文章  “Elasticsearch:关于在 Python 中使用 Elasticsearch 你需要知道的一切 - 8.x”。

从 JSON 文件提取文档

设置新的 Elasticsearch 索引时,你可能需要导入大量文档。 对于本教程,入门项目包括一个 data.json 文件,其中包含一些 JSON 格式的数据。 在本节中,你将学习如何将该文件中包含的所有文档导入到索引中。

data.json 中包含的文档结构如下:

  • name:文档标题
  • url:外部站点上托管的文档的 URL
  • summary:文档内容的简短摘要
  • content:文档正文
  • created_on:创建日期
  • updated_at:更新日期(如果文档从未更新过,则可能会没有这个项)
  • category:文档的类别,可以是 github、sharepoint 或 teams
  • rolePermissions:角色权限列表

此时,建议你在编辑器中打开 data.json 以熟悉要使用的数据。

本质上,导入大量文档与在 for 循环中导入一个文档没有什么不同。 要导入 data.json 文件的全部内容,你可以执行以下操作:

import json
from search import Search
es = Search()
with open('data.json', 'rt') as f:documents = json.loads(f.read())
for document in documents:es.insert_document(document)

虽然这种方法有效,但扩展性不佳。 如果你必须插入大量文档,则需要对 Elasticsearch 服务进行尽可能多的调用。 遗憾的是,每个 API 调用都会产生性能成本,而且该服务还设有速率限制,无法快速进行大量调用。 由于这些原因,最好使用 Elasticsearch 服务的批量插入功能,该功能允许在单个 API 调用中将多个操作传递给服务。

下面显示的 insert_documents() 方法(你应该将其添加到 search.py 的底部)使用 bulk() 方法在一次调用中插入所有文档:

    def insert_documents(self, documents):operations = []for document in documents:operations.append({'index': {'_index': 'my_documents'}})operations.append(document)return self.es.bulk(operations=operations)

该方法接受文档列表。 它不是单独添加每个文档,而是组装一个称为操作的列表,然后将该列表传递给 bulk() 方法。 对于每个文档,两个条目会添加到操作列表中:

  • 对要执行的操作的描述,设置为索引,并以索引名称作为参数给出。
  • 文档的实际数据

处理批量请求时,Elasticsearch 服务从头开始遍历操作列表并执行请求的操作。

  • 在文档中了解有关 bulk() 方法的更多信息

我们在当前的目录下运行如下的脚步来写入文档:

ingest.py

重新生成索引

当你学习本教程时,你将需要重新生成索引几次。 要简化此操作,请向 search.py 添加 reindex() 方法:

class Search:# ...def reindex(self):self.create_index()with open('data.json', 'rt') as f:documents = json.loads(f.read())return self.insert_documents(documents)

此方法结合了之前创建的 create_index() 和 insert_documents() 方法,因此只需一次调用即可销毁旧索引(如果存在)并构建并重新填充新索引。

注意:对大量文档建立索引时,最好将文档列表分成较小的集合,并分别导入每个集合。

为了使这个方法更容易调用,让我们通过 flask 命令公开它。 在代码编辑器中打开 app.py 并在底部添加以下函数:

@app.cli.command()
def reindex():"""Regenerate the Elasticsearch index."""response = es.reindex()print(f'Index with {len(response["items"])} documents created 'f'in {response["took"]} milliseconds.')

@app.cli.command()  decorator 告诉 Flask 框架将此函数注册为自定义命令,该命令将作为 Flask reindex 提供。 命令的名称取自函数的名称,并且文档字符串包含在此处,因为 Flask 在 --help 文档中使用它。

reindex() 函数的响应,也就是 Elasticsearch 客户端的 bulk() 方法的响应,包含一些有用的项目,可用于构造良好的状态消息。 特别是,response['took'] 是调用的持续时间(以毫秒为单位),response['items'] 是每个操作的各个结果的列表,实际上并没有直接用处,但列表的长度提供了插入文档的计数。

通过从终端会话运行 Flask --help 来查看效果,确保 Python 虚拟环境已激活(如果您的终端会话仍在运行 Flask 应用程序,则可以打开第二个终端窗口)。 在帮助屏幕的末尾,您应该会看到作为可用命令包含的 reindex 选项以及 Flask 框架提供的其他选项:

flash --help
(.venv) $ pwd
/Users/liuxg/python/search-tutorial
(.venv) $ flask --help
Connected to Elasticsearch!
{'cluster_name': 'elasticsearch','cluster_uuid': 'SXGzrN4dSXW1t0pkWXGfjg','name': 'liuxgm.local','tagline': 'You Know, for Search','version': {'build_date': '2023-11-04T10:04:57.184859352Z','build_flavor': 'default','build_hash': 'd9ec3fa628c7b0ba3d25692e277ba26814820b20','build_snapshot': False,'build_type': 'tar','lucene_version': '9.8.0','minimum_index_compatibility_version': '7.0.0','minimum_wire_compatibility_version': '7.17.0','number': '8.11.0'}}
Usage: flask [OPTIONS] COMMAND [ARGS]...A general utility script for Flask applications.An application to load must be given with the '--app' option, 'FLASK_APP'environment variable, or with a 'wsgi.py' or 'app.py' file in the currentdirectory.Options:-e, --env-file FILE   Load environment variables from this file. python-dotenv must be installed.-A, --app IMPORT      The Flask application or factory function to load, inthe form 'module:name'. Module can be a dotted importor file path. Name is not required if it is 'app','application', 'create_app', or 'make_app', and can be'name(args)' to pass arguments.--debug / --no-debug  Set debug mode.--version             Show the Flask version.--help                Show this message and exit.Commands:reindex  Regenerate the Elasticsearch index.routes   Show the routes for the app.run      Run a development server.shell    Run a shell in the app context.

现在,当你想要生成一个干净的索引时,你所需要做的就是运行 flask reindex。

搜素基础

现在你已经构建了 Elasticsearch 索引并向其中加载了一些文档,你已经准备好实现全文搜索了。

搜索将如何进行

让我们快速回顾一下搜索解决方案在教程应用程序中的工作原理。 Flask 应用程序运行后,你可以访问 http://localhost:5001 访问主页面,如下所示:

呈现此页面的代码在 app.py 文件中实现:

@app.get('/')
def index():return render_template('index.html')

这是一个非常简单的端点,用于呈现 HTML 模板。 在 Flask 应用程序中,模板位于 templates 子目录中,因此你会在其中找到应用程序中包含的此模板和其他模板。

让我们看看文件 templates/index.html 中搜索字段的实现。 这是该模板的相关部分:

<form method="POST" action="{{ url_for('handle_search') }}"><div class="mb-3"><input type="text" class="form-control" name="query" id="query" placeholder="Enter your search query" autofocus></div>
</form>

在这里您可以看到这是一个 HTML 表单,其中包含一个名为 “query” 的文本类型字段。 表单的 method 属性设置为 POST,它告诉浏览器在 POST 请求中提交此表单。 action 属性设置为与 Flask 应用程序的 handle_search 端点对应的 URL。 提交表单后,handle_search() 函数将执行。

当前 handle_search() 的实现如下所示:

@app.post('/')
def handle_search():query = request.form.get('query', '')return render_template('index.html', query=query, results=[], from_=0,total=0)

该函数从 Flask 的 request.form 字典中获取用户在文本字段中输入的文本,并将其存储在查询局部变量中。 然后该函数呈现 index.html 模板,但这种类型它传递一些额外的参数,以便页面可以显示搜索结果。 模板接收的四个参数是:

  • query:用户在表单中输入的查询文本。
  • results:搜索结果列表
  • from_:第一个结果的从零开始的索引
  • total:结果总数

由于搜索功能尚未实现,目前传递给 render_template() 函数的参数表明未找到任何结果。

现在的任务是实现一个全文查询并传递实际结果以便 index.html 页面可以显示它们。

Elasticsearch 查询

Elasticsearch 服务使用基于 JSON 格式的查询 DSL(域特定语言)来定义查询。

Python 的 Elasticsearch 客户端有一个 search() 方法,用于提交搜索查询。 让我们在 search.py 中添加一个使用此方法的 search() 辅助方法:

search.py

class Search:# ...def search(self, **query_args):return self.es.search(index='my_documents', **query_args)

此方法使用索引名称调用 Elasticsearch 客户端的 search() 方法。 query_args 参数捕获提供给该方法的所有关键字参数,然后将它们传递给 es.search() 方法。 这些参数将决定调用者如何指定要搜索的内容。

匹配查询

Elasticsearch Query DSL 提供了许多不同的方法来查询索引。 浏览文档中的其中的一个小的章节,你将熟悉可能的不同类型的查询。 全文查询部分介绍了非常常见的文本搜索任务。

对于第一个搜索实现,我们使用匹配查询。 你可以在下面看到使用此查询的示例:

GET /_search
{"query": {"match": {"name": {"query": "search text here"}}}
}

上面的示例以类似于原始 HTTP 请求的格式给出。 熟悉这种格式很有用,因为它在 Elasticsearch 文档和 Elasticsearch API 控制台中广泛使用。 幸运的是,这种格式很容易转换为使用 Python 客户端库的调用。 下面你可以看到上述示例的等效 Python 代码:

es.search(query={'match': {'name': {'query': 'search text here'}}}
)

将 API 控制台示例转换为 Python 时,请记住查询正文中的顶级键必须转换为 Python 调用中的关键字参数。 这些示例也没有指定进行 Python 调用时需要的索引。

通过查看查询结构,你可能可以推断出它请求的搜索类型。 该调用请求对名为 name 的字段进行 match 查询,要搜索的文本是 search text here。

这种查询方式相当容易合并到教程应用程序中。 打开 app.py 并找到 handle_search() 方法。 将当前版本替换为新版本:

@app.post('/')
def handle_search():query = request.form.get('query', '')results = es.search(query={'match': {'name': {'query': query}}})return render_template('index.html', results=results['hits']['hits'],query=query, from_=0,total=results['hits']['total']['value'])

新版本端点第二行中对 es.search() 的调用会调用上面在 search.py 中添加的 search() 方法,该方法又调用 Elasticsearch 客户端的 search() 方法。

你能弄清楚查询要做什么吗? 这是与上面示例类似的 match 查询。 将要搜索的字段是 name,它包含你在上一节中构建的 my_documents 索引中文档的标题。 要搜索的文本是用户在网页搜索字段中键入的内容,该文本存储在 query 局部变量中。

搜索响应中包含结果的部分是 response['hits']。 这是一个具有几个键的对象,其中两个键对此实现感兴趣:

  • response['hits']['hits']:搜索结果列表。
  • response['hits']['total']:可用结果的总数。 结果数在 value 子键中给出,因此在实践中,获取结果总数的表达式为 results['hits']['total']['value']。 请注意,当结果数量较多时,结果总数可能是近似值。 有关详细信息,请参阅响应正文文档。

在这个新版本的端点中对 render_template() 的调用会传递 results 模板参数中的结果列表以及结果总数。 query 参数像以前一样接收查询字符串,from_ 仍然硬编码为 0,因为稍后添加分页时会实现它。

至此,该应用程序首次实现了全文搜索。 返回 Web 浏览器并导航至 http://localhost:5001 以打开应用程序。 如果由于任何原因你没有运行 Flask 应用程序,请在执行此操作之前重新启动该应用程序。 输入搜索文本(例如 polict 或 work from home),你将看到相关结果。 你可以在下面看到在家搜索工作时的结果:

你随入门应用程序下载的 index.html 模板包含呈现搜索结果的所有逻辑。 如果你对此感到好奇,以下是此模板中呈现结果列表的部分:

{% for result in results %}<p>{{ from_ + loop.index }}. <b><a href="{{ url_for('get_document', id=result._id) }}">{{ result._source.name }}</a></b><br>{{ result._source.summary }}<br><small>Category: {{ result._source.category }}.Last updated: {{ result._source.updated_at | default(result._source.created_on) }}.{% if result._score %}<i>(Score: {{ result._score }})</i>{% endif %}</small></p>
{% endfor %}

从这段代码中值得注意的是,与返回结果关联的数据在 _source 键下可用。 还有一个 _id 字段,其中包含分配给结果的唯一标识符。

与每个结果相关的分数可以从 _score 获得。 分数提供了相关性的分数,分数越高表示与查询文本的匹配越接近。 默认情况下,结果按分数从最高到最低的顺序返回。 Elasticsearch 中的分数是使用 Okapi BM25 算法计算的。

如果你有兴趣更详细地探索本节中涵盖的主题,请使用以下链接:

  • Match query
  • Search API Request body
  • Search API Response Body
  • Practical BM25 article series

检索单个结果

你可能已经注意到,index.html 模板将每个搜索结果的标题呈现为链接。 该链接指向在起始 Flask 应用程序中实现的第三个也是最后一个端点,称为 get_document。 提供的实现返回 “Document not found” 硬编码文本,因此如果你在使用应用程序时单击任何结果,你将看到以下内容。

为了正确渲染单个文档,让我们使用 Elasticsearch 客户端的 get() 方法在 search.py 中添加一个 retrieve_document() 辅助方法:

class Search:# ...def retrieve_document(self, id):return self.es.get(index='my_documents', id=id)

在这里,你可以看到分配给每个文档的这些唯一标识符如何有用,因为应用程序可以使用它来引用各个文档。

以下是 get_document() 端点的当前实现:

@app.get('/document/<id>')
def get_document(id):return 'Document not found'

你可以看到与此端点关联的 URL 包含文档 id,并且为每个搜索结果呈现的链接也将 id 合并到各自的 URL 中,因此所缺少的就是将这一简单的实现替换为检索的文档并呈现它。 将端点替换为此更新版本:

@app.get('/document/<id>')
def get_document(id):document = es.retrieve_document(id)title = document['_source']['name']paragraphs = document['_source']['content'].split('\n')return render_template('document.html', title=title, paragraphs=paragraphs)

这里使用 search.py 中的 retrieve_document() 方法来获取所请求的文档。 然后,将呈现 document.html,其中包含来自 name 字段的标题和来自 content 的段落列表。

尝试运行更多查询,然后单击结果,现在你应该可以看到完整的内容。

搜索多个字段

使用该应用程序一段时间后,你可能会注意到许多查询没有返回结果。 你还记得,当前搜索是在每个文档的 name 字段上实现的,这是存储文档标题的地方。 文档还具有 summary 和 content 字段,其中包含较长的文本,也很容易被搜索,但现在这些都被忽略。

在本节中,你将了解另一种常见的全文搜索查询,即 multi-match,它要求在索引的多个字段中执行搜索。

以下是文档中的多重匹配查询示例:

GET /_search
{"query": {"multi_match" : {"query":    "this is a test", "fields": [ "subject", "message" ] }}
}

让我们以此示例为基础来扩展 handle_search() 端点,以对组合的 name、summary 和 content 字段运行多重匹配查询。 这是更新后的端点代码:

@app.post('/')
def handle_search():query = request.form.get('query', '')results = es.search(query={'multi_match': {'query': query,'fields': ['name', 'summary', 'content'],}})return render_template('index.html', results=results['hits']['hits'],query=query, from_=0,total=results['hits']['total']['value'])

进行此更改后,需要搜索的文本会多得多,以至于某些查询的默认返回结果数可能超过 10 个。 在下一章中,你将学习如何通过分页处理长结果列表。请详细阅读文章 “Elasticsearch:Serarch tutorial - 使用 Python 进行搜索 (二)”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/233112.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何编写高效的正则表达式?

正则表达式&#xff08;Regular Expression&#xff0c;简称regex&#xff09;是一种强大的文本处理技术&#xff0c;广泛应用于各种编程语言和工具中。本文将从多个方面介绍正则表达式的原理、应用和实践&#xff0c;帮助你掌握这一关键技术。 正则可视化 | 一个覆盖广泛主题…

使用 React 和 MUI 创建多选 Checkbox 树组件

在本篇博客中&#xff0c;我们将使用 React 和 MUI&#xff08;Material-UI&#xff09;库来创建一个多选 Checkbox 树组件。该组件可以用于展示树形结构的数据&#xff0c;并允许用户选择多个节点。 前提 在开始之前&#xff0c;确保你已经安装了以下依赖&#xff1a; Reac…

关于目标检测中按照比例将数据集随机划分成训练集和测试集

1. 前言 在做目标检测任务的时候&#xff0c;不少网上的数据&#xff0c;没有划分数据集&#xff0c;只是将数据和标签放在不同的文件夹下&#xff0c;没有划分数据集 虽然代码简单&#xff0c;每次重新编写还是颇为麻烦&#xff0c;这里记录一下 如下&#xff0c;有的数据集…

Kubernetes复习总结(二):Kubernetes容器网络

2、Kubernetes容器网络 1&#xff09;、Docker网络原理 Docker默认使用的网络模型是bridge&#xff0c;这里只讲bridge网络模型 1&#xff09;容器之间通信原理 当安装完docker之后&#xff0c;docker会在宿主机上创建一个名叫docker0的网桥&#xff0c;默认IP是172.17.0.1…

vite + vue3引入ant design vue 报错

npm install ant-design-vue --save下载插件并在main.ts 全局引入 报错 解决办法一&#xff1a; main.ts注释掉全局引入 模块按需引入 解决办法二 将package.json中的ant-design-vue的版本^4.0.0-rc.4改为 ^3.2.15版本 同时将将package-lock.json中的ant-design-vue的版本…

最靠谱的Arduino IDE集成ESP32环境

设置的 地址为&#xff1a; https://dl.espressif.com/dl/package_esp32_index.json

PIG框架学习2——资源服务器的配置详解

一、前言 1、pig资源服务器的配置 Spring Security oauth2相关的依赖是在pigx-common-security模块中引入的&#xff0c;其他模块需要进行token鉴权的&#xff0c;需要在微服务中引入pigx-common-security模块的依赖&#xff0c;从而间接引入相关的Spring security oauth2依赖…

一、二进制方式 安装部署K8S

目录 一、操作系统初始化 1、关闭防火墙 2、关闭 SELinu 3、 关闭 swap 4、添加hosts 5、同步系统时间 二、集群搭建 —— 使用外部Etcd集群 1、自签证书 2、自签 Etcd SSL 证书 ① 创建 CA 配置文件&#xff1a;ca-config.json ② 创建 CA 证书签名请求文件&#xff…

爬虫实战3-js逆向入门:以黑猫投诉平台为例

目录 引言 逆向过程 步骤一&#xff1a;找到参数对应js代码位置 步骤二&#xff1a;分析参数值的生成逻辑 步骤三&#xff1a;确定函数u的具体内容 步骤四&#xff1a;使用python实现请求参数的生成 投诉信息爬取 引言 下面是一张主流网页加密方法的思维导图&#xff0…

[SpringBoot]自定义注解@AutoFill,实现公共字段自动填充(避免重复对时间属性初始化

对于时间属性&#xff0c;如createTime、updateTime在进行插入、修改操作时都要一个个初始化处理&#xff0c;过于麻烦。 可以自定义注解AutoFill作用于INSERT&#xff0c;UPDATE操作方法上&#xff0c;再自定义切面类&#xff0c;统一拦截加入了AutoFill注解的方法&#xff0c…

Python爬虫获取百度的图片

一. 爬虫的方式&#xff1a; 主要有2种方式: ①ScrapyXpath (API 静态 爬取-直接post get) ②seleniumXpath (点击 动态 爬取-模拟) ScrapyXpath XPath 是 Scrapy 中常用的一种解析器&#xff0c;可以帮助爬虫定位和提取 HTML 或 XML 文档中的数据。 Scrapy 中使用 …

ctfshow——信息搜集

文章目录 web 1web 2web 3web 4web 5web 6web 7web 8web 9web 10web 11web 12web 13web 14web 15web 16web 17web 18web 19web 20 web 1 题目提示开发注释未及时删除。 直接右键查看源代码。 web 2 在这关我们会发现&#xff1a;1&#xff09;无法使用右键查看源代码&…

【亚马逊云科技】自家的AI助手 - Amazon Q

写在前面&#xff1a;博主是一只经过实战开发历练后投身培训事业的“小山猪”&#xff0c;昵称取自动画片《狮子王》中的“彭彭”&#xff0c;总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域&#xff0c;如今终有小成…

Neuro Contamination - Cyberpunk Gaming Music Futuristic Glitchy Sci-fi

无论是展示赛博朋克未来的电影场景&#xff0c;还是介绍高科技武器&#xff0c;你的音乐选择都至关重要。这首曲子的灵感来自科幻小说&#xff0c;旨在让你的观众想象未来的感觉。 潜在用例&#xff1a;科幻游戏、赛博朋克游戏、电影预告片、动作场景和产品广告。 非常适合充…

爆肝整理,接口测试+为什么要做接口测试总结,策底贯通...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、什么是接口测试…

【SpringBoot+dubbo+zk】实现服务之间rpc通信

0)前置准备&#xff0c;我们使用zk作为注册中心&#xff0c;先启动zk&#xff0c;也就是2181端口。 1)父工程pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http…

现有网络模型的使用及修改(VGG16为例)

VGG16 修改默认路径 import os os.environ[TORCH_HOME] rD:\Pytorch\pythonProject\vgg16 # 下载位置太大了&#xff08;140多G&#xff09;不提供直接下载 train_set torchvision.datasets.ImageNet(root./data_image_net, splittrain, downloadTrue, transformtorchvis…

GPDB - 高可用 - 流复制状态

GPDB - 高可用 - 流复制状态 GPDB的高可用基于流复制&#xff0c;通过FTS进行自动故障切换。自动故障切换需要根据primary-mirror流复制的各种状态进行判断。本节就聊聊primary-mirror流复制的各种状态。同样适用于PgSQL 1、WalSndState typedef enum WalSndState {WALSNDSTATE…

本地部署 Ollama

本地部署 Ollama 0. Ollama 能帮我们做什么1. 下载 Ollama2. 安装 Ollama3. 使用 Ollama4. Ollama 和 Langchain 的集成 0. Ollama 能帮我们做什么 在本地启动并运行大型语言模型。 运行 Llama 2、Code Llama 和其他模型。自定义并创建自己的。 1. 下载 Ollama 访问 https:…

【数据仓库与联机分析处理】数据仓库工具Hive

目录 一、Hive简介 &#xff08;一&#xff09;什么是Hive &#xff08;二&#xff09;优缺点 &#xff08;三&#xff09;Hive架构原理 &#xff08;四&#xff09;Hive 和数据库比较 二、MySQL的安装配置 三、Hive的安装配置 1、下载安装包 2、解压并改名 3、配置环…