使用Redis进行搜索

文章目录

  • 构建反向索引


构建反向索引

在Begin-End区域编写 tokenize(content) 函数,实现文本标记化的功能,具体参数与要求如下:

方法参数 content 为待标记化的文本;
文本标记的实现:使用正则表达式提取全小写化后的文本中长度 >= 2 的英文单词,并将这些标记词依次记录到标记词集合中;
返回标记词的实现:返回(return)标记词集合。
编写 index_document(content) 函数,实现构建反向索引的功能,具体参数与要求如下:

方法参数 content 为待构建索引的文本;
分配文本序号的实现:对计数器content:id递增1,并将递增后的值作为该文本的序号;
记录文本全文的实现:将文本作为值,上一步的序号做为域存入到哈希键 contents 中;
获取文本标记词的实现:使用 tokenize 方法获取该文本的所有标记词;
建立索引的实现:遍历所有标记词,使用事务一次性对每个word创建一个名为keyword:{word}的集合,并将该文本的序号加入到该集合中。
代码如下:

#!/usr/bin/env python
#-*- coding:utf-8 -*-import re
import redisconn = redis.Redis()# 文本序列化
def tokenize(content):# 请在下面完成要求的功能#********* Begin *********#words = re.findall(r'\b[a-z]{2,}\b', content.lower())return set(words)#********* End *********## 创建文本的反向索引
def index_document(content):# 请在下面完成要求的功能#********* Begin *********#doc_id = conn.incr("content:id")conn.hset("contents", doc_id, content)words = tokenize(content)for word in words:pipe = conn.pipeline(True)key = "keyword:" + wordpipe.sadd(key, doc_id)pipe.execute()#********* End *********#

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/230540.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云服务器Valheim端口2456、2457和2458放行设置

使用阿里云服务器搭建Valheim英灵神殿需要开启2456-2458端口,阿里云服务器默认只开放了22核3389端口,开通2456端口是在安全组中配置的,阿里云服务器网aliyunfuwuqi.com来详细说下阿里云服务器安全组开通端口流程: 阿里云服务器安…

文件管理方法:利用文件大小进行筛选,高效移动文件至目标文件夹

在日常工作中,文件管理是一项至关重要的任务。为了更高效地管理文件,可以利用文件大小进行筛选,并将文件快速移动至目标文件夹。接下来一起来看看云炫文件管理器如何利用文件大小进行筛选,以及如何高效移动文件至目标文件夹的方法…

程序媛的mac修炼手册--MacOS系统更新升级史

啊,我这个口罩三年从未感染过新冠的天选免疫王,却被支原体击倒😷大意了,前几天去医院体检,刚检查完出医院就摘口罩了🤦大伙儿还是要注意戴口罩,保重身体啊!身体欠恙,就闲…

论文查重降重写成大白话可以吗

大家好,今天来聊聊论文查重降重写成大白话可以吗,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 论文查重降重:用大白话解析 一、引言 写论文是每个…

网络安全—SSL安全访问应用

文章目录 网络拓扑部署CA服务器颁发证书开启Web服务安装IIS服务修改Web默认网页 申请Web证书前提准备申请文件生成申请web证书开始安装web证书 客户机访问web默认网站使用HTTP使用HTTPS 为客户机安装浏览器证书 环境:Windows Server 2003 网络拓扑 这里使用NAT还是…

二叉树题目:删点成林

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题:删点成林 出处:1110. 删点成林 难度 6 级 题目描述 要求 给定二叉树的根结点 root \texttt{root} root,树中每个结点的值…

阿里云ECS服务器无法访问端口(防火墙在关闭状态也启作用)

问题:一直用得好好的端口,突然在某一时间不可以访问这个端口了 ,在服务器录入外网地址访问如下图: 先按正常流程检测: 1 先云服务商的管理网站查看防火墙端口是否开放 看了正常开放了端口,如下图&#xff…

Apollo自动驾驶系统:实现城市可持续交通的迈向

前言 「作者主页」:雪碧有白泡泡 「个人网站」:雪碧的个人网站 ChatGPT体验地址 文章目录 前言引言:1. 什么是微服务架构?2. 微服务架构的组成要素3. 微服务架构的挑战和解决方案4. 微服务架构的可扩展性和弹性 第二部分&#x…

亚马逊站内广告位置在哪设置?怎么设置广告位置?-站斧浏览器

亚马逊站内广告位置在哪设置? 亚马逊提供了多种广告类型,包括: Sponsored Products(赞助产品):在搜索结果和商品详情页中展示。 Sponsored Brands(赞助品牌):在搜索结…

kotlin基础——重载

重载算术运算符 重载二元算术运算 使用operator定义plus()方法后,可以直接使用号求和 data class Point(val x: Int, val y: Int) {operator fun plus(other: Point): Point {return Point(x other.x, y other.y)} } val p1 Point(1, 2) val p2 Point(3, 4) …

修改选择框el-select样式,显示及下拉样式

修改选择框el-select样式,显示及下拉样式 .el-input__inner {background: rgba(25, 126, 195, 0.2);border: none;color: #fff; }.el-select-dropdown {background: rgba(19, 73, 104, 0.79);border: 2px solid #48e3ff;border-radius: 0; }.el-popper .popper__arrow {display…

java设计模式学习之【策略模式】

文章目录 引言策略模式简介定义与用途实现方式 使用场景优势与劣势在Spring框架中的应用计算示例代码地址 引言 设想你正在玩一个策略游戏,每一个决策都会导致不同的游戏结局。同样地,在软件开发中,我们常常需要根据不同的场景或条件选择不同…

EOS链Ubuntu环境Install Prebuilt Binaries(安装预构建的二进制文件)的安装

[TOC](EOS链Ubuntu环境Install Prebuilt Binaries(安装预构建的二进制文件)的安装) EOS官网:https://eos.io/ 第一步 Ubuntu安装命令: 以下有两种安装方式,可以任选其一: 本文章已经上传绑定资源,也可以用命令安装。…

QT上位机开发(简易图像处理软件)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 大家都知道图像处理非常地重要,因为它不仅仅是可以用于拍照美颜,而且在工业、医疗和军事等方面也发挥着巨大的作用。另外一…

react-router-dom5升级到6

前言 升级前版本为5.1.2 下载与运行 下载 npm install react-router-dom6运行 运行发现报错: 将node_modules删除,重新执行npm i即可 运行发现如下报错 这是因为之前有引用react-router-dom.min,v6中取消了该文件,所以未找到文件导致报错。…

MO 2023 年度回顾

PART-ONE 行业态势 随着供需关系的变化,数据库的竞争在经历了 3 年 “百花齐放” 般的发展后,终于在 2023 年进入到了一个相对收拢的阶段。 2023 年,各个数据库厂商间很有默契地在两个方面达成了一致: HTAP 已经成为新一代数据…

前端下载文件问题之如何获取报错信息

问题:点击下载后。接口会生成并返回文件流。在极端情况下接口数据返回异常,需要抛出错误信息,比如后端拼接错误等情况、空文件情况。 难点:responseType设置为Blob后,返回内容为二进制文件流,从而无法获取错…

Linux_源码编译安装LAMP

1. 安装httpd服务 在配置 Apache 网站服务之前,需要正确安装好 httpd 服务器软件。httpd 服务器的安装可以选用 RPM 安装、源码编译安装这两种方式,前者相对比较简单、快速,但是在功能上存在一定的局限性。在实际的生产环境中,使…

堆排序算法

堆排序是利用堆这种数据结构而设计的一种排序算法,堆具有以下特点: 1.完全二叉树 2.二叉树每个结点的值都大于或等于其左右结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右子结点的值,称为小顶堆 大顶堆 大…

马蹄集oj赛(双周赛第十八次)

目录 幸运的3 打靶 照亮街道 九次九日九重色 寻找串 竹鼠的白色季节 捉迷藏 好的三连 三角数 买马 可怜的小码哥 花园浇水 高次方程 幸运的3 难度:黄金时间限制: 1秒四占用内存:128M 你有 n 个数,可以将它们两两匹配(即将两数首尾相连),每个…