为何页面搜索应避免左模糊和全模糊查询???

前言

在构建高效且可扩展的Web应用程序时,数据库查询的性能是影响用户体验的关键因素之一。特别是对于涉及大量数据的页面搜索功能,选择正确的查询方式不仅可以提升应用的速度,还能显著改善用户交互体验。

B-Tree索引与最左前缀匹配特性
1. B-Tree 索引基础

B-Tree(或其变体如B+Tree、B*Tree等)是一种自平衡树形数据结构,广泛应用于关系型数据库系统(RDBMS)中作为索引机制。它支持快速插入、删除和查找操作,同时保证了良好的空间利用率。B-Tree的一个重要特性是最左前缀匹配,这意味着:

  • 最左前缀原则:当索引字段由多个部分组成时(例如,复合索引),查询条件必须从最左边的部分开始。如果查询条件不满足这个原则,则该索引可能无法被有效利用。

  • 索引扫描效率:由于B-Tree索引是从根节点到叶子节点逐层向下查找,因此它非常适合处理以特定前缀开头的查询(即右模糊查询 LIKE 'keyword%')。然而,对于左模糊查询或全模糊查询,因为需要检查所有可能的路径,所以会退化为全表扫描,极大地降低了查询效率。

2. 复合索引与最左前缀原则

复合索引是由多个字段组成的索引,它可以提高多列组合查询的性能。根据最左前缀原则,复合索引中的每一列都必须按照定义顺序出现在查询条件中,否则索引将不会被完全利用。例如,如果你有一个复合索引 (column1, column2),那么查询条件至少应该包含 column1 的值,才能充分利用此索引。

左模糊与全模糊查询的问题详述
1. 左模糊查询 (LIKE '%keyword')
  • 索引失效:左模糊查询要求数据库引擎遍历整个索引树来查找所有可能包含关键词的数据记录,导致索引失去作用,进而使查询变为全表扫描,增加了I/O成本。

  • 内存消耗:全表扫描意味着更多的数据页会被加载到内存中,这不仅增加了内存占用,还可能导致缓存污染,影响其他查询的性能。

  • CPU资源浪费:每次执行这样的查询都会产生大量的CPU计算,尤其是在高并发环境下,会对服务器造成较大压力。

2. 全模糊查询 (LIKE '%keyword%')

除了上述左模糊查询的所有问题外,全模糊查询还带来了额外的挑战:

  • 中间匹配难度大:对于出现在字符串中间位置的关键词,数据库需要进行更加复杂的字符串处理,进一步降低了查询速度。

  • 结果集过大:由于没有明确的边界限制,查询可能会返回过多的结果,增加网络传输量和前端渲染时间。

替代方案与最佳实践

为了提高搜索功能的性能,以下是几种推荐的替代方案及最佳实践:

1. 使用全文搜索引擎

引入Elasticsearch、Solr等专门设计的全文搜索引擎,可以有效解决复杂文本检索的需求。这些工具不仅支持基本的模糊匹配,还提供了以下高级功能:

  • 分词器:能够根据语言规则对输入文本进行分割,从而提高匹配准确性。

  • 权重评分:基于相关性对搜索结果进行排序,确保最重要或最相关的文档优先展示给用户。

  • 近似匹配:允许一定程度上的拼写错误或变形词识别,增强用户体验。

  • 实时更新:通过增量索引等方式实现实时数据同步,保持搜索结果的新鲜度。

2. 调整查询策略

尽量使用右模糊查询或其他形式的精确匹配查询,以便充分利用现有索引的优势。此外,考虑以下方法优化查询逻辑:

  • 多条件组合:结合其他字段进行组合查询,通过多条件筛选减少结果集规模,降低单个查询的复杂度。

  • 范围查询:利用日期、数值等类型字段设置合理的查询范围,进一步缩小搜索空间。

  • 预过滤:先用简单的条件过滤出一部分数据,再在其基础上做更细致的模糊匹配,这样可以在不影响最终结果的前提下减少不必要的计算。

3. 预计算与缓存

对于频繁访问但变化不大的数据,可以通过预计算和缓存机制提前生成搜索结果,减轻实时查询的压力:

  • 静态内容缓存:对于完全不变的内容,可以直接存储HTML片段或JSON响应,直接返回给客户端,无需再次查询数据库。

  • 动态内容缓存:针对变化频率较低的数据,可以设定较短的有效期,在此期间内重复使用相同的查询结果。

  • 分布式缓存系统:使用Redis、Memcached等分布式缓存解决方案,不仅可以加速数据读取,还可以分散热点数据的压力,提高系统的整体稳定性。

4. 数据库层面的优化

除了调整应用逻辑外,还可以从数据库内部着手,采取一些优化措施:

  • 创建覆盖索引:确保索引包含了查询所需的所有列,使得查询可以直接从索引中获取完整信息,而不需要回表查询。

  • 分区表:对于特别大的表,可以根据业务特点对其进行水平或垂直分区,减少每次查询的数据量。

  • 定期维护索引:随着数据的增长,索引可能会变得臃肿或碎片化,定期重建或优化索引有助于保持其高效性。

  • 选择合适的索引类型:不同类型的索引适用于不同的场景,例如哈希索引适合等值查询,全文索引适合文本检索。了解并选择最适合你需求的索引类型可以大幅提升查询性能。

拓展
1. 查询优化器的作用

现代数据库管理系统通常配备有查询优化器,这是一个复杂的组件,负责分析SQL语句并选择最优的执行计划。理解查询优化器的工作原理可以帮助开发者编写更高效的SQL语句,并通过EXPLAIN等工具查看执行计划,找出潜在的性能瓶颈。

2. 并发控制与锁机制

在高并发环境下,合理地管理事务和锁定机制至关重要。不当的锁使用会导致死锁或长等待现象,严重影响系统性能。学习如何最小化锁争用,例如采用乐观锁或无锁编程技术,可以显著提高数据库的并发处理能力。

3. 数据压缩与存储优化

对于大规模数据集,有效的数据压缩和存储格式优化也是不容忽视的一环。通过选择合适的数据类型、压缩算法和存储引擎,可以在不影响数据完整性的情况下节省大量磁盘空间,并加快数据读取速度。

4. 实时数据分析与流处理

随着大数据时代的到来,越来越多的应用需要支持实时数据分析和流处理。Apache Kafka、Flink、Spark Streaming等框架提供了强大的实时数据处理能力,结合全文搜索引擎,可以实现近乎即时的搜索结果更新。

结语

综上所述,虽然左模糊和全模糊查询看似提供了灵活的搜索选项,但从长远来看,它们往往会给数据库带来不必要的负担。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/495093.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mac系统下 IDEA配置Maven本地仓库

1.为什么需要配置本地仓库? 在软件开发过程中,使用Maven工具进行依赖管理是常见的做法。Maven通过集中管理各种依赖库,能够帮助开发者在项目中轻松地引入所需的第三方库,并确保项目能够顺利构建和部署。然而,在使用Mav…

RGCL:A Review-aware Graph Contrastive Learning Framework for Recommendation

A Review-aware Graph Contrastive Learning Framework for Recommendation 解决的问题 基于评论的推荐可以自然地形成为具有来自相应用户项目评论的边特征的用户项目二分图。那么就可以利用评论感知图中独特的自监督信号来指导推荐的两个组件:用户-项目嵌入学习,用户-项目…

5、mysql的读写分离

主从复制 主从复制的含义 主从复制:在一个mysql的集群当中,至少3台,即主1台,从2台。 当有数据写入时,主负责写入本库,然后把数据同步到从服务器。 一定是在主服务器写入数据,从服务器的写入…

重生之我在异世界学编程之C语言:深入预处理篇(上)

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言正文一、预处理的作用与流程&#xf…

信创源代码加密的答案:信创沙箱

在信息化与工业化融合创新(信创)的背景下,企业面临着前所未有的数据安全挑战。SDC沙盒技术以其独特的隔离和保护机制,为信创环境提供了强有力的支持。以下是SDC沙盒在信创支持方面的优势,这些优势体现了其在保护企业数…

计算机网络B重修班-期末复习

[TOC] (计算机网络B重修班-期末复习) 一、单选 (20题,1分/题,共20分) 二、判断 (10题,1分/题,共10分) 三、填空 (10题,1分/题,共10…

结合实例从HCI层分析经典蓝牙连接和配对过程

我们知道,经典蓝牙BREDR的link key协商是在LMP层做的,那么蓝牙Host在鉴权的过程中,会跟BT SOC有哪些交互: 首次配对 在HCI Inuqiry找到想要配对的设备后,Host会调用HCI Create Connection命令去连接对方设备&#xf…

StartAI图生图局部重绘,让画面细节焕发新生!!

在设计的世界里,每一个细节都承载着我们的创意与心血。然而,有时我们总会遇到一些不尽如人意的画面细节,它们如同瑕疵般破坏了整体的和谐与美感。今天,我要向大家推荐一款强大的工具——StartAI的局部重绘功能,它正是我…

VMware vCenter保姆级安装部署(VMware VCenter Nanny Level Installation and Deployment)

VMware vCenter保姆级安装部署教程 VMware vCenter‌是由VMware开发的一款虚拟化管理平台,主要用于管理和监控虚拟化环境中的虚拟机、主机和存储资源。它提供了一个集中控制的平台,简化了虚拟化基础设施的管理工作,提高了资源利用率和灵活性…

蓝牙协议——音量控制

手机设置绝对音量 使用Ellisys查看如下: 使用Wireshark查看如下: 音量的量程是128,0x44的十进制是68,53%或54%音量的计算如下: 68 / 128 53.125%耳机设置绝对音量

如何完全剔除对Eureka的依赖,报错Cannot execute request on any known server

【现象】 程序运行报错如下: com.netflix.discovery.shared.transport.TransportException报错Cannot execute request on any known server 【解决方案】 (1)在Maven工程中的pom去掉Eureka相关的引用(注释以下部分&#xff0…

从AI换脸到篡改图像,合合信息如何提升视觉内容安全?

本文目录 引言一、AI“真假之战”下的发展现状与考验挑战1.1 视觉内容安全现状与技术分类1.2视觉内容安全企业1.3视觉内容安全领域挑战 二、开山之石:引领视觉内容安全的创新之路2.1合合内容安全系统2.2发起编制相关技术规范2.3参与篡改检测挑战赛 三、视觉内容安全…

虚幻引擎结构之ULevel

在虚幻引擎中,场景的组织和管理是通过子关卡(Sublevel)来实现的。这种设计不仅提高了资源管理的灵活性,还优化了游戏性能,特别是在处理大型复杂场景时。 1. 场景划分模式 虚幻引擎采用基于子关卡的场景划分模式。每个…

log4j2漏洞复现(CVE-2021-44228)

靶场环境 步骤一:设置出战规则 步骤二:开启靶场 cd vulhub cd log4j cd CVE-2021-44228 docker-compose up -d docker ps 访问端口 靶机开启 步骤三:外带注入 获得dnslog 靶机访问dnslog 得到dnslog的二级域名信息 步骤四:构造…

美国加州房价数据分析01

1.项目简介 本数据分析项目目的是分析美国加州房价数据,预测房价中值。 环境要求: ancondajupyter notebookpython3.10.10 虚拟环境: pandas 2.1.1 numpy 1.26.1 matplotlib 3.8.0 scikit-learn1.3.1 2. 导入并探索数据集 通用的数据分析…

ML-Agents 概述(二)

注:本文章为官方文档翻译,如有侵权行为请联系作者删除 ML-Agents Overview - Unity ML-Agents Toolkit–原文链接 ML-Agents 概述(一) ML-Agents 概述(二) 训练方法:特定环境 除了上一节介绍的…

nlp新词发现——浅析 TF·IDF

传统nlp任务处理文本及其依赖已有的词表,只有在词表里出现的词才能被识别并加以处理。但这也带来了一些问题: 假设没有词表,如何从文本中发现新词? 随着时间推移,新词会不断出现,固有词表会过时&#xff0…

OpenAI 普及 ChatGPT,开通热线电话,近屿智能深耕AI培训

12月19日,在OpenAI直播活动的第10天,宣布允许用户通过电话或WhatsApp与ChatGPT进行交互。并在美国推出 ChatGPT 热线电话,用户拨打后可与 ChatGPT 进行语音对话。 这项服务的一个亮点在于它兼容各种类型的通信设备——不论是现代智能手机如iP…

vue中proxy代理配置(测试二)

接口地址:https://ss.dd.dd.d.cn:9006/thirdist/portalApi/biz-api/eemp/supervision/v1//getPeiCountData?batch2&cent0 1、配置一(代理没起作用) (1)设置baseURL为https://ss.dd.dd.d.cn:9006 (2&am…

国自然面上项目分享|基于人工智能和病理组学的早癌筛查算法研究|基金申请·24-12-24

小罗碎碎念 今天分享的项目为【常规面上项目】,执行年限为2018年1月至2021年12月,直接费用为55万元。 今天分享的这个项目很有意思,因为这个项目的成果是团队2020年申报基金委优青的材料,并且还有临床验证和商业转化,值…