搜索中关于稀疏检索和稠密向量检索的召回效果比较

搜索中关于稀疏检索和稠密向量检索的召回效果比较

news/2024/12/25 1:06:33/文章来源:https://blog.csdn.net/star1210644725/article/details/136199885

不同检索方式说明

最近在做搜索召回提升相关的研究工作。对比了稀疏检索和稠密向量检索的效果。其中使用的搜索引擎为elasticsearch8.x版本。稀疏检索包括BM25的检索方式，以及es官方在8.8之后版本提供的稀疏向量模型的方式。稠密向量检索，是指借助机器学习的模型做文本嵌入，然后用es8.x以后版本提供的向量检索。

测试数据说明

测试数据包括了中文和英文，涉及了法律和新闻数据。

一、先说结论

相比较BM25检索，借助机器学习模型做文本嵌入的向量检索方式，有不错的效果。

同时，ES的稀疏向量模型，在英文场景下，相比较BM25和向量检索，仍然取得了更好的召回率提升效果。

BM25和向量检索以及稀疏向量检索之间的关系？

从测试数据来看，三者之间是互补的。

二、三种不同召回方式成功召回率对比效果

声明：这里取top50，如果命中标准答案则认为召回。

以一个测试集为例（法律数据），该测试集是有人工整理的198个问题，包含了问题和答案，相对质量较高。

在下图中，可以看到BM25成功召回177（89%）。

向量检索成功召回156个（79%）

稀疏向量成功召回187个（ 94%）

结论一：稀疏向量召回率 >BM25 > 稠密向量

只看每一种召回方式，召回效果。

稀疏向量成功召回187（ 94%） > BM25 成功召回177（89%）> 稠密向量成功召回156 （79%）

请注意这个结论！！! 其中向量检索的效果，会和向量模型有着非常密切的关系，会和测试数据集有非常密切的关系。关于BM25的召回效果好于向量检索，我自己也是不认可的。请看结论四。

结论二：三者是可以互补的

再看三路混合检索整体的召回效果，成功召回189，召回率95%，整体大于任何一个单个检索方式。

结论三：BM25 和稠密向量可以互补。

稀疏向量是收费才能使用的功能，且只针对英文效果出色。所以这里只看Bm25和稠密向量的方式。

统计1：其中BM25召回成功的，向量检索召回失败的有27个。13%

统计2：其中向量召回成功，但是BM25召回失败的有6个。3%

结论四：BM25是否真的好于向量检索？

其中向量检索，严重依赖外部的文本嵌入的模型，假如模型没有训练过某个领域的知识，则在向量embedding过程中，一定会都是语义，所以效果表现不佳，甚至是低于Bm25的召回效果。

于是又对比了不同的测试数据集: 这次是中文的新闻数据。共1704个case。向量召回率98% >bm

25召回率 95%

即使这样，我依然无法下一个结论说向量检索效果比BM25好，或者说差。还是取决于文本嵌入模型的能力，以及测试集样本。但是总是可以得出，而知没有绝对的谁领先，而是互补，1+1 >2的效果!

其中BM25 成功召回 1619，召回率95%。

其中向量成功召回 1675，召回率98.2%。

整体召回率，98.8%。两者可以互补的结论依然成立。

三、稀疏向量的提升效果

这是一个全新的测试数据集。也是法律数据和法律问题。与上边的测试集不同的是，这是人工整理的，没有杂质数据的干扰。

在英文场景下，稀疏向量的召回率相比较BM25，提升明显！提升到了100%，提升了14%

topK召回率有很大提升，top1提升了31%，top5提升了28.5%，top10提升了22%

四、应该如何选用召回方式

其中Bm25 是花费资源最少得检索方式。向量检索是花费资源最多的方式，因为要使用模型，其并发能力会受到资源限制。稀疏向量需要依赖官方提供的模型，是收费的功能，并且价格昂贵，且只支持英文场景，无法做多语言的混合场景，亲测中英混合的情况下，效果下降明显。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/261006.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于springboot实现的音乐网站

基于springboot实现的音乐网站

一、系统架构前端：html | js | css | bootstrap 后端：springboot | mybatis 环境：jdk1.8 | mysql | maven 二、代码及数据库三、功能介绍 01. 登录页 02. 用户注册 03. 首页 04. 喜欢 05. 查询

阅读更多...

1902_野火FreeRTOS教程内核在STM32中用到的2个中断PENDSV和SYSTICK

1902_野火FreeRTOS教程内核在STM32中用到的2个中断PENDSV和SYSTICK

1902_野火FreeRTOS教程内核在STM32中用到的2个中断PENDSV和SYSTICK 全部学习汇总： g_FreeRTOS: FreeRTOS学习笔记 (gitee.com) 上面是涉及到的源代码，而这次需要分析的就是78、79行的两个中断。首先，需要确认NVIC_SYSPRI2寄存器的作用。进一…

阅读更多...

【dc-dc】世微AP5125 外置MOS 5-100V 8A平均电流型LED降压恒流驱动器 SOT23-6

【dc-dc】世微AP5125 外置MOS 5-100V 8A平均电流型LED降压恒流驱动器 SOT23-6

产品描述 AP5125 是一款外围电路简单的 Buck 型平均电流检测模式的 LED 恒流驱动器，适用于 8-100V 电压范围的非隔离式大功率恒流 LED 驱动领域。芯片采用固定频率 140kHz 的 PWM 工作模式， 利用平均电流检测模式，因此具有优异的负载调整率特…

阅读更多...

SICTF round#3 web

SICTF round#3 web

1.100％_upload url可以进行文件包含，但是flag被过滤看一下源码 <?phpif(isset($_FILES[upfile])){$uploaddir uploads/;$uploadfile $uploaddir . basename($_FILES[upfile][name]);$ext pathinfo($_FILES[upfile][name],PATHINFO_EXTENSION);$t…

阅读更多...

Linux程序性能分析60秒+

Linux程序性能分析60秒+

Linux性能分析大师Brendan Gregg有一篇非常著名的博客，介绍在性能分析开始的60秒内，利用标准的Linux命令行工具，执行一次充分的性能检查，获得系统资源利用率和进程运行情况的整体概念，查看是否存在异常、评估饱和度。本…

阅读更多...

【数据结构】二叉树的三种遍历

【数据结构】二叉树的三种遍历

目录一、数据结构二、二叉树三、如何遍历二叉树一、数据结构数据结构是计算机科学中用于组织和存储数据的方式。它定义了数据元素之间的关系以及对数据元素的操作。常见的数据结构包括数组、链表、栈、队列、树、图等。数组是一种线性数据结构，它使用连续…

阅读更多...

com.alibaba.fastjson.JSONException: toJSON error的原因

com.alibaba.fastjson.JSONException: toJSON error的原因

问题： 导出接口报错，显示json格式化异常发现问题： 第一个参数为HttpResponse,转换成json的时候报错修改方法： 1.调换两个参数的位置 2.在aop判断里边把ServletAPI过滤掉 Before("excudeWebController()")pub…

阅读更多...

苍穹外卖学习-----2024/02/21

苍穹外卖学习-----2024/02/21

1.新增员工 /*** 处理SQL异常* param sqlIntegrityConstraintViolationException* return*/ExceptionHandlerpublic Result exceptionHandler(SQLIntegrityConstraintViolationException sqlIntegrityConstraintViolationException){//String message sqlIntegrityConstraintV…

阅读更多...

String字符串，FastJson常用操作方法

String字符串，FastJson常用操作方法

JSON字符串操作 1、创建配置环境 # 引入测试包testImplementation group: org.springframework.boot, name: spring-boot-starter-test, version: 2.2.6.RELEASE # 创建测试类RunWith(SpringRunner.class)SpringBootTestpublic class JsonTest {Testpublic void test(){Syste…

阅读更多...

第100讲：MHA+Atlas实现MySQL主从复制读写分离分布式集群

第100讲：MHA+Atlas实现MySQL主从复制读写分离分布式集群

文章目录 1.Atlas读写分离简介2.搭建MHA高可用MySQL主从复制集群3.部署配置Atlas读写分离中间件3.1.安装Atlas读写分离中间件3.2.配置读写分离3.3.启动Atlas读写分离 4.读写分离集群测试5.生产环境中创建一个用户通过Atlas使用6.Atlas通过管理接口实现在线管理7.Atlas自动分表 …

阅读更多...

Linux下解压tar.xz文件的命令

Linux下解压tar.xz文件的命令

tar -c: 建立压缩档案-x：解压-t：查看内容-r：向压缩归档文件末尾追加文件-u：更新原压缩包中的文件 ------------------------------------------ 这五个是独立的命令，压缩解压都要用到其中一个，可以和别的…

阅读更多...

【 Maven 】花式玩法之多模块项目

【 Maven 】花式玩法之多模块项目

目录一、认识Maven多模块项目二、maven如何定义项目的发布策略 2.1 版本管理 2.2 构建配置 2.3 部署和发布 2.4 依赖管理 2.5 发布流程三、使用Jenkins持续集成Maven项目四、总结如果你有一个多模块项目，并且想将这些模块发布到不同的仓库或目标位置&…

阅读更多...

拿捏c语言指针（下）

拿捏c语言指针（下）

前言此篇讲解的主要是函数与指针的那些事~ 书接上回拿捏c语言指针（上）和拿捏c语言指针（中） 没有看的小伙伴要抓紧喽~ 欢迎关注个人主页：逸狼创造不易，可以点点赞吗~ 如有错误&#x…

阅读更多...

Cache-M语言通用工具类

Cache-M语言通用工具类

链接：M语言通用工具类

阅读更多...

MySQL错误-this is incompatible with sql_mode=only_full_group_by完美解决方案

MySQL错误-this is incompatible with sql_mode=only_full_group_by完美解决方案

项目场景有时候，遇到数据库重复数据，需要将数据进行分组，并取出其中一条来展示，这时就需要用到group by语句。但是，如果mysql是高版本，当执行group by时，select的字段不属于group by的字段的…

阅读更多...

设计模式——观察者模式

设计模式——观察者模式

定义： 定义一种一对多的依赖关系，当一个对象的状态发生改变时，其所有依赖者都会收到通知并自动更新。作用： 定义对象间的一种一对多的依赖关系，当一个对象的状态发生改变时，所有依赖于它的对象都得到通…

阅读更多...

MySQL 基础知识（十）之 MySQL 架构

MySQL 基础知识（十）之 MySQL 架构

目录 1 MySQL 架构说明 2 连接层 3 核心业务层 3.1 查询缓存 3.2 解析器 3.3 优化器 3.4 执行器 4 存储引擎层 5 参考文档 1 MySQL 架构说明下图是 MySQL 5.7 及其之前版本的逻辑架构示意图 MySQL 架构大致可分为以下三层： 连接层：负责跟客户…

阅读更多...

今日必读的9篇大模型论文

今日必读的9篇大模型论文

1.来自普林斯顿大学的研究团队及其合作者提出了 TutorEval 和 TutorChat。TutorEval 是首个结合了长上下文、自由形式生成和跨学科科学知识的基准，它有助于衡量 LMs 作为科学助手在现实生活中的可用性。TutorChat 是一个包含 80000 篇关于教科书的长篇合成对话的数据…

阅读更多...

Mybatis | 初识Mybatis

Mybatis | 初识Mybatis

初识Mybatis 目录: 初识Mybatis什么是Mybatis？Hibernate 和 MyBatis的区别？Mybatis的下载和使用Mybatis的工作原理作者简介 ：一只大皮卡丘，计算机专业学生，正在努力学习、努力敲代码中! 让我们一起继续努力学习&#…

阅读更多...

第3.1章：StarRocks数据导入——Insert into 同步模式

第3.1章：StarRocks数据导入——Insert into 同步模式

一、概述在StarRocks中，insert的语法和mysql等数据库的语法类似，并且每次insert into操作都是一次完整的导入事务。主要的 insertInto 命令包含以下两种： insert into tbl select ...insert into tbl (col1, col2, ...) values (1, 2, ...…

阅读更多...

最新文章

推荐文章