Milvus 核心设计(5)--- scalar indexwork mechanism

目录

背景

Scalar index 简介

属性过滤

扫描数据段

相似性搜索

返回结果

举例说明

1. 属性过滤

2. 扫描数据段

3. 相似性搜索

实际应用中的考虑

Scalar Index 方式

Auto indexing 

Inverted indexing


背景

继续Milvus的很细设计,前面主要阐述了Milvus 在 vector simalairity 上的处理策略及index 方式。今天主要讲下scalar index。应该说对于所有的 db 实现,scalar index 都是需要的,无论是否是 关系型数据库,还是是否采用 k-v 存储等模式,有的东西是触类旁通的。Milvus 在处理scalar index 时,并不是孤立处理,而是结合了 bitset 提前过滤 + vector similarity 共同应对user  query 提出的挑战。下面进入正题。

Scalar index 简介

向量相似性搜索过程中,Milvus 使用了属性过滤条件(expr)来扫描每个数据段(segment),并将过滤结果(bitset,一种位集合,用于高效表示哪些元素满足条件)与查询向量(data)一起应用于相似性搜索中。这种方式可以极大地提高搜索效率,因为它允许Milvus在执行耗时的相似性计算之前,先通过简单的属性过滤快速排除掉大量不满足条件的数据点。

具体来说,过程如下:

属性过滤

用户定义了一个或多个属性过滤条件(expr),这些条件用于筛选数据集中满足特定属性要求的向量。这些条件可以基于向量的元数据(如时间戳、地理位置、分类标签等)来定义。

扫描数据段

Milvus遍历或索引每个数据段,应用这些属性过滤条件。对于每个数据段,它会生成一个bitset,这个bitset中的每一位代表数据段中对应位置的向量是否满足过滤条件。

相似性搜索

在得到过滤后的bitset后,Milvus只针对那些标记为“满足条件”的向量进行相似性搜索。这意味着它不再需要计算所有向量的相似性,而只需计算那些经过初步筛选、更有可能与查询向量相似的向量的相似性。


返回结果

最后,Milvus根据相似性得分对满足条件的向量进行排序,并返回最相似的向量及其相关信息(如ID、相似度分数等)给用户。

这种结合属性过滤和相似性搜索的方法,使得Milvus在处理大规模向量数据集时,能够更加高效和准确地响应用户的查询需求。它特别适用于那些既需要基于内容的相似性搜索,又需要基于属性快速筛选的场景,如推荐系统、图像检索、文档聚类等领域。

这里有一点要说明,你使用milvus,基本决定了你的 collection 世界中,一定是 vector + scalar 共存的case,原因很简单,如果仅有scalar,我相信你使用 mysql,sqlserver,甚至oracle 足以,小的应用你甚至使用sqlite估计也行,因为你的 sql  query 足以胜任user 各种需求。你之所以选择向量数据库,肯定是要么有LLM的vector 需求,要么有pic,audio甚至video 的需求。还是那句话,使用场景决定了product 的选择。所以你的collection 多半可能是  一个+多个 vector embeddding + 多个 attibute 的vector 说明。

举例说明

假设我们有一个电商平台,该平台使用Milvus来存储商品的图像特征向量,并希望为用户提供基于图像相似性的商品推荐功能。同时,商品还具有一些属性信息,如价格、品牌、类别等。

1. 属性过滤

用户查询:用户希望找到一款与某张图片相似,但价格不超过5000元,且品牌为“Huawei”的商品。

属性过滤条件

  • 价格 <= 5000
  • 品牌 = "Huawei"

在Milvus中,这些属性信息会与图像特征向量一起存储,但它们是分开处理的。当用户发起查询时,Milvus首先会应用这些属性过滤条件来筛选出满足条件的商品。

2. 扫描数据段

数据段扫描

  • Milvus会将存储的商品数据分为多个数据段(segment),每个数据段包含一部分商品的特征向量和属性信息。
  • 当属性过滤条件被应用时,Milvus会遍历或索引这些数据段,检查每个商品是否满足过滤条件。
  • 对于满足条件的商品,Milvus会生成一个bitset,其中每个位对应一个商品,满足条件的商品对应的位被设置为1,不满足的则被设置为0。

3. 相似性搜索

相似性搜索

  • 在得到过滤后的bitset后,Milvus只针对那些标记为“满足条件”的商品特征向量进行相似性搜索。
  • 用户提供的查询图片首先被转换为特征向量。
  • Milvus使用适当的相似性度量(如余弦相似度)来计算查询向量与满足条件的商品特征向量之间的相似性。
  • 根据相似性得分,Milvus对商品进行排序,并返回最相似的几个商品给用户。

实际应用中的考虑

  • 性能优化:Milvus通过高效的索引结构和算法来加速数据段的扫描和相似性搜索过程,确保即使在处理大规模数据集时也能提供快速响应。
  • 多模态支持:Milvus不仅支持图像特征向量的存储和检索,还支持文本、音频等多种模态的数据,为跨模态检索提供了可能。
  • 可扩展性:Milvus支持分布式部署,可以随着数据量的增长而水平扩展,以满足更高并发和更大存储容量的需求。

Scalar Index 方式

Auto indexing 

你不用对你的scalar attribute 做任何辅助说明,Milvus 使用 auto indexing 的方式完成Scalar Indexing 的索引。

实际上你看了Milvus 的源码之后,你会发现,实际上 Auto indexing 就是 底层用的 inverted indexing。这里可能milvus 为了扩展,将inverted indexing 作为了 default 的 scalar indexing 来使用。

所以本质上来说要看下 Inverted indexing。

Inverted indexing

倒排索引,如果你曾经是比较资深的programmmer,你应该不会陌生。我那时候还没有ElasticSearch,用的是Lucene,后来有了ElasticSearch 和 Solr,但是万变不离其宗,其核心还是倒排索引。说直白点就是把一个句子拆分为词组的 tomkenizer 并 标识这些词在哪些句子中出现或是标识出现的概率。Milvus的 inverted indexing 出自一个开源库:Tantivy。应该说 Tantivy 的实现并不是ElasticSerach 或是 Solr,但是其思想有些类似,有兴趣的可以去看下源码。github 地址:

Tantivy Github 源码地址

再次说明了,成功是站在巨人的肩上,其实Milvus 用了不少其他中间件来保证自己的功能特性,前面介绍过的就有:etcd,mysql,rockMQ,pluster etc。现在又看到了 Tantivy。你可能会问为什么Milvus 不使用 ElasticSearch或Solr,那肯定是那啥License等问题,但从技术的角度来说,Tantivy也足够优秀。或许有一天 Tantivy 的知名度会超过 ElasticSearch 也不一定。

我们看个例子:

这就是倒排索引,只不过不同人,不同版本实现时,倒排信息的精度有差别,这里是focus 在句子层面。不过对于 Milvus的使用,足以。

在单个查询,比如上面的例子,品牌=’huawei‘,那根据倒排索引,直接锁定包含’huawei‘品牌attribute的 document 或 segment。

在区间查询,比如还是上面的例子,价格<5000, 那还是根据倒排索引,直接锁定 价格 attribute的document 或segment。

或许区间的例子还不够透彻,因为range 的是数据。你查找的品牌获取不止一种,如果 brand in ['huawei', 'apple'] 首先会经过类似alpha的字母排序,之后通过倒排索引查询,会比暴力查询效率高很多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/377500.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Swift网络爬虫与数据可视化的结合 (1)

前言 在当今数字化时代&#xff0c;数据的重要性不言而喻。Swift&#xff0c;作为一种现代的编程语言&#xff0c;以其高性能、易用性和安全性&#xff0c;成为了开发iOS和macOS应用的首选。本文将探讨如何使用Swift来开发一个网络爬虫&#xff0c;以及如何将爬取的数据进行可…

图像边缘检测中Sobel算子的原理,并附OpenCV和Matlab的示例代码

Sobel算子是一种用于图像边缘检测的离散微分算子。它结合了图像的平滑处理和微分计算&#xff0c;旨在强调图像中强度变化显著的区域&#xff0c;即边缘。Sobel算子在图像处理中被广泛使用&#xff0c;特别是在计算机视觉和图像分析领域。 Sobel算子的原理 Sobel算子主要用于计…

【数学建模与优化】:解析与实践

目录 数学建模概述 1. 什么是数学模型 2. 数学模型的分类 2.1 按应用领域分类 2.2 按建模方法分类 2.3 按是否考虑随机因素分类 2.4 按变量的连续性分类 2.5 按对对象内部规律了解程度分类 2.6 按变量的基本关系分类 2.7 按是否考虑时间变化分类 3. 数学规划及优化模…

【车载开发系列】GIT教程---如何下载代码库

【车载开发系列】GIT教程—如何下载代码库 【车载开发系列】GIT教程---如何下载代码库 【车载开发系列】GIT教程---如何下载代码库一. 设置用户名和邮箱二. 生成SSH三. 登录远程github仓库配置四. Git中的ssh协议介绍五. 什么是GitLab六. GitLab与GitHub区别1&#xff09;用途和…

Python 获取今天(当天)、昨天(前一天)、前天(昨天的前一天)的开始时间、结束时间

描述&#xff1a;我这里是封装成DatetimeHelper工具类来调用 1.今天(当天)开始时间、结束时间 from datetime import datetime, timedeltaclass DatetimeHelper:# 获取今天(当天)的开始时间、结束时间(datetime类型)staticmethoddef getTodayStartEnd():# 获取当前的日期now …

nginx生成自签名SSL证书配置HTTPS

一、安装nginx nginx必须有"--with-http_ssl_module"模块 查看nginx安装的模块&#xff1a; rootecs-7398:/usr/local/nginx# cd /usr/local/nginx/ rootecs-7398:/usr/local/nginx# ./sbin/nginx -V nginx version: nginx/1.20.2 built by gcc 9.4.0 (Ubuntu 9.4.0…

HarmonyOS 屏幕适配设计

1. armonyOS 屏幕适配设计 1.1. 像素单位 &#xff08;1&#xff09;px (Pixels)   px代表屏幕上的像素点&#xff0c;是手机屏幕分辨率的单位&#xff0c;即屏幕物理像素单位。 &#xff08;2&#xff09;vp (Viewport Percentage)   vp是视口百分比单位&#xff0c;基于…

如何在excel表中实现单元格满足条件时整行变色?

可以试试使用条件格式&#xff1a; 一、条件格式 所谓“自动变色”就要使用条件格式。 先简单模拟数据如下&#xff0c; 按 B列数字为偶数 为条件&#xff0c;整行标记为蓝色背景色。 可以这样设置&#xff1a; 先选中1:10行数据&#xff0c;在这里要确定一下名称栏里显示…

元器件基础学习笔记——磁珠

一、磁珠的作用及构造 1.1 磁珠的作用 磁珠是一种用于抑制高频噪声的被动电子组件&#xff0c;通常由铁氧体材料制成&#xff0c;这种材料具有高电阻率和高磁导率&#xff0c;使其能够在高频下有效地将干扰信号以热能的形式消耗掉。在电路设计中&#xff0c;磁珠被广泛用于信号…

SQL Server设置定时作业调度Schedule

文章目录 SQL Server代理 SQL Server代理 SQL Server提供了一种称为SQL Server代理的功能&#xff0c;可以用来设置定时作业。以下是在SQL Server中设置定时作业的步骤&#xff1a; 打开SQL Server Management Studio&#xff08;SSMS&#xff09;。 连接到要设置定时作业的数…

Kotlin标准函数(语法糖)let with run also apply快速讲解

目录 1、知识储备——扩展函数 原理 定义扩展函数 调用扩展函数 2、返回值为上下文对象的标准函数 apply also 3、返回值为Lambda表达式结果 let run with 4、一表总结 1、知识储备——扩展函数 原理 Kotlin 在不继承父类或实现接口下&#xff0c;也能扩展一个类的…

N-(4-Azido-2-nitrophenyl)-N‘‘-biotinylnorspemidine

​一、基本信息 常用名&#xff1a;N-(4-Azido-2-nitrophenyl)-N-biotinylnorspemidine 英文名&#xff1a;N-(4-Azido-2-nitrophenyl)-N-biotinylnorspemidine CAS号&#xff1a;786609-83-4 分子式&#xff1a;C22H33N9O4S 分子量&#xff1a;519.62 二、结构特点 该化…

数据(图像)增广

一、数据增强 1、增加一个已有数据集&#xff0c;使得有更多的多样性&#xff0c;比如加入不同的背景噪音、改变图片的颜色和形状。 2、增强数据是在线生成的 3、增强类型&#xff1a; &#xff08;1&#xff09;翻转 &#xff08;2&#xff09;切割 &#xff08;3&#xf…

LLM大模型应用中的安全对齐的简单理解

LLM大模型应用中的安全对齐的简单理解 随着人工智能技术的不断发展&#xff0c;大规模语言模型&#xff08;如GPT-4&#xff09;的应用越来越广泛。为了保证这些大模型在实际应用中的性能和安全性&#xff0c;安全对齐&#xff08;Safe Alignment&#xff09;成为一个重要的概…

struts2如何防止XSS脚本攻击(XSS防跨站脚本攻击过滤器)

只需要配置一个拦截器即可解决参数内容替换 一、配置web.xml <filter><filter-name>struts-xssFilter</filter-name><filter-class>*.*.filters.XssFilter</filter-class></filter><filter-mapping><filter-name>struts-xss…

存储实验:Linux挂载iscsi硬盘与华为OceanStor创建LUN全流程

目录 目的环境规划实验实验流程Centos配置0. 关闭防火墙1. 设置网卡信息2. 配置路由3. iscsiadm连接存储 iSCSI LUN创建&#xff08;以华为OceanStor为例&#xff09;验证1. 验证是否成功2. 开启自动挂载 目的 实现Linux连接iscsi硬盘&#xff0c;同时实现开机自启挂载 环境规…

浅谈全量微调和PEFT高效微调(LoRA)

浅谈全量微调和LoRA微调 全量微调Full Fine-Tuning 全量微调是指在预训练的大型模型基础上调整所有层和参数&#xff0c;‌使其适应特定任务的过程。‌这一过程使用较小的学习率和特定任务的数据进行&#xff0c;‌可以充分利用预训练模型的通用特征 高效微调 高效微调&…

MongoDB自学笔记(二)

一、前言 接着上一篇文章&#xff0c;在上一篇文章中学习了如何使用数据库、如何创建集合、如何往集合里添加文档&#xff0c;今天我们继续学习一下更新文档&#xff0c;更新文档相对来说比较复杂笔者打算分多次来记录学习过程。 二、文档操作 1、更新文档 基础语法&#x…

CORDIC Translate

随便记录一下下&#xff1a; Cordic IP核使用说明以及避坑记录-CSDN博客 本次只用到了Translate&#xff0c;记录一下自己遇到的坑坑 实际配置&#xff1a; timescale 1ns / 1nsmodule cordic_tb();reg clk;wire m_axis_dout_tvalid;reg s_axis_cartesian_tvalid 0;wire [31…

SPE连接器技术革新汽车制造业

概述 新的SPE标准在汽车制造业中的应用正日益受到重视&#xff0c;它不仅推动了汽车通信技术的革新&#xff0c;还对汽车性能测试方法产生了深远影响。本文将详细探讨SPE标准在汽车制造业中的应用案例分析&#xff0c;以及它对供应链的挑战与机遇。 SPE标准在汽车制造业中的应…