【拥抱AI】Milvus 如何处理 TB 级别的大规模向量数据?

处理 TB 级别的大规模向量数据是 Milvus 的核心优势之一。Milvus 通过分布式架构、高效的索引算法和优化的数据管理策略来实现这一目标。下面将详细介绍 Milvus 如何处理 TB 级别向量数据的流程,包括插入代码示例、指令以及流程图。
在这里插入图片描述

1. 分布式架构

Milvus 使用分布式架构来处理大规模数据。它支持水平扩展,可以将数据分布在多个节点上,从而提高存储容量和查询性能。主要组件包括:

  • Milvus Server:负责数据管理和查询。
  • Etcd:用于服务发现和配置管理。
  • MinIO/S3:持久化存储。
  • Pulsar:消息队列,用于数据同步和异步操作。

2. 数据分片

为了处理大规模数据,Milvus 将数据分成多个分片(segments)。每个分片是一个独立的文件,包含一定数量的向量数据。这样可以并行处理数据,提高查询效率。

3. 高效索引

Milvus 支持多种高效的向量索引算法,如 ANNOY、HNSW、IVF-PQ、IVF-SQ8 等。这些索引算法可以在高维空间中快速找到近似最近邻。

4. 插入数据

4.1 创建集合

首先,需要创建一个集合来存储向量数据。集合定义了向量的维度、索引类型等属性。

from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection# 连接到 Milvus 服务器
connections.connect("default", host="localhost", port="19530")# 定义字段
fields = [FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=128)
]# 创建集合模式
schema = CollectionSchema(fields, "Example collection for large-scale vectors")# 创建集合
collection = Collection("example_collection", schema)
4.2 插入数据

使用 insert 方法将向量数据插入到集合中。

import numpy as np# 生成随机向量数据
data = [[np.random.rand(128).tolist() for _ in range(10000)]  # 10000 条 128 维向量
]# 插入数据
mr = collection.insert(data)# 获取插入结果
print(f"Inserted {mr.insert_count} entities with primary keys: {mr.primary_keys}")

5. 建立索引

在插入大量数据后,建立索引以提高查询效率。

# 定义索引参数
index_params = {"index_type": "IVF_FLAT","params": {"nlist": 128},"metric_type": "L2"
}# 建立索引
collection.create_index(field_name="embedding", index_params=index_params)

6. 加载集合

加载集合到内存中,以便进行查询。

# 加载集合
collection.load()

7. 查询数据

使用 search 方法进行相似性搜索。

# 定义查询向量
query_vectors = [np.random.rand(128).tolist()]# 定义搜索参数
search_params = {"metric_type": "L2","params": {"nprobe": 10}
}# 执行搜索
results = collection.search(query_vectors, "embedding", search_params, limit=10)# 输出结果
for result in results:print(f"Top 10 similar vectors: {result.ids}")

8. 流程图

以下是处理 TB 级别向量数据的流程图:

+-------------------+       +-----------------+       +--------------------+       +------------------+
|                   |       |                 |       |                    |       |                  |
|  用户输入         |  -->  |  创建集合       |  -->  |  插入数据          |  -->  |  建立索引        |  -->  |  加载集合        |  -->  |  查询数据        |
|  (向量数据)       |       |  (定义模式)     |       |  (批量插入)        |       |  (选择索引类型)  |       |  (加载到内存)    |       |  (相似性搜索)    |
|                   |       |                 |       |                    |       |                  |       |                  |       |                  |
+-------------------+       +-----------------+       +--------------------+       +------------------+       +------------------+       +------------------+|                           |                               |                           |                           |                           ||                           |                               |                           |                           |                           ||                           v                               v                           v                           v                           v|                       +-----------------+           +-----------------+           +-----------------+           +-----------------+           +-----------------+|                       |  Etcd (配置)    | <---------+  MinIO/S3 (存储)| <--------+  Pulsar (消息队列)| <-------+  Milvus Server   | <-------+  应用程序      ||                       +-----------------+           +-----------------+           +-----------------+           +-----------------+           +-----------------+

9. 详细步骤说明

9.1 连接 Milvus 服务器
from pymilvus import connections# 连接到 Milvus 服务器
connections.connect("default", host="localhost", port="19530")
9.2 创建集合
from pymilvus import FieldSchema, CollectionSchema, DataType, Collection# 定义字段
fields = [FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=128)
]# 创建集合模式
schema = CollectionSchema(fields, "Example collection for large-scale vectors")# 创建集合
collection = Collection("example_collection", schema)
9.3 插入数据
import numpy as np# 生成随机向量数据
data = [[np.random.rand(128).tolist() for _ in range(10000)]  # 10000 条 128 维向量
]# 插入数据
mr = collection.insert(data)# 获取插入结果
print(f"Inserted {mr.insert_count} entities with primary keys: {mr.primary_keys}")
9.4 建立索引
# 定义索引参数
index_params = {"index_type": "IVF_FLAT","params": {"nlist": 128},"metric_type": "L2"
}# 建立索引
collection.create_index(field_name="embedding", index_params=index_params)
9.5 加载集合
# 加载集合
collection.load()
9.6 查询数据
# 定义查询向量
query_vectors = [np.random.rand(128).tolist()]# 定义搜索参数
search_params = {"metric_type": "L2","params": {"nprobe": 10}
}# 执行搜索
results = collection.search(query_vectors, "embedding", search_params, limit=10)# 输出结果
for result in results:print(f"Top 10 similar vectors: {result.ids}")

10. 性能优化

  • 调整索引参数:根据数据特性和查询需求调整索引参数,如 nlistnprobe
  • 增加节点数量:通过增加 Milvus 节点数量来提高处理能力和查询速度。
  • 优化硬件配置:使用高性能的 CPU、GPU 和大容量内存来加速计算和存储。
  • 数据预处理:对数据进行归一化、降维等预处理,以减少存储空间和提高查询效率。

11. 监控与维护

  • 监控工具:使用 Prometheus 和 Grafana 监控 Milvus 的运行状态和性能指标。
  • 定期备份:定期备份数据,防止数据丢失。
  • 日志分析:分析日志文件,及时发现和解决问题。

通过上述步骤,Milvus 可以高效地处理 TB 级别的大规模向量数据,并提供高性能的向量检索能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/480349.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Scrapy管道设置和数据保存

1.1 介绍部分&#xff1a; 文字提到常用的Web框架有Django和Flask&#xff0c;接下来将学习一个全球范围内流行的爬虫框架Scrapy。 1.2 内容部分&#xff1a; Scrapy的概念、作用和工作流程 Scrapy的入门使用 Scrapy构造并发送请求 Scrapy模拟登陆 Scrapy管道的使用 Scrapy中…

k8s集群部署metrics-server

1、Metrics Server介绍 Metrics Server 是集群级别的资源利用率数据的聚合器。从 Kubelets收集资源指标&#xff0c;并通过 Metrics API 在 Kubernetes apiserver 中公开它们&#xff0c;以供 Horizontal Pod Autoscaler 和Vertical Pod Autoscaler 使用。 Metrics API 也可以…

什么是串联谐振

比如有一个由电阻、电容和电感的串联电路中&#xff0c;存在一个频率能使这个电路的电流最大&#xff0c;这个现象就叫谐振。 那么这个频率是多少呢&#xff1f; 交流电频率与电路固有频率一致时&#xff0c;它就能发生谐振&#xff0c;此时这个电路的电流是最大的 这个固有频…

(vue)启动项目报错The project seems to require pnpm but it‘s not installed

(vue)启动项目报错The project seems to require pnpm but it’s not installed 原因 该错误信息表明你的项目需要使用 pnpm 作为包管理工具&#xff0c;但系统中尚未安装 pnpm。 解决方法 【1】删除pnpm.lock 【2】npm install -g pnpm 之后再重新启动 yarn报错&#xff0…

Laravel8.5+微信小程序实现京东商城秒杀方案

一、商品秒杀涉及的知识点 鉴权策略封装掊口访问频次限制小程序设计页面防抖接口调用订单创建事务使用超卖防御 二、订单库存系统方案&#xff08;3种&#xff09; 下单减库存 优点是库存和订单的强一致性&#xff0c;商品不会卖超&#xff0c;但是可能导致恶意下单&#xff…

JVM:即时编译器,C2 Compiler,堆外内存排查

1&#xff0c;即时编译器 1.1&#xff0c;基本概念 常见的编译型语言如C&#xff0c;通常会把代码直接编译成CPU所能理解的机器码来运行。而Java为了实现“一次编译&#xff0c;处处运行”的特性&#xff0c;把编译的过程分成两部分&#xff0c;首先它会先由javac编译成通用的…

屏幕分辨率|尺寸|颜色深度指纹修改

一、前端通过window.screen接口获取屏幕分辨率 尺寸 颜色深度&#xff0c;横屏竖屏信息。 二、window.screen c接口实现&#xff1a; 1、third_party\blink\renderer\core\frame\screen.idl // https://drafts.csswg.org/cssom-view/#the-screen-interface[ExposedWindow ] …

【C#设计模式(15)——命令模式(Command Pattern)】

前言 命令模式的关键通过将请求封装成一个对象&#xff0c;使命令的发送者和接收者解耦。这种方式能更方便地添加新的命令&#xff0c;如执行命令的排队、延迟、撤销和重做等操作。 代码 #region 基础的命令模式 //命令&#xff08;抽象类&#xff09; public abstract class …

Linux基础项目包含(DNS,FTP,Samba)

今天我们来实现一个linux的基础项目&#xff0c;多做项目可以加深我们对每个服务的掌握程度&#xff0c;能更加的熟悉各个服务的使用&#xff0c;以及每个服务之间如何相互应用&#xff0c;我们可以有一个清晰的认知&#xff0c;那么接下来我们就开始项目的实操。 一、 项目背…

鸿蒙面试 --- 性能优化

性能优化可以从三个方面入手 感知流畅、渲染性能、运行性能 感知流畅 在应用开发中&#xff0c;动画可以为用户界面增添生动、流畅的交互效果&#xff0c;提升用户对应用的好感度。然而&#xff0c;滥用动画也会导致应用性能下降&#xff0c;消耗过多的系统资源&#xff0c;…

UWB数字钥匙安全测距和场景应用

1. CCC数字钥匙 2021年7月CCC将UWB定义为第三代数字钥匙的核心技术&#xff0c;并发布CCC R3&#xff08;第三代数字钥匙&#xff09;规范。 CCC R3是基于NFC/BLE/UWB作为基础的无线电技术的使用&#xff0c;该系统采用非对称密码技术对车辆和设备进行相互签名认证&#xff0…

使用Compose Multiplatform开发跨平台的Android调试工具

背景 最近对CMP跨平台很感兴趣&#xff0c;为了练手&#xff0c;在移动端做了一个Android和IOS共享UI和逻辑代码的天气软件&#xff0c;简单适配了一下双端的深浅主题切换&#xff0c;网络状态监测&#xff0c;刷新调用振动器接口。 做了两年多车机Android开发&#xff0c;偶…

ubuntu22开机自动登陆和开机自动运行google浏览器自动打开网页

一、开机自动登陆 1、打开settings->点击Users 重启系统即可自动登陆桌面 二、开机自动运行google浏览器自动打开网页 1、安装google浏览器 sudo wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb sudo dpkg -i ./google-chrome-stable…

前端学习笔记之文件下载(1.0)

因为要用到这样一个场景&#xff0c;需要下载系统的使用教程&#xff0c;所以在前端项目中就提供了一个能够下载系统教程的一个按钮&#xff0c;供使用者进行下载。 所以就试着写一下这个功能&#xff0c;以一个demo的形式进行演示&#xff0c;在学习的过程中也发现了中文路径…

FPGA实现GTP光口视频转USB3.0传输,基于FT601+Aurora 8b/10b编解码架构,提供3套工程源码和技术支持

目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目我这里已有的 GT 高速接口解决方案本博已有的FPGA驱动USB通信方案 3、工程详细设计方案工程设计原理框图输入Sensor之-->OV5640摄像头输入Sensor之-->芯片解码的…

借助nntools的模型训练(图像去噪任务, PyTorch)

在跑通开源代码的过程中&#xff0c;一直难以找到很合适的代码框架或代码模板&#xff0c;尤其对于初学者而言是不小的挑战。本人在跑代码的过程中&#xff0c;发现在GitHub上有一个辅助训练过程的模板。这篇文章主要记录它的使用方法&#xff0c;并标记来源。 代码均在jupyter…

C# 常量

文章目录 前言一、整数常量&#xff08;一&#xff09;合法与非法实例对比&#xff08;二&#xff09;不同进制及类型示例 二、浮点常量三、字符常量四、字符串常量五、定义常量 前言 在 C# 编程的世界里&#xff0c;常量是一类特殊的数据元素&#xff0c;它们如同程序中的 “定…

PHP 生成分享海报

因为用户端有多个平台&#xff0c;如果做分享海报生成&#xff0c;需要三端都来做&#xff0c;工作量比较大。 所以这个艰巨的任务就光荣的交给后端了。经过一定时间的研究和调试&#xff0c;最终圆满完成了任务&#xff0c;生成分享海报图片实现笔记如下。 目录 准备字体文件…

探索Python词云库WordCloud的奥秘

文章目录 探索Python词云库WordCloud的奥秘1. 背景介绍&#xff1a;为何选择WordCloud&#xff1f;2. WordCloud库简介3. 安装WordCloud库4. 简单函数使用方法5. 应用场景示例6. 常见Bug及解决方案7. 总结 探索Python词云库WordCloud的奥秘 1. 背景介绍&#xff1a;为何选择Wo…

git 学习笔记

目录 一、git 前期配置准备 1、托管平台的账号注册&#xff08;以gitee码云为demo&#xff09; 2、本地个人电脑配置 &#xff08;1&#xff09;配置用户属性 ​编辑 &#xff08;2&#xff09;配置SSH密钥 二、git 工作流程图 三、git 提交命令 &#xff08;1&#x…