降低检索系统搭建门槛,轻松实现 RAG 应用!Zilliz Cloud Pipelines 惊喜上线

Zilliz Cloud 正式上线 Pipelines!

Zilliz Cloud Pipelines 可以将文档、文本片段和图像等非结构化数据转换成可搜索的向量并存储在 Collection 中,帮助开发者简化工程开发,助力其实现多种场景的 RAG 应用,将复杂生产系统的搭建和维护简化成 API 调用。

01.我们为什么需要 Zilliz Cloud Pipelines?

基于语义的信息检索系统被广泛地运用在众多应用和互联网服务中,从我们熟知的网页搜索、电商图片搜索到最近非常流行的检索增强生成 (RAG) 应用。最新的检索系统通常采用深度学习模型将文本、图像等非结构化数据提取特征,转换成高维向量。这个过程业界称为“Embedding”。提取出来的向量需要用如 Zilliz Cloud 和 Milvus 这样的专用向量数据库进行存储和检索。随着深度学习的发展,采用向量进行检索的方式在近年来越来越普遍。

然而,构建上述检索系统需要深厚的专业知识和工程经验。很多开发者朋友想尝试向量检索但却苦于必须搭建复杂的数据处理和模型推理系统才能实现 Embedding。现在,利用 Zilliz Cloud Pipelines 可以方便有效地解决这一问题!Zilliz Cloud Pipelines 提供了简单易用的 API,可以将文档、文本片段和图像等非结构化数据转换成可搜索的向量并存储在 Collection 中。

选择 Zilliz Cloud Pipelines 的理由:

  • 简化开发流程,开发者无需搭建复杂系统即可将非结构化数据转换为可搜索的向量,并在向量数据库进行数据检索。

  • 即使不具备专业的深度学习和检索系统经验,也可以有效地生成高质量的 Embedding 满足业务上的检索需求。

  • 无需担心扩展性,即便数据量和查询频次提高几个数量级,系统也能轻松应对。

目前,我们发布的公开预览版 Zilliz Cloud Pipelines 支持对文档进行语义搜索。后续我们将推出更多类型的 Pipelines,以满足更多样化的信息检索场景,例如更灵活的数据预处理,图片和视频搜索,多模态搜索等。

02.Zilliz Cloud Pipelines 的工作原理

alt

Zilliz Cloud Pipelines 由 Ingestion pipeline、Search pipeline、Deletion pipeline 三种类型构成:

Ingestion Pipeline

Ingestion pipeline 能够将非结构化数据转化为可搜索的向量,并将向量导入 Zilliz Cloud 向量数据库中,用作之后的查询。

1 个 Ingestion pipeline 中可配置多个 function,用于将输入字段通过转换逻辑,生成输出字段。例如,我们可以将文档作为输入,function 会将这些文档自动切分并转换为向量,同时 function 也可以保留用户赋予文档的一些额外信息,以便后续进行向量搜索时过滤搜索结果。

在 Zilliz Cloud 中,1 个 Ingestion pipeline 对应 1 个 Collection。当创建 Ingestion pipeline 时,Zilliz Cloud 会自动创建 1 个对应的 Collection,并根据配置自动为新建的 Collection 指定数据格式 (Schema)。

INDEX_DOC Function

INDEX_DOC function 将输入文本文档拆分成片段,并将每一个片段转换为向量。它将输入字段(doc_name)映射为四个输出字段(doc_namechunk_idchunk_textembedding)。这四个字段构成新建 Collection 中的标量和向量字段,字段名称不可更改。

注意,1 个 Ingestion pipeline 需要添加且只能添加 1 个 INDEX_DOC function。

PRESERVE Function

PRESERVE function 将用户定义的输入字段存储为新建 Collection 中额外的标量字段,用于存储一些额外信息来描述一个文档的特征。该信息会保存在每一个文档片段的条目中。一个 PRESERVE function 仅保存一个标量字段,一个 Ingestion pipeline 中最多可添加 5 个 PRESERVE function。

示例:创建知识库

借助 Ingestion pipeline,我们可以基于已有的文档和相关数据(如文档作者、发布日期等)轻松构建支持语义检索的知识库。文档片段的原文及其向量和文档的额外信息都存储于向量数据库中。

alt

Search Pipeline

Search pipeline 将查询文本(字符串)转换为向量,并在向量数据库中进行向量相似性搜索,从而获取 Top-k 相似向量、对应的片段原文和文档的额外信息。我们可以用 Search pipeline 实现语义检索,1 个 Search pipeline 中仅可添加 SEARCH_DOC_CHUNK 1 种 function。

SEARCH_DOC_CHUNK Function

SEARCH_DOC_CHUNK function 将查询文本转换为向量,并在向量数据库中检索与查询向量最相关的 k 个文档片段。

示例:基于语义的检索

如果用户已经创建了 1 个 Ingestion Pipeline,可以在其对应的 Collection 中使用 Search pipeline 检索相似文本片段向量,Embedding 模型的特性保证了他们是知识库中与查询文本语义最相似的片段。

alt

Deletion Pipeline

Deletion pipeline 从 Collection 中删除指定文档的所有片段。1 个 Deletion pipeline 中仅可添加 PURGE_DOC_INDEX 1 种 function。

PURGE_DOC_INDEX Function

PURGE_DOC_INDEX function 删除具有指定 `doc_name 的所有文档片段。用户可以用 PURGE_DOC_INDEX function 从向量数据库中高效删除文档。

示例:高效删除文档数据

如果你已经创建了 1 个 Ingestion Pipeline,可以在其对应的 Collection 中使用 Deletion pipeline 指定 doc_name`轻松删除对应文档,无需对每个片段单独执行删除操作。

alt

点击链接可在文章中查看 Zilliz Pipelines demo

03.总结

作为一个专为开发者设计的平台,Zilliz Cloud Pipelines 为 AI 应用开发带来了更多的可能性:

  • 通过补充领域特定或私有知识,将用户提问转化为向量匹配知识库中的向量,补充高度相关的知识,提高了大规模语言模型(LLM)在 RAG 应用中的准确性,有效解决 LLM 过度依赖潜在过时数据的问题。通过将用户提问转化为向量匹配知识库中的向量,尤其是在聊天机器人和内容生成系统等应用中,能提高其准确性和相关性。

  • 提升基于关键字检索的应用的召回能力。关键字检索经常存在无法有效感知语义近似的问题。许多传统应用,例如独立网站的页面搜索是基于关键字检索构建的,改用 Embedding 和向量召回能够大大增加命中关键信息的概率,提升搜索质量。

目前,开发者可以通过在 Zilliz Cloud 中创建 Serverless Cluster 来免费使用这一功能,下一步该功能将陆续覆盖标准版和企业版 Cluster。未来,我们也会持续提升 Zilliz Cloud Pipelines 的定制化功能,拓展到图像和视频等模态的检索场景。欢迎大家试用!

i

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/215695.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【已解决】SpringBoot Maven 打包失败:class lombok.javac.apt.LombokProcessor 错误

文章目录 出错原因解决办法总结 最新项目部署的时候&#xff0c;出现了一个maven打包失败的问题&#xff0c;主要是lombok这个组件出的问题&#xff0c;具体的错误信息如下&#xff1a; 我的lombok版本如下&#xff1a; <dependency><groupId>org.projectlombok&l…

Editplus安装教程(附带汉化教程与获取注册码教程)

文章目录 前言一、Editplus简介1. 简介2. 特点和功能 二、Editplus5安装步骤1. 下载EditPlus52. 运行安装程序3. 接受许可协议4. 选择安装位置5. 选择组件6. 完成安装7. 启动EditPlus8. 注册EditPlus 三、Editplus4安装步骤1. 下载EditPlus42. 安装EditPlus43. 注册码获取 四、…

代码随想录算法训练营 | day48 动态规划 198.打家劫舍,213.打家劫舍Ⅱ,337.打家劫舍Ⅲ

刷题 198.打家劫舍 题目链接 | 文章讲解 | 视频讲解 题目&#xff1a;你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋。每间房内都藏有一定的现金&#xff0c;影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统&#xff0c;如果两间相邻的房屋在同一晚上被…

python实战演练之迎接冬至的第一场雪

写在前面 WINTER IS COMING Python实现大雪纷飞的效果&#xff0c;完整代码在文末哦~ 准备开始 WINTER IS COMING Python是一种高级编程语言&#xff0c;Turtle是Python的一个图形化模块&#xff0c;它可以帮助学习者更好地理解编程概念&#xff0c;同时可以进行图形化编程。 …

论文笔记:A review on multi-label learning

一、介绍 传统的监督学习是单标签学习&#xff0c;但是现实中一个实例可能对应多个标签。这篇文章介绍了多标签分类的定义和评价指标、多标签学习的算法还有其他相关的任务。 二、问题相关定义 2.1 多标签学习任务 假设 X R d X R^d XRd&#xff0c;表示d维的输入空间&am…

C# WPF上位机开发(简易图像处理软件)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 图像处理是工业生产重要的环节。不管是定位、测量、检测还是识别&#xff0c;图像处理在工业生产中扮演重要的角色。而c#由于自身快速开发的特点&a…

Python网络爬虫环境的安装指南

网络爬虫是一种自动化的网页数据抓取技术&#xff0c;广泛用于数据挖掘、信息搜集和互联网研究等领域。Python作为一种强大的编程语言&#xff0c;拥有丰富的库支持网络爬虫的开发。本文将为你详细介绍如何在你的计算机上安装Python网络爬虫环境。 一、安装python开发环境 进…

SCUM私人服务器搭建部署教程

以下是搭建SCUM私服的步骤&#xff1a; 1. 下载并安装SteamCMD。SteamCMD是一个命令行工具&#xff0c;用于从Steam下载和更新游戏服务器。你可以从Steam官网下载并安装它。 2. 创建一个文件夹来存储服务器文件。在你的计算机上创建一个文件夹&#xff0c;用于存储SCUM服务器文…

JavaWeb(十二)

一、Filter概述 Filter 表示过滤器&#xff0c;是 JavaWeb 三大组件(Servlet、Filter、Listener)之一。 过滤器可以把对资源的请求拦截下来&#xff0c;从而实现一些特殊的功能。 如下图所示&#xff0c;浏览器可以访问服务器上的所有的资源&#xff08;servlet、jsp、html等…

【玩转TableAgent数据智能分析】TableAgent全功能详解及多领域数据分析实践(中)不同领域数据分析实践

3 电影点评数据分析实践 利用本身自带的电影点评数据&#xff0c;来具体看一下TableAgent的分析能力&#xff0c;选择电影点评数据&#xff0c;智能体会自动导入该数据DMSC20000.csv&#xff0c;大小为3.3 MB。在数据信息展示区&#xff0c;就会显示出该数据&#xff0c;并提供…

C++STL的vector模拟实现

文章目录 前言成员变量成员函数构造函数push_backpop_backinserterase析构函数拷贝构造 前言 成员变量 namespace but {template<class T>class vector{public:typedef T* iterator;private:iterator _start;iterator _finish;iterator _end_of_storage;}; }我们之前实…

网易有道强力开源中英双语语音克隆

项目地址&#xff08;基于PromptTTS&#xff09;&#xff1a; https://github.com/netease-youdao/EmotiVoice EmotiVoice Docker镜像 尝试EmotiVoice最简单的方法是运行docker镜像。你需要一台带有NVidia GPU的机器。先按照Linux和Windows WSL2平台的说明安装NVidia容器工具…

线上盲盒小程序,开启互联网盲盒时代

近年来&#xff0c;盲盒经济在国内非常火爆&#xff0c;各类盲盒品牌层出不穷&#xff0c;深受国内外年轻人、消费者的喜爱。 目前&#xff0c;根据数据显示&#xff0c;盲盒市场不仅在线下异常火热&#xff0c;线上盲盒也是成为了大众的新选择。各类电商平台中盲盒的成交额更…

使用node实现链接数据库并对数据库进行增删改查的后端接口

环境 node npm 编辑器 vscode 项目配置 新建目录 用vscode打开 终端输入 npm init -y npm install mysql npm install express 代码 安装好之后的代码页面 新建 在根目录新建api.js文件 const express require(express); const db require(./db/index); const app…

计算机考研408-计算机网络、操作系统整书知识点脑图

计算机网络、操作系统整书知识点脑图 今天突然想起来考研期间为了方便记忆&#xff0c;费了很大力气整理了计算机网络、操作系统两本书知识点的脑图&#xff0c;想着放着也没啥用&#xff0c;分享出来给大家看看 但是思维导图格式的东西好像没法直接发成文章&#xff0c;上传…

使用Windows10的OneDrive应用程序,让文件管理上一个台阶

这篇文章解释了如何通过在文件资源管理器和OneDrive应用程序之间轮换&#xff0c;将OneDrive与Windows 10一起使用。 使用文件资源管理器进行组织 你不必将所有OneDrive文件都保存在硬盘上&#xff0c;事实上&#xff0c;你可以将任意数量的文件留在云中&#xff08;也就是微…

SpringBoot-Swagger3

SpringBoot——2.7.3版本整合Swagger3-CSDN博客文章浏览阅读5.4k次&#xff0c;点赞6次&#xff0c;收藏17次。Swagger2&#xff08;基于openApi3&#xff09;已经在17年停止维护了&#xff0c;取而代之的是 sagger3&#xff08;基于openApi3&#xff09;&#xff0c;而国内几乎…

C++STL之List的实现

首先我们要实现List的STL,我们首先要学会双向带头链表的数据结构。那么第一步肯定是要构建我们的节点的数据结构。 首先要有数据域&#xff0c;前后指针域即可。 再通过模板类进行模板化。 然后再写List的构造函数&#xff0c;这个地方用T&,通过引用就可以减少一次形参拷…

机械中常用的一些术语

目录 一、OEMSOP:SOP编写指南 WI(标准作业指导书):标准作业程序 &#xff08;SOP&#xff09;:SOP和WI的区别&#xff1a;一、PFC、FMEA、PCP、WIPPAP、PSW&#xff1a;APQP&#xff1a;BOM&#xff08;Bill of Material&#xff09;物料清单DV&#xff08;设计验证&#xff09…

我的创作三周年纪念日

今天收到CSDN官方的来信&#xff0c;创作三周纪念日到了。 Dear: Hann Yang &#xff0c;有幸再次遇见你&#xff1a; 还记得 2020 年 12 月 12 日吗&#xff1f; 你撰写了第 1 篇技术博客&#xff1a; 《vba程序用7重循环来计算24》 在这平凡的一天&#xff0c;你赋予了它…