一文带你读懂向量数据库(上)

6a0614fb432a8327e983a6ccba287114.png

0a8b19f05aa2b52732c073494fc33daa.png

2bf3b06382cd1ba7e7bf4ce8edb9f223.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


什么是向量数据库?

向量数据库的概述:向量数据库是一种数据库,专门设计用于存储和查询向量数据,常用于机器学习和数据科学领域。向量数据库可以高效地存储大规模的向量数据,并提供快速的相似性搜索和数据分析功能。

向量数据库的优势在于,可以用向量表示存储的内容,从而实现快速的推荐查询。比如图像和音频数据的特征向量、存储文本数据的嵌入向量、存储训练数据和模型参数。

基于这些向量,向量数据库还能进行相似性搜索,为存储的内容增加关联。

向量数据库和关系数据库

在关系数据库中,数据以表格的形式存储,每个表格被称为一个“关系”。每个表由列(属性)和行(记录)组成,而行中的每个单元格都包含一个数据值。关系数据库强调数据的结构化、一致性和完整性,通常使用SQL(结构化查询语言)进行数据的查询和管理。

向量数据库与关联数据库的关系在于,它们都是数据库管理系统,但针对的数据类型和用途不同。关联数据库主要用于存储结构化数据,而向量数据库则专门用于存储和查询向量数据。向量数据库支持高效的相似性搜索和向量分析操作,这些在传统的关系数据库中通常难以实现。

在实际应用中,向量数据库和关联数据库可以相互补充。例如,一个系统可能使用关系数据库来存储用户信息、商品信息等结构化数据,同时使用向量数据库来存储图像、文本等非结构化数据的特征向量,以便进行高效的相似性搜索和推荐。这种混合使用的方式可以充分利用两种数据库的优势,提高系统的整体性能和效率。

向量数据库的市场

全球向量数据库市场的规模将达到大约99.5亿美元,而中国市场规模则约为82.56亿元人民币。这个市场仍处于发展初期,但随着大模型的日趋成熟,越来越多的企业开始关注并投入到这个领域。

目前中国向量数据库市场只占全球市场的12.74%,但是中国AI市场能占全球市场的15%,同时中国AI市场未来3年的复合增长率约为40%,说明向量数据库市场目前是蓝海。

主要玩家方面,腾讯云向量数据库和华为是国内的主要厂商。此外,国际市场上的主要玩家包括Zilliz、Pinecone等,它们正在与诸如Nvidia、IBM、Microsoft等公司展开合作,并在市场上获得显著的投资和认可。

向量数据库在2024年被广泛应用于人脸识别、推荐系统、图片搜索、视频指纹、语音处理、自然语言处理、文件搜索等领域。这些应用场景显示了向量数据库在处理图像、音频、视频和文本等复杂数据类型方面的强大能力。

虽然很多企业都使用向量数据库,但是从技术角度来看,他们却是截然不同的玩家。

海外大玩家案例

1.Pinecone

成立于2019年,总部位于纽约。该公司的创始人是Edo Liberty,他在AWS和Yahoo曾担任过研究总监。Pinecone的成立宗旨是提供构建和运行最新AI应用程序所需的存储和检索基础设施,目标是使这种解决方案适用于各种规模和AI专业知识的工程团队。

Pinecone在2023年完成了1亿美元的B轮融资,由Andreessen Horowitz领投,其他投资者包括ICONIQ Growth、Menlo Ventures和Wing Venture Capital。这轮融资后,Pinecone的估值达到了7.5亿美元。公司计划利用这些资金进行招聘,预计在2023年底前将员工团队从100人扩大到150至200人。Pinecone自2021年推出面向数据科学家的向量数据库以来,随着AI驱动的语义搜索用例的逐渐兴起,公司深刻认识到了向量数据库的价值。

Pinecone的业务遍及多个行业和规模,其客户包括Shopify、Gong、HubSpot和Zapier等领先公司。公司的使命是为AI提供长期记忆,其向量数据库作为AI驱动应用程序的核心基础设施组件,使工程师能够构建快速且可扩展的应用程序,这些应用程序使用AI模型的嵌入,并快速将它们投入生产。

技术优势:

Pinecone提供的是一个云原生的向量数据库,提供了简单的API和无需基础架构的优势,这使得它易于上手和集成到各种应用中。这意味着它可以充分利用云服务的弹性、可伸缩性和管理简便性。用户可以通过简单的API调用在云环境中快速部署和扩展Pinecone服务。

Pinecone的优势在于索引技术很强,能够快速构建大规模数据的索引结构。通过优化索引算法和数据结构,实现了高索引速度和低存储开销,确保在处理海量数据时依然能够保持高效的性能。这对于AI客户来说无比重要。

同时他们还内置了多种高效的搜索算法,支持多种数据类型和相似性度量方式。无论是文本、图像还是其他复杂数据,Pinecone都能够提供精确的搜索结果,满足开发者在各种场景下的需求。允许用户根据不同的相似性度量标准(如余弦相似性、欧氏距离等)进行查询。这种灵活性对于满足不同应用场景的需求至关重要。

2.IBM Watson.data

Watson.data是IBM的向量数据库,也是 IBM Watsonx 平台的核心组成部分,它允许用户通过单一入口点访问他们的数据,并且可以跨不同的 IT 环境中运行多个适合用途的查询引擎。通过工作负载优化,组织可以利用此解决方案将数据仓库的成本降低到一半(多达 50%)。它还提供内置的治理、自动化以及与组织现有数据库和工具的集成,以简化设置和用户体验。

技术优势:

Watsonx.data 的技术优势在于其开放的架构和强大的集成能力。它支持开放式格式,允许通过单一入口点访问所有数据,并在整个组织和工作负载中共享数据的单个副本,无需迁移或重新编目。此外,它与数据库、工具和现代数据堆栈集成,可最大限度利用现有数据投资,并支持混合部署选项,可在几分钟内跨任何云环境或本地环境进行部署。

Watsonx.data 还特别强调了其在生成式 AI 的数据存储方面的能力,它能够高效地为 AI 模型和应用程序统一、整理和准备数据。集成矢量化嵌入功能可在您信任的大型已治理数据集中支持 RAG 用例规模化,同时通过 AI 驱动的嵌入式语义层加速数据访问并解锁新的数据洞察分析,而无需 SQL。

此外,Watsonx.data的构建基于高性能的云原生开源软件栈,包括在Red Hat OpenShift Container Platform上运行的 AI 训练堆栈。这种方法加快了 IBM 训练、微调和部署尖端 AI 模型的步伐,同时降低成本与优化性能,对基础模型进行调整并为其提供服务。

3.AlloyDB AI

AlloyDB AI 是谷歌推出的一种使用先进的向量嵌入和AI技术改造的PostgreSQL数据库,旨在提高数据库内的嵌入生成和向量查询的速度。理论上来说,它应该被称作是一种向量检索库,但是由于嵌入和AI的加持,让其在作用上可以完美匹配传统的向量数据库。

技术优势:

谷歌通过在AlloyDB AI中集成向量搜索功能,使得开发人员能够存储大型语言模型生成的数据,并支持向量搜索操作。这种集成允许开发人员在托管数据库中使用pgvector扩展,从而实现了高效的向量查询。

4.Azure Search

微软的向量数据库技术主要体现在其Azure搜索服务中,该服务支持向量搜索,允许用户在大型数据集中进行高效的相似性查询。

技术优势:微软的向量数据库基于Azure云平台构建,支持大规模数据的存储和查询。它采用了分布式架构,能够在多个节点上分配和执行查询,提高系统的可扩展性和性能。

Azure搜索服务的向量搜索功能允许用户根据向量数据的特点进行高效的相似性查询。这种能力对于需要处理非结构化数据并捕捉数据的语义或上下文含义的应用程序至关重要,如自然语言处理、计算机视觉、推荐系统等。

微软的向量数据库能够处理大规模实时数据分析和处理,这些技术可以将工作负载分配到多个节点上,优化资源利用率。

微软的向量数据库与主流机器学习框架(如TensorFlow、PyTorch等)紧密集成,支持机器学习模型训练和部署的端到端流程。这使得用户可以轻松地使用机器学习模型生成的向量数据,并利用向量数据库进行高效的存储和查询。

文:火焰翼人 / 数据猿
责编:凝视深空 / 数据猿

4b12b662f6d5be08d505260a16c40e87.jpeg

90780ede7f75f37100428bbc05cdd980.png

960089e2b4a53920724cc58bf196c69b.png

ac00c66bee9df607bd5cee2475fa31b5.jpeg

082ad11c758bb344a676ca7cfa2a088e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/353866.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32HAL库--NVIC和EXTI

1. 外部中断实验 1.1 NVIC和EXTI简介 1.1.1 NVIC简介 NVIC 即嵌套向量中断控制器,全称 Nested vectored interrupt controller。是ARM Cortex-M处理器中用于管理中断的重要组件。负责处理中断请求,分配优先级,并协调中断的触发和响应。 它是…

【千帆AppBuilder】你有一封邮件待查收|未来的我,你好吗?欢迎体验AI应用《未来信使》

我在百度智能云千帆AppBuilder开发了一款AI原生应用,快来使用吧!「未来信使」:https://appbuilder.baidu.com/s/Q1VPg 目录 背景人工智能未来的信 未来信使功能介绍Prompt组件 千帆社区主要功能AppBuilderModelBuilder详细信息 推荐文章 未来…

Django REST framework数据展示技巧:分页、过滤与搜索的实用配置与实践

系列文章目录 Django入门全攻略:从零搭建你的第一个Web项目Django ORM入门指南:从概念到实践,掌握模型创建、迁移与视图操作Django ORM实战:模型字段与元选项配置,以及链式过滤与QF查询详解Django ORM深度游&#xff1…

k8s部署grafana beyla

k8s部署grafana beyla OS: Static hostname: test Icon name: computer-vm Chassis: vm Machine ID: 22349ac6f9ba406293d0541bcba7c05d Boot ID: 83bb7e5dbf27453c94ff9f1fe88d5f02 Virtualization: vmware Operating System: Ubuntu 22.04.4 LTS Kernel: Linux 5.15.0-105-g…

C#.Net筑基-类型系统①基础

C#.Net的BCL提供了丰富的类型,最基础的是值类型、引用类型,而他们的共同(隐私)祖先是 System.Object(万物之源),所以任何类型都可以转换为Object。 01、数据类型汇总 C#.NET 类型结构总结如下图…

使用@Value注解无法成功获取配置文件内容,常见原因

在日常的java开发中,我们经常会遇到一些需要将信息写在配置文件的要求,比如文件的输出目录,输入目录的。当在配置文件中写入对应的目录配置时,那么怎么读取配置文件的内容就需要我们去了解了。 在java中一般使用Value这个注解去读…

SSM小区车辆信息管理系统-计算机毕业设计源码06111

摘 要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代。在现实运用中,应用软件的工作…

【机器学习】第5章 朴素贝叶斯分类器

一、概念 1.贝叶斯定理: (1)就是“某个特征”属于“某种东西”的概率,公式就是最下面那个公式。 2.朴素贝叶斯算法概述 (1)是为数不多的基于概率论的分类算法,即通过考虑特征概率来预测分类。 …

ubuntu如何查看ip地址

ubuntu如何查看ip地址 方法一:使用ifconfig方法二:使用ip命令 方法一:使用ifconfig 命令行输入ifconfig: 这里inet后跟的内容就是IP地址。 方法二:使用ip命令 命令行输入:ipa ddr: 这里ine…

可抑制癌细胞增殖!慧湖药学院联手天津医科大,研发新型肿瘤抑制蛋白降解剂 dp53m

或许很多人不知道,其实我们每个人体内都存在癌细胞。 人体每天都在进行着数十亿甚至上百亿细胞的新生与更替,在这个代谢过程中,DNA 复制难免会「出错」,比如会出现基因突变,让正常的细胞变成原位癌细胞。不过&#xff…

最新版首发 | 手把手教你安装 Vivado2024.1(附安装包)

Q:Vivado出2024版了!不知迪普微有没有对应的安装包呢? A:有的!回复“Vivado2024.1”即可获得相应安装包哦~ Q:好哒~但是我不会安装,可否安排一期安装教程? A:立马安排&…

ONES 功能上新|ONES 开放平台新功能一览

ONES 开放平台提供 OpenAPI、插槽、事件等能力,以便开发者通过插件,实现第三方集成和流程定制,满足客户的二次开发需求。 支持在任意工作项视图的详情表单中,添加插件的自定义标签页,以满足插件开发者在工作项详情页显…

人力资源招聘社会校企类型招聘系统校园招聘小程序

校企社会人力资源招聘小程序:开启高效招聘新时代 🚀开篇:打破传统,开启招聘新篇章 在快速发展的现代社会,人力资源招聘已经成为企业和学校共同关注的重要议题。为了更高效、便捷地满足双方的招聘需求,一款…

【NoSQL数据库】Redis Cluster集群(含redis集群扩容脚本)

Redis Cluster集群 Redis ClusterRedis 分布式扩展之 Redis Cluster 方案功能数据如何进行存储 redis 集群架构集群伸缩向集群中添加一个新的master节点,并向其中存储 num10 .脚本对redis集群扩容缩容,脚本参数为redis集群,固定从6001移动200…

Mac用虚拟机玩游戏很卡 Mac电脑玩游戏怎么流畅运行 苹果电脑怎么畅玩Windows游戏

对于许多Mac电脑用户而言,他们经常面临一个令人头疼的问题:在虚拟机中玩游戏时卡顿严重,影响了游戏体验。下面我们将介绍Mac用虚拟机玩游戏很卡,Mac电脑玩游戏怎么流畅运行的相关内容。 一、Mac用虚拟机玩游戏很卡 下面我们来看…

NUC 14 Pro+:解锁AI前沿,体验科技之美

NUC 14 Pro不仅是一台迷你主机,更是生活品质的体现。如果你也是细节控,那这篇文章或许是你需要的。 超小体积 造型精致 NUC 14 Pro作为迷你PC拥有约0.66L的超小体积,如果你对升没有概念,那你可以想象:它的机箱面积144…

swagger下载文件名中文乱码、swagger导出文件名乱码、swagger文件导出名称乱码、解决swagger中文下载乱码bug

文章目录 一、场景描述:swagger导出文件名称乱码二、乱码原因三、解决方法3.1、方法一、在浏览器中输入地址下载3.2、方法二、swagger升级为2.10.0及以上 四、可能遇到的问题4.1、DocumentationPluginsManager.java:152 一、场景描述:swagger导出文件名称…

Pentest Muse:一款专为网络安全人员设计的AI助手

关于Pentest Muse Pentest Muse是一款专为网络安全研究人员和渗透测试人员设计和开发的人工智能AI助手,该工具可以帮助渗透测试人员进行头脑风暴、编写Payload、分析代码或执行网络侦查任务。除此之外,Pentest Muse甚至还能够执行命令行代码并以迭代方式…

Linux C编译器从零开发三

AST语法树 BNF抽象 expr equality equality relational ("" relational | "!" relational)* relational add ("<" add | "<" add | ">" add | ">" add)* add mul ("" …

重生奇迹MU 探秘奇幻世界

"探秘奇幻世界&#xff0c;成就无尽荣耀&#xff01;欢迎来到重生奇迹MU&#xff0c;一个永不落幕的游戏乐园。在这里&#xff0c;你可以尽情挑战各种困难&#xff0c;发掘神秘宝藏&#xff0c;还可与来自世界各地的玩家一起创造无尽的历史。为了帮助你更好地探索游戏世界…