被 ChatGPT 点燃的向量数据库们

主要观点:

向量数据库可以让开发者以向量嵌入的形式处理非结构化数据(两个向量之间的距离代表了它们的关联性),这对于使用和扩展大型语言模型(LLM)尤为重要。

1、Pinecone 是个全托管的 SaaS 向量数据库厂商,包括免费版、标准版和企业版。

2、Milvus创建于2019年,是一个为可扩展的相似性搜索而建立的开源向量数据库;

3、Weaviate,一个开源的向量数据库,可以同时存储对象和向量,开发者可以很容易地创建自己的语义系统或向量搜索引擎。

4、Qdrant于2021年在柏林成立,使用Rust编写,是一个为 AI 开发者打造的向量搜索引擎和非结构化数据的数据库。Qdrant 是开源的,用户可以直接下载使用。

5、Chroma 是一个开源的向量嵌入存储。虽然 2023 年 2 月才正式推出,在过去的一个月已经有 35K 次下载了,它现在只有免费的开源版使用,应该很快会推出托管版本。

6、pgvector 是 PostgreSQL 的插件,允许在数据库中存储和查询向量嵌入。

7、Redis,它有一个 use case 是向量数据库,其实就是通过一些扩展模块,比如 RediSearch,Vector Similarity Search (VSS),来实现向量存储和查询(不过只有企业版才能用这些功能)。

原文

摘自:被 ChatGPT 点燃的向量数据库们

在 AIGC 革命大爆发的日子,一个特别的挑战是大规模存储和查询非结构化数据(比如图像、视频、文本)的能力。

为了快速搜索和理解非结构化数据,现在的普遍解法是使用向量数据库(vector database)。在向量数据库中,向量是一等公民,所有的功能都是围绕着它建立的。

向量数据库可以让开发者以向量嵌入的形式处理非结构化数据(两个向量之间的距离代表了它们的关联性),这对于使用和扩展大型语言模型(LLM)尤为重要,比如 OpanAI 的 Retrieval 插件就依靠向量数据库帮助用户从他们的数据源获得相关文件片段。

这个领域很新,连 OpenAI 自己都搞不太清楚,Milvus 和 Zilliz 是同一家🤣。

🔥几乎所有由 LLM 驱动的 AI 产品或技术都使用了向量数据库,随着 ChatGPT 和 AI 的流行,VC 也都涌向了这条赛道 。我们收集了一些近期向量数据库融资的消息:

  • Pinecone: 4.27 宣布 $100M B 轮
  • Weaviate: 4.23 宣布 $50M B 轮
  • Qdrant: 4.20 宣布 $7.5M 种子轮
  • Chroma: 4.6 宣布 $18M 种子轮
  • Zilliz:  (去年) 8.20 宣布 $103M B 轮

已经挤起来了,不过每家都有不同的功能、性能和价格,我们来了解一下。

 1、Pinecone

https://www.pinecone.io/

Pinecone 是个全托管的 SaaS 向量数据库厂商(支持 GCP & AWS),团队分布在纽约,三藩和特拉维夫。2021 年 1 月公开了 Beta 版和 $10M 种子轮融资;同年 9 月,发布了 Pinecone 2.0,也宣布了他们全新基于使用的定价方案,其中包括免费版、标准版和企业版。

2022 年间他们用 Rust 重写了一遍产品(过去是 C/C++ 和 Python 写的),虽然过程无比艰辛,但是结局很美好:产品性能和开发速度都得以提高。

2、Milvus / Zillliz

https://milvus.io/

Milvus 创建于 2019 年,是一个为可扩展的相似性搜索而建立的开源向量数据库,它基于 Facebook AI Similarity Search (Faiss), Non-Metric Space Library (NMSLIB) 和 Annoy,并额外扩展了它们的功能。

Zilliz Cloud 是基于 Milvus 的 SaaS 服务,有 30 天免费试用和 credit。


 3、Weaviate

https://weaviate.io/

Weaviate 总部位于荷兰,一个开源的向量数据库,可以同时存储对象和向量,开发者可以很容易地创建自己的语义系统或向量搜索引擎。

Weaviate 前几天刚宣布了他们的 Cloud Service 进入了公测,大家可以去试用(Sandbox 版有 14 天免费)!


 4、Qdrant

https://qdrant.tech/

Qdrant 于 2021 年在柏林成立,使用 Rust 编写,是一个为 AI 开发者打造的向量搜索引擎和非结构化数据的数据库。Qdrant 是开源的,用户可以直接下载使用,今年年初起推出了云服务 Qdrant Cloud,已经有超过 1000 个 Qdrant 集群正在提供服务了。


 5、Chroma

https://www.trychroma.com/

Chroma 是一个开源的向量嵌入存储。虽然 2023 年 2 月才正式推出,在过去的一个月已经有 35K 次下载了,它现在只有免费的开源版使用,应该很快会推出托管版本。

 看了一下 Chroma 种子轮的投资人,除了几大 VC,还有不少 startup 创始人和业内名人的投资,应该是人气最佳选手了。


 6、pgvector

https://github.com/pgvector/pgvector

对于现有数据库解决方案,储存向量通常只是一种附加功能,没有经过优化,也缺乏基本的功能。不过,pgvector 是 PostgreSQL 的插件,允许你在数据库中存储和查询向量嵌入。如果你用 PostgreSQL,或者 pg 生态圈的产品比如 Neon,Supabase,bit.io,可以试试这个插件。

  • https://neon.tech/blog/building-an-ai-powered-chatbot-using-vercel-openai-and-postgres
  • https://supabase.com/blog/openai-embeddings-postgres-vector
  • https://innerjoin.bit.io/vector-similarity-search-in-postgres-with-bit-io-and-pgvector-c58ac34f408b


7、Redis

https://redis.com/solutions/use-cases/vector-database/

大多数人用 Redis 应该都只是作为一个缓存来使用,不过它有一个 use case 是向量数据库,其实就是通过一些扩展模块,比如 RediSearch,Vector Similarity Search (VSS),来实现向量存储和查询(不过只有企业版才能用这些功能)。


8、总结

AIGC 的爆发带动了许多附属产品和生态的增长,向量数据库就是其中一员。此情此景,也让人不禁想起当年 Web 2.0 所引发的 NoSQL 革命。谁能成为向量数据库领域的 MongoDB,DynamoDB?而哪些则会像 Couchbase,NuoDB,Riak,RethinkDB 退出历史的舞台?让我们拭目以待吧。


9、参考

  • https://platform.openai.com/docs/guides/embeddings/
  • https://innerjoin.bit.io/why-you-should-care-about-vector-databases-1760186b5bf1
  • https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/
  • https://www.pinecone.io/learn/inside-the-pinecone/
  • https://medium.com/memory-leak/our-investment-in-chroma-the-developer-centric-embedding-database-34277ac327e8

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30646.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI批改英语作文行不行?免费,覆盖雅思考研四六级,打分评语纠错都得有 | 测评...

茕茕 发自 凹非寺量子位 报道 | 公众号 QbitAI 我,一个科技小编,最近在跟国外大佬的邮件交流中,感到飘过六级后的自己英语写作水平那真是日渐捉急。 从句怎么用?时态对不对?看着对面主编犀利的目光,那一瞬间…

如何让ChatGPT成为你最佳的模拟面试官

正在上传…重新上传取消 ChatGPT云炬学长 1 人赞同了该文章 如何让ChatGPT成为你最佳的模拟面试官随着技术的不断发展,越来越多的企业开始使用人工智能面试官来帮助筛选候选人,ChatGPT作为其中的一种代表,正在受到越来越多的关注。那么如何…

春种一粒粟:企业如何修炼好云原生内功?

日月盈昃,辰宿列张。寒来暑往,秋收冬藏。 《千字文》里蕴藏了一种人与天地之间共处的智慧,那就是想要收获粮食,一定要提前播种。农耕如此,百业如此,数字化创新也是一样。 数字化技术,已经成为全…

《云原生构建数字世界》简介

云原生是在云计算时代指导企业基于云架构设计和开发应用,并将应用向云端迁移的一套全新的技术理念。与传统应用相比,所谓的云原生应用即为云而生。构筑数字世界新未来的关键是用云原生的思维去践行,未来数字世界的基础就是建立在云原生之上&a…

用云原生思维践行云原生,你做对了吗?

有了ChatGPT,你还会再用关键字进行搜索吗?这就像企业已经上了云,还会再退回老路,自己摆弄服务器、存储吗?无论从技术的持续演进,还是从应用现代化的需求来看,企业上云,开弓没有回头箭&#xff…

字符串 - 二进制和文本字符串 - 探究

1.应用场景 主要用于探究字符串中的二进制和文本字符串,以及它们的区别和应用场景。 2.学习/操作 1.文档阅读 重要来自于与chatgpt的对话问答 以及其他技术文章 2.整理输出 2.1 是什么 二进制和文本字符串都是计算机中常用的数据类型,前者主要用于存储…

chatgpt赋能python:用Python抢优惠券,快速低价购物!

用Python抢优惠券,快速低价购物! 优惠券在购物时可以给我们带来很大的优惠,可是抢到优惠券的几率并不是那么高。有了Python,我们可以编写自己的优惠券抢购程序,快速抢到心仪的优惠券,无需反复手动尝试&…

chatgpt赋能python:长截图是什么?

长截图是什么? 长截图是一种比较新颖的网页截图方式,它的特点就是可以将整个页面的内容全部截取下来,让用户通过滚动鼠标来浏览这个页面的所有内容。这种截图方式在移动端比较常见,因为移动端的屏幕较小,往往需要滚动…

体外诊断(POCT)之软件介绍

这是2016上半年的研究成果,其中包括了概率统计,密码学,软件逆向,图像编解码,图像识别,多媒体指令优化等多个学科知识的交叉 下面即从技术角度,对所用得到的知识开发的这个产品进行一个简易的描述说明. 扩展阅读: 体外诊断(POCT)之软件入口配置修改 体外诊断(POCT)之系统配置文…

医疗信息管理系统(HIS)——>业务介绍

目录 一、项目背景 二、业务 三、门诊流程 四、住院流程 五、页面原型初稿(门诊)介绍 六、 页面原型初稿(住院)介绍 七、页面原型初稿(药房药库)介绍 一、项目背景 医疗信息系统是现代化医院运营的必…

三款实用分析诊断工具简介

当处理海量数据的时候,很容易出现各种异常和性能瓶颈,这时常常需要分析程序运行行为和性能瓶颈以优化系统性能。这里简单介绍了三种强大的分析诊断工具以帮助大家更快更好的完成优化工作。 1.Arthas Arthas是 阿里巴巴开源的一款 Java 线上诊断工具&…

玩转群晖NAS——前言

一直以来就有购置一台家用服务器的想法,趁着双十一赶紧购置一波,于是就买了个群晖DS920还有4个8T的希捷酷狼Pro硬盘,花了我一万多的钱,心疼归心疼,东西到手之后的兴奋还是远远大于剁手之痛的。迫不及待地安装上之后&am…

怎么把群晖个人用户空间相片映射到公共空间/photo

怎么把群晖个人用户空间相片映射到公共空间/photo 1.打开File Station 到homes 目录下对应用户名右键复制用户名路径 这里复制/volume1/home/user1 2.打开控制面板进入任务计划新增触发任务事件选开机用户账户选root 任务设置用户自定义脚本填入脚本点确定回到任务。 mkdir /…

有了群晖怎么玩,分享一下我的群晖中运行的服务

原文网址:https://post.smzdm.com/p/a07mk7z9/ 我前几篇文章中说了我在服务器中弄了个虚拟机群晖,很多朋友在没有入手群晖的时候不知道群晖这玩意买来干嘛,花这么多钱,这篇文章就讲讲群晖有那些好玩实用的东西 一、Drive-套件文…

如何使用群晖nas快速收集多份文件?

经常需要在工作中收集文件的小伙伴是否遇到了一个共同的问题⚠: 比如老板让你收集公司员工的工作报告时,你一打开邮箱,几十封、几百封邮件就会涌进来,需要进行下载上百封邮件需要下载。有时候一些同事通过QQ、微信等各种app发送&a…

群晖NAS与Windows系统实现共享文件夹同步方案

一、在Windows系统中创建需要共享的文件夹 操作步骤如下: ①选中需要共享的文件夹,选择“属性”。 ②在属性弹窗中选择“共享”-->“高级共享”-->“权限”-->"添加"-->"高级"-->"立即查找"选择合适的账…

3.3 利用群晖:群辉与PC电脑直连,实现万兆/2.5G速度文件互传(解决 直连后 网络/外网/网页 访问变慢,直连后群辉无网络 cloud sync无网络)

为黑群晖和电脑装备了万兆X540 T2网卡,为实现万兆速度的文件互传,决定将黑群晖直连PC,其需要注意的点有以下三点: 修改PC和群辉的IPv4: 为实现固定IP访问群辉,这里建议修改PC和群辉均为固定IP。 1&#xff…

[NAS] Synology (群晖) DSM 7.X 挂载NTFS硬盘

前言 群晖默认支持的文件系统有btrfs和ext4,对于一些媒体影音游戏等比较大的文件,组RAID做热备对于笔者个人来说不太划算, 而在系统升级或者换设备备份时候把这些挟裹进去,备份文件则是巨大无比. 笔者的分盘策略是RAID5只存系统软件类电子书之类的软件, 挂载NTFS做云备份 冷备…

【森气杂谈】群晖NAS内外网磁盘映射以及quick connect设置

【森气杂谈】群晖NAS内外网磁盘映射以及quick connect设置 NAS内网磁盘映射具体操作步骤 NAS外网磁盘映射具体操作步骤 quick connect NAS内网磁盘映射 在频繁使用NAS时,网页版体验确实不是很好,针对这个问题,可以利用windows资源管理器里的…

一个关于宏定义的问题,我和ChatGPT、NewBing、Google Bard、文心一言 居然全军覆没?

文章目录 一、问题重述二、AI 解题2.1 ChatGPT2.2 NewBing2.3 Google Bard2.4 文心一言2.5 小结 一、问题重述 今天在问答模块回答了一道问题,要睡觉的时候,又去看了一眼,发现回答错了。 问题描述:下面的z的值是多少。 #define…