老店迎新客:向量数据库选型与押注中,没人告诉你的那些事

‍原创:谭婧‍

(一)关键词:老店“迎”新客

某家云计算厂商员工告诉我,拜访客户,刚坐下,客户说的第一句话就是:

“你先给我推荐一个向量数据库吧。”

大模型火了,把向量数据库带火了。

向量数据库是小众技术,也是已有的成熟技术,突然间就出圈了。

确实,数据库技术非常底层,极少蹭到热度。

好不容易,天降流量。

这得一顿猛吹,要不然怎么配得上热情的营销号和多金的投资人呢。

客户迫切选型,融资烈火烹油。

不过我一向认为不知深浅,光看钱多也没劲。

这是一个“老店接新客”的故事。

向量数据库不是一个新技术,而它要面对的新挑战是:

如何服务好大模型这个“新客”。

27b8757cf848fbdf0d42a05c12881080.png

但凡知道向量数据库,

几年前,不能不知道脸书公司的Faiss算法。

几月前,不能不知道Pinecone公司。

Pinecone公司凭借和大模型的“暧昧关系”,拉高估值,一跃成名。

我先点一笔,Pinecone确实干了一件好事。

它用一句话向全世界解释了向量数据库的用处,

将大模型和向量数据库的关系,用一言概之:

“为大模型提供长期记忆力。”

这个说法非常巧妙,尤其是面对投资人和吃瓜群众的时候。

建议轮次创业公司的创始人都好好参详。

别光埋头苦干,教育市场重要。

当然,还得有风口。

顺承记忆力的逻辑。

于是,向量数据库被推向人工智能重要基建的高位。

于是,有人断言:“大模型和向量数据库的组合拳,会对传统数据库产生冲击。”

猛一看,道理都对。

在大模型到来之前,向量数据库虽是“区区小事”,但又“不可或缺”。

要我说,这里并非AI的主战场,三千越甲可吞吴,二十精兵亦可挡。

谁能料到,大模型来了。

它的理解力被追捧,记忆力被吐槽。

你上次和它交互的话,到了下次也不会是已知背景。

槽点是,大模型没有长期记忆力。

这是病,得治。

有人认为解药是向量数据库。

还有一句据说是红杉投资人也认可的说法:

向量数据库是大模型的内存。

289cf725b4e760b350ace97ffded8b7d.png

(二)关键词:缘起

要我说,向量数据库吧,起初就是互联网大厂里的一个秘密武器。

我发现它的时候,它就已经在互联网大厂里存在了挺多年。

谭老师我是怎么知道向量数据库的呢?

那是2021年的冬天,我一不小心摔断了脚趾骨。

拄着双拐在寒风中寻访科技大神非常困难,只好这样身残志坚地在一家互联网大厂里找了个工位,大概待了两个月。

那段时间,我参观学习了AI软件栈、中台、中间件、编译器等秘密武器。时间一长,和他们研发团队上上下下都脸熟了。

于是,我大声宣布,来吧,展示。

你们都有什么秘密武器?

以谭老师我口风紧、做事规矩的行事风格,

我亲眼见过不少大厂AI软件栈的内部文件和秘密武器。

一款向量数据库曾令我眼前一亮,居然还是开源的。

我内心的OS是这句:

8754c8ad4847d8bd215ffe3b3f14cda5.png

像所有优秀的秘密武器一样,一开始都是低调研发,且专供内部使用。

向量数据库在电商大厂诞生的时候,有其明确的场景需求——自用。

用技术术语来说就是,针对业务中的相似性搜索(similarity search)需求发展而来。

在这个需求之下,一个好用的工具能够给厂商节省巨大的经济成本。

你用20块GPU干事,我用2块GPU干了同样的事。

卷王独白:我升职加薪,你离职走人。

接下来的两个问题比较重要:

现实需求中,人们为什么要用图来搜索?

技术实现里,为什么要用向量来搜索?

现实需求的答案是剁手党给出的,而且已经被淘宝APP的一个常用功能回答了,那就是2014年问世的拍立淘,也就是淘宝首页最上方的搜索框里的照相机。

从其出现的位置就能大概知道其好用程度。有了拍立淘,谭老师我找穿搭王者白百何同款、杨幂同款不再犯愁。

我转述华先胜老师的观点,图像搜索通过拍立淘(电商拍照购物搜索)所创造的商业机会,将技术潜力极大地释放出来。

拍立淘的背后,是一款向量检索引擎,名叫Proxima,它的底库规模有几十亿张图片。不止于此,Proxima还用于阿里巴巴“老集团”的众多业务,如优酷视频搜索。

京东零售虽迟但到,2018年初,构建起十亿规模的实时分布式图片搜索系统,向量数据库Vearch问世。出生之时便是“劳模”体质,很多活等着它去干:

解决重复铺货,商城APP同款推荐,商品详情页去重等等。

放眼全球,向量数据库这事儿不是中国两家头部电商最先做的。

而是美国硅谷那家叫做Meta(脸书)的公司。

这位AI算法开源狂魔,做向量数据库那帮人都特别感谢它。

因为该公司的人工智能基础研究小组(Fundamental AI Research Group)向全世界开源了FAISS(全称为Facebook AI Similarity Search)。

极客们认为,FAISS本身是很棒的算法,是向量数据库界的“风清扬”前辈。

甚至有人内心忍不住这样想:

“这个算法把这件事解决得这么好,那我何不赶紧拿来做封装?”

(三)关键词:封装

忍不住直拍大腿,谁说这不是一个好办法呢?

有的国产向量数据库创业公司是封装了Faiss,Nmslib和Annoy等ANN库。

不过,阿里巴巴和京东零售都没靠封装“别人家”算法来解决问题。

阿里巴巴向量检索内核Proxima是纯自研,京东零售向量数据库Vearch是基于Faiss自研,均做到了工业级大规模场景,高性能、高可用、低成本。

贴着自有业务做不复杂,但是想要通用并向外提供,且支持工业级场景,那就复杂了。

阿里巴巴和京东零售仅自用,也投入了很多年。

按道理,一个向量数据库能提供高效的向量存储、索引和相似性搜索功能,那就是一个很厉害的产品了。

不过,抄近路的人看似更猛。

这里可以讲一个挺出名的江湖段子,

暗戳戳指向向量数据库创业公司Chroma融到了千万美金的“方法论”:

底下是实时分析数据库 ClickHouse,搭上个开源向量检索算法,中间花几千行Python代码接起来。

下一步:融钱。

用ClickHouse而不用图数据库的原因是,没必要,点边会令复杂度增加得太多。

这是什么逻辑呢?

实现一个OK版本的向量数据库的门槛儿并不太高。

我不要求它在推荐系统、图像搜索和自然语言处理等领域全球最快,

也不要求它为全球规模最大的大模型服务。

能用就得嘞。

我无意贬低Chroma,

一家种子轮的创业公司,

还提什么严苛的产品要求呢?

3c7787303dcde945e7c17276c1f42127.png

(四)关键词:本质与竞争

回答“为什么用向量来搜索”这个问题。

有句高雅的表达:一切皆可向量化。

深度学习技术让计算机能“读懂”图片,原理是程序先把图像的特征抽出来。

我把向量简单理解为一种图片特征。

图片检索的根本是向量检索,也就是通过找特征,来找到有类似这个特征的图片。

专业说法是,非结构化的数据向量化之后去做相似度匹配。

要我说句粗朴表达,那就是:一根筋。

管你是图片、文本、音频,还是视频数据,

都一根筋地从中提取以向量为表示形式的特征。

内心OS:向量数据库我呀,只给你简单粗暴的爱,数据都给你向量化了。

向量数据库的本质是什么?

95dc3139abc317f72d6c1f168fb75f08.png

向量检索功能的背后,是向量相似度检索这个能力。

把数据以向量的形式存到一个数据库里,用向量相似度匹配的方式查找出来。

市面上有很多数据库产品都能做相似的事情,都能扩展出类似的能力。

就看看阿里云,云上有这个功能的产品就达七个之多,分别是:

阿里云实时分析数据库AnalyticDB,

阿里云PostgreSQL,

阿里云Redis版,

阿里云交互式分析产品Hologres,

阿里云OpenSearch,

阿里云多模数据库Lindorm,

阿里云托管Elastic search。

这些有此功能的数据库并不为阿里云所独有,AWS(亚马逊云)同样也会有这个能力。

这些数据库,并非刻意做向量检索,也不是因为有了大模型之后才做的,他们在更早的时候就具备了这个能力。

在大模型的定势所趋之下,

支持向量搜索功能的数据库并不少,

而且还会有更多数据库往这个方向去做。

搜索引擎数据库Elastic Search就是很好的例子,

我也很负责任地地说:“它也要吃向量数据库的蛋糕。”

观察Elastic Search的高版本(8.8和8.9版本),

迭代了非常多这方面的东西。

数据库Elastic Search有“雄心壮志”,在原有赛道里面增强自己这方面的能力,

在已有存量能力的基础上,提高新能力的权重。

无论是大模型的势头,还是投资人的态度,这块的竞争只会加剧,不会减弱。而且竞争对手也不是无备而来,均会侧重考虑和设计如何为“大模型”服务。

这是新的增量市场,兵家必争之地。

(五)关键词:技术落地用起来

一家公司有多少文档?假如100万份,将整间公司的知识沉淀在文档上,存在向量数据库里,实际上,一台服务器就足够了。

我们不可能举全球之资源、之算力,拥有一个全知全能的大模型。正常的情况会是,一个具备“基本素质”的大模型,日后不断接受来自新知识的考验。

我们有两个办法让大模型的效果变得更好,用新知识数据集微调,或配备向量数据库来检索新知识。

大模型微调成本非常高,以千亿参数大模型为例,一次全面微调大约需要两个月,过程中可能需要50T的数据,而仅大吨位的数据下载,可能就需要两周。

微调和向量数据库,这两个办法并不互斥。

有人认为:哪怕微调做得再好,也可以再上一个向量数据库,达成更好结果。

市面上有很多把数据向量化的模型,着急的客户们迫不及待地把数据向量化,再寻求咨询,如何选择向量数据库。这也就造成了云厂商销售拜访客户,客户心急向量数据库选型。

极客们已经撸起袖子,他们用向量数据库存向量,再用相似度查询来获取结果,然后用LangChain把提示(Prompts)作为输入传递给大模型,从而生成更好的内容。

或者说,极客们用LangChain来给大模型加上内存。

LangChain 最初是一个开源项目,由AI工程师Harrison Chase创建,在 GitHub 上获得大量关注之后迅速转型为一家初创公司。

LangChain以大模型为控制器连接各种工具,从而拓展能力边界。

开发一个有关大模型的新应用,远远不止是API调用。

基于大模型开发应用程序时,还有很多“手工活”要做。

极客们已经出发了,而大模型在生产环境下的要求会更高。

行文至此,不禁感慨:

LangChain真是个好东西,实现不需要太多代码,非常方便。

看上去,大模型革故鼎新,气象一新,新的软件栈正在形成之中。

178630dd7b43a1000a5186412e09c697.jpeg

比如,LangChain就是AI大模型技术堆栈里的编排层。

举个例子,让ChatGPT帮我干活(翻译),

为了效果好,像彩虹屁一样加上各种提示词(Prompt):

“you are a helpful translator” (你好棒),

“do not answer anything beyond what is provided”(你别管闲事),

“do make sure things are accurate”(你别做蠢事)等等,

这里的提示词(Prompt)管理和编排就是由LangChain来完成。

好工具,看似简单,实则关键。

比起国内大模型团队的同质化竞争到了白热化,这种别出新意的工具令人耳目一新。

大模型、向量数据库、LangChain三者关系密切,

国外社区甚至还造了一个新词:OPL。

取自OpenAI,Pinecone和LangChain首字母。

连类比物,我想到了“钢筋混凝土”。

在混凝土中加入钢筋网、钢板,构成一种组合材料,

强调共同工作来改善混凝土力学性质。

有不少人认为,向量数据库投资过热。

其中一个原因是:

把大模型分成三层,

上层应用层竞争增量太大,

戏称,睡一觉起来多了100个应用程序;

基础模型投入太重,一些投资机构跟不了;

中间层的投资,能力适中就可为。

现在,有两派不同的声音:

一派认为技术上不复杂,其他的数据库顺带做了就完事了;

另一派认为大语言模型颠覆性强,向量数据库会因大模型而变成主流数据库。

我们未能把大模型的边界摸清。

我们也未能把向量数据库的边界摸清。

向量数据库的未来究竟如何,这个时间点上下结论,也许过早了。

我更关注的是,

哪家国产大模型跑通了“大模型+向量数据库”?

哪家大模型用户企业在生产环境中用上了向量数据库?如何用?

毕竟,崭新的组合材料,好不好使,用了才知道。

热烈欢迎,向量数据库先行者们和我联系。

拜了个拜。

(完)

One More Thing

(《我看见了风暴》谭老师新书,京东有售)

632e2a7aa8c2b01f19167dc118dc6b20.jpeg

4fbf1fcf878b5d76b507ea50235200b7.png

更多阅读

AI大模型与ChatGPT系列:

1. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?

2. ChatGPT:绝不欺负文科生

3. ChatGPT触类旁通的学习能力如何而来? 

4. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进

5. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow,光年之外欲添新大将

6. ChatGPT大模型用于刑侦破案只能是虚构故事吗?

7. 大模型“云上经济”之权力游戏

8.  云从科技从容大模型:大模型和AI平台什么关系?为什么造行业大模型?

9. 深聊第四范式陈雨强丨如何用AI大模型打开万亿规模传统软件市场?

10. 深聊京东科技何晓冬丨一场九年前的“出发”:奠基多模态,逐鹿大模型

AI大模型与学术论文系列:

1.开源“模仿”ChatGPT,居然效果行?UC伯克利论文,劝退,还是前进?

2. 深聊王金桥丨紫东太初:造一个国产大模型,需用多少篇高质量论文?(二)

3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文(一)

漫画系列

1. 是喜,还是悲?AI竟帮我们把Office破活干完了

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛气症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,AI算老几? 

6. 给王心凌打Call的,原来是神奇的智能湖仓

7. 原来,知识图谱是“找关系”的摇钱树?

8. 为什么图计算能正面硬刚黑色产业薅羊毛?

9. AutoML:攒钱买个“调参侠机器人”?

10. AutoML:你爱吃的火锅底料,是机器人自动进货

11. 强化学习:人工智能下象棋,走一步,能看几步?

12. 时序数据库:好险,差一点没挤进工业制造的高端局

13. 主动学习:人工智能居然被PUA了?

14. 云计算Serverless:一支穿云箭,千军万马来相见

15. 数据中心网络:数据还有5纳秒抵达战场

16.  数据中心网络:迟到不可怕,可怕的是别人都没迟到

AI框架系列:

1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)

2.搞AI框架那帮人丨燎原火,贾扬清(二)

3.搞 AI 框架那帮人(三):狂热的 AlphaFold 和沉默的中国科学家

4.搞 AI 框架那帮人(四):AI 框架前传,大数据系统往事

注:(三)和(四)仅收录于《我看见了风暴》。

58cc092df75ee43937e40de1409bdf8e.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26931.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI教父变成“吹哨人” 他到底在警觉什么?

“我现在对自己过去的工作感到后悔,我找借口来安慰自己:就算我没做,别人也会做的。”有AI“教父”之称的杰弗里辛顿 (Geoffrey Hinton)在接受媒体采访时透露出悔意。 作为AI深度学习领域的代表性人物,辛顿一生都在该领域深耕&…

可能是最有前途的国产大模型:讯飞星火认知大模型

大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 昨天下午,科大讯飞发布了自己的大模型——星火认知大模型。在上周他们还在…

数学天才陶哲轩主持白宫生成式AI工作组,李飞飞、Hassabis发表演讲

夕小瑶科技说 分享 来源 | 新智元 最近,「数学天才」陶哲轩表示,自己将领导白宫生成式人工智能工作组,就当前AI评估并收集意见。在陶哲轩看来,加入工作流的ChatGPT在数学专业领域中,并没有太多增值。 近来&#xff0c…

陶哲轩宣布主持白宫生成式AI工作组!李飞飞、Hassabis发表演讲

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【Transformer】微信技术交流群 转载自:新智元 | 编辑:编辑部 【导读】最近,「数学天才」陶哲轩表示,自己将领导白宫生成式人工…

2023 年 06 月编程语言排行榜,Python 还会保持第一吗?

(永久免费,扫码加入) TIOBE 2023 年 06 月份的编程语言排行榜已经公布,官方的标题是:Python 还会保持第一吗?(Will Python remain number 1?) 在过去的 5 年里,Python …

2022年AI顶级论文 —生成模型之年(中)

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。 2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet&…

大模型battle?LLM排行榜出炉,清华竟位列第五!

【CSDN 编者按】自GPT爆火之后,当下流行的开源大型语言模型越来越多,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)建立了 Chatbot Arena 基准平台通过匿名随机竞争来评估他们,随后发布 Elo 等级排行榜,排…

手把手教你写个扫雷(插旗,及展开图解与实现)

学习了二维数组以后,不仅可以写个三子棋,我们也可以更近一步,来写个扫雷玩玩? 编写程序的时候,一定要先做好构思与大体思路步骤,扫雷的基本运行逻辑其实并不算非常复杂,我们只需要把每一步捋顺…

四步手把手教你实现扫雷游戏(c语言)

七步手把手教你实现扫雷游戏 c语言实现扫雷游戏一. 整体思路二. 设计棋盘以及初始化三. 埋雷四. 扫雷 c语言实现扫雷游戏 一. 整体思路 和上一篇文章的三子棋一样 第一步咱们创建三个工程文件 game.c 文件 用来实现游戏的函数定义 game.h 文件 用来声明函数以及需要的头文件 …

C/【扫雷】

**本文是用C语言写的扫雷小游戏———一个C语言前期寓教于乐的小游戏。 🌱博客主页:大寄一场. 🌱系列专栏:C语言学习笔记 😘博客制作不易欢迎各位👍点赞⭐收藏➕关注 目录 一.游戏菜单的创建 二.游戏实现…

扫雷游戏-C实现

扫雷游戏 纯C,运用数组,循环实现,基础巩固 注:本篇将重心放在思路以及核心步骤讲解,重要的不是将每一部分代码记下了,而是将核心思路和代码实现理解透彻。如果你对本篇一些内容跳转,细节表示茫然…

ChatGPT 速通手册——ChatGPT 的自我介绍

从 ChatGPT 的名字就可以看出,它的最核心功能就是 Chat(聊天)。那么,我们就以聊天的形式,开始本书的内容。 先让 ChatGPT 自己做一次自我介绍。既可以展现 ChatGPT 的产品使用形式,也可以快速了解 ChatGPT 的技术概念:…

VUE svg图标 报错

:咱前端用到svg的地方多了去了 这可得会 目录 下载安装 svg 配置config文件 在vue.config.js 创建icon文件夹,存放svg格式图片 icon/index.js 创建组件components ---> SvgIcon src/utils/validate.js 在main.js引入 下载安装 svg npm ins…

可以微调类ChatGPT模型啦!开源Alpaca-LoRA+RTX 4090就能搞定

源 | 机器之心 Alpaca-LoRA 将微调类 ChatGPT 模型的算力需求降到了消费级,训练个自己的中文对话模型真就没那么难了。 2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。 ChatGPT 功能强大,但 OpenAI…

如何使用OpenAI fine-tuning(微调)训练属于自己专有的ChatGPT模型?

要使用OpenAI的微调技术来训练自己的专有模型,您需要遵循以下步骤: 获取和准备数据集:首先,您需要准备自己的数据集。可以使用公共数据集,也可以使用自己的数据集。数据集需要以特定格式(如JSONL)进行存储,并且需要经过清洗和预处理。 选择合适的模型和超参数:根据您…

一觉睡醒,ChatGPT 竟然被淘汰了?

转自机器之心 编辑:杜伟、陈萍 OpenAI 的 Andrej Karpathy 都大力宣传,认为 AutoGPT 是 prompt 工程的下一个前沿。 近日,AI 界貌似出现了一种新的趋势:自主人工智能。 这不是空穴来风,最近一个名为 AutoGPT 的研究开始…

ChatGPT实现stackoverflow 解释

stackoverflow 解释 ChatGPT 公开服务以来,程序员们无疑是最早深入体验和"测试"的一批人。出色的效果也引发了一系列知识产权上的争议。著名的 stackoverflow 网站,就宣布禁止用户使用 ChatGPT 生成的内容来回答问题,一经发现&…

ChatGPT疯狂生成「辣鸡」内容,Stack Overflow气急,连夜封杀!

时下爆火的ChatGPT,被网友们用来生成海量答案。而Stack Overflow已经不堪其扰,发起「追杀」:应封尽封! OpenAI的新模型ChatGPT才诞生没几天,已经成为广大网友的「装逼利器」。 它的回答不说正确不正确,乍一…

轻松掌握RecyclerView缓存机制

在 Android 应用程序中,RecyclerView 是一个非常重要的控件。它被广泛使用,因为它可以帮助我们展示大量的数据,同时也能够提供流畅的滑动体验。然而,如果我们不小心处理好 RecyclerView 的缓存机制,就可能会导致性能下…

chatgpt赋能python:Python内存管理:如何清理内存

Python内存管理:如何清理内存 Python作为一种高级编程语言,在各种应用领域都得到了广泛的应用。作为一种解释型语言,Python有着自动垃圾回收器的优点,但在长时间运行的应用程序中,Python可能会占用大量内存&#xff0…