老店迎新客：向量数据库选型与押注中，没人告诉你的那些事

‍

‍原创：谭婧‍

‍

（一）关键词：老店“迎”新客

某家云计算厂商员工告诉我，拜访客户，刚坐下，客户说的第一句话就是：

“你先给我推荐一个向量数据库吧。”

大模型火了，把向量数据库带火了。

向量数据库是小众技术，也是已有的成熟技术，突然间就出圈了。

确实，数据库技术非常底层，极少蹭到热度。

好不容易，天降流量。

这得一顿猛吹，要不然怎么配得上热情的营销号和多金的投资人呢。

客户迫切选型，融资烈火烹油。

不过我一向认为不知深浅，光看钱多也没劲。

这是一个“老店接新客”的故事。

向量数据库不是一个新技术，而它要面对的新挑战是：

如何服务好大模型这个“新客”。

但凡知道向量数据库，

几年前，不能不知道脸书公司的Faiss算法。

几月前，不能不知道Pinecone公司。

Pinecone公司凭借和大模型的“暧昧关系”，拉高估值，一跃成名。

我先点一笔，Pinecone确实干了一件好事。

它用一句话向全世界解释了向量数据库的用处，

将大模型和向量数据库的关系，用一言概之：

“为大模型提供长期记忆力。”

这个说法非常巧妙，尤其是面对投资人和吃瓜群众的时候。

建议轮次创业公司的创始人都好好参详。

别光埋头苦干，教育市场重要。

当然，还得有风口。

顺承记忆力的逻辑。

于是，向量数据库被推向人工智能重要基建的高位。

于是，有人断言：“大模型和向量数据库的组合拳，会对传统数据库产生冲击。”

猛一看，道理都对。

在大模型到来之前，向量数据库虽是“区区小事”，但又“不可或缺”。

要我说，这里并非AI的主战场，三千越甲可吞吴，二十精兵亦可挡。

谁能料到，大模型来了。

它的理解力被追捧，记忆力被吐槽。

你上次和它交互的话，到了下次也不会是已知背景。

槽点是，大模型没有长期记忆力。

这是病，得治。

有人认为解药是向量数据库。

还有一句据说是红杉投资人也认可的说法：

向量数据库是大模型的内存。

（二）关键词：缘起

要我说，向量数据库吧，起初就是互联网大厂里的一个秘密武器。

我发现它的时候，它就已经在互联网大厂里存在了挺多年。

谭老师我是怎么知道向量数据库的呢？

那是2021年的冬天，我一不小心摔断了脚趾骨。

拄着双拐在寒风中寻访科技大神非常困难，只好这样身残志坚地在一家互联网大厂里找了个工位，大概待了两个月。

那段时间，我参观学习了AI软件栈、中台、中间件、编译器等秘密武器。时间一长，和他们研发团队上上下下都脸熟了。

于是，我大声宣布，来吧，展示。

你们都有什么秘密武器？

以谭老师我口风紧、做事规矩的行事风格，

我亲眼见过不少大厂AI软件栈的内部文件和秘密武器。

一款向量数据库曾令我眼前一亮，居然还是开源的。

我内心的OS是这句：

像所有优秀的秘密武器一样，一开始都是低调研发，且专供内部使用。

向量数据库在电商大厂诞生的时候，有其明确的场景需求——自用。

用技术术语来说就是，针对业务中的相似性搜索（similarity search）需求发展而来。

在这个需求之下，一个好用的工具能够给厂商节省巨大的经济成本。

你用20块GPU干事，我用2块GPU干了同样的事。

卷王独白：我升职加薪，你离职走人。

接下来的两个问题比较重要：

现实需求中，人们为什么要用图来搜索？

技术实现里，为什么要用向量来搜索？

现实需求的答案是剁手党给出的，而且已经被淘宝APP的一个常用功能回答了，那就是2014年问世的拍立淘，也就是淘宝首页最上方的搜索框里的照相机。

从其出现的位置就能大概知道其好用程度。有了拍立淘，谭老师我找穿搭王者白百何同款、杨幂同款不再犯愁。

我转述华先胜老师的观点，图像搜索通过拍立淘（电商拍照购物搜索）所创造的商业机会，将技术潜力极大地释放出来。

拍立淘的背后，是一款向量检索引擎，名叫Proxima，它的底库规模有几十亿张图片。不止于此，Proxima还用于阿里巴巴“老集团”的众多业务，如优酷视频搜索。

京东零售虽迟但到，2018年初，构建起十亿规模的实时分布式图片搜索系统，向量数据库Vearch问世。出生之时便是“劳模”体质，很多活等着它去干：

解决重复铺货，商城APP同款推荐，商品详情页去重等等。

放眼全球，向量数据库这事儿不是中国两家头部电商最先做的。

而是美国硅谷那家叫做Meta（脸书）的公司。

这位AI算法开源狂魔，做向量数据库那帮人都特别感谢它。

因为该公司的人工智能基础研究小组（Fundamental AI Research Group）向全世界开源了FAISS（全称为Facebook AI Similarity Search）。

极客们认为，FAISS本身是很棒的算法，是向量数据库界的“风清扬”前辈。

甚至有人内心忍不住这样想：

“这个算法把这件事解决得这么好，那我何不赶紧拿来做封装？”

（三）关键词：封装

忍不住直拍大腿，谁说这不是一个好办法呢？

有的国产向量数据库创业公司是封装了Faiss，Nmslib和Annoy等ANN库。

不过，阿里巴巴和京东零售都没靠封装“别人家”算法来解决问题。

阿里巴巴向量检索内核Proxima是纯自研，京东零售向量数据库Vearch是基于Faiss自研，均做到了工业级大规模场景，高性能、高可用、低成本。

贴着自有业务做不复杂，但是想要通用并向外提供，且支持工业级场景，那就复杂了。

阿里巴巴和京东零售仅自用，也投入了很多年。

按道理，一个向量数据库能提供高效的向量存储、索引和相似性搜索功能，那就是一个很厉害的产品了。

不过，抄近路的人看似更猛。

这里可以讲一个挺出名的江湖段子，

暗戳戳指向向量数据库创业公司Chroma融到了千万美金的“方法论”：

底下是实时分析数据库 ClickHouse，搭上个开源向量检索算法，中间花几千行Python代码接起来。

下一步：融钱。

用ClickHouse而不用图数据库的原因是，没必要，点边会令复杂度增加得太多。

这是什么逻辑呢？

实现一个OK版本的向量数据库的门槛儿并不太高。

我不要求它在推荐系统、图像搜索和自然语言处理等领域全球最快，

也不要求它为全球规模最大的大模型服务。

能用就得嘞。

我无意贬低Chroma，

一家种子轮的创业公司，

还提什么严苛的产品要求呢？

（四）关键词：本质与竞争

回答“为什么用向量来搜索”这个问题。

有句高雅的表达：一切皆可向量化。

深度学习技术让计算机能“读懂”图片，原理是程序先把图像的特征抽出来。

我把向量简单理解为一种图片特征。

图片检索的根本是向量检索，也就是通过找特征，来找到有类似这个特征的图片。

专业说法是，非结构化的数据向量化之后去做相似度匹配。

要我说句粗朴表达，那就是：一根筋。

管你是图片、文本、音频，还是视频数据，

都一根筋地从中提取以向量为表示形式的特征。

内心OS：向量数据库我呀，只给你简单粗暴的爱，数据都给你向量化了。

向量数据库的本质是什么？

向量检索功能的背后，是向量相似度检索这个能力。

把数据以向量的形式存到一个数据库里，用向量相似度匹配的方式查找出来。

市面上有很多数据库产品都能做相似的事情，都能扩展出类似的能力。

就看看阿里云，云上有这个功能的产品就达七个之多，分别是：

阿里云实时分析数据库AnalyticDB，

阿里云PostgreSQL，

阿里云Redis版，

阿里云交互式分析产品Hologres，

阿里云OpenSearch，

阿里云多模数据库Lindorm，

阿里云托管Elastic search。

这些有此功能的数据库并不为阿里云所独有，AWS（亚马逊云）同样也会有这个能力。

这些数据库，并非刻意做向量检索，也不是因为有了大模型之后才做的，他们在更早的时候就具备了这个能力。

在大模型的定势所趋之下，

支持向量搜索功能的数据库并不少，

而且还会有更多数据库往这个方向去做。

搜索引擎数据库Elastic Search就是很好的例子，

我也很负责任地地说：“它也要吃向量数据库的蛋糕。”

观察Elastic Search的高版本（8.8和8.9版本），

迭代了非常多这方面的东西。

数据库Elastic Search有“雄心壮志”，在原有赛道里面增强自己这方面的能力，

在已有存量能力的基础上，提高新能力的权重。

无论是大模型的势头，还是投资人的态度，这块的竞争只会加剧，不会减弱。而且竞争对手也不是无备而来，均会侧重考虑和设计如何为“大模型”服务。

这是新的增量市场，兵家必争之地。

（五）关键词：技术落地用起来

一家公司有多少文档？假如100万份，将整间公司的知识沉淀在文档上，存在向量数据库里，实际上，一台服务器就足够了。

我们不可能举全球之资源、之算力，拥有一个全知全能的大模型。正常的情况会是，一个具备“基本素质”的大模型，日后不断接受来自新知识的考验。

我们有两个办法让大模型的效果变得更好，用新知识数据集微调，或配备向量数据库来检索新知识。

大模型微调成本非常高，以千亿参数大模型为例，一次全面微调大约需要两个月，过程中可能需要50T的数据，而仅大吨位的数据下载，可能就需要两周。

微调和向量数据库，这两个办法并不互斥。

有人认为：哪怕微调做得再好，也可以再上一个向量数据库，达成更好结果。

市面上有很多把数据向量化的模型，着急的客户们迫不及待地把数据向量化，再寻求咨询，如何选择向量数据库。这也就造成了云厂商销售拜访客户，客户心急向量数据库选型。

极客们已经撸起袖子，他们用向量数据库存向量，再用相似度查询来获取结果，然后用LangChain把提示（Prompts）作为输入传递给大模型，从而生成更好的内容。

或者说，极客们用LangChain来给大模型加上内存。

LangChain 最初是一个开源项目，由AI工程师Harrison Chase创建，在 GitHub 上获得大量关注之后迅速转型为一家初创公司。

LangChain以大模型为控制器连接各种工具，从而拓展能力边界。

开发一个有关大模型的新应用，远远不止是API调用。

基于大模型开发应用程序时，还有很多“手工活”要做。

极客们已经出发了，而大模型在生产环境下的要求会更高。

行文至此，不禁感慨：

LangChain真是个好东西，实现不需要太多代码，非常方便。

看上去，大模型革故鼎新，气象一新，新的软件栈正在形成之中。

比如，LangChain就是AI大模型技术堆栈里的编排层。

举个例子，让ChatGPT帮我干活（翻译），

为了效果好，像彩虹屁一样加上各种提示词（Prompt）：

“you are a helpful translator” （你好棒），

“do not answer anything beyond what is provided”（你别管闲事），

“do make sure things are accurate”（你别做蠢事）等等，

这里的提示词（Prompt）管理和编排就是由LangChain来完成。

好工具，看似简单，实则关键。

比起国内大模型团队的同质化竞争到了白热化，这种别出新意的工具令人耳目一新。

大模型、向量数据库、LangChain三者关系密切，

国外社区甚至还造了一个新词：OPL。

取自OpenAI，Pinecone和LangChain首字母。

连类比物，我想到了“钢筋混凝土”。

在混凝土中加入钢筋网、钢板，构成一种组合材料，

强调共同工作来改善混凝土力学性质。

有不少人认为，向量数据库投资过热。

其中一个原因是：

把大模型分成三层，

上层应用层竞争增量太大，

戏称，睡一觉起来多了100个应用程序；

基础模型投入太重，一些投资机构跟不了；

中间层的投资，能力适中就可为。

现在，有两派不同的声音：

一派认为技术上不复杂，其他的数据库顺带做了就完事了；

另一派认为大语言模型颠覆性强，向量数据库会因大模型而变成主流数据库。

我们未能把大模型的边界摸清。

我们也未能把向量数据库的边界摸清。

向量数据库的未来究竟如何，这个时间点上下结论，也许过早了。

我更关注的是，

哪家国产大模型跑通了“大模型+向量数据库”？

哪家大模型用户企业在生产环境中用上了向量数据库？如何用？

毕竟，崭新的组合材料，好不好使，用了才知道。

热烈欢迎，向量数据库先行者们和我联系。

拜了个拜。

（完）

One More Thing

（《我看见了风暴》谭老师新书，京东有售）

更多阅读

AI大模型与ChatGPT系列：

1. ChatGPT大火，如何成立一家AIGC公司，然后搞钱？

2. ChatGPT：绝不欺负文科生

3. ChatGPT触类旁通的学习能力如何而来？

4. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利，回看ChatGPT大模型时代“底层武器”演进

5. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow，光年之外欲添新大将

6. ChatGPT大模型用于刑侦破案只能是虚构故事吗？

7. 大模型“云上经济”之权力游戏

8. 云从科技从容大模型：大模型和AI平台什么关系？为什么造行业大模型？

9. 深聊第四范式陈雨强丨如何用AI大模型打开万亿规模传统软件市场？

10. 深聊京东科技何晓冬丨一场九年前的“出发”：奠基多模态，逐鹿大模型

AI大模型与学术论文系列：

1.开源“模仿”ChatGPT，居然效果行？UC伯克利论文，劝退，还是前进？

2. 深聊王金桥丨紫东太初：造一个国产大模型，需用多少篇高质量论文？（二）

3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文（一）

漫画系列

1. 是喜，还是悲？AI竟帮我们把Office破活干完了

2. AI算法是兄弟，AI运维不是兄弟吗？

3. 大数据的社交牛气症是怎么得的？

4. AI for Science这事，到底“科学不科学”？

5. 想帮数学家，AI算老几？

6. 给王心凌打Call的，原来是神奇的智能湖仓

7. 原来，知识图谱是“找关系”的摇钱树？

8. 为什么图计算能正面硬刚黑色产业薅羊毛？

9. AutoML：攒钱买个“调参侠机器人”？

10. AutoML：你爱吃的火锅底料，是机器人自动进货

11. 强化学习：人工智能下象棋，走一步，能看几步？

12. 时序数据库：好险，差一点没挤进工业制造的高端局

13. 主动学习：人工智能居然被PUA了？

14. 云计算Serverless：一支穿云箭，千军万马来相见

15. 数据中心网络：数据还有5纳秒抵达战场

16. 数据中心网络：迟到不可怕，可怕的是别人都没迟到

AI框架系列：

1.搞深度学习框架的那帮人，不是疯子，就是骗子（一）

2.搞AI框架那帮人丨燎原火，贾扬清（二）

3.搞 AI 框架那帮人（三）：狂热的 AlphaFold 和沉默的中国科学家

4.搞 AI 框架那帮人（四）：AI 框架前传，大数据系统往事

注：（三）和（四）仅收录于《我看见了风暴》。

老店迎新客：向量数据库选型与押注中，没人告诉你的那些事

相关文章

AI教父变成“吹哨人” 他到底在警觉什么？

可能是最有前途的国产大模型：讯飞星火认知大模型

数学天才陶哲轩主持白宫生成式AI工作组，李飞飞、Hassabis发表演讲

陶哲轩宣布主持白宫生成式AI工作组！李飞飞、Hassabis发表演讲

2023 年 06 月编程语言排行榜，Python 还会保持第一吗？

2022年AI顶级论文 —生成模型之年（中）

大模型battle？LLM排行榜出炉，清华竟位列第五！

手把手教你写个扫雷（插旗，及展开图解与实现）

四步手把手教你实现扫雷游戏（c语言）

C/【扫雷】

扫雷游戏-C实现

ChatGPT 速通手册——ChatGPT 的自我介绍

VUE svg图标报错

可以微调类ChatGPT模型啦！开源Alpaca-LoRA+RTX 4090就能搞定

如何使用OpenAI fine-tuning(微调)训练属于自己专有的ChatGPT模型？

一觉睡醒，ChatGPT 竟然被淘汰了？

ChatGPT实现stackoverflow 解释

ChatGPT疯狂生成「辣鸡」内容，Stack Overflow气急，连夜封杀！

轻松掌握RecyclerView缓存机制

chatgpt赋能python：Python内存管理：如何清理内存