AI大模型时代下,图片、视频、自然语言等多模态的非结构化数据量陡增,而大模型支持的token数有限,虽然可以在RLHF的配合下具备一定程度的“短期记忆”,但正是因为“长期记忆”的缺失,导致大模型经常会出现“一本正经地胡说八道”的情况。
区别于用来处理结构化数据的传统数据库,向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据;它就像一块外接的记忆盘,可供大模型随时调用,以形成“长期记忆”。对大模型应用开发者来说,向量数据库是非常重要的基础设施。
目前,向量数据库大致可分为两种。一种是原生向量数据库产品,比如Pinecone(累计融资1.38 亿美元)、Milvus(累计融资1.13 亿美元)、Weaviate(累计融资6770 万美元)等,另一种是基于传统数据库增加的插件式向量搜索引擎产品,如 ClickHouse、ElasticSearch、Redis等许多开源数据库都增加了这类产品。
LCHub近期接触到一家介于两者之间的第三种数据库——墨奇AI数据库,它在托管在AWS上,可同时支持结构化数据和非结构化数据的存储、查询、搜索、联合分析和处理功能,广泛应用于图