现实生活中若两人进行对话,大致需要三步流程:一方首先抛出话题作引子;另一方会先调动记忆判断自己是否了解这个话题,然后再分析给出应该做出何种回答。如此循环往复直到互动结束,而此次对话又会作为一种新的“记忆”被双方吸收。
为让计算机完成这样的互动过程,并持续在一对一或一对多的情况下变成日常,AI科学家提出了CVP结构,即“ChatGPT(以ChatGPT为代表的大模型)+Vector Database(向量数据库)+Prompt(提示词)”,分别承担计算机分析、记忆、引子的功能。
向量数据库作为计算机记忆体一般的存在,正吸引着大批投资人和创业者的关注。向量数据库创业公司Zilliz的创始人兼CEO谢超告诉界面新闻,大模型落地,从数据的角度要面对的重要现实就是计算同存储的分离,即大模型属于厂商,而数据属于用户。“国内几乎所有主流的大模型厂商上半年上门找我们聊合作,都迫切想知道一件事——大模型如何跟向量数据库配套使用,或者说计算和存储如何结合并实现低成本的重复使用。”
向量数据库是一种专门处理(主要包括存储和检索)非结构化数据的新型数据库。传统的数据库主要处理由行、列二维表格方式存储的结构化数据,这类数据具有标准化的格式,较为容易做量化分析。而非结构化数据是指那些高维度、难以量化的抽象数据,通常需要特定的数据结构来组织,且不易分析。现实生活中,非结构化数据以各种形式出现,包括文本、图像、音视频以及未来多模态呈现更为复杂多元的表情、体态等