ChatGPT 引爆向量数据库赛道

向量数据库和 Embedding 是现在 AI 领域的热门话题。

最近,为 ChatGPT 等生成式 AI 应用提供向量搜索、向量数据存储、向量嵌入等功能的向量数据库赛道突然走红,两家初创公司 Pinecone 和 Weaviate 共获 10 亿元融资,融资时间仅间隔6天,而 Shopify、Brex、Hubspot 等公司正在将向量数据库和 Embedding 作为其 AI 应用的基础。

事实上,在 ChatGPT 火爆出圈之前向量数据库非常小众,大量开发者涌向生成式 AI 应用开发领域,这使得蛰伏的向量数据库厂商终于迎来了曙光,其用户数量呈指数级增长,也是获得巨额投资的重要原因之一。

什么是向量 Embedding,如何工作?

首先,所谓向量 Embedding 简单地说就是 N 维数字向量,可以代表任何东西,包括文本、音乐、视频等等,我们主要关注的是文本。要创建一个向量 Embedding,我们需要借助于 Embedding 模型(例如 OpenAI 的 Ada),把想要处理的文本内容输入到模型里面,就可以生成一个向量表示,并把它存储起来以备之后使用。

向量数据库与 Embedding 之所以非常重要,因为它使我们能够进行语义搜索,即通过相似性来搜索数据,比如寻找具有相似含义的文本。例如,在向量空间上建模男人、国王,女人和女王的关系时就能非常明确地看出它们之间的相关性。

更为直观的例子:

假设你是一个孩子,有一个大玩具盒子。现在你想找一些类似的玩具,比如玩具汽车和玩具巴士。它们都是交通工具,这就被称为“语义相似性”(事物有着相似的含义)。

再假设你有两个相关的玩具,但并不相同。例如一个玩具汽车和一条玩具道路。尽管它们不完全相同,但会被认为是相似的,因为汽车通常是开在道路上的。

为什么向量数据库与 Embedding 如此重要呢?

这是因为绝大多数 LLM 有其上下文限制,在理想情况下,我们可以将无限数量的单词拟合到 LLM 提示中,但目前这个限制通常被限制在约 4096 - 32k 个 tokens。

因此,我们受到 LLM 在"内存"方面的严格限制(即我们可以将多少单词拟合到其提示中),从而影响了与 LLM 交互的方式,这就是为什么你不能将整个 PDF 文档复制粘贴到 ChatGPT 中进行问答。

如何让 LLM 读取大文本呢?

假设你有一个巨大的 PDF 文件,你很懒不想读整个文件,而且你也不能把整个文件复制进去,因为它超过了一亿页,怎么办?

我们可以利用向量 Embedding 的优势来将相关文本注入 LLM 上下文窗口。对 PDF 进行向量 Embedding 并将其存储在向量数据库中。

具体做法:

1)把 PDF 切分成小的文本片段,通过 Embedding 模型创建向量 Embedding 放到本地或远程向量数据库。

2)把用户的提问也创建成向量 Embedding,用它和之前创建的 PDF 向量比对,通过语义相似性搜索(比如余弦算法),找到最相关的文本片段。

3)把用户提问和相似文本片段发给 LLM,写 Prompt 要求 LLM 基于给定的内容生成回答,如果没有相似文本或关联度不高,则回答不知道。

这就是向量 Embedding 的最典型应用。Github 上非常火的 langchain-ChatGLM 项目,用的就是 LLM 结合向量 Embedding,来达到本地知识库问答的效果,后面树先生也会为大家带来相关教程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/8994.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI大爆炸 | ChatGPT引爆AI热潮,大佬怎么看?

ChatGPT在AI领域点起的大火,从去年烧到了今年。以ChatGPT为代表的AIGC(人工智能生成内容)在全球风靡,多个代表性AI大模型纷纷涌现,不少业内人士高呼以人机智能融合为主要特征的“AI 2.0时代”已经来临。      有人为人工智能引领未来的广…

ChatGPT引爆AI火出圈?人工智能AI在云计算中到底起什么作用?

​  近两个月,ChatGPT引爆AI新时代,话题热度不断上升。其实,随着技术的发展,AI已被广泛用于云计算,以提升云计算的智能水平。同样地,云计算技术对人工智能的发展提供了强大的支持,也为人工智能…

flask SSTI漏洞

文章目录 第一章 Flask ssti漏洞的代码(长什么样子)1.1 代码1.2 正常测试1.3 利用漏洞测试1.3.1 获取字典中的密钥1.3.2 获取整个person 字典中的内容1.3.3 获取服务器端敏感的配置参数 1.4 预防敏感信息泄露 第二章 前言(基础知识储备&#…

Ubuntu20.04软件安装大全

目录 Ubuntu20.04 软件安装大全前言1. Windows和Ubuntu双系统安装1.1 下载Ubuntu系统镜像1.2 磁盘分区1.3 GPT分区安装Ubuntu1.4 系统完成后的一些设置1.5 遇到的一些小bug 2. 换源2.1 apt换源2.2 pip换源 3. 显卡驱动安装3.1 卸载显卡驱动3.2 准备工作3.3 驱动安装3.4 验证 4.…

探索小程序的世界(专栏导读、基础理论)

文章导读 一、为什么要学习小程序开发1.1 低门槛1.2 市场需求1.3 创业机会1.4 技术发展趋势 二、专栏导读2.1 实战系列2.2 工具系列2.3 游戏系列2.4 插件系列 三、基础理论3.1 微信小程序简易教程框架组件API工具 开发者工具项目结构 3.2 app.json配置pageswindowtabbar 3.3 Ap…

CLion开发环境的完全解析(QT开发?STM32?顺便速通cmake

文章目录 下载与安装主题推荐编辑器与clang-format设置鼠标滚轮改变字体大小clang-format的使用我的 .clang-format 配置 编译工具链设置编译工具链的添加与解释cmake配置项的添加与解释 cmake的使用与实战常用的cmake变量(入门)常用的cmake命令&#xf…

《HelloGitHub》第 83 期

兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 https://github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 …

风尚云网前端-vue中使代码高亮块显示

应该在项目中常见的这种需要把&#xff0c;高亮代码块显示代码&#xff0c;今天我们用到的是高亮官网 基本用法 在浏览器中 在网页上使用 highlight.js 的最低要求是链接到库以及主题之一并调用highlightAll&#xff1a; <link rel"stylesheet" href"/path…

分享!!!发现一个暂时免费使用的AI网站!!!

前言&#xff1a;虽然ChatGPT在这段时间很火&#xff0c;但是终究对我们来说也只是个工具&#xff0c;我们只需要知道如何使用它&#xff0c;它为我们返回的结果不可能在我们平常需求中100%的一样&#xff0c;是需要我们去看懂代码&#xff0c;然后修改代码的&#xff0c;打铁还…

ChatGPT 落入大学生之手,6 个月后实现月收入 45 万元,代价:挂科两门!

推荐阅读&#xff1a;日本“性爱机器人”上线1小时被抢空&#xff0c;背后却让人细思极恐 ChatGPT 浪潮来袭&#xff0c;大厂们正在紧锣密鼓地研发大模型&#xff0c;创业公司在垂直生态之下发力内容制作、工具等应用&#xff0c;不少一线开发者、爱好者则利用 AI 在提升工作效…

chatgpt赋能python:Python不挂科,学会这些技能就足够

Python不挂科&#xff0c;学会这些技能就足够 Python已成为现代编程语言中最受欢迎的一种&#xff0c;它擅长处理数据、人工智能等复杂的软件开发任务。互联网时代的到来也让Python的使用场景更加广泛&#xff0c;从前后端开发到数据分析。无论是学习Python的初学者还是有一定…

chatgpt赋能python:Python学习SEO指南:如何避免挂科

Python学习SEO指南&#xff1a;如何避免挂科 Python作为一门优秀的编程语言&#xff0c;被广泛应用于数据分析、人工智能、Web开发等领域。而如果你想在SEO领域中使用Python&#xff0c;那么就需要具备一定的编程基础和相关知识。在这篇文章中&#xff0c;我们将探讨如何学习P…

chatgpt赋能python:Python怎么不挂科?一位10年Python开发工程师的经验分享

Python怎么不挂科&#xff1f;一位10年Python开发工程师的经验分享 作为一种运行速度快且易于学习的编程语言&#xff0c;Python逐渐成为了很多编程爱好者和IT工程师的首选。但是&#xff0c;对于很多刚学习Python不久的人来说&#xff0c;由于学习方法不当&#xff0c;或者考…

chatgpt赋能python:大学Python挂科补考-怎么样才能顺利通过?

大学Python挂科补考 - 怎么样才能顺利通过&#xff1f; Python是一门广泛使用的编程语言&#xff0c;越来越多的大学选择将其纳入到计算机科学的课程中。然而&#xff0c;对于初学者来说&#xff0c;Python可能会变得很棘手&#xff0c;尤其是当你需要在考试或补考中获得高分时…

chatgpt赋能python:Python挂科了要重修么?

Python挂科了要重修么&#xff1f; 作为一名有10年python编程经验的工程师&#xff0c;我经常被问到这样的问题&#xff1a;“如果在学习和使用Python的过程中挂科了&#xff0c;是否需要重修&#xff1f;”这是一个非常好的问题&#xff0c;并且具有挑战性。在本文中&#xf…

chatgpt赋能python:Python课程为何成为大学生挂科的“罪魁祸首“?

Python课程为何成为大学生挂科的"罪魁祸首"&#xff1f; Python编程语言在今天的IT行业中已经成为了一种不可或缺的语言。事实上&#xff0c;Python已经成为了世界上最常用的编程语言之一&#xff0c;很多大学里也将Python编程语言作为教学课程的一部分。然而&#…

chatgpt赋能python:Python挂科了怎么办?

Python 挂科了怎么办&#xff1f; 如果你是一名学习 Python 编程语言的学生或者程序员&#xff0c;那么你可能会面临挂科的情况。虽然这是件令人沮丧的事情&#xff0c;但是你不必感到绝望。在这篇文章中&#xff0c;我们将介绍一些方法来帮助你重振旗鼓&#xff0c;重新学习并…

知网开放个人查重服务!

知网 转自&#xff1a;机器之心 不过&#xff0c;对于 2022 届的毕业生来说&#xff0c;知网的这一决定来得似乎晚了一点。 一年一度的毕业季要结束了&#xff0c;论文答辩也早已提上日程&#xff0c;在这之前你的论文查重了吗&#xff1f; 毕业论文是普通中等专业学校、高等专…

知网查重经验分享

22届电气专业毕业生&#xff0c;论文关于人脸识别方面的&#xff1b; 学校有两次免费查重机会&#xff0c;我们学校要求比较低&#xff0c;校内查重<50%&#xff0c;知网<30% 如果两次查重都不过就只能延毕......所以很珍惜这两次机会 我先用paperyy免费版查重&#x…

MySQL 查重

阅读目录 MySQL 数据单字段查询语句多个字段重复记录查询 MySQL 数据 CREATE TABLE test (Id int(11) NOT NULL AUTO_INCREMENT,title varchar(25) DEFAULT NULL COMMENT 标题,uid int(11) DEFAULT NULL COMMENT uid,money decimal(2,0) DEFAULT 0,name varchar(25) DEFAULT N…