读懂 GraphRAG:提升LLM企业落地能力,智能问答革命

在企业中单纯的使用LLM并不会产生太好的效果,因为它们不会对有关组织活动的特定领域专有知识进行编码,而这些知识实际上会给信息对话界面带来价值萃取。很多企业尝试通过RAG来优化这个过程,并且越来越多的人在RAG的方向上不断的研究,今天我们来讨论一下GraphRAG,这种结合知识图谱、图数据库作为大模型结合私有知识系统的最新技术,解析它是如何 释放RAG 的潜力,增强LLM回答复杂问题的准确性和相关性。

什么是RAG?

RAG 是一种自然语言查询方法,用于通过外部知识增强现有的LLM,因此如果问题需要特定知识,问题的答案会更相关。它包括一个检索信息组件,用于从外部源获取附加信息,也称为“基础上下文”,然后将其馈送到 LLM 提示以更准确地回答所需的问题。

这种方法是最便宜和最标准的方法,可以通过额外的知识来增强 LLM 以回答问题。此外,它被证明可以减少 LLM 产生幻觉的倾向,因为这一代人更坚持来自上下文的信息,而这些信息通常是可靠的。由于该方法的这种性质,RAG 成为增强生成模型输出的最流行的方法。

除了问答之外,RAG 还可以用于许多自然语言处理任务,例如从文本中提取信息、推荐、情感分析和摘要等。

但RAG在解决问题的时候,也会有表现非常差的情况:

  • 基本 RAG 很难将关键点联系起来。当回答问题需要通过共享属性遍历不同的信息以提供新的综合见解时,就会发生这种情况。
  • 要求基本 RAG 全面理解大型数据集合甚至单个大型文档的概括语义概念时,基础 RAG 表现不佳。

Graph RAG

GraphRAG是一种结合了知识图谱和大型语言模型(LLM)的技术,旨在提高问答系统的能力。微软研究人员宣布了GraphRAG,这是一种新方法,通过AI生成的知识图谱来增强AI驱动的问答系统。GraphRAG技术要求大型语言模型根据私有数据集创建知识图谱,从而改善问答过程。

GraphRAG利用图神经网络(GNN)的结果中的图嵌入来增强文本嵌入,以提高用户查询响应推理的能力。这种方法被称为软提示(Soft-prompting),是一种提示技术。此外,GraphRAG还被用于训练LLMs在不直接提供数据的情况下,通过图基数据表示进行学习,这使得模型能够访问大量的结构化知识。

如何执行 RAG?

要实现用于问答的 Graph RAG,您需要选择可以将哪些信息发送给 LLM。这通常是通过根据用户问题的意图查询数据库来完成的。为此目的最合适的数据库是向量数据库,它通过嵌入捕获连续向量空间中的潜在语义、句法结构和项目之间的关系。丰富的提示包含用户问题以及预先选择的附加信息,因此生成的答案会将其考虑在内。

一个简单的 Graph RAG 可以如下去简单实现:

  1. 使用 LLM(或其他)模型从问题中提取关键实体
  2. 根据这些实体检索子图,深入到一定的深度
  3. 利用获得的上下文利用 LLM 产生答案。

例如 LlamaIndex 这样的 LLM 编排工具,开发者可以专注于 LLM 的编排逻辑和 pipeline 设计,而不用亲自处理很多细节的抽象与实现。

所以,用 LlamaIndex,我们可以轻松搭建 Graph RAG,甚至整合更复杂的 RAG 逻辑,比如 Graph + Vector RAG。

尽管基本实施很简单,但您需要考虑一系列挑战和注意事项,以确保结果的良好质量:

  • 数据质量和相关性对于 Graph RAG 的有效性至关重要,因此应该考虑如何获取最相关的内容来发送 LLM 以及发送多少内容等问题。
  • 处理动态知识通常很困难,因为需要不断用新数据更新向量索引。根据数据的大小,这可能会带来进一步的挑战,例如系统的效率和可扩展性。
  • 生成结果的透明度对于使系统值得信赖和可用非常重要。有一些快速工程技术可以用来刺激LLM解释答案中包含的信息的来源。

Graph RAG 的不同种类

Graph RAG 是对流行的 RAG 方法的增强。 Graph RAG 包括一个图形数据库,作为发送到 LLM 的上下文信息的来源。向LLM提供从较大尺寸文档中提取的文本块可能会缺乏必要的上下文、事实正确性和语言准确性,而LLM无法深入理解收到的文本块。与向 LLM 发送纯文本文档块不同,Graph RAG 还可以向 LLM 提供结构化实体信息,将实体文本描述与其许多属性和关系相结合,从而鼓励 LLM 产生更深入的见解。借助 Graph RAG,矢量数据库中的每条记录都可以具有丰富的上下文表示,从而提高特定术语的可理解性,因此 LLM 可以更好地理解特定主题领域。Graph RAG 可以与标准 RAG 方法结合起来,以获得两全其美的效果——图表示的结构和准确性与大量文本内容相结合。

我们可以根据问题的性质、现有知识图中的领域和信息总结Graph RAG 的几种变体:

  • 图形作为内容存储:提取相关的文档块并要求 LLM 使用它们来回答。这种多样性需要一个包含相关文本内容和元数据的知识图谱,并与矢量数据库集成。
  • 作为主题专家的图表实体链:提取与自然语言(NL)问题相关的概念和实体的描述,并将其作为附加的“语义上下文”传递给LLM。理想情况下,描述应包括概念之间的关系。这种多样性需要具有全面概念模型的知识图谱,包括相关本体、分类法或其他实体描述。实现需要或其他机制来识别与问题相关的概念。
  • 图形作为数据库:将 NL 问题(部分)映射到图形查询,执行查询并要求 LLM 总结结果。这种多样性需要一个包含相关事实信息的图表。这种模式的实现需要某种 NL 到图查询工具和实体链接。

总结

GraphRAG(Graph Retrieval-Augmented Generation)是一种结合了图数据库和检索增强生成技术的先进方法,它在多种应用场景中展现出了其独特的价值和潜力。通过结合图数据库的强大表示能力和大语言模型的理解能力,随着技术的进一步发展,GraphRAG的应用场景将会更加广泛和深入

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/406575.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【蓝桥杯集训100题】scratch游泳时长 蓝桥杯scratch比赛专项预测编程题 集训模拟练习题第27题

目录 scratch游泳时长 一、题目要求 编程实现 二、案例分析 1、角色分析 2、背景分析 3、前期准备 三、解题思路 1、思路分析 2、详细过程 四、程序编写 五、考点分析 六、推荐资料 1、入门基础 2、蓝桥杯比赛 3、考级资料 4、视频课程 5、python资料 scratc…

《黑神话.悟空》与人工智能AI重塑经典与探索未来的交织

"近期我偶然邂逅了一个极为出色的人工智能学习平台,它不仅内容深入浅出,讲解方式还风趣幽默,让人学习起来既轻松又高效。如此宝藏资源,我迫不及待想要与各位共享。即刻点击让我们一起进入这个精彩纷呈的学习网站吧&#xff0…

[java][代码]使用java在mongodb上传下载文件

建立java项目新建lib包&#xff0c;导入jar包 3.链接mongdo数据库代码 /** * 1.获取连接 * 2.上传文件 * 3.下载文件 * 4.删除文件 * */ public static GridFS GetMongoGridFS(){ List<ServerAddress> adds new ArrayList<>(); ServerAddress serverAddress new…

Python | Leetcode Python题解之第352题将数据流变为多个不想交区间

题目&#xff1a; 题解&#xff1a; from sortedcontainers import SortedDictclass SummaryRanges:def __init__(self):self.intervals SortedDict()def addNum(self, val: int) -> None:intervals_ self.intervalskeys_ self.intervals.keys()values_ self.intervals…

C# SolidWorks 二次开发-103.模拟库拖拽

最近躺平状态&#xff0c;所有没有更新。 为了搜索量再高一点&#xff0c;我决定让排名上升一个名次&#xff0c;今天来写一篇关于如何假装自己有个库。 如上图&#xff0c;进行一个拖拽示例&#xff0c;从自己的窗体中将文件带入solidworks中打开 或者 装配动作。与手动从文…

多商户平台后台上传不了文件

错误&#xff0c;点击上传没反应&#xff0c;也无错误提示 解决方法&#xff1a; 检查商城域名配置&#xff0c;http 和 https&#xff0c;与访问的http或https是否一致&#xff1b;

iOS App上架审核被拒——2.3.3 - Performance - Accurate Metadata

iOS上架审核被拒——Guideline 2.3.3 - Performance - Accurate Metadata 噢&#xff0c;又被拒了… 文章目录 iOS上架审核被拒——Guideline 2.3.3 - Performance - Accurate Metadata被拒原因解决 被拒原因 大概翻译了下&#xff1a;预览图问题&#xff0c;只因某张预览图加了…

UDP服务端、TCP的c/s模式

一、UDP服务端 socket bind //绑定 recvfrom ssize_t recvfrom(int sockfd, socket的fd void *buf, 保存数据的一块空间的地址 …

C语言 | Leetcode C语言题解之第350题两个数组的交集II

题目&#xff1a; 题解&#xff1a; int cmp(const void* _a, const void* _b) {int *a _a, *b (int*)_b;return *a *b ? 0 : *a > *b ? 1 : -1; }int* intersect(int* nums1, int nums1Size, int* nums2, int nums2Size,int* returnSize) {qsort(nums1, nums1Size, s…

8.16-ansible的应用

ansible ansible是基于模块工作的&#xff0c;本身没有批量部署的能力。真正具有批量部署的是ansible所运行的模块&#xff0c;ansible只是提供一种框架。 格式 ansible 主机ip|域名|组名|别名 -m ping|copy|... 参数 1.ping模块 m0 # 查看有没有安装epel ​ [rootm0 ~]#…

[000-01-022].第06节:RabbitMQ中的交换机介绍

1.什么是Exchanges(交换机&#xff09;: 1.RabbitMQ 消息传递模型的核心思想是: 生产者生产的消息从不会直接发送到队列。实际上&#xff0c;通常生产者甚至都不知道这些消息传递传递到了哪些队列中2.生产者只能将消息发送到交换机(exchange)&#xff0c;交换机工作的内容非常…

【Qt】输入类控件QTextEdit

目录 输入类控件QTextEdit 例子&#xff1a;获取多行输入框的内容 例子&#xff1a;验证输入框的各种信号 输入类控件QTextEdit QTextEdit表示多行输入框&#xff0c;也是一个富文本&markdown编辑器。 并且能在内容超出编辑框范围时自动提供滚动条 在Qt中&#xff0c;有俩…

arcgis打开不同tif格式编码的栅格数据

1、如下图&#xff0c;将文件包包解压打开&#xff0c;看到【2020年GDP数据】。 2、点击进入【2020年GDP数据】文件夹如下图所示。接着去打开arcgis软件。 3、按照步骤来&#xff0c;在arcgis【目录】里面添加【文件夹】然后选中你刚刚解压的【GDP文件夹数据】&#xff0c;最…

QT-贪吃蛇小游戏

QT-贪吃蛇小游戏 一、演示效果二、核心代码三、下载链接 一、演示效果 二、核心代码 #include "Food.h" #include <QTime> #include <time.h> #include "Snake.h"Food::Food(int foodSize):foodSize(foodSize) {coordinate.x -1;coordinate.…

安防监控EasyCVR视频监控汇聚管理平台登录1分钟之后自动退出是什么原因?

EasyCVR视频监控汇聚管理平台是一款针对大中型项目设计的跨区域网络化视频监控集中管理平台。该平台不仅具备视频资源管理、设备管理、用户管理、网络管理和安全管理等功能&#xff0c;还支持多种主流标准协议&#xff0c;如GB28181、RTSP/Onvif、RTMP、部标JT808、GA/T 1400协…

IIS发布打包后文件

1.打开IIS软件 2 添加网站&#xff0c; 自定义网站名称-选择要放置的资源路径-选择IP地址 3.打开放置的资源目录放置打包后文件 4.选择浏览 搜索不到IIS可进行一下操作 控制面板-程序和功能-启用或关闭windows功能-勾选IIS

PythonStudio 控件使用常用方式(二十七)TActionList

PythonStudio是一个极强的开发Python的IDE工具&#xff0c;官网地址是&#xff1a;https://glsite.com/ &#xff0c;在官网可以下载最新版的PythonStudio&#xff0c;同时&#xff0c;在使用PythonStudio时&#xff0c;它也能及时为用户升到最新版本。它使用的是Delphi的控件&…

ctfshow WEB刷题

web1 直接右键打开&#xff0c;在源代码里 web2 ctrlu查看源码 web3 打开bp抓包发送直接就得到了 web4 用dirsearch扫描发现txt文件 访问 接着访问得到flag web5 用dirbuster扫描看看有没有phps源码泄露&#xff0c;发现存在 访问下载文件打开就是flag web6 用dirsearch扫…

火爆国内外的《黑神话:悟空》,需要什么显卡才能玩?

一路西行&#xff0c;大圣归来&#xff01; 8月20日&#xff0c;国产游戏《黑神话&#xff1a;悟空》上午10时正式上线。这款游戏在Steam平台的同时在线玩家突破了114万&#xff0c;超越《CS2》登顶Steam热玩榜。 仅单日实际在线人数就超过了210万 &#xff0c;超过《幻兽帕鲁…

第2章 C语言基础知识

第2章 C语言基础知识 1.printf()函数 在控制台输出数据&#xff0c;需要使用输出函数&#xff0c;C语言常用的输出函数为printf()。 printf()函数为格式化输出函数&#xff0c;其功能是按照用户指定的格式将数据输出到屏幕上。 printf(“格式控制字符串”,[输出列表]); 格式控…