GraphRAG: Auto Prompt Tuning 实践

GraphRAG 的 Auto Prompt Tuning 功能是一个强大的工具,用于优化知识图谱的生成过程。以下是对该功能的详细介绍和分析:

自动提示调优(Auto Prompt Tuning)

1. 概念

GraphRAG 的自动提示调优功能旨在为特定领域的知识图谱生成创建适应性提示。这一过程通过加载输入数据,将其分割成多个文本单元(块),然后运行一系列大型语言模型(LLM)调用和模板替换,生成最终的提示。这些提示能够更好地适应特定领域的数据,从而提高生成模型的表现。

2. 先决条件

在运行自动提示调优之前,需要确保已经使用 graphrag init 命令初始化工作空间。这将创建必要的配置文件和默认提示。具体步骤如下:

sh复制

graphrag init
3. 使用方法

可以通过命令行运行主脚本,并提供多种选项来执行自动提示调优。命令行的基本格式如下:

sh复制

graphrag prompt-tune [--root ROOT] [--config CONFIG] [--domain DOMAIN]  [--selection-method METHOD] [--limit LIMIT] [--language LANGUAGE] \
[--max-tokens MAX_TOKENS] [--chunk-size CHUNK_SIZE] [--n-subset-max N_SUBSET_MAX] [--k K] \
[--min-examples-required MIN_EXAMPLES_REQUIRED] [--discover-entity-types] [--output OUTPUT]
4. 命令行选项
  • --config (必需): 配置文件的路径,用于加载数据和模型设置。

  • --root (可选): 数据项目根目录,包括配置文件(YML、JSON或.env)。默认为当前目录。

  • --domain (可选): 与输入数据相关的领域,如“太空科学”、“微生物学”或“环境新闻”。如果留空,将从输入数据中推断领域。

  • --method (可选): 选择文档的方法,选项有 allrandomautotop。默认为 random

  • --limit (可选): 使用 randomtop 选择时加载的文本单元数量。默认为15。

  • --language (可选): 用于输入处理的语言。如果与输入语言不同,LLM将进行翻译。默认为"",表示将自动从输入中检测语言。

  • --max-tokens (可选): 生成提示时的最大标记数。默认为2000。

  • --chunk-size (可选): 用于从输入文档生成文本单元的标记大小。默认为200。

  • --n-subset-max (可选): 使用 auto 选择方法时嵌入的文本块数量。默认为300。

  • --k (可选): 使用 auto 选择方法时选择的文档数量。默认为15。

  • --min-examples-required (可选): 实体提取提示所需的最小示例数量。默认为2。

  • --discover-entity-types (可选): 允许LLM自动发现和提取实体。当数据涵盖多个主题或高度随机化时,建议使用此选项。

  • --output (可选): 保存生成提示的文件夹。默认为"prompts"。

5. 示例用法

以下是一个完整的示例命令,展示了如何使用自动提示调优功能:

sh复制

python -m graphrag prompt-tune --root /path/to/project --config /path/to/settings.yaml --domain "environmental news" \
--method random --limit 10 --language English --max-tokens 2048 --chunk-size 256 --min-examples-required 3 \
--no-entity-types --output /path/to/output

或者,使用最小配置(建议):

sh复制

python -m graphrag prompt-tune --root /path/to/project --config /path/to/settings.yaml --no-entity-types
6. 文档选择方法

自动提示调优功能会读取输入数据,然后将其划分为指定大小的文本单元。接下来,它会使用以下选择方法之一来挑选样本用于提示生成:

  • random: 随机选择文本单元。这是默认且推荐的选项。

  • top: 选择前n个文本单元。

  • all: 使用所有文本单元进行生成。仅在数据集较小时使用,通常不推荐此选项。

  • auto: 在较低维空间中嵌入文本单元,并选择k个最近邻居。这在处理大型数据集时非常有用,可以选择一个具有代表性的样本。

7. 修改环境变量

运行自动提示调优后,需要修改以下环境变量(或配置变量),以便在索引运行时使用新的提示。请确保更新生成提示的正确路径,以下示例使用默认的"prompts"路径:

sh复制

GRAPHRAG_ENTITY_EXTRACTION_PROMPT_FILE = "prompts/entity_extraction.txt"
GRAPHRAG_COMMUNITY_REPORT_PROMPT_FILE = "prompts/community_report.txt"
GRAPHRAG_SUMMARIZE_DESCRIPTIONS_PROMPT_FILE = "prompts/summarize_descriptions.txt"

或者在yaml配置文件中:

yaml复制

entity_extraction:prompt: "prompts/entity_extraction.txt"summarize_descriptions:prompt: "prompts/summarize_descriptions.txt"community_reports:prompt: "prompts/community_report.txt"

应用场景

自动提示调优功能在多种应用场景中都非常有用,例如:

  • 学术论文分析:提取论文中的作者、出版日期、方法论、技术等实体。

  • 新闻报道处理:提取新闻中的事件、人物、地点等实体。

  • 医疗数据处理:提取病历中的症状、诊断、治疗等实体。

手动提示调优

虽然自动提示调优功能非常强大,但在某些情况下,可能需要手动调整提示以更好地适应特定需求。手动提示调优的步骤如下:

  1. 明确任务目标:确定需要从文本中识别的实体类型及其关系。

  2. 设计Prompt结构:编写包含任务目标、步骤、实体类型列表、示例等部分的Prompt。

  3. 借助AI助手生成示例:使用ChatGPT等AI助手生成示例,帮助定义实体类型和关系。

  4. 微调Prompt并测试:根据生成的示例和实际需求,对Prompt进行微调,并通过实际测试验证其效果。

  5. 应用于实际场景:将调整好的Prompt应用于实际场景,如学术论文分析、新闻报道处理等。

结论

GraphRAG 的自动提示调优功能是一个强大的工具,能够通过创建特定于领域的提示来提升知识图谱生成的效果。通过合理配置命令行选项和选择合适的文档选择方法,用户能够有效地生成高质量的提示,从而在后续的索引运行中获得更优的结果。同时,手动提示调优提供了更灵活的方式,可以进一步优化提示,以更好地适应特定需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4325.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【设计模式】 单例模式(单例模式哪几种实现,如何保证线程安全,反射破坏单例模式)

单例模式 作用:单例模式的核心是保证一个类只有一个实例,并且提供一个访问实例的全局访问点。 实现方式优缺点饿汉式线程安全,调用效率高 ,但是不能延迟加载懒汉式线程安全,调用效率不高,能延迟加载双重检…

IJCAI-2024 | 具身导航的花样Prompts!VLN-MP:利用多模态Prompts增强视觉语言导航能力

作者: Haodong Hong1,2 , Sen Wang1∗ , Zi Huang1 , Qi Wu3 and Jiajun Liu2,1 单位:昆士兰大学,澳大利亚科学与工业研究组织,阿德莱德大学 论文标题:Why Only Text: Empowering Vision-and-Language Navigation wi…

【蓝桥杯选拔赛真题62】C++求和 第十四届蓝桥杯青少年创意编程大赛 算法思维 C++编程选拔赛真题解

目录 C++求和 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、运行结果 五、考点分析 七、推荐资料 C++求和 第十四届蓝桥杯青少年创意编程大赛C++选拔赛真题 一、题目要求 1、编程实现 给定一个正整数N(1<N<10^6),求出N左右相邻两个…

智能创造的幕后推手:AIGC浪潮下看AI训练师如何塑造智能未来

文章目录 一、AIGC时代的算法与模型训练概览二、算法与模型训练的关键环节三、AI训练师的角色与职责四、AI训练师的专业技能与素养五、AIGC算法与模型训练的未来展望《AI训练师手册&#xff1a;算法与模型训练从入门到精通》亮点内容简介作者简介谷建阳 目录 《AI智能化办公&am…

Cloud Foundry,K8S,Mesos Marathon弹性扩缩容特性对比

一、Cloud Foundry 使用Scaling an Application Using App Autoscaler插件&#xff0c;基于资源使用情况触发简单扩缩容 CPU、内存、Http带宽、延时等 监控这些资源的使用情况决定扩缩容策略&#xff1a;实例是增加还是减少 Instance Limits 限制实例数量范围&#xff0c;定义…

ComfyUI 矩阵测试指南:用三种方法,速优项目效果

在ComfyUI中&#xff0c;矩阵测试也叫xyz图表测试&#xff0c;作用是通过控制变量的方式来对Lora模型以及各种参数开展测试&#xff0c;并进行有效区分。其中测试方法有很多种&#xff0c;可以通过借助插件也可以自行搭建工作流实现&#xff0c;下面介绍3种方式&#xff1a; 1…

什么宠物最好养?

在忙碌的生活中&#xff0c;想要拥有一份陪伴&#xff0c;却又担心没时间打理&#xff1f;别怕&#xff0c;今天就来给大家揭秘&#xff0c;什么宠物最好养&#xff0c;让你轻松开启养宠生活&#xff0c;即使再忙也能享受毛孩子带来的快乐&#xff01; 一、仓鼠&#xff1a;萌…

mfc操作json示例

首先下载cJSON,加入项目; 构建工程,如果出现, fatal error C1010: unexpected end of file while looking for precompiled head 在cJSON.c文件的头部加入#include "stdafx.h"; 看情况,可能是加到.h或者是.cpp文件的头部,它如果有包含头文件, #include &…

将IDLE里面python环境pyqt5配置的vscode

首先安装pyqt5全套&#xff1a;pip install pyqt5-tools 打开Vscode&#xff1a; 安装第三方扩展&#xff1a;PYQT Integration 成功配置designer.exe的路径【个人安装pyqt5的执行路径】&#xff0c;便可直接打开UI文件&#xff0c;进行编辑。 配置pyuic,如果下图填写方法使用…

郑州大学2022级大三期末复习总结(数据库,传感器,嵌入式,人工智能,移动终端开发,计算机英语)

本人是郑州大学2022级的一名大三学生&#xff0c;上学期期末苦于没有复习资料硬学了三周&#xff0c;所以想着将脑海里还残留着的各个课程的知识点&#xff0c;考点记录下来。这些资料不能保证你考高分&#xff0c;只能给你提供一些复习的方向和可能高频的知识点。 有些地方的…

基于ESP32+VUE+JAVA+Ngnix的一个小型固件编译系统

一、前提 开发ESP32固件时&#xff0c;使用本地环境输出固件时&#xff0c;存在多个开发多种开发平台的问题。会导致最终输出的固件不统一。更可能因为本地的开发环境差异导致固件无法追溯。 基于上述原因&#xff0c;开发了一个小型的固件编译系统。将该系统部署在一台ubutn…

Spring自定义BeanPostProcessor实现bean的代理Java动态代理知识

上文&#xff1a;https://blog.csdn.net/qq_26437925/article/details/145241149 中大致了解了spring aop的代理的实现&#xff0c;其实就是有个BeanPostProcessor代理了bean对象。顺便复习下java代理相关知识 目录 自定义BeanPostProcessor实现aopJava动态代理知识动态代理的几…

KubeSphere部署安装,接入KubeKey安装的k8s集群

KubeSphere安装接入KubeKey安装的k8s集群 文章目录 KubeSphere安装接入KubeKey安装的k8s集群 一.NFS安装配置1.服务器安装NFS服务2.下载并部署 NFS Subdir External Provisioner1).下载部署文件2).创建 NameSpace3).创建 RBAC 资源4).配置 deployment.yaml5).部署 Storage Clas…

redis性能优化参考——筑梦之路

基准性能测试 redis响应延迟耗时多长判定为慢&#xff1f; 比如机器硬件配置比较差&#xff0c;响应延迟10毫秒&#xff0c;就认为是慢&#xff0c;机器硬件配置比较高&#xff0c;响应延迟0.5毫秒&#xff0c;就认为是慢。这个没有固定的标准&#xff0c;只有了解了你的 Red…

财务RPA就是财务机器人吗?有什么作用

近年来&#xff0c;财务RPA&#xff08;机器人流程自动化&#xff09;逐渐成为财务领域的热门话题。很多人初次听到“财务RPA”时&#xff0c;可能会疑惑&#xff1a;财务RPA是不是财务机器人&#xff1f;它到底能做什么&#xff1f;带着这些问题&#xff0c;我们一起来探讨财务…

RabbitMQ---事务及消息分发

&#xff08;一&#xff09;事务 RabbitMQ是基于AMQP协议实现的&#xff0c;该协议实现了事务机制&#xff0c;所以RabbitMQ也支持事务机制&#xff0c;他的事务允许开发者确保消息的发送和接收时原子性的&#xff0c;要么全部成功&#xff0c;要么全部失败 我们设置事务有三步…

Django简介与虚拟环境安装Django

目录 1.Django简介 1.1 Django 的核心特点 1.2 Django 的核心组件 1.3 Django 的应用场景 1.4 总结 2.基础环境建立 2.1 创建虚拟环境 2.1.1 使用 virtualenv 创建虚拟环境 2.1.2 使用 venv 创建虚拟环境 2.2 激活虚拟环境 2.2.1 在 Windows 上 2.2.2 在 macOS 或 …

计算机毕业设计PySpark+Hadoop+Hive机票预测 飞机票航班数据分析可视化大屏 航班预测系统 机票爬虫 飞机票推荐系统 大数据毕业设计

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…

vue+高德API搭建前端3D交通页面

1. 模板部分 (<template>) <template><div class"content"><div><div id"container"></div></div></div> </template> 功能&#xff1a;定义了组件的HTML结构。分析&#xff1a; div.content 是最…

第十三章:数据库技术

文章目录&#xff1a; 一&#xff1a;基础 1.概念 2.特点 3.常见数据库品牌 4.数据库应⽤系统 4.1 C/S 4.2 B/S 5.数据模型的分类 6.名词解析 7.关系运算 二&#xff1a;Access 1.基础 2.操作 2.1 建立表 2.2 维护表 2.3 创建查询 2.4 创建窗体 2.5 创建报表…