通过符号程序搜索提升prompt工程

原文地址:supercharging-prompt-engineering-via-symbolic-program-search

通过自动探索​​大量提示变体来找到更好的提示

2024 年 4 月 22 日

众所周知,LLMs的成功在很大程度上仍然取决于我们用正确的指导和例子来提示他们的能力。随着新一代LLMs变得越来越强大,提示已经变得足够复杂,足以被视为课程本身。这些提示程序很像菜谱——都有一套遵循和转换原材料的指令,无论是数据还是成分。

因此,提示工程类似于改进配方。家庭厨师通常会坚持整体食谱,但会做出一些小改变—例如在面食中省略大蒜或添加欧芹。像DSPy这样的框架在优化上下文示例时遵循这个整体范例。然而,专业级厨师以食谱为灵感,经常完全重新诠释菜肴的成分。例如,他们可能将面食中的意大利面视为淀粉成分,并可能将其替换为新鲜制作的面疙瘩以获得类似的成分。

是什么让专业级厨师能够如此富有创意地工作?他们以抽象的方式思考食谱,就像上面的意大利面例子一样。手动提示工程类似于专业级烹饪。它可以获得令人印象深刻的结果,但需要大量的时间和知识。我们真正想要的是手动提示工程的创造力,但又不需要付出努力。

抽象提示的力量

假设我们想改进一个用于标注说话人回答的提示。我们最终会用许多不同的输入来运行它,但现在先插入一个具体的输入:

Instructions: Does Speaker 2's answer mean yes or no?
Output labels: no, yes
Input: Speaker 1: "You do this often?" Speaker 2: "It's my first time."
Output:

暂且假设我们有一个抽象的提示表示法,它可以抽出不同的组成部分,并且易于操作。也许可以这样:

5

有了它,你就可以自动完成在及时原型开发过程中必须进行的大量(半)手工修补工作。进行诸如转述之类的小编辑只是一个开始。想试试思维链推理吗?添加一段 “让我们逐步思考”。将数据格式改为 JSON 格式如何?只需更改 InputData 参数的 formatattribute 即可。你还可以探索:

  • 从单一示例到批量注释
  • 在 RAG 场景中更改检索器和排序功能
  • 重新排列某些段落的顺序
  • 压缩说明的某些部分
  • ETC

从本质上讲,你可以输入你最喜欢的提示工程启发式。这种抽象的提示表示法让我们能够真正发挥创意,自动探索大量可能的提示。

将提示转化为抽象程序

要表示抽象提示符,我们首先要将其转换为非符号提示符程序,将其分解为单独的组件,以 Python 类的形式实现:

class Component:def __init__(self, **kwargs): pass
class Metaprompt(Component): pass
class Paragraph(Component): pass
class InputData(Component): passprompt = Metaprompt(children=[Paragraph(text="Instructions: "),Paragraph(id="instructions",text="Does Speaker 2's answer mean yes or no?",),Paragraph(id="labels", text="Output labels: yes, no"),InputData(),Paragraph(text="Output: "),]
)

到目前为止,一切顺利。这与 DSpy 所做的工作类似,但更为通用,因为我们还表示了提示符的内部结构。

接下来,我们要把它变成一个符号提示程序,这样就可以进行任意修改(这也超出了静态 DSPy 程序的范围)。pyGlove 将 Python 类转化为可操作的符号对象,其属性在实例化后仍可完全编辑。

有了 pyGlove,我们只需添加 pg.symbolize 装饰器即可:

import pyglove as pg
@pg.symbolize
class Component:def __init__(self, **kwargs): pass

现在,我们可以通过大量的说明符来查询和修改提示程序,就像使用 DOM 树一样。比方说,我们想把上面的程序转化为下面的程序:

6

请注意,我们现在问的是 "回答是否表示是?",而不是提供 "是 "和 "否 "的输出标签。为此,我们需要 (i) 更改指令文本,(ii) 删除第三个节点。有了 pyGlove,这就很容易了:

prompt.rebind({'children[1].text': 'Does the response mean yes?'})'children[1].text': 'Does the response mean yes?'})
prompt.rebind({'children[2]': pg.MISSING_VALUE})
print(prompt)

打印输出确认我们成功了:

Metaprompt(children = [0 : Paragraph(text = 'Instructions: '),1 : Paragraph(id = 'instructions',text = 'Does the response mean yes?'),2 : InputData(),3 : Paragraph(text = 'Output: ')]
)

就是这样!从根本上说,pyGlove 给了我们一种处理 Python 类(和函数)的方法,就像处理源代码一样,而且开销很小。现在,我们有了灵活且易于操作的表示法,让我们来使用它们吧。

等一下。我们现在可能有了表示和修改提示的方法,但还缺少一个自动优化提示的过程。

一旦厨师们了解了菜谱的抽象概念和组成部分,他们就会尝试多种变体,改进口味、成本或表现形式,直到感觉合适为止。要对提示抽象进行同样的处理,我们需要一种搜索算法、一个目标以及一组标注样本,这样才能知道我们是否取得了进展。

使用 SAMMO 调整指令

为了说明 SAMMO 的核心工作流程,我们现在将展示如何调整上面提示示例中的指令部分。一旦我们完成了这个玩具示例,我们就可以讨论更高级的应用,如 RAG 优化或压缩。

关键步骤如下:

  1. 确定起始提示
  2. 准备好数据--几百个带标签的示例就足够了。
  3. 确定目标
  4. 选择一组突变体
  5. 运行优化

步骤 1:定义开始提示

这一步我们在上文已经做得差不多了。SAMMO 期望使用一个函数,因此我们必须将其封装为一个函数。如果你想存储额外的信息,可以用 Callable 代替。我们还将把它封装在一个输出组件中以运行它。

def starting_prompt():instructions = MetaPrompt(Paragraph(text="Instructions: "),Paragraph(id="instructions",text="Does Speaker 2's answer mean yes or no?",),Paragraph(id="labels", text="Output labels: yes, no"),InputData(),Paragraph(text="Output: "),)return Output(instructions.with_extractor())

步骤 2:准备好数据

SAMMO 使用名为 DataTable 的简单数据结构将输入与输出(标签)配对。这将有助于我们进行评估和记账。

mydata = DataTable.from_records(records, # list of {"input": <>, "output": <>}# list of {"input": <>, "output": <>}constants={"instructions": default_instructions}, 
)

步骤 3:确定目标

我们感兴趣的是优化精确度,因此这就是我们下面要实现的目标:

def accuracy(y_true: DataTable, y_pred: DataTable) -> EvaluationScore:y_true = y_true.outputs.normalized_values()y_pred = y_pred.outputs.normalized_values()n_correct = sum([y_p == y_t for y_p, y_t in zip(y_pred, y_true)])return EvaluationScore(n_correct / len(y_true))

步骤 4:选择一组突变体

在这里,你可以尽情发挥自己的创造力。你可以实现自己的运算符来生成新的提示变体,也可以简单地依赖 SAMMO 提供的预置变异运算符。

在下文中,我们将采用后者,从一些标注的示例中混合使用转述和诱导指令,基本上实现了自动提示工程(APE)。

mutation_operators = BagOfMutators(starting_prompt=StartingPrompt(d_train),InduceInstructions({"id": "instructions"}, d_train),"id": "instructions"}, d_train),Paraphrase({"id": "instructions"}),
)

步骤 5:运行优化

runner = OpenAIChat(model_id="gpt-3.5-turbo-16k","gpt-3.5-turbo-16k",api_config={"api_key": YOUR_KEY},cache="cache.tsv",
)
prompt_optimizer = BeamSearch(runner, mutation_operators, accuracy, depth=6)
transformed = prompt_optimizer.fit_transform(d_train)

介绍性提示示例实际上取自 BigBench 含义任务,我们将用它来运行本实验。如果使用 100 个样本进行训练和测试,并以 48 个候选评估为预算进行优化,你会发现 SAMMO 将起始提示的准确率从 0.56 提高到了 0.77 - 提高了 37.5%。哪些指令效果最好?

...
Paragraph("Consider the dialogue, context, and background ""Consider the dialogue, context, and background ""information provided to determine the most suitable output label",id="instructions",
)
...

有趣的是,不同的 LLM 喜欢的指令大相径庭。如上所述,GPT-3.5 最喜欢通用指示。在相同的训练和预算设置下,SAMMO 选择的 Llama-2 最佳提示在指令部分使用了空字符串:

...
Paragraph("","",id="instructions",
)
...

实际操作: RAG 调整

现在,我们将展示如何将 RAG 管道转换为符号程序,并使用 SAMMO 对其进行调整。我们将使用语义解析作为应用任务,将用户查询转化为特定领域语言 (DSL) 结构,例如,查询某些数据库或调用外部 API。

为了创建起始提示,我们列出了所有运算符的列表,使用基于嵌入的检索器获取五个少量示例,然后指示 LLM 以与示例相同的格式输出答案。

class RagStartingPrompt:def __init__(self, dtrain, examples, embedding_runner):self._examples = examplesself._dtrain = dtrainself._embedding_runner = embedding_runnerdef __call__(self, return_raw=False):structure = [Section("Syntax", self._dtrain.constants["list_of_operators"]),Section("Examples",EmbeddingFewshotExamples(self._embedding_runner, self._examples, 5),),Section("Complete and output in the same format as above",InputData(),),]instructions = MetaPrompt(structure,render_as="markdown",data_formatter=JSONDataFormatter(),)  return Output(instructions.with_extractor(),on_error="empty_result",)

现在我们有了一个符号程序,让我们发挥创意吧。对于突变,我们探索:

  • 不同数量的少量示例
  • 少量示例的不同格式(XML、JSON、逐行格式
  • 是否提供有关 DSL 的附加信息
  • 显示输入输出对或输入输出组

使用这些示例和总共 24 个候选示例运行 SAMMO,我们可以看到一个明显的趋势。以下是四个不同 LLM 的三个不同数据集的测试集准确率。在绝大多数情况下,我们可以看到 SAMMO 可以大幅提升性能,即使是性能最高的 LLM 也不例外。

7

结论

将提示语转换为符号程序是一个非常强大的想法,可以探索可能的提示语和设置的巨大设计空间。就像专业厨师通过解构和重新诠释食谱来进行烹饪创新一样,符号编程也能让我们在自动提示工程中发挥同样的创造力和实验精神。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/318807.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序demo-----制作文章专栏

前言&#xff1a;不管我们要做什么种类的小程序都涉及到宣传或者扩展其他业务&#xff0c;我们就可以制作一个文章专栏的页面&#xff0c;实现点击一个专栏跳转到相应的页面&#xff0c;页面可以有科普类的知识或者其他&#xff0c;然后页面下方可以自由发挥&#xff0c;添加联…

【Android学习】简易计算器的实现

1.项目基础目录 新增dimens.xml 用于控制全部按钮的尺寸。图片资源放在drawable中。 另外 themes.xml中原来的 <style name"Theme.Learn" parent"Theme.MaterialComponents.DayNight.DarkActionBar">变为了&#xff0c;加上后可针对button中增加图片…

禄得可转债自定义因子交易系统,年化40%,最大回撤15%

经过2个月的研究&#xff0c;和大佬们讨论轮动算法&#xff0c;选股算法&#xff0c;终于完成了可转债自定义因子轮动系统&#xff0c;非常感谢禄得老师的数据 文件链接 禄得可转债自定义因子交易系统&#xff0c;年化40%,最大回撤15% (qq.com) 网页 https://lude.cc/ 程序支…

【云原生】Docker 实践(四):使用 Dockerfile 文件的综合案例

【Docker 实践】系列共包含以下几篇文章&#xff1a; Docker 实践&#xff08;一&#xff09;&#xff1a;在 Docker 中部署第一个应用Docker 实践&#xff08;二&#xff09;&#xff1a;什么是 Docker 的镜像Docker 实践&#xff08;三&#xff09;&#xff1a;使用 Dockerf…

【简单介绍下Faiss原理和使用】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

Xamarin.Android项目使用ConstraintLayout约束布局

Xamarin.AndroidX.ConstraintLayout Xamarin.Android.Support.Constraint.Layout Xamarin.AndroidX.ConstraintLayout.Solver Xamarin.AndroidX.DataBinding.ViewBinding Xamarin.AndroidX.Legacy.Support.Core.UI Xamarin.AndroidX.Lifecycle.LiveData ![在这里插入图片描述]…

封装umi-request时通过 AbortController 配置取消请求

一、关键部分 一、在封装的request.ts中 声明一个 abortControllers 对象用于存储要取消的请求&#xff08;我用了-s表示复数&#xff0c;多个abortcontroller对象&#xff0c;与下面&#x1f447;的单个abortController区分&#xff09;封装取消请求的函数cancelRequest, 传入…

机器学习:深入解析SVM的核心概念【一、间隔与支持向量】

直接阅读原始论文可能有点难和复杂&#xff0c;所以导师直接推荐我阅读周志华的《西瓜书》&#xff01;&#xff01;然后仔细阅读其中的第六章&#xff1a;支持向量机 间隔与支持向量 **问题一&#xff1a;什么叫法向量&#xff1f;为什么是叫法向量**什么是法向量&#xff1f;…

.NET操作 Access (MSAccess)

注意&#xff1a;新项目推荐 Sqlite &#xff0c;Access需要注意的东西太多了&#xff0c;比如OFFICE版本&#xff0c;是X86还是X64 连接字符串 ProviderMicrosoft.ACE.OleDB.15.0;Data Source"GetCurrentProjectPath"\\test.accdb//不同的office版本 连接字符串有…

【Transformer系列(4)】基于vision transformer(ViT)实现猫狗二分类项目实战

文章目录 一、vision transformer&#xff08;ViT&#xff09;结构解释二、Patch Embedding部分2.1 图像Patch化2.2 cls token2.3 位置编码&#xff08;positional embedding&#xff09; 三、Transformer Encoder部分(1) Multi-head Self-Attention(2) encoder block 四、head…

小程序账号设置以及request请求的封装

一般开发在小程序时&#xff0c;都会有测试版和正式版&#xff0c;这样在开发时会比较方便。 在开发时。产品经理都会给到测试账号和正式账号&#xff0c;后端给的接口也都会有测试环境用到的接口和正式环境用到的接口。 这里讲一讲我这边如何去做的。 1.在更目录随便命名一…

langchain+qwen1.5-7b-chat搭建本地RAG系统

概念 检索增强生成(Retrieval Augmented Generation, RAG)是一种结合语言模型和信息检索的技术,用于生成更准确且与上下文相关的输出。 通用模型遇到的问题,也是RAG所擅长的: 知识的局限性: RAG 通过从知识库、数据库、企业内部数据等外部数据源中检索相关信息,将其注…

物联网实战--平台篇之(二)基础搭建

目录 一、Qt工程创建 二、数据库知识 三、通信协议 四、名词定义 本项目的交流QQ群:701889554 物联网实战--入门篇https://blog.csdn.net/ypp240124016/category_12609773.html 物联网实战--驱动篇https://blog.csdn.net/ypp240124016/category_12631333.html 一、Qt工程…

nginx--压缩https证书favicon.iconginx隐藏版本号 去掉nginxopenSSL

压缩功能 简介 Nginx⽀持对指定类型的⽂件进行压缩然后再传输给客户端&#xff0c;而且压缩还可以设置压缩比例&#xff0c;压缩后的文件大小将比源文件显著变小&#xff0c;这样有助于降低出口带宽的利用率&#xff0c;降低企业的IT支出&#xff0c;不过会占用相应的CPU资源…

VTK —— 二、教程六 - 为模型加入3D微件(按下i键隐藏或显示)(附完整源码)

代码效果 本代码编译运行均在如下链接文章生成的库执行成功&#xff0c;若无VTK库则请先参考如下链接编译vtk源码&#xff1a; VTK —— 一、Windows10下编译VTK源码&#xff0c;并用Vs2017代码测试&#xff08;附编译流程、附编译好的库、vtk测试源码&#xff09; 教程描述 本…

运维笔记:基于阿里云跨地域服务器通信(上)

运维笔记 阿里云&#xff1a;跨地域服务器通信&#xff08;上&#xff09; - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this a…

算法打卡day40

今日任务&#xff1a; 1&#xff09;139.单词拆分 2&#xff09;多重背包理论基础&#xff08;卡码网56携带矿石资源&#xff09; 3&#xff09;背包问题总结 4&#xff09;复习day15 139单词拆分 题目链接&#xff1a;139. 单词拆分 - 力扣&#xff08;LeetCode&#xff09; …

【Node.js工程师养成计划】之express框架

一、Express 官网&#xff1a;http://www.expressjs.com.cn express 是一个基于内置核心 http 模块的&#xff0c;一个第三方的包&#xff0c;专注于 web 服务器的构建。 Express 是一个简洁而灵活的 node.js Web应用框架, 提供了一系列强大特性帮助你创建各种 Web 应用&…

网络安全知识点

网络安全 1&#xff0e; 网络安全的定义&#xff0c;网络安全的属性。 定义&#xff1a;针对各种网络安全威胁研究其安全策略和机制&#xff0c;通过防护、检测和响应&#xff0c;确保网络系统及数据的安全性。 属性&#xff1a;机密性 认证&#xff08;可鉴别性&#xff09…

【Leetcode每日一题】 分治 - 排序数组(难度⭐⭐)(69)

1. 题目解析 题目链接&#xff1a;912. 排序数组 这个问题的理解其实相当简单&#xff0c;只需看一下示例&#xff0c;基本就能明白其含义了。 2.算法原理 归并排序&#xff08;Merge Sort&#xff09;是一种采用“分而治之”&#xff08;Divide and Conquer&#xff09;策略…