论文阅读:Self-Consistency Improves Chain of Thought Reasoning in Language Models

思维链 prompt 与预训练的大型语言模型相结合,在复杂的推理任务上取得了令人鼓舞的结果。在本文中,作者提出了一种新的解码策略,即自我一致性(self-consistency),以取代思维链 prompt 中使用的 naive 贪婪解码。它首先对不同的推理路径进行抽样,而不是只采取贪婪的推理路径,然后通过对抽样的推理路径进行边际化处理,选择最一致的答案。自我一致性利用了这样一种直觉:一个复杂的推理问题通常会有多种不同的思维方式,从而引导其唯一的正确答案

有点类似于学生时代的考试,第一遍做题得出结果,在第二遍检查时,抛开先前的记忆重新再计算一次,看看两次的结果是否一致,如果不一致说明存在问题,那么就需要重点去思考题目的正确结果。

广泛的实证评估表明,在一系列流行的算术和常识推理基准上,自我一致性以惊人的幅度提高了思维链 prompt 的性能,包括 GSM8K(+17.9%)、SVAMP(+11.0%)、AQuA(+12.2%)、StrategyQA(+6.4%)和 ARC-challenge(+3.9%)。

不同推理路径上的自我一致性

人类的一个突出方面是,人们的思维方式不同。作者很自然地认为,在需要深思熟虑的任务中,很可能有几种方法来解决这个问题,这样的过程可以通过语言模型的解码器的抽样在语言模型中模拟出来。

图 1:自我一致性方法包含三个步骤:(1)使用思维链(CoT)prompt 语言模型;(2)通过从语言模型的解码器中取样来取代 CoT prompt 中的“贪婪解码”,从而产生一个多样化的推理路径集;以及(3)通过在最终答案集中选择最一致的答案来边际化出推理路径并进行汇总。

例如,如图 1 所示,一个模型可以对一个数学问题产生几个貌似合理的回答,而这些回答都得出了相同的正确答案(输出 1 和 3)。由于语言模型不是完美的推理者,模型也可能产生一个不正确的推理路径或在某个推理步骤中犯错(例如在输出 2 中),但这样的解决方案不太可能得出相同的答案。也就是说,假设正确的推理过程,即使它们是多样化的,也往往比不正确的过程在最终答案上有更大的一致性。作者利用这一直觉,提出了以下自我一致性方法。

  1. 首先,用一组人工书写的思维链示例来 prompt 语言模型。
  2. 接着,从语言模型的解码器中抽出一组候选输出,生成一组多样化的候选推理路径。自我一致性与大多数现有的采样算法兼容,包括:
    • temperature 采样。
    • top-k 采样。
    • nucleus(核)采样。
  3. 最后,通过将抽样的推理路径边际化(marginalization)来汇总答案,并在生成的答案中选择最一致的答案。

更详细地说,假设生成的答案 a i a_i ai 来自一个固定的答案集 a i ∈ A a_i \in A aiA。给定一个 prompt 和一个问题,自我一致性引入了一个额外的潜在变量 r i r_i ri,表示第 i 个输出的推理路径的 token 序列,生成推理路径 r i r_i ri 用来生成最终答案 a i a_i ai

问题:为什么需要一个固定的答案集?
回答:因为需要借助自我一致性来汇总最后的答案,相当于集成学习中多个分类器对分类结果的投票,如果答案五花八门则难以投票出结果,所以答案是一个固定的集合,这对于自我一致性的使用范围来说是一个限制。

考虑图 1 中的输出 3:前几句“She eats 3 for breakfast … So she has 9 eggs * $2 = $18.” 构成 r i r_i ri,而最后一句中的答案 18,“The answer is $18” 被解析为 a i a_i ai。在从模型的解码器中抽取多个 ( r i , a i ) (r_i, a_i) (ri,ai) 后,自我一致性通过对 a i a_i ai 进行多数投票,即 a r g m a x a ∑ i = 1 m I ( a i = a ) arg max_a \sum_{i=1}^m I(a_i = a) argmaxai=1mI(ai=a),或如所定义的那样,在最终的答案集中选择最“一致”的答案。

表 1:PaLM-540B 上不同答案汇总策略的准确性比较。

在表 1 中,展示了通过使用不同的答案汇总策略对一组推理任务的测试准确性。除了多数票,还可以在汇总答案时用 P ( r i , a i ∣ p r o m p t , q u e s t i o n ) P(r_i, a_i | prompt, question) P(ri,aiprompt,question) 对每个 ( r i , a i ) (r_i, a_i) (ri,ai) 进行加权。注意,计算 P ( r i , a i ∣ p r o m p t , q u e s t i o n ) P(r_i, a_i | prompt, question) P(ri,aiprompt,question) 时,可以取给定 (prompt, question) 的模型产生 ( r i , a i ) (r_i, a_i) (ri,ai) 的非归一化概率,或者通过输出长度将条件概率归一化(Brown 等人,2020),即:

P ( r i , a i ∣ p r o m p t , q u e s t i o n ) = e x p 1 K ∑ k = 1 K l o g P ( t k ∣ p r o m p t , q u e s t i o n , t 1 , … , t k − 1 ) , (1) P(r_i, a_i | prompt, question) = exp^{\frac{1}{K} \sum_{k=1}^K log P(t_k | prompt, question, t_1, \ldots, t_{k - 1})}, \tag{1} P(ri,aiprompt,question)=expK1k=1KlogP(tkprompt,question,t1,,tk1),(1)

其中 l o g P ( t k ∣ p r o m p t , q u e s t i o n , t 1 , … , t k − 1 ) logP(t_k | prompt, question, t_1, \ldots, t_{k-1}) logP(tkprompt,question,t1,,tk1) 是在 ( r i , a i ) (r_i, a_i) (ri,ai) 中产生第 k 个 token t k t_k tk 的对数概率,以先前的 tokens 为条件,K 是 ( r i , a i ) (r_i, a_i) (ri,ai) 中 tokens 的总数。

在表 1 中,采取“unweighted sum”(非加权总和),即直接对 a i a_i ai 进行多数投票,与使用“normalized weighted sum”(归一化加权总和)进行汇总的准确性非常相似。作者仔细观察了模型的输出概率,发现这是因为对于每一个 ( r i , a i ) (r_i, a_i) (ri,ai),归一化的条件概率 P ( r i , a i ∣ p r o m p t , q u e s t i o n ) P(r_i, a_i | prompt, question) P(ri,aiprompt,question) 都相当接近,也就是说,语言模型将这些生成视为“相似的可能性”(这也意味着语言模型没有得到很好的校准,因此不能很好地区分正确的解决方案和错误的解决方案,这也解释了为什么在以前的工作中要训练额外的重排器来更好地判断解决方案的质量(Cobbe 等人,2021;Thopilan 等人,2022))。

此外,当汇总答案时,表 1 中的结果显示,归一化的加权和(即公式 1)与未归一化的对应方相比,产生了更高的准确性。为了完整起见,在表 1 中还报告了采取 "加权平均 "的结果,即每个 a 得到的分数是其加权和除以 ∑ i = 1 m I ( a i = a ) \sum_{i=1}^m I(a_i = a) i=1mI(ai=a),这导致了更糟糕的性能。

自我一致性在开放式文本生成和具有固定答案的最佳文本生成之间探索了一个有趣的空间。推理任务通常有固定的答案,也就是为什么研究人员普遍考虑贪婪的解码方法。然而,作者发现,即使所需的答案是固定的,在推理过程中引入多样性也是非常有益的;因此,利用采样,正如通常用于开放式文本生成(Radford等人,2019;Brown等人,2020;Thopilan等人,2022),以实现这一目标。人们应该注意到,自我一致性只适用于最终答案来自固定答案集的问题,但原则上,如果能在多轮生成之间定义一个良好的一致性指标,例如,两个答案是否一致或相互矛盾,这种方法可以扩展到开放式文本生成问题。

相关实验

在一系列的推理基准上将所提出的自我一致性方法与现有的方法进行比较。作者发现,对于所考虑的每一个语言模型,自我一致性都能稳健地提高推理的准确性,并且在各模型规模上都有提升。

关于实验的具体设置,读者可自行去阅读论文,其中包含测试的 prompt、解码时的参数设置,例如温度、top-p 等等。

当思维链伤害到性能时,自我一致性会有所帮助

Ye & Durrett(2022)表明,与标准的 prompt 相比,有时思维链 prompt 可能会伤害到 few-shot 的 ICL 表现。在这里,用自我一致性进行了一项研究,看看它是否可以帮助填补这一空白,在一组常见的 NLP 任务中,包括:

  • 闭卷答题:BoolQ、HotPotQA
  • 自然语言推理:e-SNLI、ANLI 和 RTE

超过 PaLM-540B 的结果显示在表 5 中。对于某些任务(如 ANLI-R1、e-SNLI、RTE),与标准 prompt 相比,添加思维链确实会损害性能(Brown 等人,2020),但自我一致性能够稳健地提升性能,并超过标准 prompt,使其成为在常见 NLP 任务的 few-shot ICL 中使用的可靠方法。

表 5:比较标准/CoT prompt 与常见 NLP 任务的自我一致性。

与其他现有方法相比

作者进行了一系列额外的研究,结果表明自我一致性明显优于现有的方法,包括采样和排序、beam search 和基于集成的方法。

与采样和排序相比

一种常用的提高生成质量的方法是采样和排序,即从解码器中抽出多个序列,然后根据每个序列的对数概率进行排序(Adiwardana 等人,2020)。作者在 GPT-3 code-davinci-001 上比较了自我一致性与采样和排序,通过从解码器中抽出与自我一致性相同数量的序列,并从排名靠前的序列中获取最终答案。

图 3:在相同数量的样本中,自我一致性明显优于采样和排序。

结果显示在图 3 中。虽然采样和排序确实提高了额外采样序列和排名的准确性,但与自我一致性相比,其增益要小得多。

和 beam search 相比

在表 6 中,作者对 UL2-20B 模型的自我一致性与 beam search 解码进行了比较。为了进行公平比较,报告了相同 beam 数量和推理路径下的精度。

表 6:UL2-20B 模型与 beam search 解码的自我一致性比较。

在这两项任务中,自我一致性都明显优于 beam search。需要注意的是,自我一致性也可以采用 beam search 对每条推理路径进行解码(结果显示为“使用 beam search 的自我一致性”),但其性能比使用采样的自我一致性更差。原因是 beam search 产生的输出多样性较低,而在自我一致性中,推理路径的多样性是获得更好性能的关键。

与基于集合的方法比较

作者还将自我一致性方法与基于集合的方法进行了比较,以便进行 few-shot learning。特别是,考虑通过以下方法进行集合:

  • prompt 顺序置换:将 prompt 中的示例随机置换 40 次,以减轻模型对 prompt 顺序的敏感性
  • 多组 prompt:手动编写 3 组不同的 prompt。

将两种方法中贪婪解码所得答案的多数票作为一个集合。

表 7:在 LaMDA-137B 上,自我一致性优于 prompt-order 和 multi-prompt 集成。

表 7 显示,与自我一致性相比,现有的基于集合的方法获得的增益要小得多。此外,需要注意的是,自我一致性不同于典型的模型集合方法,即训练多个模型并将其输出汇总。自我一致性更像是在单个语言模型基础上的“自组装”

总结和讨论

引入了一种简单而有效的方法,称为自我一致性,并观察到它在一系列算术和常识推理任务中,在四个不同规模的大型语言模型中明显提高了准确性。除了准确性的提高,自我一致性也有助于在用语言模型进行推理任务时收集理由,并提供不确定性估计和改进语言模型输出的校准

自我一致性的一个限制是它会产生更多的计算成本。在实践中,人们可以尝试少量的路径(如 5 条或 10 条)作为起点,以实现大部分的收益,同时不产生太多的成本,因为在大多数情况下,性能很快就饱和了,见下图 2。

图 2:在算术和常识推理任务中,自我一致性(蓝色)比带有贪婪解码(橙色)的 CoT 提示(LaMDA-137B)显著提高了推理的准确性。对更多不同推理路径进行采样可持续提高推理准确率。

在这我们可以考虑使用一些部署框架,例如 vLLM。该框架提出了 PagedAttention,灵感来自于操作系统虚拟内存和分页思想。与传统的注意力算法不同,PagedAttention 允许在非连续的内存空间中存储连续的 key 和 value。具体来说,PagedAttention 将每个序列的 KV cache 划分为 blocks,每个 block 包含固定数量 token 的键和值。在注意力计算时,PagedAttention 内核可以更高效的识别和获取这些 blocks。

PagedAttention 在 parallel sampling 和 beam search 生成时还有额外的优势:共享 prompt 部分的内存,这可以提升 2.2x 的速度和降低 55% 的内存使用。
在这里插入图片描述
我们可以直接使用官方提供的 fastapi 部署服务方式,地址:https://github.com/vllm-project/vllm/blob/main/vllm/entrypoints/api_server.py。在请求体内添加参数 n,n 即为输出的结果数量。关于 sampling_params 可参考 https://github.com/vllm-project/vllm/blob/main/vllm/sampling_params.py。

此外,作者观察到,语言模型有时会产生不正确或无意义的推理路径(例如,表 4 中的 StrategyQA 示例,两个人口数并不完全正确),需要进一步的工作来更好地支持模型的推理生成。

在这可以结合 RAG 以及 Tool Use Agent,来增强模型推理路径的生成,或者直接提供更好的推理路径。

另外,如何选择“最一致”的答案也有很多方式,例如在开放式闲聊场景中,使用奖励模型来评分是一个不错的方式,让模型生成多条回复,通过奖励模型打分,挑选分数最高的回复。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/327880.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp + vue3 使用axios

场景 uniapp自带的uni.request不太好用,也有可能是自己用axios用的太熟悉了,所以还是用axios趁手点,所以尝试在uniapp中使用axios。 操作 因为uniapp项目没有package.json,所以先在项目根目录下执行 npm init, 执行完毕后直接…

HTML哆啦A梦

目录 写在前面 HTML简介 完整代码 代码分析 系列推荐 写在最后 写在前面 谁不想拥有一只可爱的叮当猫呢?本期小编给大家带来了一个萌萌的哆啦A梦。 HTML简介 HTML,即超文本标记语言,是构建网页的基础技术之一,它是一种标…

03-数据结构(一)

链接:C# 数据结构_哔哩哔哩_bilibili https://www.bilibili.com/video/BV1a541147Nk/?spm_id_from333.337.search-card.all.click&vd_source6eb7d966aa03ff5cb02b63725f651e68 链接:使用 C#.Net 学习掌握数据结构 (更新中)_哔哩哔哩_bilibili 一…

《Python编程从入门到实践》day28

# 昨日知识点回顾 安装Matplotlib 绘制简单的折线图 # 今日知识点学习 15.2.1 修改标签文字和线条粗细 # module backend_interagg has no attribute FigureCanvas. Did you mean: FigureCanvasAgg? # 解决办法:matplotlib切换图形界面显示终端TkAgg。 #…

.NET 一款团队内部免杀的WebShell

01本文概要 在.NET应用程序中,有时需要执行一些与系统相关的操作,例如调用Windows API函数来实现特定功能。本示例展示了如何在.NET页面中调用名为zipfldr.dll的动态链接库DLL中的RouteTheCall函数。 02函数及代码示例 zipfldr.dll是Windows操作系统中…

每日一题12:Pandas:数据重塑-融合

一、每日一题 解答: import pandas as pddef meltTable(report: pd.DataFrame) -> pd.DataFrame:reshaped_report report.melt(id_varsproduct, var_namequarter, value_namesales)return reshaped_report 题源:Leetcode 二、总结 melt()函数是Pa…

ctfshow parse_url wp

第一关 这个parse_url函数就是解析URL并且进行拆分的 $url "https://www.example.com/path/to/page?param1value1&param2value2";$parsed_url parse_url($url);print_r($parsed_url); Array ([scheme] > https[host] > www.example.com[path] > /p…

智慧安防系统:构建更安全的社区环境

随着科技的不断进步,人们的生活质量得到了显著提高。然而,与此同时,社会治安问题也日益凸显。为了维护社会的和谐稳定,提高人们的生活安全感,智慧安防系统应运而生。本文将为您详细介绍智慧安防系统的项目背景、需求分…

第十六节:图 (20节)

一 图的概念 1)由点的集合和边的集合构成 2)虽然存在有向图和无向图的概念,但实际上都可以用有向图来表达 3)边上可能带有权值 二 图结构的表达 1)邻接表法 2)邻接矩阵法 3)除此之外还有其他众多…

【Mac】如何解决打开PD虚拟机后Mac无法上网的问题?

问题描述 部分用户在运行Parallels Desktop并打开Windows 11后,发现Windows上网没有问题,但是Mac主机不能访问带域名的网站,而访问带IP的网站没问题,退出Parallels虚拟机以后,Mac网络又恢复正常。 解决办法 退出 Pa…

DC-DC直流升压线性可调电源模块电压控制输出0-50V/0-80V/0-100V/0-200V/0-250V/0-300V/0-500V/0-1000V

特点 效率高达 75%以上1*2英寸标准封装单电压输出可直接焊在PCB 上工作温度: -40℃~75℃阻燃封装,满足UL94-V0 要求温度特性好电压控制输出,输出电压随控制电压线性变化 应用 GRB 系列模块电源是一种DC-DC升压变换器。该模块电源的输入电压分为:4.5~9V、…

通配符SSL证书免费领取!不限量!

通配符SSL证书(泛域名证书)可以为主域名及其所有子域名提供安全保护,而无需为每个子域名单独申请证书。这对于拥有多个子域名的网站来说,极大地简化了管理和部署SSL证书的过程。 对于学习、测试或者前期预算不足的用户来说&#…

酷开科技依托酷开系统“硬件+内容”产业布局,抢占全球机遇!

2024年3月26日,创维集团发布了2023年年度业绩报告,去年全年实现了总营业额690.31亿元较上一年的534.91亿元整体营业额增长了29.1%。然而,值得注意的是,2023年度,创维集团智能家电业务的营收306.37亿元,较上…

Python轻量级Web框架Flask(14)—— 自己做Flask项目总结

0、前言: 本文意在记录自己在做毕业Flask项目开发时遇到的一些问题,并将问题解决方案记录下来,可做日后查询本文也会记录自己做FLask项目时实现的一些功能,作为开发工作的进程记录注意:用Flask开发的前提是已经设计好…

【js逆向】易车网JS逆向案例实战手把手教学(附完整代码)

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全…

Flask Web开发:使用render_template渲染动态HTML模板

文章目录 Flask简介render_template函数参数说明示例代码 模板文件结果展示 在Web开发中,经常需要将动态数据与HTML模板结合,以生成具有用户特定信息的网页。Python的Flask框架提供了一个功能强大的 render_template函数,用于实现这一目标。…

只用了三天就入门了Vue3?

"真的我学Vue3,只是为了完成JAVA课设" 环境配置 使用Vue3要去先下载Node.js。 就像用Python离不开pip包管理器一样。 Node.js — Run JavaScript Everywhere (nodejs.org) 下完Node.js去学习怎么使用npm包管理器,放心你只需要学一些基础的…

【opencv】opencv透视变换和ocr识别实验

实验环境:anaconda、jupyter notebook 实验用到的包opencv、numpy、matplotlib、tesseract 一、opencv透视变换 原图 图片是我拍的耳机说明书,哈哈哈哈,你也可以使用自己拍的照片,最好是英文内容,tesseract默认识别英…

洛谷 P3372:线段树 1 ← 分块算法模板(区间更新、区间查询)

【题目来源】https://www.luogu.com.cn/problem/P3372【题目描述】 如题,已知一个数列,你需要进行下面两种操作: (1)将某区间每一个数加上 k。 (2)求出某区间每一个数的和。【输入格式】 第一行…

JavaScript进阶——05-迭代器和生成器【万字长文,感谢支持】

迭代器 概念 迭代器(Iterator)是 JavaScript 中一种特殊的对象,它提供了一种统一的、通用的方式遍历个各种不同类型的数据结构。可以遍历的数据结构包括:数组、字符串、Set、Map 等可迭代对象。我们也可以自定义实现迭代器&…