ICLR 2023 | Self-Consistency: Google超简单方法改善大模型推理能力

大家好,我是HxShine。

今天分享一篇Google Research, Brain Team的一篇文章,SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS[1]:利用自洽性提高语言模型中的思维链推理效果

这篇文章方法非常简单但是效果非常好,OpenAI的Andrej Karpathy(前Tesla AI高级总监、自动驾驶Autopilot负责人)也在state of gpt[2]中也分享了这篇文章,其仅仅使用单个模型采样多个结果,然后根据答案做融合就可以大幅地提升CoT(chain of thought)的推理效果。

建了一个公众号,会定时分享相关文章,欢迎大家关注~

公众号名称:NLP PaperWeekly

公众号内容:论文学习,主要关注nlp,对话系统,大模型,多模态等领域的论文

 

一、概述

Title:SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS

论文地址:https://arxiv.org/abs/2203.11171

1 Motivation

假设每个复杂的问题都可以有多种思路来推到出最终的答案,这篇文章就是探索是否可以用这种思想来提高大模型复杂问题的推理能力

对人类来说,不同人思考问题的方式不一样,同样的问题,可以利用多种思路来解决。而当前大语言模型来解决复杂推理问题时,例如COT + LLM的方法主要采用一种贪婪解码(Greedy Decoding)【在每个时间步选择概率最高的词作为输出】的方式来实现。

2 Methods

本文提出的方法非常简单,提出了了一种新的decoding解码策略【self-consistency(自一致性)】,以替代思想链(COT)+ LLM使用的贪婪解码(Greedy Decoding)方法。总结成一句话就是首先利用COT生成多个推理路径和答案,最终选择答案出现最多的作为最终答案输出,效果出奇的好。

方法:自一致性方法包括三个步骤:1)使用思维链(CoT)提示语言模型;2)从语言模型的解码器中采样,取代CoT提示中的“贪婪解码”,生成一组不同的推理路径;3)通过在最终答案集中选择最一致的答案拿到聚合结果。

特点:1)只用了一个模型,没有用多个模型集成。2)根据答案做投票,而不是根据推理路径,这里假设每个复杂的问题存在多种解决方案。

3 Conclusion

1. 在一系列流行的算术和常识性benchmarks上推理有惊人的优势,GSM8K (+17.9%), SVAMP (+11.0%), AQuA (+12.2%), StrategyQA (+6.4%) and ARC-challenge (+3.9%).

2. 除了提高准确性之外,self-consistency(自一致性)还可以在使用语言模型执行推理任务时收集基本原理,以及提供不确定性估计和对语言模型输出的改进校准。

3. 其他应用:可以使用本文提出的self-consistency(自一致性)来生成更好的监督数据,来对模型进行微调,这样模型就可以在微调后的单个推理运行中给出更准确的预测。

4 Limitation

需要更多计算资源,在实践中,人们可以尝试少量的路径(例如,5条或10条推理路径)作为起点来实现大部分的收益,同时不会产生太多的成本,因为在大多数情况下,性能很快饱和,如下图:

二、详细内容

1 不同融合策略的比较:多数投票融合效果最好

这里比较了多种融合策略,有两个因素,一个是是否对每个(r_i, a_i)结果进行加权二个是是否对输出的长度进行normalized,例如给定prompt和question,normalized Weighted sum的加权系数计算方式为:

其中K为生成的token的长度,P(t_k|prompt, question, t1, ..., t_k-1)为生成第k个token的概率(k-1限制条件下),P(r_i, a_i | prompt, question)为最终的加权系数,各种加权方案说明如下:

结论:1)Unweighted sum(majority vote)> Weighted sum(normalized) > Weighted sum(unnormalized) > Weighted avg(unnormalized) > Weighted avg(normalized) 

2 主要实验结论1:相对于CoT(chain-of-thought),其数学推理、常识推理、符号推理能力在在不同大小的模型上都有比较大的提升。

数学推理数据集:

常识和符号推理数据集:

结论1:相对于CoT(chain-of-thought)其数学推理、常识推理和符号推理能力提升都不错,previous sota是GPT-3 finetuned的模型。

结论2:在各种不同大小的模型上,都有稳定的提升

3 主要实验结论2:随着采样的推理路径个数的增加,精度越来越高

数据集类型:数学和常识推理,模型:LaMDA-137B

4 提升CoT在一些常规NLP任务上(CoT表现差)的Performance

背景:相对于标准的few-shot in-context learning,CoT在一些常规NLP任务上效果可能还会变差,例如1)Closed-book question answer。2)NLI自然语言推理任务。3)RTE关系抽取任务。

  • "Closed-book question answer"(闭卷问题回答)是一种考试或测试的形式,其中考生在回答问题时不能使用任何参考资料,也不能查阅书籍或笔记。在这种形式的考试中,考生必须凭借自己之前掌握的知识来回答问题,没有任何外部资源的帮助。

结论:利用self-consistency还能带来比较大的提升,ANLI任务从69.1->78.5,提升比较大。

5 示例:多数投票的答案修正CoT贪婪解码推理结果

1):红颜色为CoT贪婪解码错误的推理和答案,选取多数投票的最终结果25,可以对比分析发现CoT贪婪解码的推理错误。

2):测试模型:PaLM-540B

6 Self-consistency与现有其他方法对比

6.1 与先采样然后排序方法对比

方法:该方法是先采样多个,然后排序选取一个最好的

结论:本文方法效果好非常多

6.2 对比同等规模的beam search 方法

方法:1)base:直接beam search,然后选取top beam的结果。2)self-consistency + beam search:这里指用beam search生成多个结果,这种方式可能多样性比较差。3)self-consistency + sample:这里指用采样生成多个结果,然后用self-consistency选取最佳结果。

结论:self-consistency + sample > self-consistency + beam search > beam search

原因分析:beam search采样多个结果的时候,多样性比较差,所以融合效果也比较差。

6.3 单个模型不同prompt集成对比

PaLM- 540B模型公平对比(都是40条路径):

方法:1)Ensemble(3 sets of prompts):三套不同的prompts结果来集成。2)Ensemble(40 prompt permutations):调整few-shot中样本的顺序来降低其影响来做融合。3)self-consistency(40 sampled paths):本文方法,40条推理路径选多数的答案。

结论:用了self-consistency方法效果最好,提升幅度比较大,其他集成的方法都没什么太大的效果,说明本文方法生成不同结果的多样性和互补性可能比其他方法更好。

7 其他消融实验

7.1 采样参数和模型大小的影响

  • 多样性越好,融合效果越好:温度系数越高(T=0.9,T=0.7)>  温度系数越高(T=0.5,T=0.4),T越大,生成的多样性是越好的,T=0其实就是贪婪解码。

  • 模型越大,融合效果越好:可能某些任务要模型到达一定规模之后,模型才有能力解决。

7.2 对prompt的鲁棒性

  • 鲁棒性不错:如Table 8显示,就算CoT的prompt写的不太好,有错误,也能带来比较大的提升。

  • 一致性越高,模型精度越好:如Figure 5,可以根据一致性大致得出模型的准确率。

7.3 多模型集成对比

方法:比较了LaMDA-137B、PaLM-540B,GPT-3不同模型间融合效果对比

结论:1)一个模型效果如果比较差,融合后可能还会拖累融合效果。2)本文是使用单个模型采样不同的结果进行融合,而不是使用多个不同的模型,所以叫自一致性(self-consistency)。3)本文使用self-consistency效果好,从56.6(PaLM-540B greedy)->74.4(self-consistenccy),操作简单,实验成本低(不需要调取多个模型的结果)。

疑问:为什么没拿2个大小相同的不同模型(例如LaMDA-137B+GPT-3)进行融合,来对比self-consistency(2 path)与其的提升关系,不然多个540B模型的结果融合效果肯定好。

三、总结

  1. 大模型(10B以上)生成结果的多样性diversity和质量比较好。本文的一大特点是没有利用不同的多个模型来集成,而是只用当个大模型采样输出不同的推理路径和结果来集成,有一个现象就是随着模型size的变大,集成的效果越来越高,说明大size的模型(一般要求要10B以上),其多样性diversity足够好,同时其生成的答案的质量也有保障,所以最终融合的效果才会比较好

  1. 可以将其当作是一种生成高质量训练数据的方法。假设我们已经训练好一个大模型,利用本文self-consistency方法,可以收集比当前大模型好非常多的一个答案数据,从而可以用收集到的高质量的数据来训练准确率更高的模型。

  2. 可以给大模型提供不确定性估计。如下图,模型采样多个结果的一致性是和模型的准确率强相关的,可以用该性质对大模型输出结果是否可信提供参考。

四、References

[1] Wang X, Wei J, Schuurmans D, et al. Self-consistency improves chain of thought reasoning in language models[J]. arXiv preprint arXiv:2203.11171, 2022.

[2] state of gpt: https://karpathy.ai/stateofgpt.pdf

五、更多文章精读

TOT(Tree of Thought) | 让GPT-4像人类一样思考

OpenAI | Let’s Verify Step by Step详细解读

GOOGLE | COT(chain of thought)开山之作,利用思维链提升复杂问题推理能力一、概述

建了一个公众号,会定时分享相关文章,欢迎大家关注~

公众号名称:NLP PaperWeekly

公众号内容:论文学习,主要关注nlp,对话系统,大模型,多模态等领域的论文

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9571.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ChatGPT 翻译】Language Models are Few-Shot Learners

【ChatGPT 翻译】Language Models are Few-Shot Learners 摘要 Abstract1 引言 Introduction2 方法2.1 模型和体系结构2.2 训练数据集2.3 训练过程2.4 评估 3 结果3.1 语言建模、完形填空和完成任务3.1.1 语言模型3.1.2 LAMBADA3.1.3 HellaSwag3.1.4 StoryCloze 3.2 闭卷问答翻…

ChatGPT的今天,早已被这本书预言了|文末赠书

最近,ChatGPT大火了!推出之后,ChatGPT只用了两个月就积累了1亿用户,随着越来越多的人开始用ChatGPT,发现他能做的东西越来越多,写论文、写作业、写文案、写代码都不在话下。 于是,各种稀奇古怪的…

OpenAI ChatGPT 3.5模型和清华开源ChatGLM-6B模型的对比,到底ChatGPT强在哪里(内含几个国内GPT可用途径)

目录 前言: (1)环境 (2)比较用例 (a)中文提问:用java写冒泡排序算法 (b)中文提问:a10,b6,不新增变量,怎么交换a和b的值&#xff…

当ChatGPT的子弹射中知乎

题图|视觉中国 毫无疑问,ChatGPT 已然成为 2023 上半年最有影响力的商业话题。 ChatGPT 横空出世仅百余天便让整个互联网都为之躁动,心有猛虎的公司都在寻找向上攀爬的入口——“文心一言”之于百度、“通义千问”之于阿里、百川智能之于王小…

OpenAI Translator - 基于 ChatGPT的最强开源 AI 划词翻译工具

为啥要造这个轮子? 我开发了一个 Bob 的插件 bob-plugin-openai-translator 使用 ChatGPT API 在 macOS 上进行全局划词翻译。 但是由于很多用户并不是 macOS 用户,所以特此开发了一个浏览器插件方便非 macOS 用户使用 ChatGPT 进行划词翻译。 既是浏…

Mac最先进的API工具-RapidAPI for Mac

一、前言 当使用 Mac 进行接口测试的时候,一般都会想到接口测试工具 Postman、Jmeter。 Postman 以其页面友好,功能简单,可以快速上手进行接口测试。而 Jmeter 除了测接口外,还可以进行接口自动化测试、性能测试等。 本篇将介绍…

【接口工具ApiPost】Mac系统安装(1)

ApiPost目前提供Window64位,Window32位、Mac、Linux版本的安装包下载。 ApiPost下载页:https://www.apipost.cn/download.html Mac系统安装 流程如下: 升级安装 初次安装打开后的界面 登录 账户登录: 微信登录 所以最后…

Mac 获取 App store下载的文件包 pkg

因为某种原因,我需要搞到 App store 中的某个软件的 pkg 安装文件,百度了半天,没一个能用的。。。不多bb,自力更生,直接开搞 我的系统是Big Sur 访达按CommandShiftG,进入 /private/var/folders 目录 这时…

与ChatGPT合作解析《三体》数学

最近都在讨论爆火的ChatGPT可能会替代10大职业,其中小编所在的媒体工作者就是其中之一,顿时有种危机感……于是开始试探ChatGPT这个竞争对手的真实实力——让它写一篇《三体》中数学问题的文章: 【ChatGPT】 根据上面生成的文章,…

论文阅读和分析:Mathematical formula recognition using graph grammar

HMER论文系列 1、论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2、论文阅读和分析:Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客 3、论…

理解不同加密币的要点(一)—— 共识机制

一、加密货币分类 (一)价值层面 与实体资产绑定的代币 为了因应市场需求而生,与实体资产做挂钩的代币,也就是我们说的稳定币。例如与美元做挂钩的USDT、TUSD、PAX与USDC等。 仰赖网络共识的代币 代币价值仰赖网路上市场共识…

雅虎布局AI,台湾会议结束,cntm继续一飞冲天

开年以来,由ChatGPT激起的涟漪,已经变为汹涛骇浪。近日来,微软、谷歌、百度、阿里、京东先后加入战局。然而,就在互联网巨头群雄逐鹿的同时,记者注意到,一款同名虚拟货币也悄悄拿起了“镰刀”。 除此之外&a…

关于数字货币之间相互制衡的一场讨论|ChatGPT

注:本文由区视crypto与ChatGPT深度对话编辑生成,可转载 数字货币是一种利用密码学原理进行点对点传输的电子货币,它不依赖于中央银行或政府来发行、监管或控制。目前,数字货币市场上有许多不同的币种,其中最著名的是比…

App Store 新定价机制 - 2023年最全版

作者:iHTCboy 本文介绍了苹果 App Store 的新定价机制,是 App Store 在 15 周年之际推出的最重要价格升级。 文章通过“为什么,是什么,怎么办”的方法论,让读者从根本原理上理解新机制的意义、背后的原因以及应对方式。…

微信小程序实现多语言方案|中英互译

不管哪个系统,多语言方案套路都是一样的 1、建立多语言映射库 2、记录并存储用户选择的语言版本,下次进入直接进入对应语言版本 3、根据用户设置动态加载语言版本 4、前台调用 效果图 🐤 小程序代码片段(建议看代码片段&#xff…

多语种翻译互译,批量小语种翻译互译

多语种包括联合国通用语种(汉语、英语、俄语、阿拉伯语、法语、西班牙语)和其他不包括在内的小语种,例如日语、韩语、德语和意大利语等。多语种互译软件支持中外语言互译,可以将我们的中文翻译成以上所述的其他语种。 多语种互译软…

AI绘画太好玩了!哈哈哈哈哈~~

最近,AI绘画非常流行,只要输入一些关键词(prompt脚本),就可以AI帮你绘画出精美的图画,真的很有意思。小灰也对AI绘画爱不释手。 在百度上随便搜一下,就能搜出各种乱七八糟的AI绘画平台&#xff…

chatgpt赋能python:Python图画不出来真的会影响SEO吗?

Python图画不出来真的会影响SEO吗? Python是一种高级编程语言,被广泛应用于科学计算、数据挖掘和人工智能等领域。Python语言的简洁、易读易写的特点,让它成为了开发者的首选之一。然而,在SEO优化中,Python却有着一个…

如何与孩子聊ChatGPT:AI大时代的完整版家长指南

前言 ChatGPT和GPT-4迅速蹿红,一夜之间成为新一代人工智能的代言人。家长朋友们有没有发现,家里爱学习的小朋友突然多了很多关于AI的问题? 我是个五年级小朋友的家长,也长期做人工智能技术研发、项目孵化与投资。因为ChatGPT&…

脉脉疯传!2023年程序员生存指南;多款prompt效率加倍工具;提示工程师最全秘籍;AI裁员正在发生 | ShowMeAI日报

👀日报合辑 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 2023年程序员生存指南 不要在互联网公司做低代码项目 保证一定强度的刷题,不要用go刷题,用cpp或者java,性价…