论文解读:Large Language Models as Analogical Reasoners

image.png

一、动机

  • 大模型在各种类型的NLP任务上均展现出惊艳的表现。基于CoT propmt能够更好地激发大模型解决复杂推理问题的能力,例如解决数学解题,可以让模型生成reasoning path。现有的经典的CoT方法有few-shot cot、zero-shot cot等。
  • 然后现有的cot面临两个核心挑战:
    • 需要提供相关的exemplars作为指导;
    • 需要尽可能减少人工标注的成本;
  • Zero-shot CoT避免了人工标注来引导推理,但是对于一些复杂的任务难以完成推理,例如code generation;而few-shot CoT则可以通过引入task相关的exemplar来让大模型生成相应的推理,但是此时则需要人工标注或挑选exemplar
  • 因此引发一个研究问题:如何能够同时兼顾两者的优势?
  • 本文提出一种“归纳学习”的提示方法。首先设计instruction让大模型生成出与当前问题比较相关的exemplars,并补全exemplars,最后让模型recall relevant problem and aolutions来解决当前的问题。

二、方法

本文关注problem-solving task。
给定一个问题 x x x,首先通过一个prompt method将问题映射到文本输入 ϕ ( x ) \phi(x) ϕ(x),任务目标是调用LLM解决这个问题并生成目标答案 y y y,生成的目标答案可以包含reasoning path r r r和答案 a a a
image.png
本文则是关注在设计 ϕ \phi ϕ

image.png

Self-Generated Exemplars

**归纳提示学习(analogical prompting)**旨在模型在解决一个新的问题时,能够自发性地寻找相似的已有的知识。因此提出Self-Generated Exemplars方法,即让模型从在训练阶段掌握的problem-solving knowledge中生成出相关的问题和解决方法。
设计指令来达到这个目的:
image.png
基于这个instruction的一个实例如下所示:
image.png
大模型能够根据给定的instruciton,在对于一个新的问题 x x x时候,能够先生成出3个相关的且互不相同的problem并给出相应的解决方案,然后再对目标问题进行解决。

self-generated instruction的三个核心部分:

  • 需要明确地让模型生成relevant切diverse exemplars。因为打磨学会偏向于重复地生成一些经典的问题,误导模型生成。

generate problems that are distinct from each other.

  • single-pass & independent exemplar generation。实验发现single-pass效果最好:
    • single-pass:本文提出的方法,一个instruction让模型生成3个exemplar;
    • independent exemplar generation:让模型分别生成若干exemplar,然后采样3个exemplar之后再重新设计prompt让大模型进行生成。
  • exemplar number K K K:发现3~5最佳。

Self-generated Knowledge + Exemplars

对于像code-generation等复杂的任务,low-level exemplar generation不一定能过让模型很好地解决此类问题,因此本文提出一种high-level generation方法。通过设计如下指令来实现:
image.png
对应的具体的例子如下所示:
image.png
本质来说,就是在self-generated exemplar prompt的基础上,添加新的任务,即让模型生成核心知识。例如代码生成中,需要让模型先思考选择什么algorithm,以及algorithm对应的tutorial。
Knowledge的优势主要体现在两个方面:

  • knowledge act as high-level takeaways that complement low-level exemplars, which prevents LLMs from overly relying on specific exemplars and helps to generalize to new problems;
  • LLMs identify the core concepts of the problem and produce exemplars that align more closely in fundamental problem-solving approaches

三、实验

实验数据任务:

  • mathematical problem solving:GSM8K、MATH等;
  • code generation:动态规划、图算法等复杂的编程题,例如codeforces;
  • Big-Bench

模型:

  • GPT3.5-turbo、GPT-4、PaLM2-L

实验结果:

发现本文提出的方达到了SOTA。
image.png

探索:Self-generation exemplar与retrieve relevant exemplar的对比

  • retrieve方法的优势在于准确可靠,即采样得到的exemplar一定是准确的,但是缺点在于需要额外的标注成本,且搜索空间往往有限
  • self-generation方法的优势在于简单且自适应,能够根据具体的task量身定制对应的exemplar,且搜索空间可以是整个模型训练的语料。 v

image.png

探索:Scale of LLM

上图中展示出,当模型规模越大时,解题的准确性也越高,同时我们提出的self-generation方法与baseline的提升幅度也越大。

  • 当使用小模型时候,LLM本身的知识有限,因此更需要retrieve exemplar;
  • 当使用大模型的时候,此时LLM本身的知识很丰富,选择self-generation更容易得到与目标问题相近的exemplar。

探索:exemplar数量分析

image.png
发现当 K ∈ { 3 , 4 , 5 } K\in\{3, 4, 5\} K{3,4,5}时候更合适。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/168622.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue后台第二部步(布局和封装图标组件)

目录结构;根据需求修改、创建对应目录; src 应用部署目录├─api 接口├─assets 公共文件│ ├─theme.scss 主题样式…

数据库监控:关键指标和注意事项

【squids.cn】 全网zui低价RDS,免费的迁移工具DBMotion、数据库备份工具DBTwin、SQL开发工具等 听到模糊的说法“我们的数据库有问题”对于任何数据库管理员或管理员来说都是一场噩梦。有时是真的,有时不是,到底问题出在哪里呢?真…

《语音优先》智能语音技术驱动的交互界面设计与语音机器人设计(译者序)...

“言为心声,语为心境”,语言与对话是我们沟通与协作的重要方式。而智能语音技术是一种基于人工智能和自然语言处理技术的语音交互技术。它可以通过语音识别技术将用户的语音指令转换为文本,然后通过自然语言处理技术对文本进行分析和理解,最终…

2023Etsy入驻攻略——防封安全

2023了,跨境电商现在上车还来得及吗?当然!Etsy是一个低成本低竞争高回报的平台,相较于其他电商平台,他的佣金非常低,利润率更高,非常合适跨境小白入局。 但由于目前Etsy关闭了中国大陆卖家的注…

FTP服务器操作手册

FTP服务器(File Transfer Protocol Server)是在互联网上提供文件存储和访问服务的计算机,它们依照FTP协议提供服务。FTP协议是File Transfer Protocol(文件传输协议),专门用来传输文件的协议。FTP服务器是企业里经常用到的服务器,今天就介绍一…

Qt 项目实战 | 多界面编辑器

Qt 项目实战 | 多界面编辑器 Qt 项目实战 | 多界面编辑器界面设计创建子窗口类 官方博客:https://www.yafeilinux.com/ Qt开源社区:https://www.qter.org/ 参考书:《Qt 及 Qt Quick 开发实战精解》 Qt 项目实战 | 多界面编辑器 开发环境&…

最新Jn建站系统2.0 已集成各类源码 【附视频安装教程】

附视频安装教程|已集成各类源码 目前已集成的网站: 1.发卡网(最新) 2.代刷网(无需授权) 3. 博客网(自带模板) 4.易支付(稳定版) 5.个人导航网(简洁) 6.代理查询网 7.留言网 8.匿名网 9.表白墙(最新) 10.抽奖网 11.源码站 12.z-blog博客程序 13.织梦CM…

在Word中,图片显示不全

在今天交作业的时候,发现了一个非常SB的事情,把图片复制过去显示不完全: 使用文心一言查看搜索了一下,发现可能是以下几种原因: 图片所在行的行高设置不正确。可以重新设置行高,具体步骤包括打开图片显示…

自然语言处理---RNN经典案例之构建人名分类器

1 案例介绍 关于人名分类问题:以一个人名为输入, 使用模型帮助判断它最有可能是来自哪一个国家的人名,这在某些国际化公司的业务中具有重要意义,在用户注册过程中,会根据用户填写的名字直接给他分配可能的国家或地区选项&#xff…

【C语言进阶】指针进阶(三)

指针进阶(三) 9.指针和数组笔试题解析10.指针笔试题 9.指针和数组笔试题解析 数组名的理解 数组名是数组首元素的地址 但是有2个例外: sizeof(数组名),这里的数组名表示整个数组,sizeof(数组名)计算的是整个数组的大…

SpringMVC(三)获取请求参数

1.1通过ServletAPI获取 SpringMVC封装的就是原生的servlet 我们进行测试如下所示: package com.rgf.controller.service;import org.springframework.stereotype.Controller; import org.springframework.web.bind.annotation.RequestMapping;import javax.servlet.…

纺织工厂数字孪生3D可视化管理平台,推动纺织产业数字化转型

近年来,我国加快数字化发展战略部署,全面推进制造业数字化转型,促进数字经济与实体经济深度融合。以数字孪生、物联网、云计算、人工智能为代表的数字技术发挥重要作用。聚焦数字孪生智能工厂可视化平台,推动纺织制造业数字化转型…

OpenCV17-图像形态学操作

OpenCV17-图像形态学操作 1.形态学操作1.1腐蚀1.2膨胀 2.形态学应用2.1开运算2.2闭运算2.3形态学梯度2.4顶帽运算2.5黑帽运算2.6击中击不中变换2.7形态学应用示例 1.形态学操作 1.1腐蚀 图像腐蚀(Image erosion)可用于减小图像中物体的大小、填充孔洞或…

css之Flex弹性布局(子项常见属性)

文章目录 🎀前言:本篇博客介绍弹性布局flex容器中子项的常见用法🪀flex:子项目占得份数 (划分不同子项的比例)🎇align-self 控制单独一个子项在侧轴的排列方式🧸order属性定义子项的排列顺序 &a…

酷开科技 | 酷开系统,为居家生活打开更精彩的窗口

电视在我们的日常生活中扮演着重要的角色。虽然,作为客厅C位的扛把子——电视的娱乐作用深入人心,但是,它的涵义和影响力却因我们每个人的具体生活环境而存在着种种差异,而我们的生活环境又受到我们所处的社会及文化环境的影响。 …

一文了解AIGC与ChatGPT

一、AIGC简介 1.AIGC基础 (1)AIGC是什么 AIGC是人工智能图形计算的缩写,是一种基于图形处理器(GPU)的计算技术,可以加速各种计算任务,包括机器学习、深度学习、计算机视觉等。 AIGC是一种基于GPU的计算技术&#x…

Git(一)Windows下安装及使用Git Bash

目录 一、简介1.1 什么是Git?1.2 Git 的主要特点1.3 什么是 Git Bash? 二、下载三、安装3.1 同意协议3.2 选择安装位置3.3 其他配置(【Next】 即可)3.4 安装完毕3.5 打开 Git Bash 官网地址: https://www.git-scm.com/…

包管理工具

代码共享方案 放到npm仓库,下载到本地放到node_modules npm配置文件 必须填写的属性:name、version name是项目的名称; version是当前项目的版本号; description是描述信息,很多时候是作为项目的基本描述&#xff1b…

力扣每日一题61:旋转链表

题目描述: 给你一个链表的头节点 head ,旋转链表,将链表每个节点向右移动 k 个位置。 示例 1: 输入:head [1,2,3,4,5], k 2 输出:[4,5,1,2,3]示例 2: 输入:head [0,1,2], k 4 输…

CSS必学:你需要知道的盒子模型的秘密

作者:WangMin 格言:努力做好自己喜欢的每一件事 CSDN原创文章 博客地址 👉 WangMin 作为前端开发来说,要掌握的CSS基础一定很多,那么CSS中盒子模型肯定是必考必问必掌握的前端知识点,因为它是CSS基础中非常重要的内容,…