训练验证器解决数学应用题

人工智能咨询培训老师叶梓 转载标明出处

数学问题解决不仅要求模型能够理解问题的语言表述,还要求其能够准确地执行一系列数学运算,每一步的准确性都至关重要。遗憾的是,现有的语言模型在这一领域的性能远远未能达到人类的水平,它们在解题过程中常常出现灾难性的错误,即便在经过专门的微调之后也难以避免。

由此OpenAI的研究团队提出了一项新的研究,旨在通过训练验证器来解决这一难题。这项研究的核心是GSM8K数据集,它包含了8.5K个高质量的、语言多样化的小学数学应用题。通过这一数据集,研究团队不仅诊断了当前模型在数学推理任务上的不足,还探索了一种新的方法来显著提升模型在这些任务上的性能。

GSM8K数据集

GSM8K数据集由8500个高质量的小学数学问题组成,这些问题由人工出题者编写而成。这些题目被划分为7500个用于训练的问题和1000个用于测试的问题。解决这些问题需要2到8个步骤,解决方案主要涉及执行一系列基本的算术运算(加、减、乘、除)以得出最终答案。一个聪明的中学生应该能够解决这些问题。

在构建GSM8K数据集时,遵循了以下设计原则:

  1. 高质量:避免采用容易出错的网络抓取程序,而是依赖人工工作者来创建问题。在进行基于工作者答案一致性的广泛质量控制之后,估计少于2%的问题包含破坏性错误。

  2. 高多样性:力求在问题之间保持高度的多样性。积极避免设计那些来自相同语言模板或只在表面细节上有所不同的问题,这是许多其他数据集中普遍存在的问题。通过使每个问题都相对独特,保留的测试性能成为一个更相关的指标。

  3. 适度难度:选择的问题分布对于大型最先进的语言模型来说具有挑战性,但并非完全无法解决。GSM8K有助于更好地理解不同模型和方法在这一难度范围内的数据扩展趋势。这些问题不需要超出初级代数水平的概念,而且绝大多数问题可以在不明确定义变量的情况下解决。

  4. 自然语言解决方案:收集的解决方案以自然语言而非纯数学表达式的形式呈现。认为这是最普遍有用的数据格式,并期望这将揭示大型语言模型内部独白的特性。指导问题编写者尽可能多地解释他们的工作,但也允许他们以自己多样化的语言风格编写解决方案。

图1为GSM8K数据集中的三个示例问题,其中计算注释用红色标出。 

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

两种解决方法

在解决GSM8K问题集的过程中,采用了两种主要方法:微调和验证。微调方法作为基线,使用了与GPT-3生成预训练相同的语言建模目标。测试阶段的性能通过自回归采样一个低温解决方案并检查最终答案是否正确来评估。与此相对,验证方法包括采样多个高温解决方案,为每个解决方案分配一个分数,并输出最高排名的解决方案。验证器被训练用来评判解决方案的正确性,其训练信号仅由解决方案是否达到正确的最终答案决定。

微调过程中,通过更新模型参数来最小化所有训练令牌上的交叉熵损失。测试性能是通过每个测试问题的一个低温(T=0)样本来确定的。175B模型显著优于较小的模型。假设一个对数线性趋势,可以简单地外推这些结果来估计,需要一个有10^16个参数的模型才能达到80%的解决率,当使用完整的GSM8K训练集时。然而,由于性能似乎并不遵循对数线性趋势,因此很难沿着数据维度进行外推。看起来175B模型要达到80%的解决率,至少需要两个数量级以上的训练数据。

图3展示了在完整的GSM8K训练集上微调一个6B模型后,测试解决率随着训练epoch的变化。使用test@N来表示当允许模型为每个问题做出N次独立的猜测时,至少有一次正确解决的问题的百分比。使用低温(T=0)生成test@1样本,使用更高的温度(T=0.7)生成test@100样本。两个温度值都是通过实验选择的,以产生最佳结果。Test@1性能大致呈单调改善,尽管很快就开始在测试损失上过拟合。不幸的是,随着epoch数量的增加,test@100性能的下降比test@1性能要尖锐得多。这是意料之中的:随着模型反复遇到相同的数据,它在预测中变得越来越未校准和过于自信。在测试时,这种过度自信导致解决方案空间的覆盖不良,这种效应只有在考虑测试时的多个样本时才变得明显。选择一个具有良好的覆盖范围的模型对于成功训练验证器至关重要。从实验中看到,test@100性能在最初的几个epoch内达到峰值。因此,使用训练了2个epoch的模型来生成用于训练验证器的样本。

验证方法旨在提高微调基线的性能,通过训练验证器来评判模型生成的解决方案的正确性,并在测试时针对这些验证器进行搜索。给定问题和候选解决方案,验证器输出解决方案正确的概率。训练解决方案被标记为正确或错误,仅基于它们是否达到了正确的最终答案。在实践中,一些解决方案可能会使用有缺陷的推理达到正确的最终答案,导致误报。

图4展示了验证器的训练流程。首先,对训练集进行2个epoch的微调(“生成器”)。然后,对每个训练问题从生成器中采样100个完成情况,并标记每个解决方案的正确或错误。最后,在该数据集上训练一个验证器一个epoch。对生成器进行2个epoch的训练足以让其在这一领域学习基本技能。选择不进行更长时间的训练,因为生成的解决方案的多样性在这一点之后开始崩溃,如图3所示。训练单独的生成器和验证器模型以限制生成器的训练并防止过拟合,但在原则上,可以将这些模型结合起来。除非另有说明,否则对生成器和验证器使用相同的模型大小。除了预测解决方案的正确性外,还训练验证器具有与生成器相同的语言建模目标。这为验证器提供了一个有价值的辅助目标。在测试时,对每个测试问题采样100个完成情况,用验证器对它们进行排名,然后返回验证器得分最高的那一个。

图5显示了使用6B和175B模型大小的微调和验证之间的比较。验证考虑了每个问题100个解决方案。在3次运行中显示了平均值和标准差,除了175B验证只显示了一次运行。

值得注意的是,175B验证器比6B验证器更早地“起飞”,需要较少的训练问题就能超过微调基线。在图6a中,比较了在每个令牌后进行预测的验证器与仅在最终令牌后进行预测的验证器。尽管在每个令牌上预测价值函数比仅评判完整完成更具挑战性和噪声性,但尽管训练初期较慢,但token-level验证器最终优于solution-level验证器。此外,token-level验证器在训练后期仍在改善,而solution-level验证器很快显示出过拟合的迹象。假设完整的价值函数提供了一个有用的辅助信号,鼓励模型在整个解决方案中评判推理,而不仅仅是记忆正确的最终答案。

在图6b中,对训练验证器时使用的目标进行了消融研究。选择在验证目标旁边包含一个语言建模目标。比较了使用两个目标与仅使用验证目标。尽管两种选择都是合理的,但包含语言建模目标是一个严格的改进。这在直觉上是有意义的:更好地理解这种语言分布只会帮助验证器区分样本。

在图6c中,分别消融了生成器和验证器的模型大小。发现使用大生成器和小验证器比使用小生成器和大验证器的性能要好得多。即使验证器比生成器小得多,验证仍然非常有效。这表明验证器可能经常依赖相对粗糙的启发式方法来区分来自给定生成器的解决方案,而不是尝试更彻底的验证形式。

额外实验

额外实验中,研究集中在测试时的计算和正则化的效果上。

测试时的计算:在测试阶段,可以选择生成任意数量的解决方案供验证器评判,然后选择排名最高的完成情况。图7a展示了6B验证器的性能如何随着每个测试问题的完成数量而变化。在这个规模上,当将完成数量增加到400个时,性能会提高。超过这一点后,性能开始下降,这表明搜索的好处最终被找到欺骗验证器的对抗性解决方案的风险所抵消。通常情况下,评估验证器的测试性能使用100个完成情况,因为这在相对适中的计算成本下捕获了验证的大部分好处。

为了进一步提高性能,可以对验证器排名最高的解决方案进行多数投票,而不是只选择单一的顶级解决方案。投票过程只考虑单个解决方案所达到的最终答案:所选的最终答案是得票最多的那一个。图7b展示了当允许更多的顶级样本进行投票时,性能如何变化。当开始时有更多的样本,可以允许更多的样本进行投票。当只有100个样本时,允许前3-5个样本进行投票是最优的。当有3200个样本时,大约最优的做法是允许前30个样本进行投票。

正则化: 在微调和验证中使用dropout作为正则化手段,可以显著提高性能。研究中在网络的每个层的残差路径上应用了残差dropout(Vaswani et al., 2017)。在所有的dropout实验中,使用了20%的dropout比例,这一比例是根据超参数扫描的结果选择的。值得注意的是,GPT-3模型并不是用dropout进行预训练的。因此,在涉及dropout的实验中,先进行额外的预训练以引入dropout,然后再进行微调。这减轻了模型在微调过程中所经历的分布变化。

首先,研究了dropout对不同训练集大小的微调的影响。图8a显示,与基线相比,dropout带来了显著的改进。接下来,研究了dropout对验证器的影响,考虑了解决方案级和令牌级两种变体。在图8b中,可以看到dropout显著改善了解决方案级验证器,减轻了未正则化基线中出现的过拟合。值得注意的是,使用dropout的解决方案级验证器达到了与令牌级验证器类似的性能水平。在图8c中,对令牌级验证器应用了dropout。由于令牌级验证器本来就不易过拟合,因此dropout的影响不那么显著并不奇怪。尽管如此,使用dropout训练令牌级验证器仍然可以看到轻微的性能提升。注意,为了更好地处理更困难的目标和dropout带来的噪声,将令牌级验证器的批量大小增加了4倍。

论文链接:https://arxiv.org/pdf/2110.14168

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/439794.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python|接口自动化测试】使用requests发送http请求时添加headers

文章目录 1.前言2.HTTP请求头的作用3.在不添加headers时4.反爬虫是什么?5.在请求时添加headers 1.前言 本篇文章主要讲解如何使用requests请求时添加headers,为什么要加headers呢?是因为有些接口不添加headers时,请求会失败。 2…

Windows上 minGW64 编译 libssh2库

下载libssh2库:https://libssh2.org/download/libssh2-1.11.0.zip 继续下载OpenSSL库: https://codeload.github.com/openssl/openssl/zip/refs/heads/OpenSSL_1_0_2-stable

java中创建不可变集合

一.应用场景 二.创建不可变集合的书写格式(List,Set,Map) List集合 package com.njau.d9_immutable;import java.util.Iterator; import java.util.List;/*** 创建不可变集合:List.of()方法* "张三","李四","王五…

SpringBoot中间件Docker

Docker(属于C/S架构软件) 简介与概述 1.Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从 Apache2.0 协议开源。 Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux …

登 Nature 子刊!论文一作详解蛋白质语言模型的小样本学习方法,解决湿实验数据匮乏难题

在「Meet AI4S」系列直播第三期中,我们有幸邀请到了上海交通大学自然科学研究院 & 上海国家应用数学中心博士后周子宜, 他所在的上海交通大学洪亮课题组研究方向主要为 AI 蛋白和药物设计、分子生物物理。该课题组研究成果颇丰,截止目前共…

【AI副业项目】揭密AI技术对于儿童古诗文项目的应用

大家都知道,古诗文作为中华文化的瑰宝,承载着丰富的历史情感和智慧。但是,在现代社会快节奏的生活中,如何让更多人尤其是少年儿童感受到古诗文的魅力,成为了一个极需解决的问题。 AI技术的兴起为这一难题提供了新的解…

【D3.js in Action 3 精译_025】3.4 让 D3 数据适应屏幕(中)—— 线性比例尺的用法

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一部分 D3.js 基础知识 第一章 D3.js 简介(已完结) 1.1 何为 D3.js?1.2 D3 生态系统——入门须知1.3 数据可视化最佳实践(上)1.3 数据可…

【Python】Streamlit:为数据科学与机器学习打造的简易应用框架

Streamlit 是一个开源的 Python 库,专为数据科学家和机器学习开发者设计,旨在快速构建数据应用。通过简单的 Python 脚本,开发者无需掌握前端技术,即可将数据分析和模型结果转化为直观、交互式的 Web 应用。其简洁的 API 设计使得…

MATLAB下的RSSI定位程序,二维平面上的定位,基站数量可自适应

文章目录 引言程序概述程序代码运行结果待定位点、锚点、计算结果显示待定位点和计算结果坐标 引言 随着无线通信技术的发展,基于 R S S I RSSI RSSI(接收信号强度指示)的方法在定位系统中变得越来越流行。 R S S I RSSI RSSI定位技术特别适…

Android车载——VehicleHal初始化(Android 11)

1 概述 VehicleHal是AOSP中车辆服务相关的hal层服务。它主要定义了与汽车硬件交互的标准化接口和属性管理,是一个独立的进程。 2 进程启动 VehicleHal相关代码在源码树中的hardware/interfaces/automotive目录下 首先看下Android.bp文件: cc_binary …

【Linux的那些事】shell命名及Linux权限的理解

目录 一、shell命令以及运行原理 二、Linux权限的概念 三、Linux权限管理 3.1.文件访问者的分类(人) 3.2.文件类型和访问权限(事物属性) 3.3.文件权限值的表示方法 3.4.文件访问权限的相关设置方法 a)chmod b)chown c)…

【Spring Boot React】Spring Boot和React教程 完整版

【Spring Boot & React】Spring Boot和React教程 在B站找到一个不错的SpringBoot和React的学习视频,作者是amigoscode 【Spring Boot & React】Spring Boot和React教程 2023年更新版【Spring Boot React】价值79.9美元,全栈开发,搭…

Luminar激光雷达公司裁员重组的深度分析

在科技行业风起云涌的今天,每一家企业都面临着前所未有的挑战与机遇。当地时间9月23日,美国激光雷达领域的领军企业Luminar Technologies向美国证券交易委员会(SEC)提交了一份8-K报告,正式宣布了一项重大的业务重组计划,其核心内容是通过进一步裁员来优化成本结构,以期在…

windows上安装python环境

前言 最近电脑重装了系统,需要重新安装python环境 ,因此记录一下 1.下载 打开python官网下载,下载链接:https://www.python.org/downloads/windows/ 点击下载 ,我这里使用64位操作系统(大部分电脑),根据…

快速上手C语言【上】(非常详细!!!)

目录 1. 基本数据类型 2. 变量 2.1 定义格式 和 命名规范 2.2 格式化输入和输出(scanf 和 printf) ​编辑 2.3 作用域和生命周期 3. 常量 4. 字符串转义字符注释 5. 操作符 5.1 双目操作符 5.1.1 算数操作符 5.1.2 移位操作符 5.1.3 位操作符…

为Floorp浏览器添加搜索引擎及搜索栏相关设置. 2024-10-05

Floorp浏览器开源项目地址: https://github.com/floorp-Projects/floorp/ 1.第一步 为Floorp浏览器添加搜索栏 (1.工具栏空白处 次键选择 定制工具栏 (2. 把 搜索框 拖动至工具栏 2.添加搜索引擎 以添加 搜狗搜索 为例 (1.访问 搜索引擎网址 搜狗搜索引擎 - 上网从搜狗开始 (2…

Java 网络编程基础

网络通信三要素 此笔记来之与黑马.B站的视频是真的高 基本的通信架构 基本的通信架构有2种形式:CS架构(Client 客户端/ Server 服务端)、BS架构( Browser 浏览器/ Server 服务端)。 IP 地址 IP(InternetProtocol)&a…

关于Zipf定律与TF—IDF的一个实践

在这篇文章中,我将通过机器学习中的线性回归来计算zipf定律中一个经验常数alpha,还会画TF-IDF的图像,此外还将简单介绍下与zipf、TF-IDF有关的知识。 在之前的一篇文章中我曾介绍过TF-IDF,但之后我又阅读了Ricardo Baeza-Yates和…

PELT算法

PELT算法的范畴 PELT算法(Pruned Exact Linear Time)属于时间序列分析和变点检测(Change Point Detection)范畴的算法。 从更广泛的角度来看,PELT算法还可以归类为以下几类算法的子集: 1. 时间序列分析&…

【数据结构】什么是红黑树(Red Black Tree)?

🦄个人主页:修修修也 🎏所属专栏:数据结构 ⚙️操作环境:Visual Studio 2022 目录 📌红黑树的概念 📌红黑树的操作 🎏红黑树的插入操作 🎏红黑树的删除操作 结语 📌红黑树的概念 我们之前学过了…