Re44:数据集 GSM8K 和 论文 Training Verifiers to Solve Math Word Problems

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名:Training Verifiers to Solve Math Word Problems
GSM8K数据集原始论文

OpenAI 2021年的工作,关注解决MWP问题(具体场景是小学(grade school)数学题),训练模型关注其错误,重复尝试,直至找到正确解法。
因此本文训练verifier检测解决方案是否正确。
在小模型上,verifier可以使模型提升到与大模型靠近的程度。
数据集越大,verifier效果越好。小数据集上没用。

论文ArXiv链接:https://arxiv.org/abs/2110.14168

官方GitHub项目:openai/grade-school-math

官方博文https://openai.com/research/solving-math-word-problems

verifier这个想法当然很好,除了成本看起来就很高之外……
另外就是看论文中的暗示,这个优秀的模型效果也是靠调参调出来的啊。哎调参嘛本来就是建模的一部分,我一点都没有在酸!

文章目录

  • 1. GSM8K数据集
  • 2. verifier
  • 3. 实验结果
  • 4. 复现
    • 1. 官方GitHub项目内容整理
    • 2. 直接跑一遍GPT-2微调
    • 3. GPT-2 + verifier
  • 本文撰写过程中参考的其他网络资料

1. GSM8K数据集

含8.5K条数学题。
7.5K训练集,1K测试集

每个问题需要2-8步推理来求解。

数据集中的解法都是自然语言形式的。

在这里插入图片描述

此外还提供了一种“苏格拉底式提问”的数据(虽然在论文中压根没提这茬):

A carnival snack booth made $50 selling popcorn each day. It made three times as much selling cotton candy. For a 5-day activity, the booth has to pay $30 rent and $75 for the cost of the ingredients. How much did the booth earn for 5 days after paying the rent and the cost of ingredients?
How much did the booth make selling cotton candy each day? ** The booth made $50 x 3 = $<<50*3=150>>150 selling cotton candy each day.
How much did the booth make in a day? ** In a day, the booth made a total of $150 + $50 = $<<150+50=200>>200.
How much did the booth make in 5 days? ** In 5 days, they made a total of $200 x 5 = $<<200*5=1000>>1000.
How much did the booth have to pay? ** The booth has to pay a total of $30 + $75 = $<<30+75=105>>105.
How much did the booth earn after paying the rent and the cost of ingredients? ** Thus, the booth earned $1000 - $105 = $<<1000-105=895>>895.

质量控制是纯人工完成的,我好羡慕啊……
数据集是找人写了1000条(先用few-shot prompted 175B GPT-3 model生成seed问题),然后用Surge AI自动打标扩展,然后找人进行验证。
calculator annotation是由硬编码的逻辑和LLM联合生成的,在训练时就放在一起训练,在测试时直接用calculator(eval())重算答案(在检测到=出现后,调用calculator,计算figure 1中的红色部分左式,得到计算答案,覆盖红色部分),如果出现非法表达式将直接重新抽样
在这里插入图片描述

2. verifier

本文认为,LM的一个重要问题就在于容易因小错而产生失误(sensitivity,或者说不鲁棒),这是因为LM生成过程是autoregressive的,所以无法对之前生成的内容进行纠错。

verifier:评估模型生成解法的正确程度(token-level + 联合训练语言模型和是否正确2个目标函数)
(分类一般比生成任务简单)
(存在推理错误,但是结果正确的场景)
在训练时同时训练验证任务和语言模型任务(训练时两种数据一样多,相当于对语言模型数据的100倍上采样)
在这里插入图片描述

在测试时,让模型生成100个解决方案,选择verifier排序最高的解决方案,作为输出。
(或许这个verifier也可以被叫做,模型聚合。加强版投票吧感觉。不知道以前机器学习那边做模型聚合有没有用过这种第二阶段的验证器(或者叫排序器?打分器)哈,应该有的吧)

本文主要考虑两种解决方案:微调和验证(具体计算都用的是calculator,训练2个epoch(原因见第3节讲的figure 3))
微调:训练1个低temperature(0)的GPT-3
验证:训练一堆高temperature(0.7)的GPT-3(generator),然后给每个输出进行打分(verifier),选择分值最高的结果(generator和verifier的尺寸一样,语言模型目标一样)
在这里插入图片描述

之前的工作中,有类似做法的:

  1. (2020 SIGGRAPH MIG) Collaborative Storytelling with Large-scale Neural Language Models抽样→排序,根据人工偏好得到训练信号
  2. (2021 EMNLP Findings) Generate & Rank: A Multi-task Framework for Math Word Problems:联合训练生成和排序

本文选择不同的生成器和验证器,是为了防止生成器过拟合(但是原则上也可以一起train)

3. 实验结果

  1. GPT-3直接微调,在不同的训练集大小和不同的模型参数上,基本呈现出大力出奇迹的标准结局:
    (这么大的模型还能算平均值和标准差,有钱真好啊)
    在这里插入图片描述
  2. 直接微调GPT-3后,test@N(N次测试中至少对一次)和迭代数之间的关系:test@1基本单调增长,但在测试集损失函数上过拟合;test@100迅速下降(本文认为是过拟合)
    在这里插入图片描述
  3. 必须要先生成自然语言解释,再生成最终答案。如果直接生成最终答案,结果会从20.6%直接降到5.2%
  4. 不同模型大小上verifier的实验结果(就算是OpenAI也没钱在175B的模型上算平均值和标准差了是吧)
    在小数据集上verifier没用可能是因为过拟合
    在这里插入图片描述
  5. ablation study
    图a我不太确定,我的理解是token-level指的是将整个自然语言结果的每一个token都和生成结果算损失函数(相当于当成一个生成问题),solution-level指的是只考虑最后生成的数值是否正确(相当于当成一个分类问题)
    图b本文认为是因为模型了解语言分布有益于区别不同的生成结果
    图c的结论比较意识流,本文认为这说明verifier是模糊启发式直觉选手,而不是认认真真在做验证
    在这里插入图片描述
  6. 测试时的计算次数
    图a就是直接在测试结果中选打分最高的一项
    图b是选择排序最前的这么多测试结果,进行投票
    在这里插入图片描述7. dropout正则化是牛逼的,但是verifier更加牛逼
    residual dropout(transformer同款)因为GPT-3没有用dropout,所以本文在用dropout微调之前还加了用dropout预训练,以防数据漂移
    dropout概率是hyperparameters sweep搜出来的,牛逼吧……有钱真好啊……
    在这里插入图片描述
    这句话我是真没搞懂:Note that we increase the batch size for token-level verifiers by a factor of 4, to better handle the more difficult objective and the noise from dropout. 这是什么我不知道的理论吗?
  7. 附录B的这个超参是啥意思我也没搞懂:
    在这里插入图片描述
    超参设置:
    在这里插入图片描述
  8. verifier可视化
    在这里插入图片描述

4. 复现

1. 官方GitHub项目内容整理

没有给出具体的实验代码,只给了一些参考工具脚本(都没有经过优化,“又不是不能用.jpg”)

  1. 数据集
    用于实验的数据:https://github.com/openai/grade-school-math/blob/master/grade_school_math/data/train.jsonl和https://github.com/openai/grade-school-math/blob/master/grade_school_math/data/test.jsonl
    苏格拉底式提问的数据:https://github.com/openai/grade-school-math/blob/master/grade_school_math/data/train_socratic.jsonl和https://github.com/openai/grade-school-math/blob/master/grade_school_math/data/test_socratic.jsonl
  2. 调用calculator的示例:https://github.com/openai/grade-school-math/blob/master/grade_school_math/calculator.py
  3. https://github.com/openai/grade-school-math/blob/master/grade_school_math/dataset.py:一些实用的数据集工具脚本
    哦但是值得注意的是
  4. GPT-2微调的代码:https://github.com/openai/grade-school-math/blob/master/grade_school_math/train.py
  5. GPT-2推理的代码:https://github.com/openai/grade-school-math/blob/master/grade_school_math/sample.py

2. 直接跑一遍GPT-2微调

LLM的部分跟别的LLM其实差不多,只是GSM8K多了一个调用calculator的部分。

参考官方代码和transformers的新功能。

这个我晚些再补。

3. GPT-2 + verifier

GPT-3毕竟没有开源,所以只能拿GPT-2当代餐了。

然后这个代码也我自己写的。应该比较好写,我晚些再补。

本文撰写过程中参考的其他网络资料

  1. 【搬运】GSM8K 数据集介绍_x66ccff的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/121430.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在Mac电脑上安装WeasyPrint:简单易懂的步骤

1. 安装homebrew 首先需要确保安装了homebrew&#xff0c;通过homebrew安装weasyprint可以将需要的库都安装好&#xff0c;比pip安装更简单快捷。 安装方法如下&#xff1a; /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)&qu…

SpringBoot v2.7.x+ 整合Swagger3入坑记?

目录 一、依赖 二、集成Swagger Java Config 三、配置完毕 四、解决方案 彩蛋 想尝鲜&#xff0c;坑也多&#xff0c;一起入个坑~ 一、依赖 SpringBoot版本&#xff1a;2.7.14 Swagger版本&#xff1a;3.0.0 <dependency><groupId>com.github.xiaoymin<…

方案展示 | RK3588开发板Linux双摄同显方案

iTOP-RK3588开发板使用手册更新&#xff0c;后续资料会不断更新&#xff0c;不断完善&#xff0c;帮助用户快速入门&#xff0c;大大提升研发速度。 RK3588开发板载4路MIPI CAMERA摄像头接口、MIPI CSI DPHY的4.5Gbps、2.5Gops的MIPI CSI CPHY&#xff0c;四路同时输入&#xf…

react快速开始(三)-create-react-app脚手架项目启动;使用VScode调试react

文章目录 react快速开始(三)-create-react-app脚手架项目启动&#xff1b;使用VScode调试react一、create-react-app脚手架项目启动1. react-scripts2. 关于better-npm-runbetter-npm-run安装 二、使用VScode调试react1. 浏览器插件React Developer Tools2. 【重点】用 VSCode …

MEMS传感器的原理与构造——单片式硅陀螺仪

一、前言 机械转子式陀螺仪在很长的一段时间内都是唯一的选项&#xff0c;也正是因为它的结构和原理&#xff0c;使其不再适用于现代小型、单体、集成式传感器的设计。常规的机械转子式陀螺仪包括平衡环、支撑轴承、电机和转子等部件&#xff0c;这些部件需要精密加工和…

mysql group by 字段 与 select 字段

表数据如下&#xff1a; 执行SQL语句1&#xff1a; SELECT * FROM z_course GROUP BY NAME,SEX 结果&#xff1a; 执行SQL语句2&#xff1a; SELECT * FROM z_course GROUP BY NAME sql 1 根据 name&#xff0c;sex 两个字段分组&#xff0c;查询 所有字段&#xff0c;返回结…

骨传导耳机用久了伤耳朵吗?骨传导耳机有什么优势

骨传导耳机用久了不伤耳朵&#xff0c;相对于传统的入耳式耳机来说&#xff0c;对耳朵的压力和损伤较小。由于骨传导技术不直接通过耳道传递声音&#xff0c;而是通过振动将声音传送到内耳&#xff0c;因此相比其他类型的耳机&#xff0c;它在减少听力损伤的风险方面具有优势。…

Java 加了@PreAuthorize注解的接口在Postman中访问

1. 首先&#xff0c;你需要获取一个有效的用户token&#xff0c;该token应包含了相应的接口权限。你可以通过登录或其他身份验证方式来获取token。2. 打开Postman&#xff0c;并确保已选择正确的HTTP方法&#xff08;GET、POST等&#xff09;。3. 在请求的Headers部分&#xff…

Flink中RPC实现原理简介

前提知识 Akka是一套可扩展、弹性和快速的系统&#xff0c;为此Flink基于Akka实现了一套内部的RPC通信框架&#xff1b;为此先对Akka进行了解 Akka Akka是使用Scala语言编写的库&#xff0c;基于Actor模型提供一个用于构建可扩展、弹性、快速响应的系统&#xff1b;并被应用…

内网隧道代理技术(十九)之 CS工具自带上线不出网机器

CS工具自带上线不出网机器 如图A区域存在一台中转机器,这台机器可以出网,这种是最常见的情况。我们在渗透测试的过程中经常是拿下一台边缘机器,其有多块网卡,边缘机器可以访问内网机器,内网机器都不出网。这种情况下拿这个边缘机器做中转,就可以使用CS工具自带上线不出网…

【每日一题】54. 螺旋矩阵

54. 螺旋矩阵 - 力扣&#xff08;LeetCode&#xff09; 给你一个 m 行 n 列的矩阵 matrix &#xff0c;请按照 顺时针螺旋顺序 &#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&#xff1a;[1,2,3,6,9,8,7,4,5…

Myvatis关联关系映射与表对象之间的关系

目录 一、关联关系映射 1.1 一对一 1.2 一对多 1.3 多对多 二、处理关联关系的方式 2.1 嵌套查询 2.2 嵌套结果 三、一对一关联映射 3.1 建表 ​编辑 3.2 配置文件 3.3 代码生成 3.4 编写测试 四、一对多关联映射 五、多对多关联映射 六、小结 一、关联关系映射 …

BFS练习1

BFS练习1 - 题目 - Daimayuan Online Judge 问题描述&#xff1a; 刚开始吓一跳&#xff0c;以为有什么更简单的呢&#xff0c;因为每一次都要走一次bfs&#xff0c;看了数据范围后&#xff0c;感觉跑一次bfs进行记录即可。 代码&#xff1a; void solve() {int a,k; cin>…

部署项目至服务器

安装conda https://zhuanlan.zhihu.com/p/489499097 个人租借的服务器如何进行端口的开放呢&#xff1f; 防火墙设置&#xff1a; 添加规则设置&#xff1a; 即可&#xff1b; 通常下租借的服务器没有防火墙设置 相关链接&#xff1a; https://blog.csdn.net/weixin_4520…

线上展厅可以用在哪些行业,线上展厅如何获取访客

引言&#xff1a; 随着数字化时代的到来&#xff0c;线上展厅成为了一种重要的营销工具&#xff0c;适用于多个行业&#xff0c;帮助他们吸引来自不同领域的潜在用户。 一&#xff0e;线上展厅在哪些行业有应用 1.零售行业 线上展厅为零售商提供了一个虚拟展示产品的平台&am…

Unity——工程与资源

本文将详细介绍Unity工程的文件夹结构&#xff0c;以及动态加载资源的技术要点 一、Unity项目的文件夹结构 1.工程文件夹 在新建工程时&#xff0c;Unity会创建所有必要的文件夹。第一级文件夹有Assets,Library,Logs,Packages,ProjectSettings。 Assets&#xff1a;最主要的文…

NVIDIA CUDA Win10安装步骤

前言 windows10 版本安装 CUDA &#xff0c;首先需要下载两个安装包 CUDA toolkit&#xff08;toolkit就是指工具包&#xff09;cuDNN 1. 安装前准备 在安装CUDA之前&#xff0c;需要完成以下准备工作&#xff1a; 确认你的显卡已经正确安装&#xff0c;在设备管理器中可以看…

Windows安装Nginx及部署vue前端项目操作

先在nginx官网下载windows下安装的包&#xff0c;并解压&#xff0c;到ngnix目录下 双击nginx.exe,会有黑窗闪过。 用cmd命令窗口&#xff0c;cd 到nginx解压目录&#xff0c;./nginx启动。 在浏览器中访问http://localhost:80,出现以下界面说明启动成功(由于笔者电脑80端口被…

SPA和MPA

SPA与MPA是什么 **SPA&#xff08;Single Page Application&#xff0c;单页应用&#xff09;**在首次加载时会下载一个单独的HTML文件&#xff0c;然后通过JavaScript动态加载内容&#xff0c;无需每次页面刷新时重新加载整个页面。**MPA&#xff08;Multi-Page Application&…

如何在IPhone 14、14 Pro和14 Pro Max上添加屏幕锁定

当你第一次获得iPhone时&#xff0c;系统会提示你为它创建一个密码&#xff0c;这样只有你才能访问它。你应该使用一个必须输入的密码&#xff0c;以便在iPhone 14被唤醒或打开时解锁它。这将提供更高级别的保护。当你打开数据保护时&#xff0c;iPhone上的数据会被加密&#x…