北大GPT解题有数学老师内味了,用人话讲难题,从高中数学到高数都能搞定

点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达4e591a9e8f8a76fa7471c1351e0963cd.jpeg

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

北大团队教会AI把人话当编程语言用。

这下大语言模型(LLM)不光能做对数学题,而且解题过程你也能看懂!

数学,曾经是不知多少人学生时代的梦魇。但是现在,LLM或许可以帮你脱离苦海了。

79c12470dcec2f79ccb4c587fde9f848.jpeg

用自然语言编程,本质就是描述步骤再执行,GPT3.5其实本来就会,但结果却不忍直视——往往包含不完整步骤甚至事实错误。

于是团队便提出了Learning to Program (LP)方法,让LLM从自然语言程序数据集中进行学习,并用学到的内容指导其推理过程。

具体来说,他们将一些高中数学问题和对应解题程序以自然语言形式灌输给GPT。

经过训练,ChatGPT具备了团队预期的解题能力。

在使用10个高中难度的数学问题进行的零样本测试中,LP加持后的LLM成绩显著提高。

这10个问题包括几何、代数和微积分,具体如下表所示:

c88069757276eb4a96ee879a86943e17.png

可以看出,在每一项任务中,有LP加持的ChatGPT表现,无论是在零样本还是少样本测试中,均优于独立或自编程的版本。

对于第8类问题,LP加持版更是在少样本测试中取得了100分的成绩。

c691d02c108518e62c911d7d73d7f5ab.png

团队又将难度提高,测试其在(高等数学视角下的)中级代数(IA)、数论(NT)、几何、统计概率(CP)等方面的表现,结果均好于无加持的ChatGPT或仅有极小的差距。

28b00740d7550698f4674d9cf697aec3.png

当然,这些数据还不能证明LP训练在提高ChatGPT数学成绩当中的关联性。

于是团队使用一道几何问题,评估了ChatGPT在LP训练前、中、后三个阶段的表现。

结果显示,输出内容的正确率的确随着训练过程的进行在逐步提高。

193818e52fdc47b26af1b4c0d878773f.png

在接下来的质量评价中,训练后的LLM可以给出多种通用性策略。

因此,团队认为,在今后的训练中,只需要将某一类问题的通用解法教给LLM。

有了通用方法,它们就可以举一反三,解决未知但性质相同的问题。

LP的训练过程是怎样的

LP训练的第一步,是要先准备出问题,以及对应的用自然语言编写出的程序,作为训练数据集。

这种自然语言程序不是具体的解题步骤,它们需要具有更强的通用性。

相应的,准备的问题也不是具体的,而是某一类问题。

既要简短明确,同时又要考虑到实际过程中所有可能出现的情况。

这些自然语言程序主要有三种来源:机器自生成、人工编写和经LP训练的LLM生成。

人工编写工作量过于庞大,LP训练已经是结果,所以实际使用的数据集主要来源于第一种途径。

有了训练数据,LLM便可以结合数据集中的问题,学习句子、段落和公式。

709d3c5f3e8be0ff0088ddd792e05252.png

初步学习完成之后,就要让LLM进行预测,并与预设结果比较,计算误差。

同时,所有不符合预设正确结果的输出均被收集,构成了错误数据集。

错误数据集在之后的阶段也将作为LLM学习的内容,以避免再次出现同样的失误。

65504e658f7f16b389b3498dc36a217a.png

基于这些错误数据,研究人员让LLM对所提出的策略进行回溯,但又引发了新的问题:

一是出现了重复的解决方案需要移除,二是有些方案自身内容虽然没错,但与问题并不匹配。

最重要的第三点,是输入数据的长度会随着回溯的过程不断增加……

于是团队还需要对回溯数据进行压缩,并判断它们对LLM改正错误是否有帮助。

dab6a7a81dcead0d7999abfde9432a9a.png

经过这一系列的处理,便可以将回溯数据作为训练样本,升级LLM程序了。

最终,升级后的程序经过检验,就可以使用了。

adaafd8df90fb6d94e86c26eed5bbed9.png

举个例子:已知直角三角形两边,求某角正弦值

团队介绍

团队的领导者是北京大学王选计算机研究所博士生导师赵东岩研究员和微软亚洲研究院首席研究员段楠博士。

赵东岩2000年获得北大博士学位,主要研究方向为自然语言处理、大规模语义数据管理、基于知识的智能服务技术。

段楠博士毕业于天津大学,于2012年进入微软一直研究院,并在2018年6月晋升为首席研究员。

此外,他还多次担任NLP/AI学术会议程序主席,发表学术论文100余篇,持有专利20余项。

论文地址:https://arxiv.org/abs/2304.10464

参考链接:
[1]https://www.microsoft.com/en-us/research/people/nanduan/
[2]https://www.wict.pku.edu.cn/zhaodongyan/
[3]https://www.linkedin.com/in/nan-duan-322739a/details/experience/

0dc72c1f4ec70fe34e7c2d09dcb47e13.png

outside_default.png

点个在看 paper不断!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/51854.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谁说数学好编程就好了?MIT告诉你:不对!

【编者按】不夸张地说,在这个时代,编程时时刻刻都在影响着整个世界的运转,它让我们的生活变得更加惬意悠闲。那编程到底是什么?应该算一门语言?还是算逻辑的具体实现? 作者 | Anne Trafton 译者 | 火火酱 …

ChatGPT能代替Oracle DBA吗?用Oracle OCP(1z0-083)的真题测试一下。

让我们来看看ChatGPT不能通过Oracle OCP的考试? 文章目录 引言测试过程总结和分析 关于博主,姚远: Oracle ACE(Oracle和MySQL数据库方向)。Oracle MAA 大师。华为云MVP。《MySQL 8.0运维与优化》的作者。拥有 Oracle …

跳出打工人的困局!程序员该怎么创业?

一位十二年的程序员老友和我说,他的公司倒闭了,现在准备清算,创业之初他带着梦想与对未来的期待踏出了这一步,没想到才短短两年就落得一场空。他对我表达出内心的不舍、惆怅,让我在聊天的过程也感同身受,个…

为啥大龄程序员不选择自己创业呢?

目录 程序员路在何方? 程序员是靠吃青春饭的吗? 程序员的第一个职业生涯阶段 大龄程序员更能理解创业的不易! 大龄程序员负担很重,导致不敢闯 经历时间的筛选,优劣已分 程序员共有的特点,技术和创业…

漫谈程序员系列:程序员该不该考虑初创公司

IT 这个行业,最不缺的就是机会,追逐机会的,有各种各样的小公司,也有各种种样的程序员。 创业公司 每一个出来创业的人,心中都充满了希望和梦想,而且认为自己眼光独到,手段高超,一定…

腾讯再次劝退高龄员工,IT人的中年危机,我来教你化解!

最近,又在网上刷到一条以前的新闻:腾讯开始认真劝退高龄员工。 新闻里,腾讯对高龄员工的定义是,80-85年出生的,尚未成为高管的员工。 而程序员就更是如此,敲代码只能吃青春饭,过了那个年纪&…

九龙证券|光模块概念股封单资金超3亿元,传媒板块涨停潮来袭

今天A股三大股指低开低走。沪深两市收盘共37股涨停。剔除4只ST股,合计33股涨停。另外,10股封板未遂,整体封板率为78.72%。 涨停战场: 华工科技封单资金超3亿元 从收盘涨停板封单量来看,同方股份封单量最高&#xff0…

量化中获取A股交易日信息

问题背景: 在获取近N日的交易品种数据时,例如想要获取近十天涨停过的股票,我们先要得到这N个交易日的日历数据。而akshare的封装函数ak.tool_trade_date_hist_sina()可以获得一年内所有的交易日信息,但这还不是近N日交易日历&…

港联证券|4连板的AI+传媒概念股火了,近5亿资金抢筹

今天,沪深两市共51股涨停,除掉10只ST股,合计41股涨停。别的,11股封板未遂,全体封板率为81%。 涨停战场:长江传媒封单量最高 从收盘涨停板封单量来看,长江传媒封单量最高,有39.96万手…

ChatGLM2-6B-Int4本地部署

文章目录 1、先看效果2、本地部署部署环境下载创建虚拟环境,安装库本地模型下载int-4推理web_demo.py遇到的问题 原文链接:http://wangguo.site/posts/9d8c1768.html ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本 GitHub地址&#xff1a…

本地部署 privateGPT

本地部署 privateGPT 1. 什么是 privateGPT2. Github 地址3. 创建虚拟环境4. 部署 privateGPT5. 配置 .env6. 下载模型7. 将文件放入 source_documents 目录中8. 摄取所有数据9. 向本地文档提问 1. 什么是 privateGPT 利用 GPT 的强大功能,私密地与您的文档交互&am…

LiteFlow v2.10.6 发布!一款社区驱动型优秀的规则引擎框架

LiteFlow 介绍 LiteFlow 是一个开源编排式规则引擎,能够让你的系统逻辑任意编排,可选用脚本书写逻辑,支持多达 6 种脚本语言,支持丰富的第三方存储的支持,所有的逻辑和规则均可热变更。设计系统和重构系统的神器。 L…

chatgpt赋能python:Python自定义colormap集锦

Python自定义colormap集锦 Python是一种高级编程语言,其应用广泛。其中,数据可视化是Python一大优势。通过可视化,我们可以让数据变得更加清晰、易懂。而colormap即色图,是数据可视化中不可或缺的一个元素。在Python中&#xff0…

一个学生关于鸿蒙系统的一些看法

简单谈谈鸿蒙系统,写于20年9月20日 在这里插入图片描述 离华为开发者大会过去一周了,我这两天也问了一下鸿蒙开发群的一些大牛,先行者,对于harmony os,听到了很多种声音,作为一个抱有学习态度的小白&#x…

海外用户用不了鸿蒙系统,海外用不了!鸿蒙系统成国内专用,华为如何才能战胜谷歌安卓...

说起鸿蒙系统,相比不少人都听说过,这是华为摆脱安卓限制的一大步。但是随着鸿蒙系统发布时间越来越近,一些关于鸿蒙的问题也开始逐渐的展露了出来。最近有数码博主声称,鸿蒙系统由于不能搭载谷歌GMS框架,也许走不出国内…

华为鸿蒙比较乐视电视系统,华为彻底告别安卓!三亿台设备将使用鸿蒙系统,但实际远远不够...

此前华为已经宣布将在四月正式开始在自家手机上推送鸿蒙系统,一些即将推出的华为产品也会直接搭载原生的鸿蒙系统,比如MatePad Pro2平板电脑以及P50系列手机。基本上,我们可以确定这个时间点是在华为四月开发者大会前后,这就意味着…

鸿蒙真能兼容所有安卓应用,鸿蒙系统真要来了!已能全面兼容安卓应用:并且还有57万多APP支持...

【4月9日讯】相信大家都知道,只要一提起华为消费者终端业务CEO余承东,确实也是让很多人对他非常敬佩,直接将华为手机从不知名厂商彻底变成了现在全球第二大智能手机厂商,但也因为余承东太爱吹牛了,所以也被誉为“大嘴”…

鸿蒙系统 支持软件,鸿蒙系统上线在即 你最希望哪些软件能够支持呢

华为的鸿蒙系统,被爆商标已经注册。看来,距离鸿蒙系统的上市也不远了。有些小伙伴在问我:希望看到哪些APP可以直接使用? 在回答这条问题之前,我们先来看看“鸿蒙”是什么。鸿蒙是华为开发的一套操作系统,也打破了手机…

如果微软狠心鸿蒙系统,微软强制用户升级华为鸿蒙系统出来你会放弃windows使用鸿蒙吗...

在手机操作系统上,用户最喜欢使用安卓系统和IOS系统,但在PC系统上,用户最喜欢的还是Windows系统。 虽然谷歌和苹果也有自家的PC系统,但苹果和谷歌的桌面系统,相对于微软的windows系统而言,其市场份额几乎可…

鸿蒙OS无法安装APP,假如鸿蒙系统不能下载第三方APP,iPhone用户会路转粉吗

说起手机系统,诺基亚的塞班系统大家都应该记得,在曾经那个年代他就是众手机品牌中鹤立鸡群的大哥,是吊打一切的王者,满大街传单上都是他的身影!直到有一天身边的安卓系统手机和IOS苹果手机越来越多,诺基亚和…