教大模型学数学,总共分几步?


大模型那么聪明,为什么数学题总是做不对、做不会?

从答高考数学卷难及格到普通数字比大小出错,大模型总算让大家觉得并非“无所不能”。这一方面让普通人开心,毕竟讲到AI取代人类看起来为时尚早,而另一方面,大模型的推理究竟“靠不靠谱”将影响着千行百业落地实际应用的速度。事实上,大模型是否能真正学会数学,到今天也没有统一的观点。但经过特别的训练,大模型还是有机会给出正确的解答步骤和答案的。

“如何提升大模型的逻辑推理能力是全球大模型公司共同面对的难题。”好未来CTO田密在回复第一财经记者时提到,这需要高质量的训练数据,过程需要更加精确、步骤更加清晰、更利于机器理解和学习。

好未来旗下的九章大模型在今年3月登顶了MathEval数学大模型竞赛榜单,田密告诉第一财经,好未来的九章大模型是从训练数据和推理策略两方面优化来提升大模型的数学和推理能力。

首先是厘清认知。LaTeX可以精确且清晰地呈现复杂的数学公式,是一种高质量的排版系统,但目前大部分开源处理后的语料对LaTeX公式都不友好。为此,好未来开发了专门的LaTeX合法性检测工具,把LaTeX公式转义为正确的文本格式,确保公式推理的正确性。而用于SFT(监督微调)和RLHF(基于人类反馈的强化学习)的题目数据,都经过了人工反复审核,确保步骤清晰、逻辑连贯,这样才能确保模型学到正确的解题方法。

“我们用AI程序生成了大量数值计算和符号计算的训练数据,保证了训练数据的丰富度和多样性,用AI合成数据来弥补人工标注数据的不足。”田密说。

在推理策略部分,大模型对每一步推理生成的多个候选步骤进行评估,选择最优的步骤路径往下扩展;在某些要求结果更加准确的应用场合,甚至会让大模型针对一个题目跑多次结果,再选择一个确信度最高的结果,此外也会把推理和RAG技术(检索增强生成)结合,在解题之前,先从题库搜索得到一些相似题和解析过程,这样才能显著提升解题正确率。

也有通用大模型的专业人士提到,数学题做不对是因为“本质上要用prompt(提示词)去激活。目前大家在攻克的是指令遵循的能力,约等于我们理解的推理能力,也就是把真正的、背后的意思给拆出来。数学是其中的一个分支,但又有些不太一样。”换言之,别以为大模型学不好数学,还有可能是你的“打开方式”不对。

这也让大模型在教育领域的实际应用方向有一些分歧。在大模型的使用上,基础教育和高等教育出现了较大的不同。很多高校已经积极地把大模型引入了课堂,打造了AI助教老师,甚至并不反对学生做相关研究时应用大模型,但是中小学对于大模型在学校内的使用仍是非常谨慎。

“大模型在教育产业的应用,肯定不会是一蹴而就,而是渐变式的,特别类似于自动驾驶行业,从L1到L5需要逐步演进。需要先定义在教育行业里有哪些应用场景,然后逐一落地。在这个过程中不断提升模型的性能。其中,用户数据的收集和积累是最关键的,只有收集到了海量的真实的用户数据,并形成了数据闭环,才有可能实现‘端到端’的AI老师。”田密说。

===============================================================================================================================================================================================================================================================================================

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/378867.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Autosar RTE配置-Assembly和Delegation的使用-基于ETAS软件

文章目录 前言Assembly和Delegation的含义Delegation的使用Assembly的使用总结 前言 RTE中的Compostion内部的SWC之间的连接使用Assembly Connector进行连接。这样的连接一般都是一个SWC的Pport对应另一个SWC的Rport。而Autosar软件中往往不只一个Composition(一般可以以核的数…

Android Toast

Toast Toast是Android常用的简单控件,主要用来进行简短的信息提示,如图1所示。 图1 Toast效果图 Toast的基本用法很简单,不需要设置layout,只需要在程序中调用即可。Toast调用makeText()方法设置需要显示的界面、显示的内容、显…

【计算机网络】学习指南及导论

个人主页:【😊个人主页】 系列专栏:【❤️计算机网络】 文章目录 前言我们为什么要学计算机网络?计算机网络概述计算机网络的分类按交换技术分类按使用者分类按传输介质分类按覆盖网络分类按覆盖网络分类 局域网的连接方式有线连接…

Lua基础知识入门

1 基础知识 标识符:标识符的定义和 C语言相同:字母和下划线_ 开头, 下划线_ 大写字母一般是lua保留字, 如_VERSION 全局变量:默认情况下,变量总是认为是全局的,不需要申明,给一个变…

河南萌新联赛2024第(一)场:河南农业大学

A.造数 题目: 链接:https://ac.nowcoder.com/acm/contest/86639/A 思路: 签到题,特判如果n0,输出0,如果n1或2,输出1;while循环,首先如果n%2!0,那么s&…

基于Web的特产美食销售系统的设计与实现

💗博主介绍💗:✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示:文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…

Spring Web MVC(常用的注解@RequestMapping,@RequestParam,@RequestBody等)

一、Spring MVC spring的启动类 启动类是看这个 SpringBootApplication 注解,而不是 类的名字 这个注解在哪,哪个类就是启动类 1.MVC思想 举例 二、Spring MVC mvc 是一种思想,而spring mvc是对mvc思想的一种实现。全称是 spring web mvc…

笔记 2 : 课本第 3 章开始,记录 arm 的汇编指令的格式

(13) 介绍 arm 中的第一个汇编指令的用法 mov : (14)立即数的概念: (15) 汇编中的移位写法: 举例 : (16) 学习一个新的指令 cmp &a…

【大型实战】企业网络实验(华为核心交换、ESXI7.0vmware虚拟机、DHCP中继、服务端网络及用户端网络配置)

需求 实验 vmware网络配置(企业内部一般为ESXI) 这样服务器虚拟机使用192.168.200.X网段才能与用户侧互通 vmware虚拟机配置(DHCP服务器网络配置) 打开网络管理页面 nmtui重置一下网络连接(重启网卡) …

ubuntu24.04 linux bcm94352hmb 无线网卡(带蓝牙功能)无法连接蓝牙设备的解决办法

ubuntu24.04 linux bcm94352hmb 无线网卡(带蓝牙功能)无法连接蓝牙设备的解决办法 问题描述 小本是自己换装的bcm94352hmb,现在跑不动黑苹果了,换装ubuntu,该网卡在黑苹果上和windows上都能正常工作,到了…

Go语言中的并发

简单介绍go中的并发编程. 涉及内容主要为goroutine, goroutine间的通信(主要是channel), 并发控制(等待、退出). 想查看更多与Go相关的内容, 可以查看我的Go编程栏目 Goroutine 语法 在一个函数调用前加上go即可, go func(). 语法很简单, 可以说是并发写起来最简单的程序语言…

Mongodb多键索引中索引边界的混合

学习mongodb,体会mongodb的每一个使用细节,欢迎阅读威赞的文章。这是威赞发布的第93篇mongodb技术文章,欢迎浏览本专栏威赞发布的其他文章。如果您认为我的文章对您有帮助或者解决您的问题,欢迎在文章下面点个赞,或者关…

linux进程——概念理解与PCB

前言:本篇讲解Linux进程概念相关内容。 操作系统被称为计算机世界的哲学, 可以见得操作系统的知识并不好理解。 对于这篇进程概念的讲解, 博主认为, 如果没有一些前置知识的话,里面的有些概念并不好理解。 但是如果学习…

TDesign组件库日常应用的一些注意事项

【前言】Element(饿了么开源组件库)在国内使用的普及率和覆盖率高于TDesign-vue(腾讯开源组件库),这也导致日常开发遇到组件使用上的疑惑时,网上几乎搜索不到其文章解决方案,只能深挖官方文档或…

防溺水预警系统引领水域安全新篇章

一、系统概述 随着人们对水域活动的需求增加,溺水事故频发,给人们的生命安全带来了严重威胁。然而,如今,一项创新科技正在以强大的功能和无限的潜力引领着水域安全的新篇章。智能防溺水预警系统,作为一种集成了智能感知…

文心一言:如何备考软考架构师

提问:软考高级:架构师指导,有哪些考点、重点考点有哪些?需要如何备考?案例分析题如何做?论文如何写? 文心一言回答1700字如下: 针对软考高级架构师的考试,以下是对考点、重点考点、备…

MongoDB自学笔记(三)

一、前文回顾 上一篇文章中我们学习了更新操作&#xff0c;以及讲解了部分的更新操作符&#xff0c;今天我们继续学习剩余的更新操作符。 二、更新操作符 1、$rename 语法&#xff1a;{ $rename: { < field1 >: < newName1 >, < field2 >: < newName2…

JDK、JRE、JVM的区别java的基本数据类型

说一说JDK、JRE、JVM的区别在哪&#xff1f; JDK&#xff1a; Java Delopment kit是java工具包&#xff0c;包含了编译器javac&#xff0c;调试器&#xff08;jdb&#xff09;以及其他用于开发和调试java程序的工具。JDK是开发人员在开发java应用程序时候所需要的的基本工具。…

Linux - 基础开发工具(yum、vim、gcc、g++、make/Makefile、git、gdb)

目录 Linux软件包管理器 - yum Linux下安装软件的方式 认识yum 查找软件包 安装软件 如何实现本地机器和云服务器之间的文件互传 卸载软件 Linux编辑器 - vim vim的基本概念 vim下各模式的切换 vim命令模式各命令汇总 vim底行模式各命令汇总 vim的简单配置 Linux编译器 - gc…

R语言实现SVM算法——分类与回归

### 11.6 基于支持向量机进行类别预测 ### # 构建数据子集 X <- iris[iris$Species! virginica,2:3] # 自变量&#xff1a;Sepal.Width, Petal.Length y <- iris[iris$Species ! virginica,Species] # 因变量 plot(X,col y,pch as.numeric(y)15,cex 1.5) # 绘制散点图…