大模型那么聪明,为什么数学题总是做不对、做不会?
从答高考数学卷难及格到普通数字比大小出错,大模型总算让大家觉得并非“无所不能”。这一方面让普通人开心,毕竟讲到AI取代人类看起来为时尚早,而另一方面,大模型的推理究竟“靠不靠谱”将影响着千行百业落地实际应用的速度。事实上,大模型是否能真正学会数学,到今天也没有统一的观点。但经过特别的训练,大模型还是有机会给出正确的解答步骤和答案的。
“如何提升大模型的逻辑推理能力是全球大模型公司共同面对的难题。”好未来CTO田密在回复第一财经记者时提到,这需要高质量的训练数据,过程需要更加精确、步骤更加清晰、更利于机器理解和学习。
好未来旗下的九章大模型在今年3月登顶了MathEval数学大模型竞赛榜单,田密告诉第一财经,好未来的九章大模型是从训练数据和推理策略两方面优化来提升大模型的数学和推理能力。
首先是厘清认知。LaTeX可以精确且清晰地呈现复杂的数学公式,是一种高质量的排版系统,但目前大部分开源处理后的语料对LaTeX公式都不友好。为此,好未来开发了专门的LaTeX合法性检测工具,把LaTeX公式转义为正确的文本格式,确保公式推理的正确性。而用于SFT(监督微调)和RLHF(基于人类反馈的强化学习)的题目数据,都经过了人工反复审核,确保步骤清晰、逻辑连贯,这样才能确保模型学到正确的解题方法。
“我们用AI程序生成了大量数值计算和符号计算的训练数据,保证了训练数据的丰富度和多样性,用AI合成数据来弥补人工标注数据的不足。”田密说。
在推理策略部分,大模型对每一步推理生成的多个候选步骤进行评估,选择最优的步骤路径往下扩展;在某些要求结果更加准确的应用场合,甚至会让大模型针对一个题目跑多次结果,再选择一个确信度最高的结果,此外也会把推理和RAG技术(检索增强生成)结合,在解题之前,先从题库搜索得到一些相似题和解析过程,这样才能显著提升解题正确率。
也有通用大模型的专业人士提到,数学题做不对是因为“本质上要用prompt(提示词)去激活。目前大家在攻克的是指令遵循的能力,约等于我们理解的推理能力,也就是把真正的、背后的意思给拆出来。数学是其中的一个分支,但又有些不太一样。”换言之,别以为大模型学不好数学,还有可能是你的“打开方式”不对。
这也让大模型在教育领域的实际应用方向有一些分歧。在大模型的使用上,基础教育和高等教育出现了较大的不同。很多高校已经积极地把大模型引入了课堂,打造了AI助教老师,甚至并不反对学生做相关研究时应用大模型,但是中小学对于大模型在学校内的使用仍是非常谨慎。
“大模型在教育产业的应用,肯定不会是一蹴而就,而是渐变式的,特别类似于自动驾驶行业,从L1到L5需要逐步演进。需要先定义在教育行业里有哪些应用场景,然后逐一落地。在这个过程中不断提升模型的性能。其中,用户数据的收集和积累是最关键的,只有收集到了海量的真实的用户数据,并形成了数据闭环,才有可能实现‘端到端’的AI老师。”田密说。
===============================================================================================================================================================================================================================================================================================