ACL'21 | 多模态数值推理新挑战,让 AI 学解几何题

文 | 陈嘉奇
编 | 小轶

从小到大,数学都是一门令人头秃充满魅力的学科。从基本的代数、几何,到高数微积分,各类数学问题都对答题者的逻辑推理能力都有着不同程度的挑战。

而逻辑推理能力一直以来都是 AI 发展的核心目标之一。学术界对于 AI 自动解数学题的研究也已有时日。由于数学题对于各类复杂逻辑推理能力的要求,该任务往往可以作为一个很好的基准,用以评估 AI 的智能化水平。

但近年来的相关研究还是局限在数学应用题(MWPs)上。任务难点集中在如何把文字形式的问题描述,转换为数学化的推理过程。任务难度还是很高的,毕竟咱真人也没有做得特别好 (:з」∠)

可以看到,之前工作研究的这类数学题都只涉及文字形式的问题描述,整个过程是“单模态”的。但我们从小到大积攒的丰富刷题经验告诉我们:不是所有数学题都是“单模态”任务,还有一类题,是要看图说话的!我们称之为,几何题。

今天介绍的这篇 ACL'21 Finding 的论文,就在此前工作的基础上又往前进了一步,探究了如何使得 AI 自动化解答几何题。与之前的单模态问题相比,几何题的解答有以下几点全新的挑战:

  • 图表中蕴含很多文本中不具备的复杂信息,比如点、线的相互位置关系,模型需要充分地解析图表信息

  • 模型需要同时理解文本和图表,并进行跨模态的数值推理

  • 题目中还涉及一些知识点(如勾股定理)的运用,模型需要学会运用这些知识。

也就是说,几何题的解答是一个 多模态数值推理 的过程。它同时包含了多模态逻辑推理 两大热点研究主题,值得关注一下。

论文标题
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning

论文链接:
https://arxiv.org/abs/2105.14517

GitHub链接:
https://github.com/chen-judge/GeoQA

GeoQA基准

由于之前已有的几何题数据集规模极小,只有大概200题。这篇文章先从数据集入手,提出了 GeoQA 数据集,共有5010道几何题,标注了丰富的题目信息,包括题目描述题目类型运用的知识点解题的过程

▲图一:GeoQA 示例

为了规范化对解题过程的描述,该文设计了一系列所谓程序语言(program),包括一些基本操作OP、常数Const、题目变量N、过程变量V。而这些program可以直接被计算机一步一步地执行,计算出一个最终的答案。比如在图一中,(PythagoreanMinus, N0, V0) 就代表利用勾股定理和相减操作,对题目中出现的半径长度5(N0)与上一步执行得到的OE长度3(V0)进行运算,求得AE的长度为4(V1)。

也就是说,program可以作为一个桥梁,把人类的解题过程转化为计算机更容易理解的程序语言。这样神经网络模型就可以通过预测这些program,来做出可解释的数值推理。

NGS模型

在方法部分,文章提出了一个用于解决几何问题的神经网络模型Neural Geometric Solver (NGS),对几何题的多模态数据进行建模:

  • 首先使用两个编码器,分别对文本和图表信息进行编码

  • 使用一个基于协同注意力机制(co-attention)的推理模块来融合文本和图表的表征

  • 基于上一步得到的跨模态融合表征,模型用解码器直接预测出可执行的program序列。

前文也有提到过,几何题存在如何充分解析图表信息以及如何运用定理知识的挑战。所以该工作,又提出了三个辅助任务来增强NGS的语义表征能力。这三个任务分别是:拼图位置预测几何元素预测知识点预测

前两个任务是为了强化图表编码器的。由于模型里图表编码部分用的是ResNet,预训练时使用的都是一些自然图像,和我们研究的几何题图表还是有很大差异的。所以很自然地想到了,用自监督的方式来训练一个更好的图表编码器,包括拼图位置预测和几何元素预测。

拼图位置预测是把图表划分成3x3片区域,再打乱各片区域的顺序,并让模型去测它们的相对位置关系,借以增强图表编码器对图表信息的理解。几何元素预测则是让模型去预测图表中出现的几何元素,比如三角形、圆形等等,也可以起到增强图表编码器的作用。

第三个辅助任务,知识点预测,训练模型去预测每道题对应的知识点,旨在使模型能够更加准确地运用定理知识。整个数据集共涉及50个知识点,而每个问题包含一至多个知识点,因而这个预测过程也就是一个多标签分类问题。

▲NGS结构

实验

下图是一些主要的实验对比结果及分析。其中,

  • Human代表的是人类水平,是由十个很擅长几何题的学生做出来的结果。神经网络模型与之仍有很大差距,在未来还有很大的研究空间。

  • W/O Program指的是不使用文章定义的一系列program来规范化描述解题过程,而直接用分类的方式预测结果。这一类中的三个baseline是一些在VQA任务上的隐式推理模型。这类模型的性能普遍比较低,证明了program定义的必要性。

  • Text-Only是只使用文本模态求解几何题。性能较差,说明了在几何题上进行多模态推理的必要性。

  • Text-Diagram同时使用文本和图表。相比于一些简单的融合方法,本文的NGS模型取得了最好的性能。

也有 Ablation Study, 分析了本文提出的各个辅助任务的具体效果。

总结

本文首次探究了 AI 自动化解答几何题任务,搜集了大规模的几何题问答数据集GeoQA,并基于定义的program对该数据集进行了人工标注,帮助模型去理解、预测程序化的解题过程。此外,本文提出NGS模型以建模几何题多模态信息,并引入了多个辅助任务,来提升其在几何题问答任务上的性能表现。

几何题解答任务涉及了多模态逻辑推理等多个当今热点研究主题,值得关注。或许在未来,AI 也能学会自己解题,甚至充当智能教师,给教育行业带来一场颠覆性的智能变革。

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35027.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【复盘与分享】第十一届泰迪杯B题:产品订单的数据分析与需求预测

文章目录 题目第一问第二问2.1 数据预处理2.2 数据集分析2.2.1 训练集2.2.2 预测集 2.3 特征工程2.4 模型建立2.4.1 模型框架和评价指标2.4.2 模型建立2.4.3 误差分析和特征筛选2.4.4 新品模型 2.5 模型融合2.6 预测方法2.7 总结 结尾 距离比赛结束已经过去两个多月了。 整个过…

不用ChatGPT,使用Notion AI辅助写代码真方便

Notion中使用AI辅助编程的操作步骤: 打开Notion,在一个页面中创建一个新的Code块。在Code块中输入你要编写的代码。不要担心代码是否正确,因为Notion AI会在后续的步骤中帮助你进行纠正和完善。点击Code块右上角的“•••”按钮&#xff0c…

AI 又进阶!除了鉴别 PS 图片,还能一键卸妆!

作者 | 马超 责编 | 伍杏玲 封图 | 视觉中国 出品 | CSDN(ID:CSDNnews) 最近CVPR2020的论文集合在GitHub火了,CVPR2020-Paper- Code 的项目(https://github.com/extreme-assistant/CVPR2020-Paper-Code-Interpretation&#xff09…

探索检测 AI 生成文本(包括 ChatGPT)的 4 种神奇方法

介绍: OpenAI 的 GPT-3 和 ChatGPT 最近的推出引发了人工智能和自然语言处理领域的一场革命。凭借其生成类人文本的能力,GPT-3 为企业和个人等开辟了许多新的可能性。GPT-4 指日可待。然而,这一进步也引起了人们对人工智能生成文本可能被滥用的担忧,特别是在错误信息、假新…

一款免费开源的 AI 修复神器,可以帮助我们去掉图片中任何不想要的东西

一款免费开源的 AI 修复神器,可以帮助我们去掉图片中任何不想要的东西。 比如想去个图片的水印,自拍照背景有个人想去掉,都可以用这类算法。 也有一些相似算法,不过目前这个 Lama Cleaner 属于 SOTA,也就是效果最好。 先看下效果。 去掉不想要的气球: 去掉自拍中背景…

iPhone 4 问世 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 6 月 8 日,在 1978 年的今天,英特尔(Intel)发布了自己的 8086 处理器,从而开始 X86 处理器的传奇。但…

中国移动九天毕昇部署fastchat Ubuntu18.04+torch1.13.1+cuda11.6+python3.9

8核CPU,RAM32G 时间:2023年7月 项目地址:GitHub - lm-sys/FastChat: An open platform for training, serving, and evaluating large language models. Release repo for Vicuna and FastChat-T5. 体验地址:https://chat.lmsys.org/ 时间20230703,fas…

聚观早报 | 通信行程卡正式宣布下线;《三体》首日播放量破1亿

今日要闻:通信行程卡正式宣布下线;《三体》首日播放量破1亿;全国影院营业率恢复至6成;SpaceX将日本登月舱送入太空;iPhone 15全系涨价突破万元 通信行程卡正式宣布下线 12 月 12 日凌晨 0 点,“通信行程卡…

三体中的思想实验一:地球往事

阅读本文大概需要 8 分钟。 最近在的得到听书上听完了怀沙解读刘慈欣的科幻巨著三部曲《三体》,非常震撼,不仅对作者的脑洞之大震惊之外,也对作者对科学的严谨态度叹服。 整个文章故事情节跌宕起伏,扣人心弦。主要内容讲的是&…

《三体》读后思考-泰勒展开/维度打击/黑暗森林

前言 两个月前,老婆不知道吃错了什么药,心血来潮买了几本书,全是什么给孩子讲数学,量子物理之类的,小小才六岁啊…还有一部小说《三体》,当然,这肯定是她自己想看的了,也许是看到了…

sns一些图在乳腺癌上的数据可视化和特征选择

可以具体看一下 #数据量纲不一样,是否需要统一量纲进行标准化 #小提琴图是箱线图与核密度图的结合,箱线图展示了分位数的位置,核密度图则展示了任意位置的密度, #通过小提琴图可以知道哪些位置的数据点聚集的较多,因其…

带临床数据的热图 -- 给样品添加TNM分期、年龄、性别、riskscore等信息

聚类热图是生物医学论文中最常见的一类图。通常,一篇研究癌症预后、突变等类型的文章最终都会聚焦到几个或者十几个基因,然后利用这些基因的表达量绘制热图,并尽可能多地在图中展示样品的临床信息,例如TNM(Tumor Node …

全球及中国婴儿痤疮药行业专项调研及竞争策略分析报告2021-2027年版

2020年,全球婴儿痤疮药市场规模达到了 百万美元,预计2027年可以达到 百万美元,年复合增长率(CAGR)为 % (2021-2027)。中国市场规模增长快速,预计将由2020年的 百万美元增长到2027年的 百万美元,年复合增长率为 % (2021-2027)。 本报告研究“十三五”期间全球及中国市场婴儿…

ubuntu经常断网、掉线、上不去网的原因

ubuntu经常断网、掉线、上不去网的原因 weixin_30697239 2019-01-26 01:47:00 608 收藏 1 文章标签: 运维 版权 9月11日,腾讯Techo Hub技术沙龙,相约腾讯北京总部,深入音视频技术解析 鹅厂技术大佬带飞,现场分享…

关于打游戏ping值不稳定问题的解决经历(疑难篇)

首先,大概几天之前,笔者发现自己的电脑在打游戏(lol)的时候ping值忽高忽低,就是突然从20跳到10000,没有丝毫夸张,就是这样吓人,然后慢慢降下来,又突然窜上去,…

网络ping不通,试试这8招

摘要:网络ping不通,该怎么办?本文教你8个大招,轻松找到问题根源。 本文分享自华为云社区《网络ping不通,该怎么办?》,作者:wljslmz。 如下图,PC(192.168.10.…

给儿子女儿的一封信

** 今天读到两篇父母写给儿女的信,感觉还是挺感动的,分享 一下 ** (1)刘瑜:写给女儿布谷的信 亲爱的小布谷: 今年六一儿童节,正好是你满百天的日子。 当我写下“百天”这个字眼的时候&…

对你的孩子再多一点耐心——一位美国父亲写给儿子的一封信

孩子: 在你睡着的时候,我要和你说一些话。我刚才悄悄地走进你的房间。几分钟前,我在书房看报纸时,一阵懊悔的浪潮淹没了我,使我喘不过气来。带着惭愧的心,我来到你的身边,我想到的事太多了。 …

写给新手程序员的一封信

写给新手程序员的一封信 Letter 1: 首先,欢迎来到程序员的世界。在这个世界上,不是有很多人想创造软件并解决问题。你是一名hacker,属于那些愿意做一些有挑战性的事情的人。 “当你不创造东西时,你只会根据自己的感觉而不是能力去看待问题。” – WhyTheLuckyStiff 对…

写给刚入行学计算机孩子的一封信

其实我今年大三,充其量也刚刚大三一个月,并没有什么资格在这里班门弄斧,与其是说写给大一孩子的一封信,倒不如说是对我这两年来的学习做一个概述和总结,谈一谈经验和教训,能给新人们一些借鉴 便足矣. 我呢,就读在一个不知名的重本大学,学计科的,众人口中的二流学校的三流专业. …