EMNLP 2022 最佳论文揭晓!这脑洞绝了….

每天给你送来NLP技术干货!


99dcc32b82e49ad71e2111f56e85bc32.jpeg

文 | 付奶茶
编 | ZenMoore

来自 | 夕小瑶的卖萌屋

39d260af8f116df2d155bd2dd2bc6fd3.png前言91d077672e46d02bc30645e5e1085b77.png

读文章之前,我们先来思考人工智能中一个核心而底层的问题:什么是抽象以及它能够给我们带来什么?

我们这里说的“抽象”是一个认知学上的概念,著名学者 ChatGPT 说:“抽象是指不依赖于具体事物或实例,而是指抽取共同点或基本特征的思维过程。”

在人类智能中,抽象是一个很底层很基本的能力,在某种程度上,可以认为是人类智能的源头之一。因为人在对主客观世界进行观察的过程中,抽象出了无数种概念(concept),对这些概念的模块化(modularity)、组合式(compositionality)的理解,很大程度上刺激了人类语言的诞生,从而最终导致了人类智能、人类文明的产生。

举个例子,万年前的“猴子们”观察了大量的物理对象(object)、实体(entity)以及他们之间的关系(relation)等,逐渐在脑子里面形成了“石头”、“家庭”、“在...之间”、“因果”等概念,经过很长一段时间之后,“猴子们”把这些存在脑海里面的概念用“字”和“词”表示了出来,这些蕴含着抽象概念的字和词经过复杂的、有规则的组合,形成了各种各样的语言,而语言能够表达、演绎、推理一切!就这样,人类智能诞生了~

在认知科学上,七巧板就是这个智能过程的一个简单的重现:七巧板的每个板板就是上面说的一个类似“概念”的存在, 这些代表“概念”的板板模块经过组合,形成了多种多样的形状(shape),而人类如何理解这些形状,又如何理解这些板板,在某种程度上,就是某个人抽象能力的衡量。而抽象能力,就是人类进行推理(reasoning)以及泛化(generalization)的底层能力。

今天介绍的这篇文章荣获了EMNLP 2022 Best Long Paper, 巧妙地借鉴了七巧板这个童年游戏,评估了当前多模态模型的抽象理解能力。可以说,至少在人类级别智能的评测上,推进了一步!

论文标题
Abstract Visual Reasoning with Tangram Shapes

论文链接
https://arxiv.org/pdf/2211.16492.pdf

3d27c52baa49f9a33915729978f4ab34.png数据集的构建724fedf7d5bbc85d344d15935ecefab2.png

首先给大家展示一下童年回忆之七巧板:fcb1eb2138dc5b6353d55e1446b61399.jpeg

一套七巧板由 7 个颜色各异的板板组成,可以根据想法自由组合成各种各种的形状。

这篇论文首先收集了 1004 个七巧板图像,又从七巧板的研究文献中找了另外12种将其扩充到了 1016 个,然后在 Amazon Mechanical Turk 平台上雇了 297 个数据标注员,花了两千多美刀让他们标注了这么两个任务:

  1. 七巧板整体形状的预测:这部分数据集叫做 FULL “This shape as whole looks like ___”

  2. 部分预测:形容某个单独的部分是干啥的,因为细节标注比较密,所以把这部分数据集叫做 DENSE "The part you selected looks like___"

作者还从 DENSE 里面挑出来一些标注不那么密的子集,叫做 DENSE10.

在这个数据集当中,包含了类人形状(比如舞者)、动物形状(比如狗狗)还有物体形状(比如房屋)等等。可以从下面两张图中大概了解长什么样儿~

8e58bf99fb5591271eeacb4c09db67c0.png b52493d86a33914d76d393b3ffe917bc.png
▲“头”用七巧板可以怎么展现

9a8fe83359462014978e87b8e0712125.png数据集质量衡量f9e30e04c114d0da413979c2a3b801ba.png

看了这些图,不难发现七巧板这个任务过于抽象,对人工数据集构建来说,这就导致了一个关键的问题:不同标注员之间存在较大的主观差异,“你说这是个鸟头,我却说那是个风中的美女头巾”(参考 Figure 1),这样数据集不就乱套了吗?好在作者给出了衡量这类数据集质量的三种指标:

  1. 形状命名差异(shape naming divergence,SND):用来衡量不同标注员进行不同七巧板图像的形状标注时的总体差异;

  2. 部分命名差异(part naming divergence PND):用来衡量不同标注员进行不同七巧板图像的局部标注时的总体差异,计算方式和 SND 大致相同;

  3. 分块分割一致性(part segmentation agreement,PSA):用来衡量不同标注员划分局部时的总体差异,也就是不同的人可能将不同的板板组合划分成某个部分。作者把这个看作是“使用最大权重匹配的线性和分配问题”,并使用成本矩阵计算(快去复习算法[旺柴])

总之这么衡量下来,数据集质量还是不错滴~ 符合真实分布~

具体的计算公式以及得到结论的细节,感兴趣的读者可以移步原文~

77b27f6df7d21ac63b767f24a7bf22c3.png多模态模型有抽象能力吗?9189ae77149af97cdf70f3587bc792fe.png

作者把构建的数据集叫做 KILOGRAM,主要衡量了两类代表性多模态模型的视觉抽象能力:

  • 以 CLIP 为代表的双塔模型:视觉和语言模态采用不同的 encoder;

  • 以 ViLT 为代表的单塔模型:视觉和语言拼接成一长串输入,喂给同一个 encoder.

1. 任务形式化

给定一个文本描述 和对应的 张图像 , 这个任务是从这些图像当中选择和文本描述相匹配的那一张, . 其中, 是指相似度。

因此总的来说,这就是一个简单的文图匹配(ITM, image-text matching)或分类任务。

2. 输入和输出

图像分成两种形式:作为整体的 "BLACK" 以及局部标注的 "COLOR"

文本分成两种形式:作为整体的 "WHOLE" 以及局部标注的 "PARTS".

a148cff0aa95165d13e23bf40e108e7b.png

然后还可以采用一些数据增强的手段:"AUG"

这样,不同的图像-文本形式组合就代表了不同粒度的抽象理解能力。

89e533c38db97dfd931041c28bc287d1.png

3. 模型训练

一共有两种主要的实验设定:

  • PT: 仅使用预训练模型,不精调,以 zero-shot 的方式在 KILOGRAM 上测试;

  • FT: 使用预训练模型,并使用对比训练在 KILOGRAM 精调并测试。

在精调的基础上,还可以进行上文提到的数据增强(AUG)

4. 实验结果

c1584ddb9384adbca7e16d8df939e68f.png
  1. 仅仅看 zero-shot (i.e., PT)的表现,CLIP略优于ViLT;

  2. 添加局部信息并没有太大的作用,说明预训练模型并不能很好地推理文本和七巧板局部之间的关联;

  3. WHOLE+BLACK 上的 zero-shot 的实验表现说明,预训练模型并不能很好地将熟悉的概念泛化到抽象的形状当中去(它知道现实世界中狗狗是什么样子的,但是并不能将七巧板抽象狗和真实狗狗联系在一起)

  4. 精调可以大幅改进性能;

  5. 在精调设定下,在文本描述中添加局部信息可以提升性能,但是在七巧板图像中添加局部信息并没有用;当两者都提供时,改善很明显。

  6. 在精调设定下的实验结果与人工评测结果规律相似;

  7. 数据增强只对 CLIP 有用,但对 ViLT 没用;

  8. 在PARTS+COLOR条件下,ViLT的表现明显优于人类的平均表现。

651af1c77e3f5b613f3e73f7b3cc39ee.png一点碎碎念5dddad480a884c1a8beaa098cb62c572.png

本篇工作中将传统的童年玩具“七巧板”的概念与多模态模型巧妙关联,用模型理解文本与七巧板图案局部、整体之间的关联,来评估模型的视觉抽象能力。七巧板作为童年益智启蒙玩具,是在人类在视觉认知上对图块与图案之间的分割、组合能力的体现,也正是本文开头提到的认知科学上智能过程中人类进行推理、泛化的底层能力。作为Best Paper,本篇论文无论是从数据集的构建还是实验设计来看,都是非常创新且具备很高的研究价值的工作,也对模型能力在人类智能上的评估有很强的指导意义。

3ddf7cfbcfedd2dd8c3450f6aa37e463.png

卖萌屋作者:付奶茶

新媒体交叉学科在读Phd,卖萌屋十级粉丝修炼上任小编,目前深耕多模态,希望可以和大家一起认真科研,快乐生活!


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix:针对带噪数据集的半监督学习方法

ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

ACM MM 2022 Oral  | PRVR: 新的文本到视频跨模态检索子任务

统计机器学习方法 for NLP:基于CRF的词性标注

统计机器学习方法 for NLP:基于HMM的词性标注


点击这里进群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29632.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吃掉脂肪,狂减33斤!午餐菜单一次性公开!

一周高效减脂蔬菜沙拉|上班族学生党减脂备餐便当 😘我是4个月瘦30斤,减脂迫在眉睫,巨掉秤好吃的蔬菜沙拉来咯!肉类提前备好放冷冻,工作日只需10分钟搞定,做减脂早午晚餐都可以哦~ …

SEEChat:360人工智能研究院的中文多模态大模型

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完 本文来源 机器之心 作者:冷大炜,360 人工智能研究院 刚刚过去的 22 年被媒体誉为 “AIGC 元年”,这一年中 AI 绘画和 chatG…

就业数据|北上广深不再是首选,应届生奔向新一线

来源:猎聘 本文约4900字,建议阅读10分钟 总体就业形势严峻,压力与机遇并存。 2023年高校毕业生预计达1158万人,创历史新高。大学生作为重点就业人群之一,历来备受社会各界关注。 时值大学生就业冲刺阶段,猎…

优化公积金政策,聊胜于无

阅读本文大概需要 1.27 分钟。 最近看到一个新闻,提到说部分地区,比如江苏南通、江苏连云港、安徽马鞍山、安徽亳州、浙江丽水、广东梅州、安徽蚌埠、江西赣州、云南玉溪、湖南株洲、广东深圳等地宣布调整住房公积金贷款政策。 给出的政策,简…

闲来无事,20 分钟水了一个贷款计算器(Chatgpt 协助下),发现了房贷的 3 个秘密

闲来无事,20 分钟水了一个贷款计算器(Chatgpt 协助下),发现了房贷的 3 个秘密 这是一篇来自社区的投稿,作者谢绍康,He3 开放平台的内测用户,贷款计算器工具作者,以下为原文。 在搞定…

爆料,华为重回深圳,深圳第二个硅谷来了-龙华九龙山未来可期

房地产最重要的决定因素:科技等高附加值产业!过去几年,发生的最大的变化就是——科技巨头对全球经济的影响力越来越大,中美之间的博弈,由贸易战升级为科技战,就是基于此原因。人工智能、电子信息技术产业、…

从GPT-4、文心一言再到Copilot,AIGC卷出新赛道?

业内人都知道,上一周是戏剧性的,每一天,都是颠覆各个行业,不断 AI 化的新闻。 OpenAI发布GPT-4、百度发布文心一言、微软发布Microsoft 365 Copilot 三重buff叠加,打工人的命运可以说是跌宕起伏,命途多舛了…

Qt:读取已有数据的Excel文档,并将数据显示在通过QTableWidget绘制的表格中,之后将显示的数据保存成excel格式进行输出(包括表头等内容)

读取已有数据的Excel文档,并将数据显示在通过QTableWidget绘制的表格中,之后将显示的数据保存成excel格式进行输出(包括表头等内容) UI展示及功能简介 读取 //于Mainwindow中,on_read_clicked属于Pushbotton摁键的槽函数 void Ma…

chatgpt赋能python:如何利用Python处理表格

如何利用Python处理表格 在网站开发中,表格是至关重要的一种元素,它能够将复杂的信息整理成易于阅读和理解的格式。然而,在建立大型表格时,手动编写和修改HTML表格可能会变得繁琐和费时。利用Python可以轻松地批量处理和修改表格…

chatgpt赋能python:Python读取表格内容的方法

Python读取表格内容的方法 Python是一门功能强大而且易于理解的编程语言,在数据分析、数据科学和机器学习等领域中越来越受欢迎。在这些领域中,经常需要读取并处理表格数据的能力。在这篇文章中,我们将介绍Python中读取表格数据的常用方法。…

终于找到ChatGPT+Python爬虫搞钱新思路,快点上车

今年真是太科幻了,各路令人赞叹的AI产品接连问世,感觉幻想过的未来已在眼前。就与多年前移动互联网的普及一样,我们正处于AI改变世界的前夜。 在众多优秀的人工智能产品中,以ChatGPT最为火爆!在OpenAI为其推出了GPT-4…

使用Python统计股票高开后的走势

股票高开是指当日股票的开盘价高于昨日的收盘价,为什么会这样?莫不是机构背着咱们搞交易? 股票开盘价由集合竞价产生,我们知道股市开盘时间为9:30-11:30~13:00-15:00,但集合竞价时间在9:15-9:30,这意味着有…

基于tushare的A股市场行情维护程序

基于tushare的A股市场行情维护程序 1 开发背景:2 tushare 简介3 功能需求3.1 tushare数据获取接口封装3.2 A股全市场股票日线数据的批量下载和更新 4 软件设计5 程序实现5.1 AshareDailyData.py5.2 TuShare.py 6 运行界面截图7 参考资料 1 开发背景: 笔…

利用Tushare获取股票数据(全面详细,照着敲就可以)

一.tushare简介 tushare是一个免费,开源的python财经数据接口包.主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更…

【PostMan】PostMan可以打开但是窗口一直显示不出来问题

问题 如标题 解决方案: 1:关闭postman 2:打开如下路径 C:UsersUserNameAppDataRoamingPostman 找到一下window 文件删除该文件 说明:UserName 为你自己电脑上用户名称 其他情况的解决方案: https://github.com/postm…

开发避坑3——大鸟 pk Bug(使用postman测试POST接口遇到报错(ErrorMessage:Unauthorization request ......))

使用postman测试POST接口遇到报错(ErrorMessage:Unauthorization request …) 不管你是前端、后端、测试还是运维等工程师,学会使用postman测试接口是工作中必不可少的。当我们使用前端页面调用接口发现浏览器报错我们就要排查是前端调用问题…

chatgpt赋能python:Python访问手机存储文件夹:移动设备编程新纪元

Python访问手机存储文件夹:移动设备编程新纪元 在移动设备时代,开发人员必须掌握能够访问手机存储文件夹的技能。Python是一种强大的编程语言,已成为许多应用程序和脚本的首选语言。Python为移动设备编程带来了新的可能性,例如可…

ChatGPT遭多国调查,OpenAI凌晨就安全问题发文,GPT-5要暂缓?

最近,意大利宣布禁用 ChatGPT,因为 OpenAI 违反了意大利相关的隐私规则和数据保护法,出现了用户数据丢失情况,而且未向用户告知。 消息出来后,德国、法国、爱尔兰、西班牙等国的监管部门都表示正在密切关注 ChatGPT 的…

通过AI算法预测彩票

最近工作上比较闲,于是抽时间写了个APP,运用一些AI算法,先排除一些明显不可能的号,然后结合历史数据,分析测算出可能得结果,试运行了大概10期,中了一个三等奖,蓝球概率有明显提高&am…

TOPIK 韩语考试历届考题下载

韩国语能力考试官网 http://www.topik.go.kr/ 历届考试真题下载。