TPAMI 2023 | 跨模态因果干预实现鲁棒可信的事件级问答推理

b582ff9a5fce52d5c5e93ee5f1a47234.gif

近日,中山大学人机物智能融合实验室(HCP-Lab)团队的论文 Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering(基于跨模态因果关系发现的事件级问答推理)被人工智能领域的国际顶级学术期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)接收。

TPAMI 是中国计算机学会(CCF)推荐的人工智能领域 A 类期刊,也是目前计算机类别中影响因子最高(影响因子 24.314)的期刊之一。下面带来该论文的详细解读。

c0e95cdf7c660887f6f08de4e6a8f70f.png

简介

2a30bf3fcfc1489b214fbf7f65800fd7.png

论文标题:

Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

论文作者:

刘阳,李冠彬,林倞

论文链接:

https://arxiv.org/abs/2207.12647

代码链接:

https://github.com/HCPLab-SYSU/CMCIR

因果驱动的视觉-语言推理开源框架Causal-VLReasoning:

https://github.com/HCPLab-SYSU/Causal-VLReasoning

ffbce0fa0062ed05daaad72b970aaedd.png

研究动机

跨模态事件级问答推理建立在基于视频的事件理解基础上,要求推理模型需要同时具备多模态视觉语义理解、时空表征学习、自然语言理解与生成和因果关系发现能力,实现对真实事件的深度理解,达到人机协同的自然交互,具有广泛的应用前景:包括聊天机器人 ChatGPT、智慧教育机器人、人机交互系统、医疗问诊系统等。

fdcefd5f0c51c972cf790ac16ff21709.png

▲ 图1:事件级反事实问答推理任务示例

首先,现有的问答方法通常关注相对简单的事件,比如电影、TV-show 或者是合成视频,在这些视频类型中,时域理解和因果发现可能并不需要表现得很好。但是,这些方法却忽略了更复杂并且更具挑战性的事件,这些事件需要深入的因果、时空动态和语言关系的理解。

如图 1 所示,给定一个视频和一个相关问题,对于人类来说,一个典型的推理过程是先记住每个视频帧出现的相关目标和它们之间的交互关系(比如,车在路上行驶、人骑摩托车,穿过马路),然后根据这些记忆的视频内容推断出对应的答案。

然而,图 1 中的事件级反事实视觉问答任务需要得到特定假设条件下给定视频没有发生的事件对应的结果(比如,当人没有骑摩托车穿过马路时)。如果我们仅仅简单地将这些相关的视觉内容关联起来,而忽略其中隐含的时空和因果关系,我们可能得不到正确的推理结果。为了准确地在反事实条件下推理得到设想事件的答案,我们需要模型同时拥有层次化的关系推理能力和充分挖掘视觉语言内容包含的因果、逻辑和时空动态结构能力。

9c1cd228c59251cdf6f72379f18755d2.png

▲ 图2:示例:为何缺乏因果推理的跨模态问答推理模型会学习到浅层关联?(a)训练集中包含视觉和语言偏误, person和motorbike两个概念出现频次很高,(b)结构因果图模型(structured causal model)展示了混淆因子(confounders)是如何给事件级问答推理任务带来浅层关联(spurious correlation)的,绿色路径表示了无偏误的问答推理过程(包含真正的因果关系),红色路径表示混淆因子导致的有偏误问答推理过程,(c)当在测试集给一些 vehicle 和 accident 高度相关的样本时,模型可能不会利用真正的问题语义和显著的视觉线索来推理出正确答案。

其次,现有的跨模态问答推理方法通常捕捉的是混淆因子(confounders)带来的浅层(spurious)的语言或者视觉关联,而不是真正的因果结构和因果驱动的跨模态表征,这会导致不鲁棒且不可信赖的推理过程,无法捕捉视频中跨事件的时间性、因果性和动态性,如图 2 所示。


图灵奖得主 Judea Pearl 提出因果学习的三个层次(即关联,干预和反事实),并指出现有基于深度学习的大数据模型倾向于基于关联性去刻画数据背后的信息,学到的只是低层次的关联关系,这种建模方式难以得到数据背后的因果关系,其可解释性和鲁棒性在复杂应用场景下无法得到保证。


因此,本工作关注的重点是:1)如何设计有效的跨模态因果干预方法,对视觉和语言样本的共通推理路径进行聚类、归纳,来缩小视觉和语言模态的数据偏误?2)如何设计事件级因果发现方法,在时空层面挖掘复杂事件的潜在因果逻辑链条和关系变量,并建立基于多层因果推理结构的跨模态因果关系?

4ff854ecda48848ad4eac26c6f90847d.png 

研究方法

为了实现上述两个目标,我们提出了一个跨模态因果关系推理的框架(CMCIR)。具体而言,我们基于因果关系图对问答推理过程进行了建模,如图 3 所示,并引入了一系列因果干预操作,来发现视觉和语言模态之间的潜在因果结构。

我们的跨模态因果关系推理框架(CMCIR)包括三个模块:i)因果感知的视觉-语言推理(CVLR)模块,通过因果前门和因果后门干预的协同来减弱视觉和语言的虚假相关性;ii)时空 Transformer(STT)模块,用于捕捉视觉和语言语义之间的细粒度交互;iii)视觉-语言特征融合(VLFF)模块,自适应地学习全局语义感知的视觉-语言表征。

我们在四个事件级问答推理数据集 SUTD-TrafficQA, TGIF-QA, MSVD-QA, 和 MSRVTT-QA 上进行了的大量实验,证明了我们的 CMCIR 在发现视觉-语言因果结构和实现鲁棒问答推理方面的优越性。

该工作的主要贡献是:

◆ 该工作首次在事件级问答推理任务中实现了跨模态因果结构发现。提出了一种因果驱动的事件级视觉问答框架 CMCIR,通过对视觉和语言模态的因果干预,来发现真实的因果结构,并实现鲁棒的的事件级问答推理。

◆ 提出了一个由语言语义关系引导的语言后门因果干预模块,以减弱语言偏误并挖掘语言模态内部的因果关系。为了减弱视觉的虚假相关性,我们提出了一个局部-全局因果注意力模块(LGCAM),通过前门因果干预来聚合局部和全局的视觉表示。

◆ 构建了一个时空 Transformer 模块(STT),用于建模视觉和语言知识之间的多模态交互关系,挖掘语义、空间和时间表征之间的细粒度交互关系

01263d36594d513a093e1c030180abb3.png

▲ 图3:所提出的视觉-语言因果干预的因果结构图。绿色路径表示无偏的视觉问答,即真实的因果效应。红色路径显示由混淆因子引起的有偏视觉问答,也被称为后门路径。图的底部部分通过视觉-语言因果干预对一个真实的VideoQA样本进行直观解释。

c9034f92a8163b4fc2db636c822eb062.png

因果感知的视觉-语言推理(CVLR)

对于事件级视觉问答,我们采用 Pearl 的结构因果图(SCM)来建模视频-语言对和答案之间的因果关系,如图 3 所示。节点表示变量,边表示因果关联。我们希望能够训练一个视频问答模型来学习真正的因果关系:模型应该基于视频特征和问题特征来推理得到答案,而不是利用由混淆因子和带来的浅层关联(例如,过分利用视觉和语言概念的共生关系)。在 SCM 模型中,一个未干预的预测模型可以用贝叶斯公式表示:

989dbcddc0a63f05635b00bd45a8ed86.png

然而,上述目标不仅能学到主要的因果关系,还会学习到来自未被阻断的后门路径带来的浅层关联。我们将对的干预表示为,该操作断开了的连接从而阻断了后门路径。通过这种方式,模型可以学习到真正的因果关系。

事实上,计算有两种方式,分别是后门干预和前门干预。后门干预在混淆因子可以观测时有效。然而,在事件级视觉问答任务上,视觉和语言模态的混淆因子并不总是可观测的。因此,本论文基于视觉-语言模态的特点,同时采用后门因果干预和前门因果干预方法来挖掘视觉-语言跨模态因果结构。

(1)语言后门因果干预

为了减少混淆因子带来的数据偏误并挖掘语言模态背后的因果结构,我们设计了一种基于语言层次化关系结构的后门调整策略来近似混淆因子分布。隐含的混淆因子集合可以由层次化问题组合近似得到。如图 3(b)所示,如果将后门路径阻断,可以使得有公平的机会将因果相关的因素考虑进来。基于后门干预的分布可以表示为:

bababd21f963190964061498cd92c349.png

为了计算上述公式,我们将混淆因子集合 Z1 近似为 verb 为中心的关联字典集合

5574f4b733f03a0bc5e59bc077f60bd7.png

先验概率可以基于数据库统计计算得到:

485682161ec34cd922f395b358838b65.png

其中 zi 表示其中的一个关联字典集,|z| 表示 z 中的样本数目,| j | 表示短语 j 出现的次数。由于 P(A|V, do(Q)) 是由 softmax 计算得到的,我们可以采用 Normalized Weighted Geometric Mean (NWGM) 方法来近似:

daa5670e64dbc048c77ecd7fb271c6cc.png

(2)视觉前门因果干预

后门干预需要我们提前知道混淆因子。然而,在视觉模态,数据偏误往往十分复杂,导致我们很难知道并区分不同的混淆因子。现有的方法通常将混淆因子定义为视觉特征的平均,事实上,由于复杂异质时空数据本身的特点,平均特征不能正确地表示特定的混淆因子。当我们不能显式地表示混淆因子时,前门干预提供了一种可行的方式来计算 P(A|V, do(Q))。

如图 3(c)所示,为了实现前门干预,我们需要在 X 和 A 之间添加一个额外的中间特征 M,从而构建前门路径 V→X→M→A 来传输知识。对于视觉-语言问答任务,一个基于注意力的模型 P (A|V, Q) = Σm P (M = m | V, Q) P (A | M = m) 能够基于问题 Q 从视频 V 中选取一些区域来预测答案 A ,其中 m 表示从 M 选取的知识。然后,答案预测器可以由两部分组成:一个特征提取器 V→X→M 和一个答案预测器 M→A 。因此,干预概率可以表示为:

9233d3dfdc3aff42588c1dedd05f355c.png

为了在深度学习框架实现视觉前门干预,我们将 P ( V = v , M = m ) 参数化为网络 g ( · ) :

385ccbdc28d9df83f22ab9c3d84e2dea.png

可以看出,M 和 V 都可以被采样然后输入到网络来实现 P(A | do(V) , Q ) 。然后,将所有样本都输入到前向网络代价是高昂的,为此,我们采用 Normalized Weighted Geometric Mean (NWGM) 方法来近似公式:

9ab696d682d20e8ce25b2e7f02bf582c.png

其中 M (hat) , V (hat) 表示 M 和 V 的估计, h ( · ) 和 f ( · ) 表示网络映射函数。

55e63877ae8bb3a9209a4a590022a125.png

▲ 图4. 局部-全局(Local-Global)因果注意力(Causal Attention)模块

事实上,M (hat) 和 V (hat) 都可以用注意力网络来计算。M (hat) = Σm P (M = m | f(V)) m 可以通过计算 local-local 视觉特征 F_LL 得到,V (hat) = Σv P (V = v | h(V)) v 可以通过计算 local-global 特征 F_LG 得到。因此,我们提出一个全新的局部-全局因果注意力模块(Local-Global Causal Attention Module, LGCAM)来联合估计 M (hat) 和 V (hat),从而提升视觉特征的因果表征能力。

这里,我们以 F_LG 的计算为例说明 LGCAM,如图 4 上半部分所示。具体的,我们首先计算 F_L = f (V) 和 F_G = h (V),然后作为 LGCAM 的输入,其中 f ( · ) 表示视觉特征提取器,h ( · ) 表示基于 K-means 的视觉特征选择器。因此,F_LG 的计算如下:

8bd534e4618b337c6d318f7e5f22b9a7.png

类似的,当设置 Q = K = V = F_L,F_LL 可以用同样的方式计算得到。最终,我们将 F_LL 和 F_LG 串联得到最终的 P(A | do(V) , Q ) 估计结果。

aa9fe411679a0df7088ea75882478d4e.png

时空Transformer

为了挖掘语言和时空表征之间的细粒度关联,我们构建了一种时空 Transformer 模块,该模块包含四个子模块,分别是问题-外观(Question-Appearance, QA),问题-运动(Question-Motion, QM),外观-语义(Appearance-Semantics, AS),和运动-语义(Motion-Semantics,MS)模块,如图 5(a)所示。

QA 和 QM 模块各自包含 R-层多模态(Multi-modal)Transformer Block (MTB),如图 5(b)所示,MTB 的目的是建立问题和外观(运动)特征之间的多模态交互关系。类似的,AS 和 MS 模块同样采用 MTB 来基于问题语义推理出外观和运动信息。具体信息请参阅原论文。

a4d013457caa9f55d6006810ce071bd1.png

▲ 图5. 时空Transformer模块示意图(图(a)),和多模态Transformer模块(图(b))

结合视觉表征学习模块、多模态语言和视觉时空结构多层次关系建模模块、视觉-语言跨模态因果结构发现模块、时空 Transformer 和视觉语言特征融合模块,我们构建了一个统一的鲁棒可信赖的细粒度事件级视觉问答框架 CMCIR,该框架能够对时空视觉关联、语言语义关联和视觉-语言因果关系进行细粒度的理解,并高效融合跨模态视觉语言语义关联和因果关联关系,实现鲁棒可信赖的细粒度事件级视觉问答,如图 6 所示。

5a71d0085840a300cf5f95a621a0bc21.png

▲ 图6. 基于跨模态因果关系推理的事件级视觉问答框架

154b9a1b36e198eaf1b0c44142d25983.png

总结

该工作首次在事件级问答推理任务中探索了跨模态因果关系发现的可能性,在结构因果图(Structural Causal Model, SCM)的视角下,创新性地引入了视觉因果前门干预和语言后门因果干预模型,以增强事件级问答推理模型的鲁棒性和可信性。该研究的重要意义在于为未来探索如何利用因果范式提升多模态大模型的鲁棒性、可解释性和可信性提供了思路和启发。

中山大学 HCP 团队长期致力于鲁棒、可信、可解释人工智能的研究,基于多模态大模型的认知推理任务,以一种因果驱动的方式来实现鲁棒可信的高阶语义推理,在人机对话、视觉导航、图像/视频生成、图像/视频标注、医学影像报告生成等任务上开展了持续而深入的研究工作,并建立了因果驱动的视觉-语言推理开源框架Causal-VLReasoning:

https://github.com/HCPLab-SYSU/Causal-VLReasoning

中山大学 HCP 团队在多模态人工智能领域有深厚的研究基础,以融合领域知识和语义信息的深度表达学习为主线,从感知单模态大模型到认知多模态大模型,逐步构建认知启发和因果推理引导的视觉计算与推理理论及方法体系。

更多阅读

9b77f0d70dd8bfc4662b2fc0f0be85ae.png

37f6aa9a9bfe4459c8f6ae1060c16800.png

78d25c5a551abac5bcab7256dfc466da.png

489fdfa0bb79b85410d3d9a968c314b0.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

b19382c56c2b35a600c6de67a2f07e53.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

956da5e8e829595afbae7543ad0a2164.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/60423.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

opencv 九种直线检测方法汇总

文章目录 1、场景需求2、Hough_line直线检测算法2.1 Hough_line实现步骤2.2 Hough_line代码实战2.3 效果展示与分析2.4 HoughP_line代码实战2.5 效果展示与分析 3、LSD直线检测算法3.1 LSD算法简介 3.2 LSD代码实战3.3 效果展示与分析 4、FLD直线检测算法4.1 FLD算法简介4.2 FL…

LWN:移除kthread freezer!

关注了就能看到更多这么棒的文章哦~ Removing the kthread freezer By Jake EdgeJune 23, 2023LSFMMBPFChatGPT assisted translationhttps://lwn.net/Articles/935602/ 2023 年 Linux 存储、文件系统、内存管理和 BPF 峰会的最后一天,由 Luis Chamberla…

Google 后开发的 Carbon 真的会取代 C++ 吗?

【CSDN 编者按】Carbon 真的能成为 C 的替代品吗?目前我们只能猜测,但请不要忘记 Swift 或 Kotlin 等语言的诞生。 原文链接:https://semaphoreci.com/blog/carbon 未经授权,禁止转载! 作者 | Manuel Rubio 译者 | 弯…

email邮箱注册,5分钟教会你这些方法大全

不同的人,根据需求不同,可以注册诸如免费邮箱、VIP邮箱、企业邮箱等等。我们可以通过邮箱品牌之一的TOM 邮箱为例,5分钟教会大家如何注册这3类邮箱。 一、尊贵VIP邮箱注册方法: VIP邮箱账号注册可支持3-5位超短靓号,…

电子邮箱免费注册,比较好用的电子邮箱怎么注册?如何申请?

电子邮箱免费的很多,我们常用的163、TOM、QQ等,如果公司用,就要用企业电子邮箱了。申请企业电子邮箱,注册3年用6年,注册5年用10年,这是在网上看到TOM企业邮箱的优惠,以下是企业邮箱总结。 TOM企…

个人邮箱怎么注册呢?个人邮箱申请能绑定微信收发邮件吗?

个人邮箱怎么注册呢?个人邮箱申请能绑定微信收发邮件吗? 大多数职场人都在偷偷的努力着 学习新的方法,通过更高效的方式完成工作! 在新的时代下,唯一不变的就是瞬息万变 脑部了一万种功成名就的场景,不…

2022还不知道登陆邮箱账号怎么填写?个人邮箱登录注册流程看详解

今年入冬以来,我国多地散发新冠肺炎疫情。浙江三地同日报告新增、满洲里大规模核酸共检出阳性431例、上海新增本土1例。“奥密克戎”以惊人的速度传播,目前已至少在38个国家和地区出现。 疫情在即不仅需要配合日常防疫工作还要做好个人的防护&#xff0…

免费注册 Proton.me电子邮件教程

免费注册 Proton.me 1.登录自己的 Protonmail 帐户。 2.访问此页面,单击 “转到设置” 选项,在左侧边栏中,选择 “身份和地址”。 3.会在此页面顶部看到 proton.me 字样。 4.单击 “激活用户名 proton.me ” 按钮。 5.申请成功后&#xff…

Python 简单编写一个注册邮箱

金秋九月,又是开学的新的一学期,大家见到新同学新同事一定要问好,不要社死!!! 我们步入正题: 编写一个简单的注册邮箱程序 我在编写这个小程序的时候里面,有的代码是简化了: 还是那句话: 编写程序前,先理清思路&#x…

测试用例:邮箱注册

思维导图: 测试用例: 用例编号分类所属等价类测试描述输入数据预期结果实际结果测试人员测试时间000001邮件地址有效6-18个字符,可使用字母、数字、下划线,须以字母开头Jianghe_123456可用提示:恭喜,该邮件…

Python启蒙——检测邮箱是否有新邮件,并邮件通知(二)

承接上回,知道了新邮件返回的消息后,可以更近一步,来实现发邮件。 发邮件我们要用到SMTP的服务,来发送邮件。 发送邮件一般有收件人地址、抄送人地址、邮件主题、邮件内容等内容,从SMTPLIB这个类的解释和例子如下&am…

教育邮箱怎么注册申请,教育电子邮箱注册小妙招

临近秋季开学很多小伙伴咨询学校邮箱的问题,学校是否会给学生配备邮箱,学校都用什么邮箱? 最近我的妹妹刚拿到录取通知书,里面写着让她办理一个教育邮箱,她不太知道什么是教育邮箱,还给教务处的招生处老师…

大话Stable-Diffusion-Webui-将stable-diffusion-webui接入微信群(一)

文章目录 效果原理WeChatRobot安装克隆项目安装pc端微信安装 WeChatRobot配置 WeChatRobot接入sd的文生图apisd配置WeChatRobot中接入sdconfig.yaml增加sd的配置robot.py开发代码robot.pyconfig.yaml效果 原理 通过一个玩转微信的开源项目

AI智能机器人,在这里也可以体验~

“ 大家好,我是雄雄,欢迎关注微信公众号:雄雄的小课堂。 ” 现在是:2023年2月17日00:14:42 前言 最近AI智能chatgpt特别的火,相信好多人都已经体验过了,之前我的群里也接入过,奈何总是收到警告和…

python中成语接龙游戏_Python实现成语接龙

这是一篇用Python实现成语接龙小游戏的具体开发教程。Python实现这个功能非常容易,以下分为两个版本,一个是简易版,能够实现基本的功能。还有一个是拓展版,是在简易版上进行拓展,功能更为复杂且完善。 这个可以应用在很多方面,比如说聊天机器人,而且还可以结合itchat这个…

AI绘画结合GPT 把Ai绘画与摄影玩明白

一、绘画与摄影有什么关系? 绘画和摄影是两种不同的艺术形式,它们都以其自身独特的方式捕捉和表达现实。在某些方面,它们是相互联系的,而在其他方面,它们又有所不同。​ 相似之处:绘画和摄影都是创造性的…

电脑用户名中文改英文步骤总结

背景:在单位领了两台新电脑,脑子一热用户名直接设置成中文名字了,后来在装许多环境的时候都出现中文乱码、路径错误等情况,因此需要改成英文账户名。 步骤: 先修改本地的账户名。打开控制面板并点击用户账户&#xf…

「ChatCat」创建你的专属机器人

没有OpenAI账号,不能科学上网,还没找到合适工具的朋友可以看过来。 【ChatCat】可以创建自己的应用,自己使用/供其他人使用;也可以简单粗暴直接使用官方ChatGPT;还可以生成山水图配文案,你想怎么用&#x…

找了程序员男朋友,她们是这样报喜的...

最近收到好多女生在面向对象脱单的消息,继续安利面向对象给还单着的盆友们。如果你身边有单着的朋友或同事,请帮忙推荐哦~ 还不了解面向对象? 面向对象是一个真实、高效的相亲平台,为单身青年服务。目前,人…