MECD+: 视频推理中事件级因果图推理--VLM长视频因果推理

论文链接:https://arxiv.org/pdf/2501.07227v1

1. 摘要及主要贡献点

摘要:

视频因果推理旨在从因果角度对视频内容进行高层次的理解。然而,目前的研究存在局限性,主要表现为以问答范式执行,关注包含孤立事件和基本因果关系的简短视频片段,缺乏对包含多个相互关联事件视频的全面、结构化因果分析。为了填补这一空白,我们提出了一项新任务和数据集,即多事件因果发现 (MECD)。该任务旨在揭示分布在长时间视频中事件之间的因果关系。给定事件的视觉片段和文本描述,MECD 识别这些事件之间的因果关联,从而推导出一个全面且结构化的事件级视频因果图,解释结果事件为何以及如何发生。为了应对 MECD 的挑战,我们设计了一种受格兰杰因果关系方法启发的全新框架,该框架结合了一种高效的基于掩码的事件预测模型来执行事件格兰杰测试。该模型通过比较前提事件被掩码和未掩码时预测的结果事件来估计因果关系。此外,我们集成了前门调整和反事实推理等因果推理技术,以缓解 MECD 中因果混淆和虚幻因果关系等挑战。同时,我们引入了上下文链推理,以进行更稳健、更通用的推理。实验验证了我们框架在推理完整因果关系方面的有效性,其性能分别比 GPT-4o 和 VideoChat2 高出 5.77%2.70%。进一步的实验表明,因果关系图还可以促进视频问答和视频事件预测等下游视频理解任务。

主要贡献点:

  1. 提出新任务 MECD: 旨在发现长时间视频中事件之间的事件级因果关系,并构建完整的因果图。
  2. 构建新数据集 MECD+: 收集了包含多个事件和复杂因果关系的较长视频,并手动标注了事件对之间的真实因果关系。
  3. 开发新模型 VGCM (Video Granger Causality Model):
    • 核心思想: 基于事件格兰杰测试,通过比较在掩码和未掩码前提事件的情况下对结果事件的预测结果来推断因果关系。
    • 创新点:
      • 多模态处理: 同时处理视频片段和文本描述,最大化信息利用。
      • 因果推理技术: 集成前门调整和反事实推理,以解决因果混淆和虚幻因果关系问题。
        • 前门调整: 补偿或消除相邻桥接事件对因果关系的干扰。
        • 反事实推理: 使用存在性描述和思维链推理来缓解虚幻因果关系问题。
      • 上下文链推理: 在事件因果测试中同时考虑多个前提事件,增强模型对上下文事件的推理能力。
      • 非回归式完整图推理: 提出一种高效的方法,在推理阶段无需对每个事件进行重复掩码操作即可构建完整的因果图。
  4. 实验验证:
    • VGCM 在因果链和完整因果图推理任务中均达到最先进的性能,准确性为 71.28%,平均 SHD 为 3.94
    • 与现有模型相比,VGCM 在因果推理方面表现出色,例如:
      • 比性能最接近的模型在 SHD 上提高了 0.74,在准确性上提高了 2.70%
      • 比 GPT-4o 和 VideoChat2 分别高出 5.77%2.70%
    • 此外,VGCM 在视频问答和事件预测等下游任务中也表现出色。

2. 引入部分总结

视频因果推理 旨在从因果角度理解视频内容,这对于自动驾驶、活动识别、视频监控等应用至关重要。然而,现有视频因果推理任务主要基于问答范式,侧重于发现视频中单一因果关系,存在以下局限性:

  • 推理范围有限: 难以处理包含多个相互关联事件且因果关系复杂的视频场景。
  • 缺乏细粒度事件级推理: 无法深入分析事件之间的因果关系,导致对视频内容的理解不够深入。
  • 无法提供结构化的因果表示: 无法构建完整的因果图,难以全面解释视频中事件之间的关系。

为了解决这些问题,本文提出了一项新任务 多事件因果发现 (MECD),旨在发现长时间视频中事件之间的事件级因果关系,并构建完整的因果图。

3. 多事件因果发现任务 (MECD)

任务定义:

MECD 旨在确定给定视频中任何先前事件与最后一个事件之间是否存在因果关系。

  • 输入:
    • 视频 E \mathcal{E} E,包含按时间顺序排列的 N N N 个事件 E : = { e 1 , … , e N } \mathbb{E}:=\{e_{1},\dots,e_{N}\} E:={e1,,eN}
    • 每个事件 e n = { v n , c n } e_{n} = \{v_{n},c_{n}\} en={vn,cn} 包含一个视频片段 v n v_{n} vn 和相应的字幕 c n c_{n} cn
  • 输出:
    • 关系向量 r = [ r 1 , … , r N − 1 ] \pmb{r}=[r_{1},\dots,r_{N-1}] r=[r1,,rN1],其中 r k r_{k} rk 表示事件 e k e_{k} ek e N e_{N} eN 之间是否存在因果关系。
    • 该设置可推广到任意两个事件之间的因果关系,只需截取视频并将后者视为最后一个事件即可。

数据集构建:

  • 数据来源:
    • 重新组织了 ActivityNet Captions、EgoSchema 和 NExTVideo 数据集中的视频,这些视频包含多个事件和复杂的因果关系。
    • 从中选择了 1,438 个视频(5.6k 个事件)作为 MECD 数据集,其中 1,139 个用于训练,299 个用于测试。
  • 数据清洗:
    • 排除了缺乏因果关系的视频,例如描述多个非因果步骤的手工艺视频。
    • 筛选标准:超过 20% 的标注者认为视频几乎缺乏因果关系,则该视频将被排除。
  • 数据标注:
    • 属性: 持续时间、句子、时间戳和因果关系。
    • 标注过程:
      • 首先使用 GPT-4 API 对事件之间的关系进行初步标注。
      • 然后由五名人工标注者进行细化。
      • 通过交叉标注过程,最终的因果关系由大多数标注者的选择决定。
    • 附加属性: 为测试集引入“完整因果关系”属性,表示任意两个事件之间的所有因果关系,标注和细化方式与“因果关系”属性相同。
  • 数据统计:
    • MECD 数据集主要分析持续时间超过两分钟且包含五个或更多事件的中长视频。
    • 事件之间因果关系和非因果关系的比例大致平衡,且相邻事件之间存在因果关系的可能性更高。

图 1: MECD 任务示意图

4. 方法部分

4.1 视频格兰杰因果模型 (VGCM)

核心思想: 基于事件格兰杰测试,通过比较在掩码和未掩码前提事件的情况下对结果事件的预测结果来推断因果关系。

模型架构:

VGCM 是一种多模态 Transformer 结构,包含以下组件:

  • 视频编码器: 预训练于动作识别任务,用于提取视频片段的特征。
  • 字幕编码器: 用于提取字幕的特征。
  • 多模态解码器: 共享权重,用于融合视频和文本信息,并进行跨模态推理。
  • 关系头: 包含语义查询模块和自增强模块,用于推理事件之间的因果关系。
    • 语义查询模块: 使用交叉注意力机制将未掩码事件和结果事件的特征进行融合。
    • 自增强模块: 对融合后的特征进行自注意力计算,以增强特征表示。
  • 辅助相似性测量: 测量未掩码和掩码事件预测结果之间的相似性,作为关系头输出信息的补充。

图 2: VGCM 模型架构

工作流程:

  1. 数据预处理:
    • 将视频片段和字幕分别编码为特征向量。
    • 将未掩码事件集 E p \mathbb{E}^{p} Ep 和掩码事件集 E k m \mathbb{E}_{k}^{m} Ekm 分别输入到视频编码器和字幕编码器中。
  2. 多模态融合:
    • 将视频和文本特征输入到多模态解码器中,生成输出特征 O p O^{p} Op O k m O_{k}^{m} Okm
    • 解码器利用未掩码前提事件提供的上下文信息,对结果事件进行预测。
  3. 因果关系推理:
    • O p O^{p} Op 输入到字幕头进行监督事件预测。
    • O p O^{p} Op O k m O_{k}^{m} Okm 输入到关系头进行因果关系推理。
    • 将结果事件 e N e_{N} eN 编码为特征 F N {\pmb F}_{N} FN 和输出 O N {\cal O}_{N} ON,并将其聚合到关系头中以进行推理。
    • 通过交叉推理层 g r g_{r} gr 进行进一步交互,并测量 O p O^{p} Op O k m O_{k}^{m} Okm 之间的辅助相似性。
  4. 损失函数:
    • 重建损失: 包括字幕损失 L C \mathcal{L}_{C} LC 和视觉重建损失 L V {\mathcal{L}}_{V} LV,用于确保模型能够准确预测结果事件。
    • 因果关系损失 L R \mathcal{L}_{R} LR: 对输出关系 r ^ k \boldsymbol{{\hat{r}}_{k}} r^k 进行监督。
    • 语义相似性损失 L S \mathcal{L}_{S} LS: 确保在存在或不存在非因果前提事件的情况下,结果事件预测的语义相似性。
4.2 因果推理方法

因果混淆: 当某些中间事件被掩码时,原有的因果关系会受到影响。VGCM 通过以下方法解决:

  • 前门调整: 补偿缺失的因果效应,例如 e k − 1 e_{k-1} ek1 e N e_{N} eN 的因果效应。
  • 反事实推理: 消除冗余的因果效应,例如 e k + 1 e_{k+1} ek+1 e N e_{N} eN 的因果效应。

虚幻因果关系: 包括虚幻的时间因果关系和存在因果关系。VGCM 通过以下方法解决:

  • 思维链推理: 利用 GPT-4 API 提供的思维链 T c o t [ e k − 1 : e N ] T_{c o t[e_{k-1}:e_{N}]} Tcot[ek1:eN] 来引导模型进行逻辑推理,避免对时间相关性的注意力偏差。
  • 存在性描述: 使用 GPT-4 API 提取事件中的对象,并将其组织成句子 c k 0 c_{k}^{0} ck0,以缓解虚幻存在因果关系问题。

5. 实验部分

5.1 实验设置

模型实现细节:

  • 编码器: 基于 Videobert 构建,包含视频编码器、字幕编码器和多模态视频解码器。
  • 参数数量: 仅 144M,远小于 7B VideoLLMs。
  • 超参数设置: λ C , λ R , λ V , λ S \lambda_{C},\,\lambda_{R},\,\lambda_{V},\,\lambda_{\mathcal{S}} λC,λR,λV,λS 分别设置为 1.0, 4.0, 0.25, 0.05。
  • 输入长度限制: 字幕、思维链和存在性描述的最大输入长度均为 50。
  • 预训练: 在 ActivityNet 数据集上进行动作识别任务预训练,并使用 ActivityNet Captioning 数据集进行密集视频字幕任务预训练。

比较模型:

  • 基线模型: Videobert
  • 多模态基础模型: CLIP-L、SIGLIP、VAR
  • 大型语言模型 (LLM): Mixtral-8x22B-Instruct、GPT-4、Gemini-Pro 等
  • 图像 LLM 和视频 LLM: GPT4-o、GeminiPro、VideoLLaVA、VideoChat2 等

训练策略:

  • 少样本学习 (In-Context Learning): 对 LLM 和图像 LLM 进行评估。
  • 强微调: 对视频 LLM 和所有多模态基础模型进行评估。
5.2 主要评价指标
  • 因果链推理准确性: 评估模型对与结果事件相关的输出因果关系链的 top-1 准确性。
    • Neg: 模型预测不存在因果关系的准确性。
    • Pos: 模型预测存在因果关系的准确性。
  • 结构汉明距离 (SHD): 评估模型在因果推理方面的泛化能力。SHD 测量完整因果图之间的匹配程度,通过计算错误因果关系的数量之和来表示。较低的 SHD 值表示更好的性能。
5.3 主要实验结果

总体表现:

  • **VGCM 在因果链和因果图推理任务中均达到最先进的性能,准确性为 71.28%,平均 SHD 为 3.94
  • 与现有模型相比,VGCM 在因果推理方面表现出色,例如:
    • 比性能最接近的模型在 SHD 上提高了 0.74,在准确性上提高了 2.70%
    • 比 GPT-4o 和 VideoChat2 分别高出 5.77%2.70%

表 1: 主要结果

详细分析:

  • VGCM 的消融研究:
    • 因果推理方法: 前门调整和反事实干预均能提高模型的推理能力。
      • 前门调整缓解了时间虚幻因果关系问题。
      • 反事实干预与存在性描述相结合,使模型能够更关注因果关系而非简单的语义信息。
    • 上下文链推理: 增强了模型的整体因果推理能力,尽管对因果链发现的准确性没有显著提高。
    • 输入模态: 视觉信息对因果发现任务的影响更大,即使在 80% 的文本或视觉信息被掩码的情况下,VGCM 仍然能够很好地推断因果关系。

图 3: 输入模态实验

  • 视频 LLM 的性能:

    • 在上下文学习范式中,视频 LLM 的表现优于 LLM 和图像 LLM 的表现,这可能归因于其包含与 MECD 数据集因果方面相似的预训练数据。
    • 视频 LLM 的 Pos 和 Neg 指标之间的差距较小,这可能是由于幻觉的减少以及视觉信息的引入缓解了字幕模糊性的影响。
    • 在微调范式中,视频 LLM 的表现有所提高,但仍然低于 VGCM 的表现。
  • LLM 和图像 LLM 的性能:

    • 专有 LLM GPT-4 和 Gemini-Pro 在所有 LLM 中表现最佳,但仍然受到幻觉的影响,以及将主观情感与客观规律混为一谈。
    • 专有图像 LLM 和视频 LLM 的性能优于开源图像 LLM 和视频 LLM 的性能。
  • 人类的表现: 十名志愿者的平均表现达到 87.19%,其中视觉信息作为输入时表现更好。

表 2: 虚幻因果关系测试

  • 虚幻测试: LLM 和图像 LLM 在判断具有条件相关性或时间相关性事件之间的因果关系时表现不佳,而视频 LLM 和 VGCM 的表现则有所降低。

图 4: 虚幻测试可视化示例

5.4 下游任务评估
  • 视频问答 (VQA): 当用 VGCM 推理出的因果关系提示 MiniGPT4-video 时,其回答准确性提高了 9.04%
    • 表明 VGCM 能够为视频提供准确的因果感知,从而显著提高相关视频推理任务的性能。

图 5: 下游视频问答的可视化

  • 事件预测: 当用 VGCM 输出因果图提示 MiniGPT4-video 时,其事件预测准确性提高了 22.56%
    • 表明 VGCM 能够增强相关事件预测任务的性能。

图 6: 下游事件预测的可视化

6. 结论

本文提出了一项新任务 MECD,并构建了相应的数据集 MECD+,旨在促进视频中事件级因果图推理的发展。同时,本文提出了第一个视频因果发现模型 VGCM,该模型基于事件格兰杰测试,并集成了先进的因果推理技术,以解决虚幻和混淆因素等问题。实验结果表明,VGCM 在因果推理方面优于现有模型,展示了其卓越的推理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6124.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mapbox加载geojson,鼠标移入改变颜色,设置样式以及vue中的使用

全国地图json数据下载地址 目录 html加载全部代码 方式一:使用html方式加载geojson 1. 初始化地图 2. 加载geojson数据 设置geojson图层样式,设置type加载数据类型 设置线条 鼠标移入改变颜色,设置图层属性,此处是fill-extru…

接上篇基于Alertmanager 配置钉钉告警

Alertmanager 是一个用于处理和管理 Prometheus 警报的开源工具。它负责接收来自 Prometheus 服务器的警报,进行去重、分组、静默、抑制等操作,并通过电子邮件、PagerDuty、Slack 等多种渠道发送通知。 主要功能 去重:合并相同或相似的警报&a…

通过视觉语言模型蒸馏进行 3D 形状零件分割

大家读完觉得有帮助记得关注和点赞!!!对应英文要求比较高,特此说明! Abstract This paper proposes a cross-modal distillation framework, PartDistill, which transfers 2D knowledge from vision-language models …

PID 控制算法(二):C 语言实现与应用

在本文中,我们将用 C 语言实现一个简单的 PID 控制器,并通过一个示例来演示如何使用 PID 控制算法来调整系统的状态(如温度、速度等)。同时,我们也会解释每个控制参数如何影响系统的表现。 什么是 PID 控制器&#xf…

数据结构——实验一·线性表

海~~欢迎来到Tubishu的博客🌸如果你也是一名在校大学生,正在寻找各种变成资源,那么你就来对地方啦🌟 Tubishu是一名计算机本科生,会不定期整理和分享学习中的优质资源,希望能为你的编程之路添砖加瓦⭐&…

vector的使用,以及部分功能的模拟实现(C++)

1.vector的介绍及使用 1.1 vector的介绍 vector是STL容器中的一种常用的容器,和数组类似,由于其大小(size)可变,常用于数组大小不可知的情况下来替代数组。 vector也是一种顺序容器,在内存中连续排列,因此可以通过下标…

【Postgres_Python】使用python脚本批量创建和导入多个PG数据库

之前批量创建和导入数据库分为2个python脚本进行,现整合优化代码合并为一个python脚本,可同步实现数据库的创建和数据导入。之前的文章链接: 【Postgres_Python】使用python脚本批量创建PG数据库 【Postgres_Python】使用python脚本将多个.S…

U-Net - U型网络:用于图像分割的卷积神经网络

U-Net是一种专为图像分割任务设计的卷积神经网络(CNN),最初由Olaf Ronneberger等人于2015年提出。它被广泛应用于医学影像分析、遥感图像分割、自动驾驶和其他许多需要对图像进行像素级分类的任务中。U-Net具有强大的特征提取和恢复能力&…

ceph基本概念,架构,部署(一)

一、分布式存储概述 1.存储分类 存储分为封闭系统的存储和开放系统的存储,而对于开放系统的存储又被分为内置存储和外挂存储。 外挂存储又被细分为直连式存储(DAS)和网络存储(FAS),而网络存储又被细分网络接入存储(NAS)和存储区域网络(SAN)等。 DAS(D…

联想电脑怎么用u盘装系统_联想电脑用u盘装win10系统教程

联想电脑怎么重装系统?在当今科技发展迅猛的时代,联想电脑已经成为了人们生活中不可或缺的一部分。然而,随着时间的推移,我们可能会遇到一些问题,例如系统崩溃或者需要更换操作系统。这时,使用U盘来重新安装…

基于ESP32-IDF驱动GPIO输出控制LED

基于ESP32-IDF驱动GPIO输出控制LED 文章目录 基于ESP32-IDF驱动GPIO输出控制LED一、点亮LED3.1 LED电路3.2 配置GPIO函数gpio_config()原型和头文件3.3 设置GPIO引脚电平状态函数gpio_set_level()原型和头文件3.4 代码实现并编译烧录 一、点亮LED 3.1 LED电路 可以看到&#x…

电路研究9.1.1——合宙 Air780EP 模组外围线路

本来要继续研究AT指令来着,结果发现后面还有之前用到的电路设计资料,所以就贴过来了。 5.3.2 工作模式: 注意:  当模块进入休眠模式或深度休眠模式后, VDD_EXT 电源会掉电,相应电压域的 GPIO 以及串口…

Apache Hive3定位表并更改其位置

Apache Hive3表 1、Apache Hive3表概述2、Hive3表存储格式3、Hive3事务表4、Hive3外部表5、定位Hive3表并更改位置6、使用点表示法引用表7、理解CREATE TABLE行为 1、Apache Hive3表概述 Apache Hive3表类型的定义和表类型与ACID属性的关系图使得Hive表变得清晰。表的位置取决于…

Flutter 改完安卓 applicationId 后App 闪退问题。

一、问题 当我们项目创建完,想 build.gradle 改 applicationId 的时候,再次执行的时候可能会出现 app 闪退问题, 控制台不显示任何错误提示 也不出现 Exit 停止运行的情况。(像下方这样, 而 app 只是在模拟器中一闪而…

JavaScript笔记APIs篇01——DOM获取与属性操作

黑马程序员视频地址:黑马程序员前端JavaScript入门到精通全套视频教程https://www.bilibili.com/video/BV1Y84y1L7Nn?vd_source0a2d366696f87e241adc64419bf12cab&spm_id_from333.788.videopod.episodes&p78https://www.bilibili.com/video/BV1Y84y1L7Nn?…

【2024年 CSDN博客之星】我的2024年创作之旅:从C语言到人工智能,个人成长与突破的全景回顾

我的2024年创作之旅:从C语言到人工智能,个人成长与突破的全景回顾 引言 回望2024年,我不仅收获了技术上的成长,更收获了来自CSDN平台上无数粉丝、朋友以及网友们的支持与鼓励。在这条创作之路上,CSDN不仅是我展示技术成…

回归人文主义,探寻情感本质:从文艺复兴到AI时代,我的情感探索之旅

回归人文主义,探寻情感本质:从文艺复兴到AI时代,我们的情感探索之旅 多年来,我们的团队一直关注人工智能,尤其是AI在音乐领域的应用研究。随着技术的不断演进,我们也不断反思:在“算法、代码、…

【java】签名验签防篡改研究测试

上一篇文章写了接口安全通过一次性校验码和 时间戳可以防接口重放攻击、本篇将通过 signatrue签名模式进行研究性,知其所以然 说明本次实验是验证签名合法性该前端使用不安全加密,存在安全风险密钥在jsp中暴露 1、实现原理 2、前端 将 username 和 p…

实战演示:利用ChatGPT高效撰写论文

在当今学术界,撰写论文是一项必不可少的技能。然而,许多研究人员和学生在写作过程中常常感到困惑和压力。幸运的是,人工智能的快速发展为我们提供了新的工具,其中ChatGPT便是一个优秀的选择。本文将通过易创AI创作平台&#xff0c…

Java实现简易银行账户管理系统

目录 1、项目概述 1.1 项目结构 1.2 技术栈 2、核心功能说明 2.1 账户管理 2.2 异常处理体系 3、设计理念解析 3.1 面向对象设计 3.2 关键设计点 4、使用指南 4.1 运行流程 4.2 注意事项 5、扩展建议 5.1增加功能 5.2优化方向 6、主要的功能模块代码说明 6.1exception 6.2main …