Category | Content |
---|---|
论文题目 | MM-VID: Advancing Video Understanding with GPT-4V(ision) |
作者 | Kevin Lin, Faisal Ahmed, Linjie Li, Chung-Ching Lin, Ehsan Azarnasab, Zhengyuan Yang, Jianfeng Wang, Lin Liang, Zicheng Liu, Yumao Lu, Ce Liu, Lijuan Wang (Microsoft Azure AI)
另一篇论文:EgoVLP: https://arxiv.org/pdf/2206.01670.pdf EgoVLPv2:https://github.com/facebookresearch/EgoVLPv2 他的主页:https://github.com/QinghongLin 他也是VLog的作者。以及 UniVTG 的作者。 |
发表年份 | 2023 |
摘要 | 提出了MM-VID,一个综合系统,结合了GPT-4V和专门的视觉、音频和语音工具,以促进高级视频理解。MM-VID旨在应对长篇视频和复杂任务的挑战,如在长时间内容中进行推理和理解跨越多集的故事情节。MM-VID使用GPT-4V进行视频到脚本的生成,将多模态元素转录为长文本脚本,从而为大型语言模型(LLM)实现视频理解铺平了道路。 |
引言 | 探讨了如何理解长视频,特别是那些跨越一个小时以上的视频。这是一个复杂的任务,需要能够分析图像和音频序列的高级方法。这一挑战还包括从各种来源提取信息,如区分讲话者、识别角色和维持叙事连贯性。 |
主要内容 | MM-VID包括四个模块:多模态预处理、外部知识收集、剪辑级视频描述生成和脚本生成。我们详细描述了每个模块。MM-VID从输入的视频文件开始,输出描述视频内容的脚本,使LLM能够实现各种视频理解功能。 |
实验 | 基于MM-REACT代码库实现了MM-VID,并使用Azure Cognitive Services API提供的自动语音识别(ASR)工具,以及PySceneDetect进行场景检测。我们讨论了MM-VID的不同能力,例如基于脚本的问答、多模态推理、长时视频理解、多视频集分析、角色识别、扬声器识别和音频描述生成等。我们还进行了用户研究,探索了MM-VID对视觉障碍人群的潜力。 |
结论 | 介绍了MM-VID,一个与GPT-4V协同工作的系统,用于推进视频理解。MM-VID利用GPT-4V将视频内容转录成长而详细的脚本,从而丰富LLM的高级视频理解能力。实验结果表明MM-VID在处理挑战性任务方面的有效性,包括理解长达一小时的视频、跨多集的分析、识别角色和发言者以及与视频游戏和图形用户界面的互动。此外,我们进行了广泛的用户研究,从不同用户群体那里收集反馈。 |
阅读心得 | 首先,这篇文章没有代码。 就是提出了一个整合体,把几个模型(主要是两个预处理工具+GPT4v+GPT4)整合起来用来给一个video生成脚本。 运行的话估计是和VLog那个repo一样,需要online的调用openai接口服务(api_key). 分5步实现: step1: pre-processing - scene detection (使用工具PySceneDetect,一个视频处理工具可以检测一些场景切换,剪辑等内容) step2: pre-processing - automatic speech recognition (ASR) (语音处理工具) step3: The input video is then split into multiple clips according to the scene detection algorithm (分割整个video为小片段10s) step4: employ GPT-4V, which takes the clip-level video frames as input and generates a detailed description for each video clip step5: GPT-4 is adopted to generate a coherent script for the full video, conditioning on the clip-level video descriptions, ASR, and video metadata if available |