上海AI lab提出VideoChat:可以与视频对话啦

夕小瑶科技说 原创
作者 | 小戏、ZenMoore

视频相比语言、图像,是更复杂更高级的一类表征世界的模态,而视频理解也同样是相比自然语言处理与计算机视觉的常见工作更复杂的一类工作。在当下大模型的洪流中,自然而然的想法就是大规模语言模型(LLMs)可以基于语言训练的强大理解推理能力,完成视频理解的工作吗?现在答案到来了,上海 AI Lab 提出了以 Chat 为中心的端到端的视频理解系统 VideoChat,集成了视频基础模型与 LLMs,并且在如空间、时间推理,事件定位、因果推断等多个方面都表现十分出色

区别于现有多模态大模型针对视频输入的处理方法,即首先文本化视频内容再接入大模型利用大模型自然语言理解的优势,这篇论文从模型角度以可学习的方式集成了视频和语言的基础模型,通过构建视频基础模型与 LLMs 的接口,通过对接口进行训练与学习从而完成视频与语言的对齐。这样一种方式可以有效的避免视觉信息、时空复杂性信息丢失的问题,第一次创立了一个高效、可学习的视频理解系统,可以实现与 VideoChat 对视频内容的有效交流。

论文题目:

VideoChat : Chat-Centric Video Understanding

论文链接:

https://arxiv.org/pdf/2305.06355.pdf

代码地址:

https://github.com/OpenGVLab/Ask-Anything

各个大模型的研究测试传送门

阿里通义千问传送门:

https://tongyi.aliyun.com

百度文心一言传送门:

https://yiyan.baidu.com

ChatGPT传送门(免墙,可直接测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇到浏览器警告点高级/继续访问即可):

https://gpt4test.com

如果要问大模型有什么样的能力,那我们可能洋洋洒洒从理解推理到计算判断都可以列举许多,但是如果要问在不同场景下如何理解大模型的不同作用,那有可能就是一个颇为玄妙的“艺术”问题。在 VideoChat 中,论文作者将大模型理解为一个视频任务的解码器,即将视频有关的描述或更进一步的嵌入理解为人类可理解的文本。这一过程可以被形式化的理解为:

[ E ] i j = f i m g j ( I i ) o r E j = f v i d j ( V ) w . r . t V = [ I i ] i = 1 , 2 , . . . , T , [E]_i^j=f_{img}^j(I_i)\ \ \ \ or\ \ \ \ E^j=f_{vid}^j(V)\ \ w.r.t\ \ V=[I_i]_{i=1,2,...,T}, [E]ij=fimgj(Ii)    or    Ej=fvidj(V)  w.r.t  V=[Ii]i=1,2,...,T,

这里 f i m g f_{img} fimg f v i d f_{vid} fvid 表示一个图片或视频的模型,通过将 I(图像) 与 V(视频)输入到模型中,得到视频或图像的嵌入表示 E,而一个解码的过程,就是:
W t a = f l l m ( E ∣ W ≤ t q , W < t a ) W_t^a=f_{llm}(E|W^q_{\le t},W_{ < t}^a) Wta=fllm(EWtq,W<ta)

其中 W q W^q Wq W a W^a Wa 分别表示在第 t 轮中 LLM 的回答和在 t 轮前用户提出的所有问题及答案, f l l m f_{llm} fllm 即一个 LLM 模型。传统上针对多模态大模型的解决方法,一般是一种将视频信息文本化的方法,通过将视频序列化为文本,构成 Video Description,再输入到大模型之中,这种文本流可以很好的适应理解类的工作,但是却对如时间、空间感知这类任务表现不佳,因为几乎是必然的,将视频信息文本化后很容易使得这类基础信息出现丢失。而因此论文试图完成一个端到端的一体化的方法,直接提取视频的嵌入信息,如下图对比所示:

通过整合这样两种视频架构,即整合 VideoChat-Text 与 VideoChat-Embed 得到的 Video Context 输入到大模型之中,以获得更全面的视频信息理解能力,如在上图的任务中,用户提问“他是在唱、跳和 Rap 吗”,VideoChat 回复“不是,他是在打篮球(和跳舞)”

对于 VideoChat-Text 部分,论文作者详细的解构了一个视频包含的内容,比如动作、语音、对象及带有位置注释的对象等等,基于这些分析,VideoChat-Text 模块综合利用各种视频与图像模型获得这些内容的表征,再使用 T5 整合模型输出,得到文本化的视频之中,使用如下图所示的模板完成对 LLMs 的输入:

而对于 VideoChat-Embed 则采用如下架构将视频和大模型与可学习的 Video-Language Token Interface(VLTF)相结合,基于 BLIP-2 和 StableVicuna 来构建 VideoChat-Embed,具体而言,首先通过 GMHRA 输入视频,同时引入图像数据进行联合训练并接入一个经过预训练的 Q-Former,完成视频的 Embedding。

整个训练过程可以分为两个阶段,分别是对齐与微调。在对齐阶段,作者引入了 25M 个视觉-文本对针对接口进行微调,整体的输入提示如下:

而在微调阶段,论文自行构建并开源了包含 7k 个详细的视频描述与图像描述以及 4k 个视频对话,3k 个图像描述,2k 个图像对话,2k 个图像推理的指令数据集对 VideoChat 完成微调

对比 LLaVa、miniGPT-4 以及 mPLUG-owl,论文对 VideoChat 的多方面能力进行了定性研究。其中,在空间感知与分析中,VideoChat 可以识别日式服装来推断出相应的音乐,并且确定视频中的人数。这即是证明了 VideoChat 识别捕获视觉元素并给予视觉元素进行分析的能力。

在时间感知与分析中,VideoChat 可以识别出视频中做瑜伽的动作,甚至给出了它摔倒可能性的判断并进行提醒了安全问题

在非正式推断中,VideoChat 也可以解释“为什么这个视频是好笑的”这一问题,并且解释的也符合我们对视频好笑的一些抽象判断,如不协调,突然性等等

而对比最近的基于图像的多模态对话系统,VideoChat 可以正确的识别场景,而其他系统则错误的将对话环境视为室内,这充分的体现了 Video-Chat 在空间感知方面非常强大的比较优势。

这样一个开源的视频理解框架可以为视频理解这样一个目前还没有什么非常成熟的解决方案的问题铺好道路,显然,将视频信息与文本信息对齐,大规模语音模型的优秀能力是可以允许他们理解视频信息。而如果将大模型看作一个有推理、理解能力的黑盒,视频理解的问题就变成了如何对视频进行解码以及与文本对齐的问题,这可以说是大模型为这一领域带来的“提问方式”的改变

但是针对我们期望的成熟的视频理解器,这篇工作仍然具有局限性,比如 VideoChat 还是难以处理 1 分钟以上的长视频,当然这主要是来自于大模型上下文长度的限制,但是在有限的上下文长度中如何更好的压缩视频信息也成为一个复杂的问题,当视频时长变长后,系统的响应时间也会对用户体验带来负面影响。另外总的来说,这篇论文使用的数据集仍然不算大,因此使得 VideoChat 的推理能力仍然停留在简单推理的层级上,还无法完成复杂一点的推理工作,总之,尽管 VideoChat 还不是一个尽善尽美的解决方案,但是已然可以为当下视频理解系统增添重要一笔,让我们期待基于它的更加成熟的工作吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17208.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT 整合到Laravel项目中使用

之前写的《ChatApI 本地如何调用》是直接下载ChatGPT SDK当做单独项目开发使用的&#xff0c;这次写的是整合到当前项目中使用ChatGPT 合并为一个项目去使用&#xff1b;具体操作方法也有一定区别。 目录 1.安装ChatGPT SDK 2.加载ChatGPT类库 3.安装guzzlehttp 4.代码实操…

Midjourney绘画2尾图,是什么体验

​ 引言&#xff1a; 你可能已经见过很多普通的二维码&#xff0c;它们通常是黑白的方块&#xff0c;用来存储一些链接或信息。但是&#xff0c;你有没有想过&#xff0c;二维码也可以变成艺术品呢&#xff1f;上面这张图看起来很普通&#xff0c;但是当你用手机扫描它时&…

对话人工智能 |新时代AI如何“落地“

前言&#xff1a; Comate代码助手推出&#xff0c;现场生成了贪吃蛇游戏&#xff0c;我们距离AI自动编程还有多远&#xff1f; 文章目录 序章正文背景基础坚实文心大模型飞浆深度学习框架 Comate的出现优质的智能助理和伙伴多场景适用优势特征Demo演示视频&#xff1a; 总结 序…

对标微软?我们上手试了试 WPS AI。

微软的 Copilot 来了, “ 其他办公软件们 ” 得咋办啊&#xff1f; 咱说实话&#xff0c;前不久微软发布 Microsoft 365 Copilot 时&#xff0c;差评君还真想过这个问题。 毕竟微软的那波升级&#xff0c;怎么看&#xff0c;都像在办公软件圈儿献上了一记绝杀&#xff0c;直接…

图文实录|澜舟科技合伙人李京梅:基于预训练模型的 AIGC 技术与应用实践

2023年1月6日&#xff0c;由稀土掘金技术社区与 Intel 联合发起的第一届「掘金未来大会」在北京成功举行。 大会上&#xff0c;澜舟科技合伙人、首席产品官李京梅介绍了澜舟科技的孟子轻量化预训练模型&#xff0c;及其已经在 GitHub、 Hugging Face 以及 ModelScope 等多个社…

已经有人用大模型挣上钱了?!

从ChatGPT横空出世&#xff0c;到百度文心一言发布满月&#xff0c;AIGC正在越来越多的行业、领域、人群间发光、发酵。从最初的倒卖ChatGPT账号获利&#xff0c;到现在更多开始直接使用AIGC的能力获益。 你日常刷到的电商直播间里的主播&#xff0c;可能并不是店小二本人&…

Prompt工程:AI2.0时代打开大模型能力的金钥匙

如果说互联网时代是一个人配一个电脑&#xff0c;AI新时代&#xff0c;或将是一个AI大模型配一个人。 ChatGPT显然已经成为一场比赛&#xff0c;但事实上&#xff0c;ChatGPT、文心一言、Midjourney等AIGC产品仅仅是拉开了AI新时代的一角帷幕&#xff0c;其背后的GPT、Stable …

澜舟科技周明:大模型正在催生新AI中台 | 中国AIGC产业峰会

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT爆火&#xff0c;吹起了大模型、AIGC的风口&#xff0c;但伴随着兴奋而来的&#xff0c;还有普遍的焦虑&#xff1a; 大模型时代&#xff0c;我们究竟应该做些什么&#xff1f; 我想现在&#xff0c;一是要看到未来AGI的绝对趋势…

网文版ChatGPT来了:大模型辅助写作,澜舟和中文在线联手出品

衡宇 发自 凹非寺量子位 | 公众号 QbitAI AIGC爆火&#xff0c;ChatGPT一枝独秀&#xff0c;想要追逐、赶超&#xff0c;从什么角度切入比较好&#xff1f; 澜舟科技创始人兼CEO、AI大拿周明的想法是“在垂直领域的应用”。 也就是说&#xff0c;不学ChatGPT的“AGI”梦想&…

怎样让ChatGPT在其内部训练神经网络?先让它想象自己有4块3090

©作者 | Posibilitee 单位 | 悉尼大学 怎样让 ChatGPT 在其内部训练神经网络&#xff1f;这个话题有点超乎大多数人的理解。 步骤是这样的&#xff1a; 1. 先让它伪装成 Ubuntu 18.04&#xff0c;给它说你安装了 Python 3.9, Pytorch 1.8, CUDA 11.3 和其他训练一个 pytor…

网页打不开

有没有老哥懂得啊 我挂上梯子后电脑老是打不开界面&#xff0c;但是手机却可以。之前chatgpt也是

利用“超越数字化”的这 7 个技巧来改变您的业务

21世纪的技术正在改变人们工作的方方面面。企业转型的需求前所未有的大。指数型的技术组合所叠加的颠覆性效应和规模可能超过以往人类社会的任何一次产业革命。《超越数字化》为企业领导者提供了一份实用的变革路线图&#xff0c;旨在帮助他们的公司在面临各种不确定性变化的情…

一直被低估的美图,正悄悄成为AIGC领跑者

【潮汐商业评论/原创】 也许多年之后再回望历史&#xff0c;2023年将被视为标志性的一年。它不仅是疫情之后的复苏之年&#xff0c;更是人工智能在中国乃至全球迎来爆发的一年。 从来没有这样的景象——在2023年的前3个月&#xff0c;全球互联网被AIGC话题“刷屏”&#xff0…

数字孪生是指通

这里写自定义目录标题 创建平面创建立方体创建约束调整立方体的尺寸调整立方体的位置创建楼梯设置场景单位创建平面创建线段调整线段的位置创建公路删除线段创建道路标志创建线段调整线段的位置创建放样模型创建线段调整线段的位置创建放样模型调整放样模型的尺寸调整放样模型的…

面向普通用户和开发者的ChatGPT Prompt Engineering 终极指南

你准备好发掘 ChatGPT 的全部潜力了吗&#xff1f;想象一下拥有一个AI工具&#xff0c;它能在很多方面帮助你 — — 从回答问题和创作有趣内容到提供个性化建议。这就是「Prompt Engineering」的用武之地 — — 一种有效且强大的方法&#xff0c;通过精心创建Prompt和指导&…

代理模式(Java版)-静态代理、JDK动态代理和CGLib动态代理

代理模式前传 前几天有个小朋友问到我代理模式&#xff0c;这个我拿手的嘛。废话不多说&#xff0c;直接开讲&#xff1f;这是不可能的。 一般呢&#xff0c;讲模式之前呢&#xff0c;礼貌上都要讲个前传。象我这种老了根本不怕没有故事祭奠的人&#xff0c;随手一个前传开始。…

『行业分析神器』ChatGPT麦肯锡方法,帮你快速摸清一个行业……

作为一名营销策划人员&#xff0c;是不是经常在做策划方案的时候&#xff0c;面对一个完全不了解的全新的行业&#xff0c;不知道如何下手&#xff1f; 其实&#xff0c;对于咱们营销人来说&#xff0c;行业分析对我们来说非常重要。这是因为只有了解行业趋势、竞争对手、目标…

一文读懂ChatGPT的前世今生(附相关论文下载)

2022年11月&#xff0c;人工智能公司OpenAI推出了一款啥都会的聊天机器人&#xff1a;ChatGPT。它能聊天、能翻译、能做题&#xff0c;还会写情书、写论文、写小说……功能强大到马斯克都表示“我们离强大到危险的 AI 不远了”。 ChatGPT是平地起高楼吗&#xff1f;是横空出世吗…

【ChatGPT】InstructGPT —— 如果这么看的话,ChatGPT 不过就是人类集体智慧调教出来的一个大知识模型?

目录 概述 根据人类反馈进行调教:基于人类反馈的强化学习,RLHF 问题背景

论文阅读之Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(2020)

文章目录 AbstractintroductionSetupmodelThe Colossal Clean Crawled CorpusDownstream TasksInput and Output Format Experiments总结参考 文章标题翻译过来&#xff0c;大概是&#xff1a;用统一的文本到文本转换器探索迁移学习的极限。 确实挺极限的。 这篇文章主要探讨了…