【LLM多模态】文生视频评测基准VBench

note

  • VBench的16个维度
  • 自动化评估指标代码实践(待完成)
  • 16个维度的prompt举例
  • 人类偏好标注:计算VBench评估结果与人类偏好之间的相关性、用于DPO微调

文章目录

  • note
  • 一、相关背景
  • 二、VBench评测基准
    • 概述:论文如何解决这个问题?
    • (1)视频质量(Video Quality)
    • (2)视频条件一致性(Video-Condition Consistency)
  • 三、相关实验
    • (1)在所有指标上评估(Per-Dimension Evaluation)
    • (2)验证VBench的人类对齐效果
    • (3)在不同类别上评估
  • 四、论文总结
  • 五、其他文生视频的benchmark
  • Reference

一、相关背景

论文:VBench: Comprehensive Benchmark Suite for Video Generative Models
CVPR 2024

  1. 相关背景
    论文:VBench: Comprehensive Benchmark Suite for Video Generative Models
    CVPR 2024
    实时排名:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

在这里插入图片描述

Q: 这篇论文试图解决什么问题?
A: 这篇论文提出了一个名为VBench的综合基准测试套件,旨在解决视频生成模型评估中存在的挑战。具体来说,它试图解决以下问题:

  1. 现有评估指标与人类感知不一致:传统的视频生成质量评估指标,如Inception Score (IS)、Fréchet inception distance (FID)、Fréchet Video Distance (FVD) 和 CLIPSIM,与人类的判断并不完全一致。这意味着这些指标可能无法准确反映人类对生成视频质量的真实感受。
  2. 缺乏全面的评估系统:理想的评估系统不仅应该能够准确反映人类对生成视频的感知,还应该能够揭示每个模型的具体优势和劣势,为未来的视频生成模型的数据、训练和架构选择提供指导。然而,现有的评估方法并没有为视频生成模型提供这样的全面评估。

为了解决这些问题,VBench通过以下方式提供了解决方案:

  • 综合评估维度:VBench将视频生成质量分解为16个具体、分层和解耦的维度,每个维度都有专门的提示(prompts)和评估方法。
  • 与人类感知的对齐:通过收集人类偏好注释来验证VBench评估与人类感知的一致性。
  • 提供有价值的洞察:VBench能够从多个角度为视频生成社区提供详细的反馈,帮助评估现有模型的优势和劣势,并指导未来模型的改进。
    总的来说,VBench旨在提供一个与人类感知更加一致、能够全面评估视频生成模型性能的基准测试套件,以推动视频生成技术的发展。

Q: 有哪些相关研究?
A: 根据论文内容,以下是一些与VBench相关的研究领域和具体工作:

  1. 视频生成模型:最近,扩散模型(diffusion models)在图像合成方面取得了显著进展,并推动了一系列视频生成的工作。许多这些工作是基于文本到视频(text-to-video, T2V)的模型。
  2. 视觉生成模型的评估:现有的视频生成模型通常使用Inception Score (IS)、Fréchet inception distance (FID)、Fréchet Video Distance (FVD) 和 CLIPSIM等指标进行评估。然而,这些指标缺乏多样性和特异性,限制了对视频生成能力的准确和细粒度评估。
  3. 文本到图像(T2I)模型的评估:对于文本到图像模型,已经提出了几个基准来评估各种能力,如组合性和编辑能力。然而,视频生成模型仍然缺乏全面的评估基准,以提供详细和与人类对齐的反馈。
  4. 视频质量评估(VQA)方法:这些方法主要是为真实视频设计的,因此忽略了由生成模型带来的独特挑战,例如合成视频中的伪影。
  5. 与VBench并行的研究:论文中提到了一些并行的研究工作,这些工作也在探索视频生成模型的评估方法,但VBench在创建评估维度、与人类感知的一致性验证以及多维度和多类别评估方面有所不同。
  6. 视频编辑和视频合成:还有一些研究工作集中在视频编辑和视频合成上,这些工作提供了不同的方法和技术,用于生成或编辑视频内容。
  7. 视频理解:一些研究专注于视频内容的理解,包括动作识别、场景识别和视频字幕生成等。
  8. 图像和视频的美学评估:有研究工作致力于评估图像和视频的美学质量,这与VBench中评估视频质量的维度相关。
  9. 图像和视频的生成模型:包括使用GANs、VAEs、VQ-VAEs和扩散模型等生成高质量图像和视频的研究。
    这些相关研究为VBench提供了背景和上下文,同时也表明了视频生成和评估领域是一个活跃的研究领域,需要像VBench这样的工具来推动进一步的发展。

二、VBench评测基准

概述:论文如何解决这个问题?

A: 论文通过提出VBench这一综合基准测试套件来解决视频生成模型评估中的问题。具体解决方案如下:

  1. 多维度评估:VBench将视频生成质量分解为16个具体、分层和解耦的维度,每个维度都有针对性的评估方法和提示(prompts)。这种多维度的方法可以更细致地评估视频生成模型的性能,并揭示模型在各个具体方面的优势和劣势。
  2. 与人类感知对齐:为了确保评估结果与人类感知一致,VBench收集了人类偏好注释,并验证了其评估方法与人类感知的一致性。这有助于提高评估结果的可靠性,并为未来的模型改进提供指导。
  3. 提供有价值的洞察:VBench的多维度和多类别评估方法能够为视频生成社区提供详细的反馈,帮助研究人员和开发者了解现有模型在不同方面的表现,并指导未来的模型训练、数据选择和架构设计。
  4. 开放和扩展性:VBench计划开源,包括所有的提示、评估方法、生成视频和人类偏好注释。这鼓励更多的研究者和开发者参与到视频生成模型的评估中来,并为VBench贡献更多的视频生成模型和评估维度。
  5. 评估方法的精心设计:对于每个评估维度,VBench都设计了专门的评估方法或指定的评估流程,以实现自动、客观的评估。
  6. 跨类别评估:VBench还包括了针对不同内容类别的提示套件,允许在各个类别内分别评估模型的性能,从而揭示模型在特定内容类型上的能力和需要改进的地方。
  7. 图像与视频生成模型的比较:VBench还能够评估图像生成模型,并调查视频和图像生成模型之间的差异,为两种类型的模型提供比较和洞见。
    通过这些综合的方法,VBench旨在为视频生成领域提供一个全面、细致、与人类感知一致的评估工具,以推动该领域的进一步发展。

具体的16个指标:
VBench论文中提出的16个评估维度分为两大类:视频质量(Video Quality)和视频条件一致性(Video-Condition Consistency)。具体维度如下:
在这里插入图片描述

(1)视频质量(Video Quality)

时间维度的质量(Temporal Quality):

  1. 主体一致性(Subject Consistency):评估视频中主体(如人物、车辆等)的外观是否在不同帧中保持一致。
  2. 背景一致性(Background Consistency):评估视频背景场景在时间上的一致性。
  3. 时间闪烁(Temporal Flickering):评估视频中局部和高频细节的不完美时间一致性。
  4. 运动平滑性(Motion Smoothness):评估视频中生成的运动是否平滑,并遵循现实世界物理定律。
  5. 动态度(Dynamic Degree):评估视频中生成的动态程度,即是否包含大量运动。

帧质量(Frame-Wise Quality):

  1. 美学质量(Aesthetic Quality):评估每个视频帧的艺术性和美观价值。
  2. 成像质量(Imaging Quality):评估生成帧中的失真(如过曝、噪声、模糊)。

(2)视频条件一致性(Video-Condition Consistency)

语义(Semantics):

  1. 对象类别(Object Class):评估特定类别对象在视频中的生成成功率。
  2. 多个对象(Multiple Objects):评估视频中不同类别对象的组合能力。
  3. 人类动作(Human Action):评估视频中人物执行文本提示中特定动作的准确性。
  4. 颜色(Color):评估合成对象颜色与文本提示的一致性。
  5. 空间关系(Spatial Relationship):评估视频中对象间的空间关系是否遵循用户指令。比如a物体是否在b物体的左方(如果prompt这么要求)。
  6. 场景(Scene):评估合成视频与文本提示中描述的场景的一致性。如指令要求是ocean时不能生成river。

整体一致性(Overall Consistency):
使用视频-文本一致性计算作为辅助指标,反映语义和风格的一致性。

风格(Style):
外观风格(Appearance Style):评估视频与用户指令要求的风格(如油画风格、黑白风格等)的一致性。
时间风格(Temporal Style):评估视频的时间风格(如不同的摄像机运动)与文本提示的一致性。

注意:Temporal Style更多强调运镜/外观等的动态/视觉风格;Temporal Quality强调在时间维度上的连贯性、一致性(重点不在是否遵循用户指令)

在上面的16个指标中,每个指标都设计对应100个左右的prompt,不同的类别也是(比如针对不同的视频类别有对应的prompt,如动物、建筑、食品、人类、生活方式、植物、风景和交通场景八个视频类别),保证全方面进行测试:
在这里插入图片描述

对主流模型在16个评估指标上进行评测:
在这里插入图片描述

三、相关实验

(1)在所有指标上评估(Per-Dimension Evaluation)

  • Empirical Max
  • Empirical Min
  • WebVid-Avg

(2)验证VBench的人类对齐效果

VBench评测结果和人类对齐标注数据高度一致:
在这里插入图片描述

(3)在不同类别上评估

动物、建筑、食品、人类、生活方式、植物、风景和交通场景八个视频类别
在这里插入图片描述

Q: 论文做了哪些实验?
A: 根据论文内容,作者们进行了一系列实验来验证VBench基准测试套件的有效性、与人类感知的一致性,以及提供对视频生成模型的深入洞察。以下是他们进行的主要实验:

  1. 按维度评估:对每个评估维度,使用VBench评估方法套件计算得分,并展示结果。这包括与Empirical Max、Empirical Min和WebVid-Avg等参考基线的比较。
  2. 验证VBench与人类感知的一致性:通过大规模人类注释来验证VBench评估方法是否能忠实反映人类感知。这涉及到计算每个模型在每个维度上的获胜比例,并与人类偏好注释进行比较。
  3. 按类别评估:在八个不同的内容类别中评估文本到视频(T2V)模型的性能,通过生成基于类别的提示套件的视频并计算不同评估维度上的表现。
  4. 视频生成与图像生成的比较:对文本到视频(T2V)模型和文本到图像(T2I)模型的帧级生成能力进行比较分析,以评估T2V模型在继承T2I模型帧级生成能力方面的成功程度,并调查现有T2I和T2V模型之间的帧级生成能力差距。
  5. 多模型评估:采用LaVie、ModelScope、VideoCrafter和CogVideo等视频生成模型进行VBench评估,并计划将更多开源模型纳入评估。
  6. 人类偏好注释:执行人类偏好标注,以验证VBench评估与人类感知的一致性,并展示人类偏好注释在未来任务中的潜在用途,例如微调生成和评估模型以提高与人类感知的一致性。
  7. 实验结果的可视化:通过雷达图和其他可视化手段展示实验结果,以清晰地展示不同模型在各个评估维度上的性能。
  8. 提供洞察和讨论:基于VBench评估结果,讨论观察到的现象和洞察,例如不同能力维度之间的权衡、特定内容类别中T2V模型的潜力、复杂类别的挑战等。

四、论文总结

Q: 总结一下论文的主要内容
A: 这篇论文介绍了VBench,一个全面的视频生成模型基准测试套件。以下是论文的主要内容总结:

  1. 问题识别:视频生成技术迅速发展,但现有评估方法无法全面反映人类对生成视频质量的感知,且缺乏对模型优势和劣势的深入洞察。
  2. VBench套件介绍:提出了VBench,一个包含16个评估维度的分层和解耦的评估体系,每个维度都有专门的提示和评估方法。
  3. 评估维度:VBench的评估维度分为两大类——视频质量和视频条件一致性,进一步细分为多个子维度,如主题一致性、背景一致性、时间闪烁、运动平滑度等。
  4. 人类感知对齐:通过收集人类偏好注释来验证VBench评估与人类感知的一致性,并展示了评估结果与人类偏好的高度相关性。
  5. 洞察提供:VBench能够提供多角度的反馈,帮助评估现有模型的性能,并为未来模型的训练、数据选择和架构设计提供指导。
  6. 实验验证:对LaVie、ModelScope、VideoCrafter和CogVideo等视频生成模型进行了评估,并通过实验展示了VBench的有效性和与人类感知的一致性。
  7. 内容类别评估:VBench还包括了按内容类别组织的提示套件,允许在不同类别中评估模型的性能。
  8. 图像与视频生成模型比较:使用VBench评估了图像生成模型,并与视频生成模型进行了比较,探讨了两者之间的差异。

Q: 有什么可以进一步探索的点?
A: 根据论文内容,以下是一些可以进一步探索的点:

  1. 扩展评估维度:虽然VBench已经包含了16个评估维度,但随着视频生成技术的发展,可能会出现新的挑战和特性,需要添加新的评估维度来覆盖。
  2. 增加更多模型:目前开源的视频到视频(T2V)模型数量有限,未来可以包括更多的模型进行评估,以提供更全面的比较和分析。
  3. 评估其他视频生成任务:除了文本到视频(T2V)任务,还有视频编辑、图像到视频转换、个性化视频生成等其他视频生成任务,VBench可以扩展以评估这些任务。
  4. 提高评估方法的自动化和精确度:尽管VBench提供了一套评估方法,但自动化评估的精确度和可靠性仍可以进一步提高,以更好地反映人类感知。
  5. 考虑伦理和社会影响:在未来的迭代中,考虑包括安全性和平等性维度,以确保视频生成模型的评估不仅技术上有效,也符合伦理和社会标准。
  6. 数据集的多样性和质量:研究不同数据集的多样性和质量如何影响视频生成模型的性能,并探索如何通过数据集的选择和清洗来提高模型的泛化能力。
  7. 模型的可解释性和透明度:提高视频生成模型的可解释性,让研究人员和用户更好地理解模型的决策过程和潜在的偏差。
  8. 用户研究和反馈:进行用户研究,收集用户对生成视频的反馈,以进一步指导评估标准的制定和模型的改进。
  9. 跨模态评估:探索如何将视频生成模型的评估与其他模态(如音频、文本)结合,以评估多模态生成系统的综合性能。
  10. 实时性能评估:研究如何评估视频生成模型在实时或近实时条件下的性能,这对于实际应用非常重要。
  11. 模型鲁棒性评估:评估视频生成模型在面对各种异常输入或对抗性攻击时的鲁棒性。
  12. 模型效率和可扩展性:除了质量评估之外,还可以考虑模型的计算效率和可扩展性,这对于资源有限的环境或大规模应用尤为重要。

五、其他文生视频的benchmark

常见的文生视频评测集benchmark包括:

  1. AIGCBench:这是一个全面且可扩展的基准测试,专为评估视频生成任务而设计,特别关注图像到视频(Image-to-Video, I2V)的生成。AIGCBench包括多个维度的评估指标,涵盖控制视频对齐、运动效果、时间一致性和视频质量等方面。它还包括一个多样化的真实世界视频-文本和图像-文本数据集,以及通过专有生成管道产生的新数据集。
  2. VBench:VBench是一个全面的视频生成模型基准测试套件,它将“视频生成质量”分解为多个定义明确的维度,以便于进行细致和客观的评估。VBench包括16个维度,如主体身份不一致性、运动平滑度、时间闪烁和空间关系等。它还提供了与人类感知一致的人类偏好注释数据集,以验证基准测试与人类感知的一致性。
  3. FETV:FETV是一个用于细粒度评估开放领域文本到视频生成的基准测试。它通过多方面分类文本来评估T2V模型,揭示了不同类别提示下模型的优缺点。FETV还扩展为一个测试平台,用于评估自动T2V指标的可靠性。

Reference

[1] VBench: Comprehensive Benchmark Suite for Video Generative Models
[2] VBench:视频生成模型评测体系 | CVPR 2024

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/424676.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kafka 消息丢失如何处理?

今天给大家分享一个在面试中经常遇到的问题:Kafka 消息丢失该如何处理? 这个问题啊,看似简单,其实里面藏着很多“套路”。 来,咱们先讲一个面试的“真实”案例。 面试官问:“Kafka 消息丢失如何处理&#x…

【AWDP】 AWDP 赛制详解应对方法赛题实践 量大管饱

文章首发于【先知社区】:https://xz.aliyun.com/t/15535 一、AWDP概述 AWDP是什么 AWDP是一种综合考核参赛团队攻击、防御技术能力、即时策略的攻防兼备比赛模式。每个参赛队互为攻击方和防守方,充分体现比赛的实战性、实时性和对抗性,对参…

_Array类,类似于Vector,其实就是_string

例子&#xff1a; using namespace lf; using namespace std;int main() {_Array<int> a(10, -1);_Array<_string> s { _t("one"), _t("two") };_pcn(a);_pcn(s);} 结果&#xff1a; 源代码_Array.h&#xff1a; /***********************…

FastText 和 Faiss 的初探了解

概览 大模型目前已经是如火如荼的程度&#xff0c;各个大厂都有推出面向大众的基础大模型&#xff0c;同时诸多行业也有在训练专有大模型&#xff0c;而大模型的发展由来却是经过多年从文本检索生成、深度学习、自然语言处理&#xff0c;在Transformer架构出来后&#xff0c;才…

python的流程控制语句之制作空气质量评估系统

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;开发者-曼亿点 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 曼亿点 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a…

什么是数据库回表,又该如何避免

目录 一. 回表的概念二. 回表的影响三. 解决方案1. 使用覆盖索引2. 合理选择索引列3. 避免选择不必要的列4. 分析和优化查询5. 定期更新统计信息6. 避免使用SELECT DISTINCT或GROUP BY7. 使用适当的数据库设计 数据库中的“回表”是指在查询操作中&#xff0c;当数据库需要访问…

【免费】CISSP官方习题集第4版

伴随2004年4月CISSP新大纲发布&#xff0c;CISSP官方习题集第4版(OPT v4)已于2024年5月出版&#xff1a; 本人维护的中英对照8个知识域分章节练习已同步更新完成&#xff0c;在保持v3版内容基础上&#xff0c;增补了所有v4新内容&#xff0c;免费供考友们使用&#xff0c;访问方…

离线数仓DWD层

离线数仓DWD层 DWD层设计要点&#xff1a;9.1 交易域加购事务事实表9.2 交易域下单事务事实表9.3 交易域取消订单事务事实表9.4 交易域支付成功事务事实表9.5 交易域退单事务事实表9.6 交易域退款成功事务事实表9.7 交易域购物车周期快照事实表9.8 工具域优惠券领取事务事实表9…

springboot修改组件扫描包位置

步骤很详细&#xff0c;直接上教程 问题分析 默认情况下组件扫描包范围为启动类所在包及其子包 解决方法 我们只需要在启动类上面加个注解配置扫描范围 效果演示 温馨提示 非必要不建议修改&#xff0c;按规范创建项目结构一般不会出现这个问题

uniapp 发布苹果IOS详细流程,包括苹果开发者公司账号申请、IOS证书、.p12证书文件等

记录一下uniapp发布苹果IOS的流程。 一、苹果开发者公司账号申请 1、邓白氏编码申请&#xff08;先申请公司邓白氏编码&#xff0c;这一步需要1-2周&#xff0c;没有这个编码苹果开发者没法申请&#xff0c;已有编码的跳过此步骤&#xff09;&#xff1a; 1&#xff09;联系苹…

什么是职场?职场的本质又是什么呢?

最近&#xff0c;经常看到很多职场相关的&#xff0c;比如职场必备技能、职场人际关系、职场晋升等等&#xff0c;这些都是职场的一些方面&#xff0c;但是却少有人来深入剖析什么是职场&#xff0c;职场的本质又是什么&#xff0c;今天我们就来一起来聊一聊&#xff0c;到底职…

【MySQL】MySQL索引与事务的透析——(超详解)

前言 &#x1f31f;&#x1f31f;本期讲解关于MySQL索引事务&#xff0c;希望能帮到屏幕前的你。 &#x1f308;上期博客在这里&#xff1a;【MySQL】MySQL表的增删改查&#xff08;进阶篇&#xff09;——之查询操作&#xff08;超级详解&#xff09;-CSDN博客 &#x1f308;感…

【计算机网络 - 基础问题】每日 3 题(一)

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/fYaBd &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞&#x1f44d;收藏&…

HTML贪吃蛇游戏

文章目录 贪吃蛇游戏 运行效果代码 贪吃蛇游戏 贪吃蛇是一款经典的休闲益智游戏。本文将通过HTML5和JavaScript详细解析如何实现一个简易版的贪吃蛇游戏。游戏的主要逻辑包括蛇的移动、碰撞检测、食物生成等功能。以下是游戏的完整代码及注释解析。&#xff08;纯属好玩&#…

【python】OpenCV—Mask RCNN for Object Detection and Instance Segmentation

文章目录 1、任务描述2、MASR RCNN 网络结构3、方法实现4、结果展示5、涉及到的库getPerfProfile 6、参考 1、任务描述 利用 mask rcnn 网络&#xff0c;进行图片和视频的目标检测和实例分割 2、MASR RCNN 网络结构 3、方法实现 # Copyright (C) 2018-2019, BigVision LLC (L…

SQL进阶技巧:火车票相邻座位预定一起可能情况查询算法 ?

目录 0 场景描述 1 数据准备 2 问题分析 2.1 分析函数法 2.2 自关联求解 3 小结 如果觉得本文对你有帮助&#xff0c;那么不妨也可以选择去看看我的数字化建设通关指南博客专栏 &#xff0c;或许对你更有用。专栏原价99&#xff0c;现在活动价29.9&#xff0c;按照阶梯…

什么是上拉,下拉?

上拉就是将引脚通过一个电阻连接到电源&#xff0c;作用&#xff1a;1.使IO口的不确定电平稳定在高点平&#xff0c;2、为了增加IO口拉电流的能力。 下拉就是将引脚通过一个电阻与GND相连&#xff0c;作用&#xff1a;1.从器件输出电流 2.当IO口为输入状态时&#xff0c;引脚的…

GitHub Star 数量前 13 的自托管项目清单

一个多月前&#xff0c;我们撰写并发布了这篇文章《终极自托管解决方案指南》。在那篇文章里我们深入探讨了云端服务与自托管方案的对比、自托管的潜在挑战、如何选择适合自托管解决方案&#xff0c;并深入介绍了五款涵盖不同场景的优秀自托管产品。 关于自托管的优势&#xf…

快速了解高并发解决方案

对《高并发的哲学原理》的个人总结&#xff0c;原书地址如下 https://pphc.lvwenhan.com/ 本书的核心思想就是拆分&#xff0c;服务细化拆分多资源并行。 通用设计方法 例子&#xff1a;每秒100万次http请求 通过架构解决性能问题&#xff0c;在面对并发需求时&#xff…

Tuxera NTFS for Mac 2023绿色版

​ 在数字化时代&#xff0c;数据的存储和传输变得至关重要。Mac用户经常需要在Windows NTFS格式的移动硬盘上进行读写操作&#xff0c;然而&#xff0c;由于MacOS系统默认不支持NTFS的写操作&#xff0c;这就需要我们寻找一款高效的读写软件。Tuxera NTFS for Mac 2023便是其中…