【LLM】文生视频相关开源数据集(VidGen、Panda、Cogvideox等)

note

  • 总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox训练数据准备过程、ShareGPT4Video数据集等
  • 在一篇综述中还总结了评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)
  • 各家提出的开源数据后,为了证明自己有效,会在上面这些不同指标评测

文章目录

  • note
  • 一、VidGen数据集
  • 二、Panda-70m数据集
  • 三、Openvid数据集
  • 四、OpenVid-1M数据集
  • 五、Cogvideox训练数据准备
  • 六、综述:From Sora What We Can See: A Survey of Text-to-Video Generation
  • 七、ShareGPT4Video数据集
  • Reference

一、VidGen数据集

(1)VidGen数据集:vidgen-1M利用了来自HD-VILA数据集的380万高分辨率、长时段视频。随后,这些视频被分割成1.08亿个视频片段。接下来,本文对这些视频片段进行了标注和采样。然后,使用VILA模型进行视频字幕生成
论文链接:https://arxiv.org/pdf/2408.02629
项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/
git链接:https://github.com/SAIS-FUXI/VidGen

二、Panda-70m数据集

(2)Panda-70m数据集:这里是从公开可用的高清视频语料库HD-VILA-100M中策划了380万个高分辨率视频。然后,我们将它们分割成语义一致的视频片段,并应用多个跨模态教师模型为每个视频获取字幕。panda-70m数据集价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。
论文名:Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
论文链接:https://arxiv.org/pdf/2402.19479.pdf

三、Openvid数据集

(3)Openvid数据集:通过广泛的实验和消融研究,验证了OpenVid-1M数据集相较于先前数据集的优越性以及MVDiT模型的有效性。在公共基准测试中,MVDiT在多个评估指标上均取得了最佳性能,包括视频质量评估(VQAA和VQAT)、文本与视频对齐(Blip_bleu和SD_score)以及视频时间一致性(Clip_temp_score和Warping_error)。这些结果证明了OpenVid-1M数据集在生成高质量视频方面的显著贡献。
http://arxiv.org/abs/2407.02371v1
https://nju-pcalab.github.io/projects/openvid

在这里插入图片描述

四、OpenVid-1M数据集

(4)OpenVid-1M数据集:
介绍:https://nju-pcalab.github.io/projects/openvid/
论文:https://export.arxiv.org/abs/2407.02371

  • OpenVid-1M的多样性也体现在其包含的多种场景,如人像、风景、城市、变形内容和动物等。数据集的视频分辨率至少为512×512,远高于许多现有的视频数据集,如WebVid-10M和Panda-70M。
  • OpenVid-1M的视频片段经过了自动化流程的筛选,包括使用LAION Aesthetics Predictor进行美学评分,利用CLIP模型评估时间一致性,以及通过UniMatch评估运动差异,确保了视频内容的流畅性和稳定性。最终,通过DOVER模型进行清晰度评估,筛选出具有清晰纹理的高质量视频片段,并使用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。

在这里插入图片描述

数据筛选流程:数据集的策划采用了自动化的多步骤处理流程,包括:

  • 使用LAION Aesthetics Predictor进行美学评分,筛选出具有高美学得分的视频。
  • 利用CLIP模型评估视频的时间一致性,筛选出视觉质量高且时间上连续的视频片段。
  • 通过UniMatch评估运动差异,选择运动平滑的视频片段。
  • 使用DOVER模型进行清晰度评估,保留纹理清晰、质量高的片段。
  • 采用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。

高清视频子集:从OpenVid-1M中精选出433K个1080p高清视频,构成了OpenVidHD-0.4M子集,专门用于推动高清视频生成技术的研究。

五、Cogvideox训练数据准备

caption数据准备pipeline如下:
(0)基于一些开源数据:Panda70M (Chen et al., 2024b)、COCO Caption (Lin et al., 2014) 和 WebVid Bain et al. (2021)
(1)取出视频的每帧,送给cogvlm进行图生文逐帧理解,然后对每帧内容进行汇总总结;这里用GPT4造了些微调数据,基于llama微调文本摘要模型
(2)第二种方法是直接使用cogvlm2-video视频理解模型

在这里插入图片描述

六、综述:From Sora What We Can See: A Survey of Text-to-Video Generation

原文链接:https://arxiv.org/pdf/2405.10674
研究列表:https://github.com/soraw-ai/Awesome-Text-to-Video-Generation?tab=readme-ov-file

回顾了T2V数据集,并主要根据收集的领域将其分类为六个流派:面部、开放、电影、动作、指导和烹饪。核心就是下面这个图:

在这里插入图片描述
评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)。

七、ShareGPT4Video数据集

链接:https://hf-mirror.com/datasets/ShareGPT4Video/ShareGPT4Video
单位:中科大、上海AI实验室
描述文本的字数主要在200-400之间,提供了丰富的时间信息,可以很好地完成视频理解和生成任务。
论文地址:https://arxiv.org/abs/2406.04325v1
项目主页:https://ShareGPT4Video.github.io/
GitHub:https://github.com/ShareGPT4Omni/ShareGPT4Video

数据集类型: ShareGPT4Video Captions 4.8M 是一组由 GPT4-Vision 提供支持的视频多模式字幕数据。

它的构建是为了增强大型视频语言模型 (LVLM) 和文本到视频模型 (T2VM) 中的模态对齐和细粒度视觉概念感知。这一进步旨在使 LVLM 和 T2VM 达到 GPT4V 和 Sora 的功能。

  • sharegpt4video_40k.jsonl 由 GPT4-Vision (ShareGPT4Video) 生成。
  • share-captioner-video_mixkit-pexels-pixabay_4814k_0417.json 由我们的 ShareCaptioner-Video 生成,该 ShareCaptioner-Video 经过 GPT4-Vision 生成的视频字幕对训练。
  • sharegpt4video_mix181k_vqa-153k_share-cap-28k.json 是从 sharegpt4video_instruct_gpt4-vision_cap40k.json 中精选出来的用于 LVLM 的监督微调阶段。
  • llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json 将 VideoChatGPT 中的 28K 详细字幕相关数据替换为 ShareGPT4Video 中的 28K 高质量字幕。此文件用于验证 VideoLLaVA 和 LLaMA-VID 模型下高质量字幕的有效性。

用现有的闭源模型生成高质量视频描述的挑战有三个方面——

  • 一是清晰地理解帧间的时序变化;
  • 二是详细准确地描述帧内内容;
  • 另外,对任意长度视频的可扩展性也是一大难点。

为此,研究者们精心设计了一种描述策略。这种策略叫做差分滑窗视频描述(Differential Sliding-Window Captioning, DiffSW),可以稳定且高效地为任意分辨率、宽高比和长度的视频生成高质量描述。具体而言,研究者们每次送入GPT-4V的输入是当前关键帧、上一关键帧,以及上一关键帧对应的差分描述。
这样做的目的是让GPT-4V通过观察两帧之间的时间与空间变化,总结出当前帧相对于上一帧的重要空间、时序变化,也就是当前帧与上一帧对应的差分描述。最终,所有差分描述会连同时间戳一起送入GPT4中,从而总结出最终的关于整个视频的高质量字幕。

Reference

复旦最新VidGen-1M: 文生视频还得靠好数据
7000万高质量视频文本对!文生视频最大的开源数据集Panda-70M来了!
Panda-70M数据集:用多模态教师模型为7000万视频自动生成字幕
OpenVid-1M:专为文本到视频生成(T2V)的大规模高质量数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/414548.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matlab 将数组从左向右翻转

目录 一、概述1、算法概述2、主要函数二、代码示例1、翻转行向量2、翻转字符元胞数组3、翻转多维数组三、参考链接本文由CSDN点云侠翻译,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的抄袭狗。 一、概述 1、算法概述 将数组从左向右翻转 2、主要…

C++实现彩虹猫时空隧道特效(无害)

#include <Windows.h> // 如果不是在Visual Studio环境下运行的话W最好改小写。 using namespace std;int main() {for (int i 1; i < 10; i) {HDC hdc GetWindowDC(GetDesktopWindow());RECT rect;GetWindowRect(GetDesktopWindow(), &rect);StretchBlt(hdc, r…

[工具使用]ellisys

工具打开&#xff1a; 1.连接ellisys电源&#xff0c;ellisys Computer接口USB连接电脑&#xff0c;Logic接口与板子出信号的GPIO口连接 工具配置 1.点击"Configure" 2.在打开的Recording options中选择Wireless选项卡 2.选择Wired选项卡​ i.勾选Logic transit…

中秋佳节,悦动之选,精选热门骨传导耳机深度推荐

在这个金秋送爽、月圆人团圆的中秋佳节&#xff0c;我们不仅仅沉浸在月饼的香甜与家人的温馨之中&#xff0c;更渴望一份能够连接心与自然的独特礼物&#xff0c;让这份团聚的时光更加丰富多彩。在这个充满诗意的季节里&#xff0c;我满怀欣喜地向您推荐一款集科技、健康与时尚…

Maven的相关配置和使用

Maven的配置&#xff1a; Maven的配置和Java差不多&#xff0c;从镜像站下载相关的Maven版本压缩包&#xff0c;然后解压到自己的D盘&#xff0c;在进行系统变量的配置&#xff0c;新建变量Maven_HOME&#xff0c;然后值设置为Maven的地址&#xff0c;一定是点开文件后就能出现…

页面间对象传递的几种方法

页面间对象传递的几种方法 1. 使用request对象传递2. 使用session对象传递3. 使用application对象传递4. 使用cookie传递 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在Web开发中&#xff0c;页面间的数据传递是一个常见的需求。本文将…

java 实现文本转音频

文章目录 一、前言二、实现流程2.1 下载jacob-1.18.zip2.2 拷贝jacob-1.18-x64.dll2.3 pom 添加依赖2.4 代码实现 一、前言 本文基于Windows自带的SAPI.SpVoice&#xff0c;通过java代码实现文本转语音的功能。 二、实现流程 2.1 下载jacob-1.18.zip 链接&#xff1a;https…

号称史上最强AI的Google Gemini,通过大语言模型的帮助如何实现智能交互?

导读&#xff1a; 本文旨在探索一条创新的路径&#xff0c;即通过利用Google的Gemini Flash而非广为人知的LangChain&#xff0c;来实现与CSV文件的智能交互。本文将构建一个简单的CSV解释器&#xff0c;利用大型语言模型&#xff08;LLM&#xff09;来生成代码并解析数据&…

2024年互联网公司时薪排行榜大曝光!看完我酸了,第一竟是他…

大家好呀&#xff0c;我是胡广&#xff0c;今天看到千峰教育公众号分享一个对于选择公司非常有用的参考&#xff1a;“互联网时薪”。特地分享给各位看看 很多小伙伴在选择一家公司的时候更关注总收入package (除了基本的月薪&#xff0c;加上其他的所有的收入&#xff0c;包括…

惊喜!万博智云亮相2024数博会和第三届828 B2B企业节

摘要 万博智云作为2024 828 B2B企业节铂金合作伙伴&#xff0c;在2024中国国际大数据产业博览会的828 B2B企业节开幕式上亮相&#xff0c;并参加了本次828企业节的一系列活动&#xff0c;包括在华为展台现场开展的“‘云上大咖团’直面数博会现场”的直播上发表了主题分享。 8…

华为OD机试 - 最大报酬 - 0/1 背包问题,动态规划(Java 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;E卷D卷A卷B卷C卷&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加…

借老系统重构机会我写了个groovy规则引擎

公司老系统的重构计划早就有了&#xff0c;为了对Java硬编码的各种校验规则进行重构&#xff0c;特地参考了相关技术&#xff0c;最终选择了groovy进行了系统的学习&#xff0c;并编写了一个即插即用的轻量级规则引擎。 文章目录 项目背景技术选型groovy的性能groovy脚本执行线…

数据结构---双向链表---循环链表---栈

目录 一、双向链表 1.1.创建双向链表 1.2.头插法 1.3.尾插法 1.4.查询节点 1.5.修改节点 1.6.删除节点 1.7.打印节点 1.8.销毁链表 二、循环链表 2.1.单循环链表 2.2.双循环链表 三、栈 3.1.顺序栈 1.创建栈 2.判断栈是否满 3.判断栈是否为空 4.进栈 5.出栈…

安全升级:Docker部署Redis,启用密码验证

1.在自己选定的目录中创建文件夹 在redis文件夹里面创建&#xff1a;data文件夹和conf文件夹&#xff08;文件夹名称随意&#xff09; 2.在conf文件夹中创建redis.conf文件&#xff1a; vim redis.conf 2.1.redis.conf里面编写内容可以根据官网&#xff08;Index of /releases…

CNN中的注意力机制综合指南:从理论到Pytorch代码实现

注意力机制已经成为深度学习模型&#xff0c;尤其是卷积神经网络&#xff08;CNN&#xff09;中不可或缺的组成部分。通过使模型能够选择性地关注输入数据中最相关的部分&#xff0c;注意力机制显著提升了CNN在图像分类、目标检测和语义分割等复杂任务中的性能。本文将全面介绍…

uniapp video标签无法播放视频

当video标签路径含有中文以及特殊字符视频就会无法播放 解决方法使用encodeURIComponent对路径进行加密处理 videoSrc data.coursewareFile? ${appConfig.apiUrl encodeURIComponent(data.coursewareFile)}: "";最后效果

(go)线性表的顺序存储

闲来无事&#xff0c;更新一下&#xff0c;线性表的顺序存储&#xff0c;go语言版本&#xff0c;效果都已经测试过&#xff0c;下面给出各部分细节 文章目录 1、生成一个线性表2、查找3、插入4、求长度5、改值6、删除7、遍历8、测试程序9、完整代码总结 package mainimport &q…

HashMap相关面试题(哈希表、HashMap的实现原理、HashMap的put方法的具体流程、HashMap的扩容机制、HashMap的寻址算法)

文章目录 1. 散列表&#xff08;哈希表&#xff09;1.1 散列表的概念1.2 散列函数1.3 散列冲突1.4 散列冲突-链表法&#xff08;拉链法&#xff09;1.4.1 插入操作1.4.2 查找和删除操作 2. HashMap的实现原理3. HashMap 的 put 方法的具体流程4. HashMap 的扩容机制5. HashMap …

Prometheus监控Kubernetes ETCD

文章目录 一、kubeadm方式部署etcd1.修改etcd指标接口监听地址2.prometheus中添加etcd的服务发现配置3.创建etcd的service4.grafana添加etcd监控模版 二、二进制方式部署k8s etcd1.将etcd服务代理到k8s集群2.创建etcd证书的secrets3.prometheus挂载etcd证书的secrets4.promethe…

【c++】常量周边:常量概念及定义

目录 前言 1.常量是什么&#xff1f; 2.常量的的类型 本质区别&#xff1a; 1&#xff09;文字常量&#xff08;无法取地址&#xff09; &#x1f337;什么是字面值&#xff1f;&#xff1f; 字面值后缀 &#x1f337;文字&#xff08;字面&#xff09;常量的基本类型 …