note
- 总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox训练数据准备过程、ShareGPT4Video数据集等
- 在一篇综述中还总结了评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)
- 各家提出的开源数据后,为了证明自己有效,会在上面这些不同指标评测
文章目录
- note
- 一、VidGen数据集
- 二、Panda-70m数据集
- 三、Openvid数据集
- 四、OpenVid-1M数据集
- 五、Cogvideox训练数据准备
- 六、综述:From Sora What We Can See: A Survey of Text-to-Video Generation
- 七、ShareGPT4Video数据集
- Reference
一、VidGen数据集
(1)VidGen数据集:vidgen-1M利用了来自HD-VILA数据集的380万高分辨率、长时段视频。随后,这些视频被分割成1.08亿个视频片段。接下来,本文对这些视频片段进行了标注和采样。然后,使用VILA模型进行视频字幕生成
论文链接:https://arxiv.org/pdf/2408.02629
项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/
git链接:https://github.com/SAIS-FUXI/VidGen
二、Panda-70m数据集
(2)Panda-70m数据集:这里是从公开可用的高清视频语料库HD-VILA-100M中策划了380万个高分辨率视频。然后,我们将它们分割成语义一致的视频片段,并应用多个跨模态教师模型为每个视频获取字幕。panda-70m数据集价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。
论文名:Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
论文链接:https://arxiv.org/pdf/2402.19479.pdf
三、Openvid数据集
(3)Openvid数据集:通过广泛的实验和消融研究,验证了OpenVid-1M数据集相较于先前数据集的优越性以及MVDiT模型的有效性。在公共基准测试中,MVDiT在多个评估指标上均取得了最佳性能,包括视频质量评估(VQAA和VQAT)、文本与视频对齐(Blip_bleu和SD_score)以及视频时间一致性(Clip_temp_score和Warping_error)。这些结果证明了OpenVid-1M数据集在生成高质量视频方面的显著贡献。
http://arxiv.org/abs/2407.02371v1
https://nju-pcalab.github.io/projects/openvid
四、OpenVid-1M数据集
(4)OpenVid-1M数据集:
介绍:https://nju-pcalab.github.io/projects/openvid/
论文:https://export.arxiv.org/abs/2407.02371
- OpenVid-1M的多样性也体现在其包含的多种场景,如人像、风景、城市、变形内容和动物等。数据集的视频分辨率至少为512×512,远高于许多现有的视频数据集,如WebVid-10M和Panda-70M。
- OpenVid-1M的视频片段经过了自动化流程的筛选,包括使用LAION Aesthetics Predictor进行美学评分,利用CLIP模型评估时间一致性,以及通过UniMatch评估运动差异,确保了视频内容的流畅性和稳定性。最终,通过DOVER模型进行清晰度评估,筛选出具有清晰纹理的高质量视频片段,并使用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。
数据筛选流程:数据集的策划采用了自动化的多步骤处理流程,包括:
- 使用LAION Aesthetics Predictor进行美学评分,筛选出具有高美学得分的视频。
- 利用CLIP模型评估视频的时间一致性,筛选出视觉质量高且时间上连续的视频片段。
- 通过UniMatch评估运动差异,选择运动平滑的视频片段。
- 使用DOVER模型进行清晰度评估,保留纹理清晰、质量高的片段。
- 采用Cascaded Cut Detector进行片段提取,确保每个片段只包含单一场景。
高清视频子集:从OpenVid-1M中精选出433K个1080p高清视频,构成了OpenVidHD-0.4M子集,专门用于推动高清视频生成技术的研究。
五、Cogvideox训练数据准备
caption数据准备pipeline如下:
(0)基于一些开源数据:Panda70M (Chen et al., 2024b)、COCO Caption (Lin et al., 2014) 和 WebVid Bain et al. (2021)
(1)取出视频的每帧,送给cogvlm进行图生文逐帧理解,然后对每帧内容进行汇总总结;这里用GPT4造了些微调数据,基于llama微调文本摘要模型
(2)第二种方法是直接使用cogvlm2-video视频理解模型
六、综述:From Sora What We Can See: A Survey of Text-to-Video Generation
原文链接:https://arxiv.org/pdf/2405.10674
研究列表:https://github.com/soraw-ai/Awesome-Text-to-Video-Generation?tab=readme-ov-file
回顾了T2V数据集,并主要根据收集的领域将其分类为六个流派:面部、开放、电影、动作、指导和烹饪。核心就是下面这个图:
评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)。
七、ShareGPT4Video数据集
链接:https://hf-mirror.com/datasets/ShareGPT4Video/ShareGPT4Video
单位:中科大、上海AI实验室
描述文本的字数主要在200-400之间,提供了丰富的时间信息,可以很好地完成视频理解和生成任务。
论文地址:https://arxiv.org/abs/2406.04325v1
项目主页:https://ShareGPT4Video.github.io/
GitHub:https://github.com/ShareGPT4Omni/ShareGPT4Video
数据集类型: ShareGPT4Video Captions 4.8M 是一组由 GPT4-Vision 提供支持的视频多模式字幕数据。
它的构建是为了增强大型视频语言模型 (LVLM) 和文本到视频模型 (T2VM) 中的模态对齐和细粒度视觉概念感知。这一进步旨在使 LVLM 和 T2VM 达到 GPT4V 和 Sora 的功能。
- sharegpt4video_40k.jsonl 由 GPT4-Vision (ShareGPT4Video) 生成。
- share-captioner-video_mixkit-pexels-pixabay_4814k_0417.json 由我们的 ShareCaptioner-Video 生成,该 ShareCaptioner-Video 经过 GPT4-Vision 生成的视频字幕对训练。
- sharegpt4video_mix181k_vqa-153k_share-cap-28k.json 是从 sharegpt4video_instruct_gpt4-vision_cap40k.json 中精选出来的用于 LVLM 的监督微调阶段。
- llava_v1_5_mix665k_with_video_chatgpt72k_share4video28k.json 将 VideoChatGPT 中的 28K 详细字幕相关数据替换为 ShareGPT4Video 中的 28K 高质量字幕。此文件用于验证 VideoLLaVA 和 LLaMA-VID 模型下高质量字幕的有效性。
用现有的闭源模型生成高质量视频描述的挑战有三个方面——
- 一是清晰地理解帧间的时序变化;
- 二是详细准确地描述帧内内容;
- 另外,对任意长度视频的可扩展性也是一大难点。
为此,研究者们精心设计了一种描述策略。这种策略叫做差分滑窗视频描述(Differential Sliding-Window Captioning, DiffSW),可以稳定且高效地为任意分辨率、宽高比和长度的视频生成高质量描述。具体而言,研究者们每次送入GPT-4V的输入是当前关键帧、上一关键帧,以及上一关键帧对应的差分描述。
这样做的目的是让GPT-4V通过观察两帧之间的时间与空间变化,总结出当前帧相对于上一帧的重要空间、时序变化,也就是当前帧与上一帧对应的差分描述。最终,所有差分描述会连同时间戳一起送入GPT4中,从而总结出最终的关于整个视频的高质量字幕。
Reference
复旦最新VidGen-1M: 文生视频还得靠好数据
7000万高质量视频文本对!文生视频最大的开源数据集Panda-70M来了!
Panda-70M数据集:用多模态教师模型为7000万视频自动生成字幕
OpenVid-1M:专为文本到视频生成(T2V)的大规模高质量数据集