【LLM之Data】SKYSCRIPT-100M论文阅读笔记

研究背景

随着短视频和短剧的兴起,自动化的剧本生成和短剧制作在影视行业中的需求逐渐增加。传统的剧本生成过程需要大量的人工干预,限制了其在规模和效率上的扩展性。当前的大型语言模型(LLM)在剧本生成方面展现出一定潜力,但依然存在着生成内容的多样性、连贯性以及与实际影视制作需求对接不足的问题。因此,创建一个涵盖从剧本到拍摄脚本的大规模数据集成为了应对这一挑战的关键。

研究目标

本研究的目标是构建一个大规模的剧本-拍摄脚本配对数据集(SkyScript-100M),涵盖了10亿对剧本与拍摄脚本。这一数据集旨在支持短剧生成模型的开发,通过丰富的多模态信息(如场景描述、人物关系、镜头信息等)提升模型在生成短剧时的表现。本研究不仅探索了如何自动化生成高质量的短剧剧本,还提出了一种新的短剧生成范式。

相关工作

现有的多模态数据集(如MSR-VTT、HowTo100M、YouCook2等)主要通过网络爬虫获取视频数据并进行标注。这些数据集广泛应用于视频描述、视频-文本匹配等任务,但在短剧生成领域缺乏足够的覆盖和针对性。SkyScript-100M在这些现有数据集的基础上进行了优化,特别是在短剧这一特定领域中,提供了更大规模且更细致的配对数据。
而早期的剧本生成研究主要集中在基于Writing Prompts(WP)和ROCStories的开放域故事生成。然而,这些方法生成的内容常常缺乏逻辑性和连贯性。随着大型语言模型的发展,近年来的研究更多关注如何生成连贯且长篇的剧本,如Dramatron等框架。然而,短剧生成需要更多的多模态信息(如场景布局、人物关系等),这是现有方法的薄弱环节。
在这里插入图片描述

数据集的构建

多模态大语言模型预提取关键信息

为了减少人工标注的成本,研究团队首先使用多模态大语言模型(如InternVL2-Llama3-76B)对短剧视频进行预处理,提取出关键帧和场景信息。这包括人物、物体描述、镜头类型等信息,为后续数据标注提供了基础。
在这里插入图片描述
提取模板:
在这里插入图片描述
在这里,描述角色的‘Continuous Emotion’用于表达角色当前的情感状态。它包括三个维度:愉悦度(Valence,V),表示情感的积极或愉快程度,从负面到正面,用于描述幸福感的水平;激活度(Arousal,A),表示角色的激动程度,从平静或非活跃到激动或准备行动,用于描述兴奋度的水平;以及控制感(Dominance,D),表示角色在情境中的掌控程度,从顺从或无控制到主导或掌控,用于描述权威感或存在感。此外,还使用了气质和面部吸引力指标,前面提到的角色配对兼容性计算(‘shipping’)中涉及到这些指标:
在这里插入图片描述

关键信息清洗和隐私保护

在预提取信息后,进行了数据清洗与格式化,将信息转换为标准JSON格式。为确保数据的隐私安全,处理过程中对人物面部信息进行了像素化处理。此外,格式化后的数据还经过进一步的校准,以提高标注的准确性。
在这里插入图片描述
在这里插入图片描述

开放词汇检测

研究团队使用开放词汇检测模型(如Grounding-DINO)校准图像中的人物和物体位置,确保标注信息与实际内容的一致性。这一步骤帮助提升了多模态数据的质量和完整性。

主角信息后处理

使用Deepface和AlphaPose等工具进一步完善了角色的外观、情绪和动作标注,并通过2D-3D位置转换确保角色在不同场景中的一致性和连贯性。

数据校准

为确保数据的高质量,研究团队建立了一个12人的校准团队,对标注结果进行人工复核与调整,最终达到了超过90%的标注准确率,满足短剧生产的需求。

新的短剧生产范式

传统流程依赖人工调整,而新范式通过在拍摄脚本中嵌入更多关于短剧世界的信息,使生成模型能更好地保持角色、场景和情感的连贯性。
研究团队将这一新范式应用到大规模短剧生成模型SkyReels中,并在多个维度上进行了实验评估,包括主题表达、人物发展、对话质量、情感影响、节奏感、冲突解决、情节连贯性和叙事结构。实验结果显示,基于新范式生成的短剧在保持画面风格一致性、角色稳定性以及剧情连贯性上表现优异。

短剧领域的广泛影响

视频高光检测

短剧制作过程中,如何自动识别和提取剧情中的亮点(如情感高潮、剧情转折等)是一个关键问题。现有的亮点检测技术通常依赖于用户交互数据(如点赞、弹幕等),但在短剧中,这些数据往往不充分或缺乏细粒度标注。为此,本文引入了基于Plutchik情感理论的连续亮点评分模型,通过分析角色的情感维度(Valence、Arousal、Dominance),为短剧中的关键场景打分,实现了更加精确和连续的亮点检测。这一方法支持基于回归模型的亮点检测,适用于大规模短剧内容的分析与推广。
在这里插入图片描述

世界布局理解

短剧生成中的另一个挑战是对场景中世界布局的理解。传统生成模型在处理多人物、多物体的复杂场景时,容易出现角色或物体位置异常、遮挡等问题。为解决这一问题,研究团队通过2D-3D位置转换模型,推导出场景中角色和物体的3D位置,并应用多视图几何理论实现了3D-2D的映射。这一方法通过一致性约束确保了场景生成过程中物体和角色位置的合理性,显著提高了生成视频的稳定性和视觉效果。
在这里插入图片描述

隐含人物关系挖掘

传统剧本中,人物关系通常以固定的显式关系(如三元组形式)保存,但现实生活中,人物关系随着情感和情节发展会不断变化。本文提出了一种时间变化的隐含人物关系挖掘方法,利用多模态模型从图像和文本中提取隐含关系。这一方法结合角色的情感状态、位置和行为,通过时间序列分析构建更加复杂的动态人物关系网络。这种关系挖掘有助于生成更复杂和富有层次感的短剧情节,使剧本能够更好地反映现实中的复杂社交关系。
在这里插入图片描述

参考资料

  • 论文
  • 代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/410559.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

K8S的持久化存储

文章目录 一、持久化存储emptyDir实际操作 hostPath建立过程 NFS存储NFS 存储的优点NFS 存储的缺点具体操作 pv和pvcPersistent Volume (PV)使用场景 Persistent Volume Claim (PVC)使用场景 使用 PV 和 PVC 的场景实际操作 StorageClassStorageClass 概述应用场景实际应用 一、…

CLIP微调方法总结

文章目录 前言1️⃣ Tip-Adapter论文和源码原理介绍 2️⃣Cross-modal Adaptation(跨模态适应)论文和源码原理介绍 3️⃣ FD-Align(Feature Discrimination Alignment,特征判别对齐)论文和源码原理介绍 总结 前言 本文…

USB3.2 摘录(11)

系列文章目录 USB3.2 摘录(一) USB3.2 摘录(二) USB3.2 摘录(三) USB3.2 摘录(四) USB3.2 摘录(五) USB3.2 摘录(六) USB3.2 摘录&…

IO进程day01(标准IO、缓存区)

目录 【1】标准IO 1》概念: 2》特点 【2】缓存区 1》全缓存:和文件相关 2》行缓存:和终端有关 3》不缓存:也就是没有缓存区,标准错误。 【1】标准IO 1》概念: 标准IO: 是在C库中定义的一…

C++ | Leetcode C++题解之第355题设计推特

题目&#xff1a; 题解&#xff1a; class Twitter {struct Node {// 哈希表存储关注人的 Idunordered_set<int> followee;// 用链表存储 tweetIdlist<int> tweet;};// getNewsFeed 检索的推文的上限以及 tweetId 的时间戳int recentMax, time;// tweetId 对应发送…

香港站群服务器优势

香港站群服务器因其独特的地理位置和网络连接优势&#xff0c;在SEO优化、网站群管理和网络营销等方面受到广泛关注。其优势主要体现在以下几个方面&#xff0c;rak小编为您整理发布。 地理位置优越 连接亚洲国际市场&#xff1a;香港作为亚太地区的重要经济中心&#xff0c;具…

代码随想录 刷题记录-18 动态规划(2)01背包问题、习题

一、01背包理论基础 例题&#xff1a;46. 携带研究材料 01 背包 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i]&#xff0c;得到的价值是value[i] 。每件物品只能用一次&#xff0c;求解将哪些物品装入背包里物品价值总和最大。 暴力解法&#xff1a…

SpringBoot实现Word转PDF/TXT

背景 研发工作中难免会遇到一些奇奇怪怪的需求&#xff0c;就比如最近&#xff0c;客户提了个新需求&#xff1a;上传一个WORD文档&#xff0c;要求通过系统把该文档转换成PDF和TXT。客户的需求是没得商量的&#xff0c;必须实现&#xff01;承载着客户的期望&#xff0c;我开始…

【计算机网络】应用层HTTP协议

我们已经实现过应用层协议&#xff0c;但也要看一看成熟的应用层协议 目录 1 HTTP协议11 URL12 urlencode 和 urldecode13 HTTP 协议请求与响应格式请求格式响应格式 14 界面的基本处理显示基本主页显示图片页面跳转 15 常见header16 状态码161 404举例162 关于3开头的状态码 1…

yd云手机登录算法分析

yd云手机登录算法分析 yd云手机登录算法分析第一步&#xff1a;抓包-登录第二步&#xff1a;定位加密入口第三步&#xff1a;分析加密算法第四步&#xff1a;算法实现 yd云手机登录算法分析 在这篇文章中&#xff0c;我们将详细解析yd云手机的登录算法&#xff0c;涵盖从抓包到…

96.SAP MII功能详解(09)Workbench-Transaction Debugging

目录 1.About Transaction Debugging Use Features Activities 2.How to Debug Start Debugging Create Breakpoint Watch Variables Debugging logs 1.About Transaction Debugging Use You use this function to monitor and manipulate a transaction while it …

微深节能 堆取料机回转俯仰角度检测系统 格雷母线定位系统

微深节能在堆取料机回转俯仰角度检测系统中引入的格雷母线定位系统&#xff0c;是一项重要的技术创新&#xff0c;显著提升了堆取料作业的自动化水平和精确性。以下是对该系统的详细介绍&#xff1a; 一、系统概述 格雷母线定位系统作为高精度、无磨损的非接触式位置检测系统&a…

07 - procfs

---- 整理自 王利涛老师 课程 实验环境&#xff1a;宅学部落 www.zhaixue.cc 文章目录 1. procfs 快速入门2. procfs 文件创建的回调机制3. 在 proc 目录下创建子目录4. 通过 proc 接口修改内核变量5. 通过 proc 接口访问数组6. 序列文件&#xff1a;seq_file 编程接口7. seq_f…

OpenCV绘图函数(1)绘制带箭头的直线函数arrowedLine()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 绘制一个从第一个点指向第二个点的箭头线段。 cv::arrowedLine 函数在图像中绘制一个从 pt1 到 pt2 的箭头。另见 line 函数。 函数原型 void c…

基于单片机的无线空气质量检测系统设计

本设计以STC89C52单片机为核心&#xff0c;其中包含了温湿度检测模块、光照检测模块、PM2.5检测模块、报警电路、LCD显示屏显示电路、按键输入模块和无线传输模块来完成工作。首先&#xff0c;系统可以通过按键输入模块设置当前的时间和报警值&#xff1b;使用检测模块检测当前…

在Ubuntu 部署 Grafana且监控MySQL数据

一、安装 打开终端按顺序执行以下命令 1.添加 Grafana 的 APT 仓库&#xff1a; sudo apt-get install -y software-properties-common sudo add-apt-repository "deb https://packages.grafana.com/oss/deb stable main" 2.导入Grafana GPG key&#xff1a; wge…

吴光明铸就鱼跃辉煌,科技创新开辟医疗新篇章

在鱼跃集团的发展历程中&#xff0c;创始人吴光明为其树立了最鲜明的品牌标签——创新。吴光明始终坚信&#xff0c;“研发实力代表一个医疗器械企业的核心竞争力”。他很早就认识到&#xff0c;只有从用户需求出发进行创新&#xff0c;才能提升医疗产品的使用体验&#xff0c;…

软件设计原则之接口隔离原则

接口隔离原则&#xff08;Interface Segregation Principle, ISP&#xff09;是面向对象设计中的一个重要原则&#xff0c;它属于SOLID原则之一。这个原则强调客户端&#xff08;即接口的调用者&#xff09;不应该被迫依赖于它们不使用的方法。换句话说&#xff0c;一个类对另一…

SOA通信中间件介绍(一)

一、通信中间件 在软件定义汽车中&#xff0c;应用程序之间的跨进程或跨核通信是一个需要解决的问题。模块化架构为开发人员提供了便利&#xff0c;但也引入了对通信中间件的需求。 在没有使用通信中间件的情况下&#xff0c;开发人员需要自己定义数据的格式、发送方和接收方…

趣味呈现高效农业管理:智慧农场可视化

运用图扑自主研发的 HT 产品&#xff0c;全程零代码搭建 3D 轻量化 Low Poly 风格的智慧农场可视化&#xff0c;通过生动有趣的图形展示农场运作细节&#xff0c;使农业管理更直观易懂&#xff0c;提升管理效率和用户体验。