Pseudo Multi-Camera Editing 数据集:通过常规视频生成的伪标记多摄像机推荐数据集,显著提升模型在未知领域的准确性。

2024-10-19,由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法,通过将常规视频转换成伪标记的多摄像机视角推荐数据集,有效解决了在未知领域中模型泛化能力差的问题。数据集的创建,为电影、电视和其他媒体制作中的摄像机选择提供了有力的辅助,显著提高了模型在目标领域的准确性,实现了68%的相对改进。

一、研究背景:

在电影、电视和其他媒体制作中,多摄像机系统的作用不可或缺。选择合适的摄像机视角对于提高制作质量和满足观众偏好至关重要。基于学习的视角推荐框架可以帮助专业人士做出决策,但这些框架在训练领域之外往往表现不佳,而标记好的多摄像机视角推荐数据集的稀缺加剧了这一问题。

目前遇到困难和挑战:

1、多摄像机视角推荐模型在未见过的领域中泛化能力差,导致准确率显著下降。

2、现有的多摄像机编辑数据集(如TVMCE)仅限于特定场景和类型,无法覆盖更广泛的领域。

3、收集相同领域的数据需要多个同步摄像机捕捉同一事件,且需要专业的电影制作专家进行标记,这在实际操作中非常困难。

数据集地址:多摄像头视图推荐数据集|模型泛化数据集

二、让我们一起来看一下Pseudo Multi-Camera Editing数据集:

Pseudo Multi-Camera Editing Dataset:通过将常规视频转换为伪标记的多摄像机视角推荐数据集,以解决标记数据稀缺的问题。研究团队利用视频编辑中的镜头转换来模拟摄像机切换,通过聚类镜头来模拟不同的摄像机,并选择每个“伪”摄像机中最相似的镜头作为候选镜头,与真实镜头一起生成伪标记数据。

数据集构建:

包括镜头检测、聚类生成伪摄像机标签、以及从每个伪摄像机中选择候选镜头。使用ResNet50预训练模型提取图像特征,并计算镜头间的视觉相似度。

数据集特点:

1、利用常规视频生成伪标记数据,无需专业标记。

2、通过聚类模拟多摄像机系统,提高模型在未知领域的泛化能力。

3、实现了68%的相对准确率提升。

研究者可以使用该数据集训练和测试多摄像机视角推荐模型。通过对比真实镜头和候选镜头的特征,模型可以学习在不同场景下选择合适的摄像机视角。

基准测试 :

在TVMCE数据集上,与现有的Temporal and Contextual Transformer (TC Transformer)模型相比,提出的框架在域内准确率上提高了11%。在未知领域(如情景喜剧场景)中,使用伪数据集训练的模型表现出显著更好的泛化能力。

(a) 在特定域的标记多相机编辑数据集上训练的模型对前所未见的域的泛化效果不佳,准确性显着下降。(b) 我们提出的方法利用常规视频为目标域生成伪标记数据集并提高模型的准确性

模型架构。(a) 过去的编码器将所有过去的特征编码为单个特征向量。然后,应用对比损失以最大化过去特征和真实特征之间的余弦相似性。(b) 特征提取器通过向图像特征添加位置嵌入来对帧进行编码。

伪数据集生成管道。(a) 在输入视频中检测到镜头,以及 (b) 分组。同一群集中的快照被视为来自同一“伪”摄像机。(c) 选择镜头作为锚点。后续镜头是地面实况,而其他每个 N-1 伪相机中最相似的镜头被选为候选镜头。

与基线的比较。多摄像头视图推荐模型对前所未见的领域的泛化效果不佳。ID:域内,OOD:域外。

视频场景的影响。在与测试集不同的场景中训练的模型准确率较低。绿色和红色表示相同和不同。

视频场景和类型(情景喜剧)的影响。更显著的域差异(视频场景 + 视频类型)会严重影响准确性。来自广泛视频的伪数据集可以覆盖目标视频场景和类型,从而获得更高的准确性。绿色、橙色和红色表示相同、有遮盖和不同。

三、让我们一起展望Pseudo Multi-Camera Editing数据集应用

比如,我是一名电影剪辑师。

我日常的工作:坐在剪辑室里,我得盯着屏幕,看那些复杂的实验室场景,或者是太空船的驾驶舱。每个摄像机都捕捉了不同的角度,有的可能是全景,有的可能是特写,还有的可能聚焦在某个重要的仪器上。我得决定什么时候切换到哪个镜头,才能让观众感受到那种紧张刺激的气氛,同时又不能错过任何重要的细节。这就像是在做一道复杂的数学题,你得把所有的元素都考虑到,还得保证最后的结果让观众满意。

现在有了这个Pseudo Multi-Camera Editing Dataset数据集训练的系统,我的眼睛得到更好的休息。

比如,我在剪辑一个太空船即将进入黑洞的紧张场景。这个系统就能帮我分析出,哪个镜头最能展现太空船的动态,哪个镜头最能捕捉到宇航员脸上的紧张表情。它会告诉我,现在可以切换到一个全景镜头,让观众感受到太空船在黑洞面前的渺小;然后,再切换到宇航员的特写,因为他的眼神中透露出坚定和决心。

这个系统就像是我的智能剪辑助手,它通过学习大量的视频资料,已经知道在这种科技电影中,哪些镜头最能打动人心。比如,在剪辑一个科学家在实验室里做实验的场景时,它会建议我切换到一个特写镜头,聚焦在科学家手中的那个即将引爆的装置上,因为那个装置的每一个细节都可能关系到整个实验的成败。

而且,这个系统还能帮我处理那些特别复杂的特效场景。比如,太空船在太空中爆炸的场景,它能够分析出哪个镜头最能捕捉到爆炸的震撼效果,哪个切换最能带动观众的情绪。这样,我就可以把更多的精力放在故事的叙述上,而不是纠结于每个镜头的选择。

有了Pseudo Multi-Camera Editing Dataset数据集训练的系统,让我在剪辑科技电影时,能够更加专注于创意和故事的讲述,而不用担心错过那些重要的细节。它帮我捕捉到每一个精彩的瞬间,让我的工作变得更加高效和有趣。

来吧,让我们走进多摄像头视图推荐数据集|模型泛化数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/453845.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文学习与撰写】,论文word文档中出现乱码的情况,文档中显示的乱码,都是英文字母之类的,但打印预览是正常的

目录 1、问题 2、解决方法 1、问题 写论文的时候,有时会出现乱码的情况, 如下图,这种情况, 可是 在打印预览的时候,就显示的正常 如下图, 2、解决方法 既然是文档正文显示错误,显示乱码&…

typeAliases以及mappers

typeAliases 我们来观察一下CarMapper.xml中的配置信息&#xff1a; <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE mapperPUBLIC "-//mybatis.org//DTD Mapper 3.0//EN""http://mybatis.org/dtd/mybatis-3-mapper.dtd&qu…

Spark数据源的读取与写入、自定义函数

1. 数据源的读取与写入 1.1 数据读取 读文件 read.jsonread.csv csv文件由两个部分组成&#xff1a;头部数据&#xff08;也就是字段数据&#xff09;、行数据。 read.orc 读数据库 read.jdbc(jdbc连接地址,table‘表名’,properties{‘user’用户名,‘password’密码,‘driv…

万能工具箱小程序源码系统 带完整的安装代码包以及搭建部署教程

系统概述 万能工具箱小程序源码系统是一款集多种实用工具于一体的综合性平台。它为用户提供了便捷的操作界面和丰富的功能选项&#xff0c;满足了人们在日常生活和工作中的各种需求。 该系统采用先进的技术架构&#xff0c;具备高度的稳定性和可靠性。无论是在处理大量数据还…

python excel如何转成json,并且如何解决excel转成json时中文汉字乱码的问题

1.解决excel转成json时中文汉字乱码的问题 真的好久没有打开这个博客也好久没有想起来记录一下问题了&#xff0c;今天将表格测试集转成json格式的时候遇到了汉字都变成了乱码的问题&#xff0c;虽然这不是个大问题&#xff0c;但是编码问题挺烦人的&#xff0c;乱码之后像下图…

Flink窗口分配器WindowAssigner

前言 Flink 数据流经过 keyBy 分组后&#xff0c;下一步就是 WindowAssigner。 WindowAssigner 定义了 stream 中的元素如何被分发到各个窗口&#xff0c;元素可以被分发到一个或多个窗口中&#xff0c;Flink 内置了常用的窗口分配器&#xff0c;包括&#xff1a;tumbling wi…

【C++篇】栈的层叠与队列的流动:在 STL 的节奏中聆听算法的静谧旋律

文章目录 C 栈与队列详解&#xff1a;基础与进阶应用前言第一章&#xff1a;栈的介绍与使用1.1 栈的介绍1.2 栈的使用1.2.1 最小栈1.2.2 示例与输出 1.3 栈的模拟实现 第二章&#xff1a;队列的介绍与使用2.1 队列的介绍2.2 队列的使用2.2.1 示例与输出 2.3 队列的模拟实现2.3.…

【linux】线程(二)

10. pthread_t 类型 注意&#xff1a; 每一个线程的库级别的tcb的起始地址&#xff0c;就是线程的 tid每一个线程都有自己独立的栈结构线程和线程之间&#xff0c;也是可以被其他线程看到并访问的&#xff08;比如全局函数&#xff09; 代码 如果想要进程拥有私人的全局变量(即…

拥抱“新市民” ,数字银行的“谋与变”

【潮汐商业评论/原创】 数字银行&#xff0c;既是金融行业的创新物种&#xff0c;其在发展的过程中也彰显着普惠金融的基因。 “我劝你买点银行理财吧&#xff0c;选一家靠谱的银行就是最靠谱的理财方式了&#xff0c;踏踏实实地把钱存银行里面不会有问题的”&#xff0c;周日…

SpringBoot篇(二、制作SpringBoot程序)

目录 一、代码位置 二、四种方式 1. IDEA联网版 2. 官网 3. 阿里云 4. 手动 五、在IDEA中隐藏指定文件/文件夹 六、复制工程-快速操作 七、更改引导类别名 一、代码位置 二、四种方式 1. IDEA联网版 2. 官网 官网制作&#xff1a;Spring Boot 3. 阿里云 阿里云版制…

react18中的计算属性及useMemo的性能优化技巧

react18里面的计算属性和使用useMemo来提升组件性能的方法 计算属性 实现效果 代码实现 函数式组件极简洁的实现&#xff0c;就这样 import { useState } from "react"; function FullName() {const [firstName, setFirstName] useState("");const [la…

AlDente Pro for Mac电脑 充电限制保护工具 安装教程【简单,轻松上手】

Mac分享吧 文章目录 AlDente Pro for Mac 充电限制保护工具 安装完成&#xff0c;软件打开效果一、AlDente Pro for Mac 充电限制保护工具 Mac电脑版——v1.28.41️⃣&#xff1a;下载软件2️⃣&#xff1a;安装软件&#xff0c;将安装包从左侧拖入右侧文件夹中&#xff0c;等…

c++初阶--string类(使用)

大家好&#xff0c;许久不见&#xff0c;今天我们来学习c中的string类&#xff0c;在这一部分&#xff0c;我们首先应该学习一下string类的用法&#xff0c;然后再试着自己去实现一下string类。 在这里&#xff0c;我使用的是这个网站来查找的string类&#xff0c;这里面的内容…

Web,RESTful API 在微服务中的作用是什么?

大家好&#xff0c;我是锋哥。今天分享关于【Web&#xff0c;RESTful API 在微服务中的作用是什么&#xff1f;】面试题&#xff1f;希望对大家有帮助&#xff1b; Web&#xff0c;RESTful API 在微服务中的作用是什么&#xff1f; 在微服务架构中&#xff0c;Web 和 RESTful …

react18中如何实现同步的setState来实现所见即所得的效果

在react项目中&#xff0c;实现添加列表项&#xff0c;最后一项自动显示在可视区域范围&#xff01;&#xff01; 实现效果 代码实现 import { useState, useRef } from "react"; import { flushSync } from "react-dom"; function FlushSyncRef() {con…

基于SSM网络在线考试系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;学生管理&#xff0c;在线考试管理&#xff0c;试题管理&#xff0c;考试管理&#xff0c;系统管理 前台账号功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;在线考试&#xff0c;公告信…

word删除空白页 | 亲测有效

想要删掉word里面的末尾空白页&#xff0c;但是按了delete之后也没有用 找了很久找到了以下亲测有效的方法 1. 通过鼠标右键在要删除的空白页面处显示段落标记 2. 在字号输入01&#xff0c;按ENTER&#xff08;回车键&#xff09; 3.成功删除了&#xff01;&#xff01;

ECharts饼图-饼图34,附视频讲解与代码下载

引言&#xff1a; 在数据可视化的世界里&#xff0c;ECharts凭借其丰富的图表类型和强大的配置能力&#xff0c;成为了众多开发者的首选。今天&#xff0c;我将带大家一起实现一个饼图图表&#xff0c;通过该图表我们可以直观地展示和分析数据。此外&#xff0c;我还将提供详…

模型实战(27)之 YOLO11 推理、验证及训练自己的数据集

模型实战(27)之 YOLO11推理、验证及训练自己的数据集 2024年10.17,YOLO11是近期十月份刚经ultralytics团队更新优化发布的视觉算法深度学习网络模型,其网络模型结构代码实现也采用了比较新的Python数据结构,所以虚拟环境搭建安装包也比较新,经过多次踩坑,把关键环节记录…

电子便签:从偶像剧到职场的实用转变

在快节奏的现代生活中&#xff0c;便签已经成为了我们不可或缺的助手&#xff0c;无论是纸质的还是电子的&#xff0c;它们都以小巧的“身躯”承载着我们的日常记忆和待办事项。从偶像剧中常见的“便利贴”女孩形象&#xff0c;到如今电子便签的普及&#xff0c;它们帮助我们捕…