OW-VISCap——开放世界视频实例分割方法研究

概述

论文地址:https://arxiv.org/pdf/2404.03657

本文提出了一种名为 OW-VISCap(开放世界视频实例分割和字幕)的方法。其三大贡献是

  1. 开放世界对象查询:除了已知对象查询外,还引入了开放世界对象查询,以发现未知对象。这样就可以在不需要额外输入的情况下检测到未知物体。

  2. 使用遮罩关注机制生成以对象为中心的字幕:在对象-文本转换器中引入遮罩关注机制,使其能够生成以对象为中心的描述性字幕。

  3. 对象查询之间的对比度损失:引入对比度损失是为了抑制对象查询之间的相似性,减少重叠对象的检测,同时鼓励发现新的对象。

所提出的方法在开放世界视频实例分割、视频对象字幕和封闭世界视频实例分割这三个任务中表现出色。定性结果还表明,所提出的方法可以检测未知对象并生成以对象为中心的字幕。

相关研究

首先,有关开放世界视频实例分割的研究可分为两大类。

  1. 需要提示的方法:要求用户输入信息,并事先了解地面实况等。

  2. 无提示方法:为了发现新的对象,可以使用对象建议等方法。不过,这些方法也存在一些问题,例如性能有限或无法区分开放世界和封闭世界的物体。

另一方面,DVOC-DS[58] 是目前唯一的视频物体捕捉研究成果。然而,DVOC-DS 也存在一些问题,如无法应对长视频时间和无法捕捉物体的多个动作。

还有人提出了 OWVISFormer [39] 和 IDOL [50] 等方法来抑制对象查询之间的相似性。这些方法主要在封闭世界环境中有效,但在开放世界环境中并不充分。

拟议方法(OW-VISCap)

首先,对于开放世界对象查询 q_ow,可通过使用提示编码器(图 2 左侧的紫色区域)对视频帧上等间距的网格点进行编码来获得。这种设计有利于在整个视频区域内发现新奇的物体。

它还为 q_ow 引入了一个专门设计的开放世界损失函数 L_ow,以鼓励对未知物体的检测。

其次,对于以对象为中心的字幕,在对象-文本转换器中使用掩码关注机制可生成关注对象区域的字幕(图 2,右)。具体来说,遮罩关注是利用检测头获得的物体分割遮罩来生成字幕,字幕不仅关注局部物体特征,还考虑了整个视频的上下文。

最后,对比度损失 L_cont 用于抑制对象查询之间的相似性,其效果是防止重叠检测,并促进新对象的发现。在封闭世界环境中,它有助于抑制重叠误报;在开放世界环境中,它有助于发现新的物体。

因此,OW-VISCap 通过其独特的开放世界对象发现、以对象为中心的字幕和查询到查询的相似性抑制设计,提供了综合视频理解能力。

试验

本文在三个任务中对 OW-VISCap 进行了评估:开放世界视频实例分割(OW-VIS)、视频对象字幕(Dense VOC)和封闭世界视频实例分割(VIS)。

OW-VIS 在 BURST[2]数据集(表 1)上进行了评估,结果显示,在未知(不常见)类别中,OW-VIS 的性能提高了约 6%。

对于密集 VOC,我们使用了 VidSTG[57]数据集(表 2),结果显示生成字幕的正确率提高了约 7%,尽管物体检测的准确率略低。这是因为所提出的遮罩关注机制允许生成以对象为中心的字幕。

最后,在 OVIS [36] 数据集上对 VIS 进行了评估(表 3),结果表明其性能与最新技术相当。同样可以看出,物体查询之间的对比度损失有助于抑制重复检测。

图 S1 和图 S2 分别显示了 BURST 和 VidSTG 数据集的定性结果。可以看出,该系统能够检测和分割未知物体,并生成以物体为中心的字幕。

结论

本文提出的 OW-VISCap 将视频实例分割和字幕制作整合到开放世界环境中。它具有三个要素–开放世界对象查询、基于遮罩注意力的字幕分割和对象查询之间的对比度损失–能够检测和描述未知对象。

本文提出的 OW-VISCap 核心方法也适用于更通用的视频理解,并有潜力应用于现实世界,如自主系统和 AR/VR。细粒度视频理解(包括对未知物体的理解)是一项重要的研究挑战,而本文提出的方法可以为解决这一问题做出重大贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/406358.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

专题---自底向上的计算机网络(计算机网络相关概述)

目录 计算机网络相关概述 物理层 数据链路层 网络层 运输层 应用层 网络安全 1.计算机网络相关概述(具体细节http://t.csdnimg.cn/NITAW) 什么是计算机网络? 计算机网络是将一个分散的,具有独立功能的计算机系统&#x…

jmeter中添加ip欺骗

1、首先在本机电脑中通过配置文件创建添加ip的配置文件,先创建一个txt格式的,直接修改文件名以及后缀为ips.bat 2、编辑该ips.bat文件,在文件中输入如下内容,用于快速给本机添加ip地址,(2,1&…

四川正信法律:男朋友借钱拉黑我了怎么办

在情感的海洋中,我们或许都曾遇到过打着爱情旗号的骗局。当男朋友借钱后选择拉黑,这不仅是物质上的损失,更是心灵上的重创。面对这样的困境,我们该如何应对? 面对现实,接受这一切的发生。痛苦与愤怒虽为正常反应&…

【MySQL】JDBC的基础使用

系列文章目录 第一章 数据库基础 第二章 数据库基本操作 第三章数据库约束 第四章表的设计 第五章查询进阶 第六章索引和事务 文章目录 系列文章目录前言一、JDBC基本概念二、JDBC的准备工作三、JDBC-Demo小结 四、JDBC进阶写法总结 前言 在前面对MySQL已经有了基本的认知&am…

状态dp或滑动窗口

前言&#xff1a;这个题目可以用状态dp来做&#xff0c;其实还有一个思路&#xff0c;类似滑动窗口&#xff0c;如果有遇到第二个0&#xff0c;左指针加一 class Solution { public:int longestSubarray(vector<int>& nums) {int n nums.size();vector<vector<…

2024年【起重信号司索工(建筑特殊工种)】考试题及起重信号司索工(建筑特殊工种)免费试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 起重信号司索工(建筑特殊工种)考试题是安全生产模拟考试一点通总题库中生成的一套起重信号司索工(建筑特殊工种)免费试题&#xff0c;安全生产模拟考试一点通上起重信号司索工(建筑特殊工种)作业手机同步练习。2024年…

洛谷 P4516 [JSOI2018] 潜入行动

题目来源于&#xff1a;洛谷 题目本质&#xff1a;背包&#xff0c;树形dp 解题思路&#xff1a; 假设当前合并两个背包f[u][a][p1][q1] 和f[v][b][p2][q2] &#xff0c;其中 v 是 u 的儿子。考虑合并后的f[u][ab][p3][q3],q3 是合并后点 u 是否被监听&#xff0c;有两种情况…

使用Java往Geoserver发布tif图层和shp图层

1. Maven依赖 栅格文件对应Tif文件 (即: 栅格就是tif) 矢量文件对应shp文件(即: 矢量就是shp) 注: 有的依赖可能在中央仓库及一些镜像仓库找不到需要手动指定仓库, 在依赖最下方 <!-- 中文转拼音工具类 --><dependency><groupId>com.belerweb</groupId&g…

简单步骤获取IP地址SSL 证书

在网络安全中&#xff0c;SSL证书在保护用户浏览器和Web服务器之间交换的敏感信息方面发挥着至关重要的作用。 但是&#xff0c;如果您不仅想保护域名&#xff0c;还想保护特定的IP地址&#xff0c;该怎么办&#xff1f;您可以为IP地址获取SSL证书吗&#xff1f; 简短的回答是…

.NET COER+CONSUL微服务项目在CENTOS环境下的部署实践

一、整体的环境安装与部署 1.1、DOCKER环境的部署 1.1.1 安装DOCKER yum install -y yum-utils device-mapper-persistent-data lvm2 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo yum makecache fast && yu…

2024年【甘肃省安全员C证】考试题及甘肃省安全员C证考试总结

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 甘肃省安全员C证考试题考前必练&#xff01;安全生产模拟考试一点通每个月更新甘肃省安全员C证考试总结题目及答案&#xff01;多做几遍&#xff0c;其实通过甘肃省安全员C证模拟试题很简单。 1、【多选题】《安全生产…

企业要部署多点组网应该怎么做?

企业在进行扩张后&#xff0c;往往有建立多点组网的需求。本文将详细介绍企业怎样实现多点组网&#xff0c;以便有需要的用户进行了解和选择。 企业想要实现企业多点组网时&#xff0c;首先需要进行全面的网络规划和设计。这包括评估公司当前的网络架构、各个分支机构的地理位置…

AOP+ 自定义注解 +SpringElExpress自研缓存组件

AOP 自定义注解 SpringElExpress自研缓存组件 背景前置知识改造代码 背景 思考下这段代码&#xff0c;想想项目中是不是到处存在 先查缓存&#xff0c;缓存里面有&#xff0c;直接返回&#xff1b;缓存没有&#xff0c;查数据库&#xff0c;并更新到缓存 思考&#xff1a;如何…

区块链知识体系fisco-bcos实战

文章目录 一、区块链发展概述及类型和特征1.1 区块链的概念1.2 区块链的起源1.3 区块链的发展历程1.4 区块链的类型和特征 二、区块链的常见技术架构2.1 技术架构2.2 核心技术 三、区块链的常见应用3.1 生态环境监测3.2 医疗废弃物追踪解决3.3 区块链在电子政务领域的应用3.4 在…

mac安装ipa包【金铲铲为例】

mac安装ipa包 安装PlayCover 链接&#xff1a;https://github.com/PlayCover/PlayCover 1、点最新Releases 2、cmd ↓&#xff0c;拉到最下面下载dmg 3、安装 图标拖拽到Applications里 IPA下载 以金铲铲为例&#xff0c;良心砸壳包站点&#xff0c;有能力可以支持一下…

Modbus-TCP——Libmodbus安装和使用(Ubuntu22.04)

1、简介 Modbus是一种通信协议&#xff0c;广泛用于工业自动化和过程控制领域&#xff0c;允许不同设备之间进行数据交换。libmodbus是一个用于 Modbus 协议的开源库&#xff0c;主要用于开发和实现 Modbus 协议的客户端和服务器应用程序。libmodbus 以 C 语言编写&#xff0c…

Gartner发布2024年终端和工作空间安全成熟度曲线:24项相关技术发展和应用状况及趋势

由于攻击者使用人工智能来增强网络钓鱼和终端攻击&#xff0c;企业需要高级安全措施来阻止入侵行为。此技术成熟度曲线可帮助安全和风险管理领导者识别可增强终端和工作空间保护的技术。 需要知道什么 网络安全创新层出不穷&#xff0c;但区分真正的进步与短暂的趋势却很困难。…

66 IPV4/6 OSPFV2/3 实操

一 网络括谱图 二 IPV6 一 华为IPV6地址的配置思路 1 全局上开启IPV6功能 # ipv6 # 2 在指定的接口上配置IPV6地址上的接口上配置IPV6地址 ipv6 enable 3 在接口上配置IPV6地址 ipv6 address 2001:1::254/64 脚本 # interface GigabitEthernet0/0/1 ipv6 enable ip add…

Ajax基础案例

接口文档 欢迎使用 - AJAX阶段 地区查询 图解 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewpor…

libLZMA库iOS18平台编译

1.下载xz源码: 使用autogen.sh生成configure文件 2.生成makefile rm -rf ./build/iOS && mkdir -p ./build/iOS && cd ./build/iOS && ../../configure --host=arm-apple-darwin64 --prefix=`pwd`/Frameworks/lzma CC="xcrun -sdk iphoneos cl…