Efficient and Effective Weakly-Supervised Action Segmentation via ATBA

                                    **基于动作转移感知边界对齐的高效弱监督动作分割**

介绍

动作分割的目的是将一个长的未裁剪的视频分割成几个片段,并将每个片段分类为一个动作类别,如下图所示:
在这里插入图片描述
在这里插入图片描述

弱监督动作分割

现有的训练方法大多需要通过对所有帧和文本进行序列比对来推断用于训练的伪分段,这不仅耗时,而且训练时很难并行化。为了解决这一问题,引入了弱监督分割,举例来说,假设有一个视频,其中包含一个人在做各种动作(如散步、跑步、打篮球等)。弱监督学习可以利用一个简单的文本信息进行转录,比如一个视频里存在跑步,打篮球,踢足球这些动作标签。这个文本提供了动作序列的大致信息,但并不需要详细到每一帧的动作类型。我们只会得到这些动作的顺序列表,而不知道它们具体发生的时间点。因此,模型需要从这些序列中学习如何自动分割出每个动作片段,以及它们的时长。模型可以通过这样的文本信息来学习如何分割视频并识别不同动作片段。弱监督学习的优势在于可以减少人工标注的成本和复杂性,使得模型训练更加高效。然而,也因为标注信息的相对不精确,可能需要模型设计上的创新来处理这种噪声和不确定性,以提高学习的效果和准确性。

给定了弱监督,其实也就代表了给定动作标签和事件边界帧数,还是以一个视频里存在跑步,打篮球,踢足球这些动作标签为例,这个视频里就固定好了存在跑步到打篮球,打篮球到踢足球这两个边界帧。

问题由来

以往弱监督的方法都是将每一帧去和动作标签进行匹配比对,这样的做法缺点在于需要逐帧比对,并且无法并行化处理。因此这篇文章的目标是摆脱这种大量但冗余的帧的低效对齐,直接定位几个动作过渡以生成伪分段。为了在训练过程中高效地生成伪分割,我们提出了直接本地化动作转移,而不需要耗时的逐帧对齐。并且由于视觉变化,模型可能会错误地把一些噪声边界当作动作分割边界,导致的问题下图所示:
在这里插入图片描述
在蓝色块内,可能由于一些视觉变化,导致了模型错误地把一整个蓝色块进行了动作的分割,又由于引入了弱监督对文本信息进行顺序转录,按顺序分割后的动作就是绿色块了,所以导致了绿色块提前出现了,从而引起了后面误差进行积累。

贡献点:

1.我们建议在训练过程中直接本地化动作转换,以实现有效的伪分割生成,而不需要耗时的逐帧对齐。

2.对于噪声边界的鲁棒性,我们提出了一种新的ATBA框架,以有效地确定对应于每个过渡的边界。还引入了视频级损失来规范涉及伪分割中不可避免的噪声的语义学习。

3.在三个流行的数据集上进行了实验,以评估我们的方法:早餐,好莱坞扩展和CrossTask 。我们的ATBA以最快的训练速度之一实现了最先进或可媲美的结果,证明了我们的有效性。

框架在这里插入图片描述

概述:首先,视频经过特征提取后,和位置编码融合进入微调的Transformer Encoder内,这里的微调指的是将自注意力换成了金字塔层次局部注意力代替香草自注意力(意思是对于动作分割任务而言,对于较长的输入视频,由于缺乏自我注意,一个Transformer模型中的各个自注意层之间很难相互协作,形成对输入的有效表示。因此有人开发了一个金字塔层次局部注意力,具体来说,用预定义的分层表示模式约束每个自注意层,迫使低层次的自注意层首先关注局部关系,然后逐渐扩大其足迹,以捕获较长的高层依赖关系。local-to-global流程为每个自我关注层分配了特定的职责,以便它们能够更好地合作,以实现更快的收敛速度和更高的性能。这种分层表示模式还降低了总空间和时间复杂度,使模型具有可扩展性。)。特征X得到了更高级的表示X’,之后经过预训练好的分类器得出伪标签预测图。之后依靠伪标签预测图进入ATBA模块,下面来细讲ATBA是如何工作的:
1.Class-Agnostic Boundary Scoring&Candidate Boundary Selection:首先预测图如上所示,是一个无类别的纯预测视频事件边界的柱状分数图,依靠这个图我们可以知道每一帧属于边界帧的分数,将这个图可以转变为时间自相似矩阵,之后再用一个矩阵对时间自相似矩阵进行分数计算(详情请看我之前的一篇博客:UBoCo),得到无类别边界分数图,即得到候选边界帧,但是仅仅得到这个边界帧不够,因为它是无类别的,不能知道这个边界属于哪个动作类别。
2.Action Transition Scoring:上述的a1,a2,a3属于class token,即动作标签的表示,由图可知,总共有三个箭头输入的到了‘Transitions R’中,第一个动作标签,第二个是无类别候选帧的集合,最后一个是输入的无类别柱状图。基本思路是对无类别候选的每一帧边界帧进行类别分数计算,即计算这一边界帧到底属于哪一类别。计算用的也是UBoCo的思路。具体来说,首先对无类别候选边界帧进行预测得到动作分数图。
在这里插入图片描述
以上图的7帧为例,假设候选边界帧是第四帧,前三帧属于a1类,后三帧属于a2类,那用上图所示的矩阵去乘动作分数图,就能得到相应的候选边界帧-动作标签分数图。
3.Action Transition Alignment:将上述的两个分数图进行相加,从而得到边界-动作伪标签。但存在的问题是即使这样预测出来的边界帧的数量可能还是多于真实的边界帧数量,举个例子就是现在有五个萝卜,但是只有三个坑,就需要丢掉两个萝卜。本质上就是个最优传输问题,求最优解的过程。具体来说,如下图所示:(基本思想是增加空集标签,看看五个边界帧在空集标签里的表现,若是在空集标签里也能表现好,说明这一帧有问题)
加粗样式在这里插入图片描述
b1–b5是预测的边界帧,但是动作标签只有四个,因此真正需要的边界帧只有三个,那就要丢弃其中两个预测的边界帧。图上的负值就是成本值,即b1属于(a1,a2)需要多大的成本,成本越小,说明该帧属于该标签的可能性越大。
首先,给成本矩阵增加空集标签φ,如图a所示。其次看这五帧在空集标签里所需的成本,若是在空集标签里所需的成本相较于某一动作标签更小,就能说明这一帧其实不属于某一动作标签。以b2为例,b2在空集里的成本是-0.6,在(a2,a3)的成本是-0.8,理论上b2属于(a2,3),但竖着看发现b3属于(a2,a3)的成本更小,所以b2肯定不属于(a2,a3),但b2的空集成本相较于(a1,a2)的成本更低,所以也不会属于(a1,a2),因此抛弃b2这一帧。同理也可以抛弃b5这一帧。
(图中红色箭头的含义是:已知b3∈(a2,a3)的成本是-1.1,又已知b4∈(a2,a3)的成本是-0.9,所以无论如何b4是肯定不属于(a2,a3),因此传递方向就肯定不会传播到b4∈(a2,a3)。因此-0.8为什么指向-1.1和-1.5同理)
4.Pseudo Segmentation:通过这样的方法就能生成伪分割。从而去调整模型。
5.Loss:视频级loss总共有三个,第一个是标准的交叉熵损失L(cls),T是帧数,C是动作标签数。II(·)是指示函数,如果满足伪标签y(t)属于c类标签,则返回1,否则返回0。第二个是二元交叉熵损失L(vid),这个损失的作用是保证弱监督里所有的动作标签都出现,没出现就增大损失,出现了就调小损失。第三个是对比学习中常用的InfoNCE损失L(glc),目的是使靠近动作标签的帧更近,使远离动作标签的帧更远。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
训练策略采用了两阶段训练,第一阶段只用了L(vid),因为动作标签是我们人为做的GroundTruth,一定是对的且会出现在视频里的弱监督,因此第一阶段只用L(vid),第二阶段用三个Loss的加和。

结论

在本研究中,我们提出在WSAS任务中直接定位动作转移以有效地产生伪分割,从而避免耗时的逐帧对齐。针对含噪边界的存在,提出了一种新的基于动作-变迁感知的边界对齐(ATBA)框架,以有效地滤除噪声和检测变迁。此外,我们还设计了一些视频级的损失,以利用视频级的监督来提高语义鲁棒性。仿真结果验证了所提算法的有效性.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/382499.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript构造函数小挑战

// 编码挑战 #1 /* 使用构造函数实现一辆汽车。一辆汽车有一个品牌和一个速度属性。speed 属性是汽车当前的速度,单位为 km/h; a. 执行一个 “accelerate ”方法,将汽车的速度提高 10,并将新速度记录到控制台; 3. a.…

笔记小结:现代卷积神经网络之批量归一化

本文为李沐老师《动手学深度学习》笔记小结,用于个人复习并记录学习历程,适用于初学者 训练深层神经网络是十分困难的,特别是在较短的时间内使他们收敛更加棘手。 本节将介绍批量规范化(batch normalization)&#xf…

Dav_笔记10:Using SQL Plan Management之3

将SQL计划基准与SQL Tuning Advisor一起使用 使用SQL Tuning Advisor调整SQL语句时,如果顾问程序找到调优计划并验证其性能优于从相应SQL计划基准中选择的计划,则建议接受SQL配置文件。 接受SQL配置文件后,数据库会将调整后的计划添加到相应…

群管机器人官网源码

一款非常好看的群管机器人html官网源码 搭建教程: 域名解析绑定 源码文件上传解压 访问域名即可 演示图片: 群管机器人官网源码下载:客户端下载 - 红客网络编程与渗透技术 原文链接: 群管机器人官网源码

云仓如何改变传统仓储模式?

云仓,即云仓储,是一种基于互联网技术的现代仓储模式,与传统的仓储模式相比,它在多个方面进行了创新和优化,包括: ———————————————————— 1、数据管理与实时监控: 云仓储利…

Element-ui :el-table 中表尾合计行

Table 表格 | Element Plus <template><el-table :data"tableData" border show-summary :summary-method"getSummariesss" style"width: 100%"><el-table-column prop"id" label"ID" width"180"…

C++与lua联合编程

C与lua联合编程 一、环境配置二、lua基本语法1.第一个lua和C程序2.基本数据类型和变量2.1 Nil2.2 Booleans2.3 Numbers2.4 String(最常用) 3. 字符串处理3.1 错误处理3.2 字符串长度:string.len3.3 字符串子串 :string.sub3.4 字符串查找: string.find3.5字符串替换: string.gs…

【笔记】ubuntu 误退了搜狗输入法:终端上输入fcitx即可重启

有时候&#xff0c;我们可能嫌弃ubuntu上的搜狗输入法&#xff0c;点击了退出&#xff1a; 但是当我们想开启搜狗输入法时&#xff0c;发现它消失了&#xff0c;此时我们可以打开终端&#xff0c;键入&#xff1a; fcitx 即可成功开启。

一些和颜色相关网站

1.中国传统色 2.网页颜色选择器 3.渐变色网站 4.多风格色卡生成 5.波浪生成 6.半透明磨砂框 7.色卡组合

全国区块链职业技能大赛国赛考题前端功能开发

任务3-1:区块链应用前端功能开发 1.请基于前端系统的开发模板,在登录组件login.js、组件管理文件components.js中添加对应的逻辑代码,实现对前端的角色选择功能,并测试功能完整性,示例页面如下: 具体要求如下: (1)有明确的提示,提示用户选择角色; (2)用户可看…

微服务安全——OAuth2详解、授权码模式、SpringAuthorizationServer实战、SSO单点登录、Gateway整合OAuth2

文章目录 Spring Authorization Server介绍OAuth2.0协议介绍角色OAuth2.0协议的运行流程应用场景授权模式详解客户端模式密码模式授权码模式简化模式token刷新模式 OAuth 2.1 协议介绍授权码模式PKCE扩展设备授权码模式拓展授权模式 OpenID Connect 1.0协议Spring Authorizatio…

用51单片机或者stm32能否开发机器人呢?

在开始前刚好我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「单片机的资料从专业入门到高级教程」&#xff0c; 点个关注在评论区回复“888”之后私信回复“888”&#xff0c;全部无偿共享给大家&#xff01;&#xff01;&#xff01;能的。但是由于单片机和st…

百度,有道,谷歌翻译API

API翻译 百度&#xff0c;有道&#xff0c;谷歌API翻译&#xff08;只针对中英相互翻译&#xff09;,其他语言翻译需要对应from&#xff0c;to的code 百度翻译 package fills.tools.translate; import java.util.ArrayList; import java.util.HashMap; import java.util.Lis…

OpenWrt 为软件包和docker空间扩容

参考资料 【openwrt折腾日记】解决openwrt固件刷入后磁盘空间默认小的问题&#xff0c;关联openwrt磁盘扩容空间扩容【openwrt分区扩容】轻松解决空间可用不足的尴尬丨老李一瓶奶油的YouTube 划分空间 参考一瓶奶油的YouTube 系统 -> 磁盘管理 -> 磁盘 -> 修改 格…

axios请求大全

本文讲解axios封装方式以及针对各种后台接口的请求方式 axios的介绍和基础配置可以看这个文档: 起步 | Axios中文文档 | Axios中文网 axios的封装 axios封装的重点有三个&#xff0c;一是设置全局config,比如请求的基础路径&#xff0c;超时时间等&#xff0c;第二点是在每次…

SQL labs-SQL注入(二)

环境搭建参考 SQL注入&#xff08;一&#xff09; 一&#xff0c;SQL labs-less2。 http://192.168.61.206:8001/Less-2/?id-1 union select 1,2,group_concat(username , password) from users-- 与第一关没什么太大的不同&#xff0c;唯一区别就是闭合方式为数字型。 二…

【ffmpeg命令入门】ffplay常用命令

文章目录 前言ffplay的简介FFplay 的基本用法常用参数及其作用示例 效果演示图播放普通视频播放网络媒体流RTSP 总结 前言 FFplay 是 FFmpeg 套件中的一个强大的媒体播放器&#xff0c;它基于命令行接口&#xff0c;允许用户以灵活且高效的方式播放音频和视频文件。作为一个简…

系统架构设计师教程 第4章 信息安全技术基础知识-4.3 信息安全系统的组成框架4.4 信息加解密技术-解读

系统架构设计师教程 第4章 信息安全技术基础知识-4.3 信息安全系统的组成框架 4.3 信息安全系统的组成框架4.3.1 技术体系4.3.1.1 基础安全设备4.3.1.2 计算机网络安全4.3.1.3 操作系统安全4.3.1.4 数据库安全4.3.1.5 终端安全设备4.3.2 组织机构体系4.3.3 管理体系4.4 信息加…

使用 Socket和动态代理以及反射 实现一个简易的 RPC 调用

使用 Socket、动态代理、反射 实现一个简易的 RPC 调用 我们前面有一篇 socket 的文章&#xff0c;再之前&#xff0c;还有一篇 java动态代理的文章&#xff0c;本文用到了那两篇文章中的知识点&#xff0c;需要的话可以回顾一下。 下面正文开始&#xff1a; 我们的背景是一个…

CSS实现的扫光效果组件

theme: lilsnake 图片和内容如有侵权&#xff0c;及时与我联系~ 详细内容与注释&#xff1a; CSS实现的扫光效果组件 代码 技术栈与框架 Vue3 CSS 扫光效果的原理 扫光效果的原理就是从左到右无限循环的一个位移动画 实现方式 适配文字扫光效果的css .shark-box { …