Towards Frame Rate Agnostic Multi-object Tracking—迈向帧率无关的多目标跟踪

Towards Frame Rate Agnostic Multi-object Tracking—迈向帧率无关的多目标跟踪

发表在IJCV 2023年
作者:Weitao Feng, Lei Bai, Yongqiang Yao, Fengwei Yu & Wanli Ouyang
研究目标:多目标跟踪的帧率无关性研究

IJCV 在计算机视觉领域的影响力非常大,其 影响因子(Impact Factor)通常较高,是很多计算机视觉研究人员和学者首选的期刊之一。期刊的影响因子在学术界反映了它的引用和学术影响力,通常是 A 类期刊。(和CVPR相当了

在这里插入图片描述

这里是杭电的一个刚认识的朋友推荐的,学习的目标是结合论文理论了解一下复杂的关联场景是如何建立的。

背景知识—帧率与多目标跟踪的关系

帧率反映了图像序列中图像更新的速度或频率,影响目标跟踪系统对运动目标的感知和跟踪能力。

  1. 帧率高:在高帧率场景中,每秒钟捕获更多的图像帧,相邻的帧之间差距小,运动信息更加细腻和连续,跟踪系统能够更精确地捕捉到目标在空间和时间上的变化。

在高帧率场景下,运动线索更加可靠,但可能会面临计算量过大的问题。

  1. 帧率低:在低帧率场景中,视频每秒钟的帧数较少,相邻帧之间的时间间隔较长。此时,目标的运动可能在帧与帧之间跨越较大的距离,运动信息会变得不那么连续或容易丢失。此时,外观线索(如目标的颜色、形状、纹理等)变得更加重要,因为外观特征相对稳定,可以帮助跟踪系统弥补运动信息的不足。

低帧率下:虽然外观线索较为稳定,但缺乏运动线索时,目标跟踪可能会因为 目标外观变化或快速运动而出现跟踪丢失的情况。

  1. 多目标跟踪 (MOT) 领域的研究大多假设输入的视频流具有固定的采样帧率,即视频中每秒钟的图像帧数保持不变,系统在设计和实现时大多是基于这一假设进行优化的。这种假设虽然在传统的视频和图像处理任务中是常见的,但随着多种帧率场景(如动态视频流、不同帧率的视频源等)逐渐成为现实,现有的 MOT 方法可能无法很好地应对帧率变化带来的挑战。

摘要整理与总结

  1. 目前的MOT研究仍然局限于输入流的固定采样帧率。 根据经验当输入帧速率发生变化时,所有最新最先进的跟踪器的准确性都会急剧下降。

  2. 本文的研究工作主要是:将注意力转向帧率不可知 MOT (FraMOT) 问题上去了。在本文中,我们提出了一种具有定期训练方案(FAPS:具有周期性训练方案的帧率无关多目标跟踪框架(FAPS))的帧率不可知 MOT 框架,以首次解决 FraMOT 问题。

    • 提出了一个帧速率不可知关联模块(FAAM老师推荐重点学习的部分,它可以推断和编码帧速率信息,以帮助跨多帧速率输入进行身份匹配,从而提高学习模型在 FraMOT 中处理复杂运动外观关系的能力。

    • 提出定期训练方案,通过跟踪模式匹配和融合来反映训练中的所有后处理步骤

  3. 尝试在已知帧率未知帧率两种不同模式下解决新的挑战,旨在处理更复杂的情况。

在MOT17/20 dataset (FraMOT version) 版本上进行实验验证的。

介绍与相关工作

多目标跟踪算法仍然存在不完善的地方主要因为:处理具有固定帧速率的视频。 现在先进的追踪器帧率的变化表现的是很不稳定的。

在这里插入图片描述

图 1 最近最先进的跟踪器在多帧速率设置下的性能。 当帧速率降低时,MOTA 和 HOTA 分数都会急剧下降。 与以前的方法相比,我们提出的方法具有更好的处理帧速率变化的能力。

跟踪器对帧率的信息相当的敏感了,那么我们该如何去解决这一个问题呢?

尽管为每个帧速率训练和部署单独的跟踪器是可行的,但这种简单的解决方案既不方便也不高效,因为对于大型系统来说,为每个应用程序和帧速率开发、选择和部署最佳跟踪器既费力又昂贵。

引出了研究的问题:因此有必要提出能够像人类一样理解不同帧速率视频的跟踪器。 这些跟踪器应该是通用的、统一的并且与帧速率无关。

  1. 直接的方式是在具有多种不同帧率的数据集上训练经典设计的模型(即帧率不可知训练)。 然而,由于以下两个挑战,这种普通设计效果不佳。
  • 首先,运动-外观关系的最佳匹配规则在不同的输入帧速率下是不同的。

空间距离较大,具有相似外观的两个检测在较高帧速率视频中可能不太可能被判断为同一对象,但在较低帧速率视频中更有可能被判断为同一对象。

  1. 其次,传统帧对关联训练方案中涉及多帧率数据导致训练和推理之间存在较大差距。

训练阶段未包含但在推理阶段应用的后处理步骤将改变检测到的对象位置,导致训练阶段关联网络的输入数据与推理阶段不同。这些变化在正常(更高)帧率下较小,因此在传统的训练方案中可以忽略不计。然而,在低帧率下这些变化被放大,并且在多帧率训练中不可忽视。

  1. 提出了一个带有周期性训练方案(FAPS)的帧率无关MOT框架,它主要包含了两种技术来进行实现的。
  • 对于第一个挑战,提出了一个统一的帧速率不可知关联模块(FAAM)来处理各种帧速率设置。

对于测试期间确切帧率未知的情况,我们提出使用帧间最佳匹配距离向量(IBDV)来推断帧率信息

  • 设计了一个周期性训练方案(PTS),通过跟踪模式匹配和融合来增强帧率无关训练。在开始训练之前,我们通过在包含所有后处理步骤的真实推理流程上运行先前的模型检查点来采样跟踪模式。跟踪模式记录了我们在训练期间模拟推理阶段环境所需的所有信息(即位置、运动预测和缓存的特征)。我们假设在短时间内,跟踪器的这些模式变化可以忽略不计,因此我们将整个训练过程划分为几个训练周期,并在周期之间只更新模式。在训练过程中,不匹配这些模式的实例将被丢弃,因为它们可能不会出现在推理时间,从而减少了帧率无关训练的难度。剩余的实例将与记录的模式融合,以减少输入方差,并转化为关联特征。通过所提出的方法,我们成功提高了跟踪器的准确性,特别是在较低帧率设置下。

文章的贡献

文章主要提出了下面的四种贡献。

  1. 我们首次提出帧速率不可知多对象跟踪(FraMOT)问题,其目标是学习一个统一的模型来跟踪帧速率不可知的视频中的对象。 与经典的MOT相比,FraMOT更加智能,对于大型视觉系统也更加实用。

  2. 我们提出了一个具有定期训练方案(FAPS)的帧速率不可知 MOT 框架,这是第一个帧速率不可知 MOT 基线,尝试使用单个统一模型有效处理各种输入帧速率,以便在工业场景中实现更稳健的 MOT 跟踪器。

  3. 我们提出了一个帧速率不可知关联模块(FAAM),利用给定或推断的帧速率线索来帮助身份匹配,从而形成更智能的跟踪器。

  4. 我们提出了一种用于帧率无关 MOT 模型训练的定期训练方案(PTS),提供推理环境的模拟,从而减少数据关联的训练与推理差距。

对于背景知识的介绍和相关工作的一些内容并不作为重点的部分,因此在这里进行省略。主要是介绍训练和评估的一些方式。

Frame Rate Agnostic MOT Frameworkwith a Periodic Training Scheme

之后介绍的内容就是论文的核心方法部分了,首先介绍的是与帧率无关的带有周期性训练的框架

确保即使在 低帧率设置下,在 训练阶段所采用的 非参数后处理步骤 也不会导致 训练和推理阶段之间的差距扩大。这样可以保证在实际应用中,无论帧率如何变化,模型在 推理阶段的表现不会逊色于在训练阶段的表现。

介绍了我们提出的带有周期性训练方案(FAPS)的帧率无关MOT框架,该框架专门设计用于解决前述目标并克服FraMOT相关的挑战。

在这里插入图片描述

概述

这里提出的与带有周期性训练(FAPS)帧率无关的关联框架,主要有一下的三个部分组成。(该框架中有三个不同的模块

  • 联合提取器模块(JEM)
  • 关联模块(AM)
  • 轨迹管理模块(TM)
  1. JEM 从原始图像生成检测结果和相应的外观特征嵌入

  2. AM 将新的检测结果与现有轨迹关联起来。

  3. TM决定所有轨迹的起始和终止,使它们更加平滑并处理它们的状态。

The core module of the proposed framework is the Asso-
ciation Module 核心还是提出的关联模块。

我们设计了一个新的帧速率不可知关联模块,具有编码帧速率信息的机制,提供处理各种帧速率的复杂运动外观关系的能力。同时,该框架使用所提出的==定期训练方案(PTS)==进行训练,该方案考虑了所有后处理步骤,提供了推理阶段环境的模拟,从而减少了训练和推理之间数据关联的差距。

在这里插入图片描述

图二说明:框架中有多个训练周期,每个周期包含两个阶段.跟踪模式生成和模块训练。(tracking patterns generation and module training.)在跟踪模式生成中,我们使用之前的 MOT 模型生成跟踪模式.然后这些跟踪模式将用于模块训练,提供有关测试环境的简要信息。 “JEM”、“AM”和“TM”分别是联合提取模块、关联模块和目标管理的缩写

训练管道遵循所提出的PTS,包含多个训练周期,每个周期包含两个阶段,即跟踪模式生成阶段和模块训练阶段

  1. 具体来说,在跟踪模式生成阶段,使用上一周期的模型进行前向传递,并生成跟踪模式。

  2. 模块训练阶段,关联模型采用JEM的输出和跟踪模式作为输入,生成关联特征,使用所提出的帧率无关关联模块(FAAM)预测关联分数,并受到相应关联真值信号的监督。

  3. 在训练期间,不是直接将输入数据传递给FAAM,我们设计了一个关联特征生成模块,通过模式匹配和融合利用生成的跟踪模式调整关联特征。然后,调整后的关联特征将通过FAAM

在这里插入图片描述

  1. FAAM网络利用帧率信息推断出帧率感知注意力,并增强关联预测。在推理过程中,将使用上一周期的模型检查点。关联模型仅将JEM的输出作为输入,不再需要跟踪模式,并且移除了模式匹配和融合步骤。推理管道与跟踪模式生成管道相同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/489308.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新消息!ChatGPT已集成到苹果操作系统!

12月11日,OpenAI宣布ChatGPT将集成到苹果iOS、iPadOS和macOS操作系统中,用户可以直接在这些设备上访问ChatGPT的功能。 通过此次宣布内容来看,ChatGPT不再局限于单独的应用程序,用户可以在苹果设备上更便捷地使用它。这意味着&…

该用户不拥有该设备20018

调用接口查询或操作托管设备时报错无权限 第一步:确认调用接口需要的权限 这里以关闭设备加密接口为例:/api/lapp/device/encrypt/off,官网接口文档上注明了需要Config权限。注:调用此类接口时需要用使用大账号token,不…

【MySql】数据库索引概念及其作用详细介绍

目录 1. 为什么使用索引 2. 索引及其优缺点 2.1 索引的概述 2.2 优点 2.3 缺点 3. InnoDB中索引的推演 3.1 索引之前的查找 3.2 设计索引 1. 一个简单的索引设计方案 2. InnoDB中的索引方案 3.3 常见索引概念 1.聚簇索引 2.二级索引(辅助索引、非聚簇索引) 3.联合…

ESP32外设学习部分--SPI篇

SPI学习 前言 我个人以为开始学习一个新的单片机最好的方法就是先把他各个外设给跑一遍,整体了解一下他的功能,由此记录一下我学习ESP32外设的过程,防止以后忘记。 SPI 配置步骤 SPI总线初始化 spi_bus_config_t buscfg {.miso_io_num …

vue3+setup使用rtsp视频流实现实时监控,全屏,拍摄,自动拍摄等功能(纯前端)

vue3setup使用rtsp视频流实现实时监控,全屏,拍摄,自动拍摄等功能(纯前端) 概要 本文介绍了如何在Vue应用中通过WebRTC技术获取摄像头的rtsp视频流,同时展示了实时监控,全屏,拍摄,自动拍摄等功…

【源码阅读系列】(五)进程间通信(二)

进程间通信(二) 这一部分主要会介绍Android中特有的几个IPC机制。分别是: Intent、Binder、AIDL、ContentProvider https://juejin.cn/post/7244018340880007226 https://juejin.cn/post/6844903764986462221 Binder https://juejin.cn/post/7244018340880007226 https://j…

机器学习(ML)在发射机识别与资源管理的应用

电子战(EW)涉及在受干扰的频谱环境中,通过多个无线电频率传感和发射平台进行非合作交互。操作人员需要管理频谱资源、共享关键情报,并有效干扰威胁发射器。现代RF系统的复杂性和威胁发射器的敏捷性,要求系统能够以机器…

高项 - 信息化发展

个人总结,仅供参考,欢迎加好友一起讨论 博文更新参考时间点:2024-11-09 高项 - 章节与知识点汇总:点击跳转 文章目录 高项 - 信息化发展信息与信息化信息信息系统信息化 现代化基础设施新型基础设施建设工业互联网车联网 现代化创…

TaskBuilder内设置任擎服务器

TaskBuilder内设置任擎服务器 在使用TaskBuilder进行软件开发时,必须要先连接到任擎服务器(后续文档所说的服务器如果不特别注明,皆指任擎服务器)才能继续操作,因为使用TaskBuilder开发所需的数据模型、后台服务和前端…

六、nginx负载均衡

负载均衡:将四层或者七层的请求分配到多台后端的服务器上。 从而分担整个业务的负载。提高系统的稳定性,也可以提高高可用(备灾,其中一台后端服务器如果发生故障不影响整体业务). 负载均衡的算法 round robin 轮询 r…

代码随想录训练营第十七天| 654.最大二叉树 617.合并二叉树 700.二叉搜索树中的搜索 98.验证二叉搜索树

654.最大二叉树 题目链接/文章讲解: 代码随想录 视频讲解:又是构造二叉树,又有很多坑!| LeetCode:654.最大二叉树_哔哩哔哩_bilibili 创建一个根节点,其值为 nums 中的最大值。递归地在最大值 左边 的 子…

面向对象进阶:多态

黑马程序员Java个人笔记 BV17F411T7Ao p129~132 目录 多态 多态调用成员的特点 调用成员变量 调用成员方法 理解 多态的优势 解耦合 多态的弊端 解决方案:强制类型转换 instanceof jdk14新特性,将判断和强转放一起 总结 多态 多态调…

系统思考沙盘模拟

今天《收获季节》沙盘模拟的第一天课程圆满结束,不仅从管理技巧的角度深入展开,还让大家体验了决策带来的直接影响。明天,我们将带领学员从系统思考和全局视角来重新审视这些问题,找到更深层的因果关系和系统性改进的思路。期待更…

AI 赋能直播新玩法 —— 无人直播,它到底藏着多少未知?

​ 在数字浪潮汹涌澎湃的时代,直播领域正历经一场前所未有的变革,AI 赋能的无人直播宛如一颗神秘新星,闯入大众视野,撩拨着人们的好奇心,可它究竟潜藏着多少待解谜团,尚无人能完全洞悉。 从技术的幽微深处…

【深度学习】热力图绘制

热力图(Heatmap)是一种数据可视化方法,通过颜色来表示数据矩阵中的数值大小,以便更直观地展示数据的分布和模式。热力图在许多领域中都有应用,尤其在统计分析、机器学习、数据挖掘等领域,能够帮助我们快速识…

ssm-springmvc-学习笔记

简介 简单的来说,就是一个在表述层负责和前端数据进行交互的框架 帮我们简化了许多从前端获取数据的步骤 springmvc基本流程 用户在原本的没有框架的时候请求会直接调用到controller这个类,但是其步骤非常繁琐 所以我们就使用springmvc进行简化 当用…

Axure原型设计:打造科技感可视化大屏元件

在数字化时代,数据可视化大屏已成为企业展示数据、监控业务状态的重要工具。一个设计精良的大屏不仅要有丰富的信息展示,更需具备强烈的科技感,以吸引观众的注意力并提升数据解读的效率。Axure,作为一款功能强大的原型设计工具&am…

supervision - 好用的计算机视觉 AI 工具库

Supervision库是一款出色的Python计算机视觉低代码工具,其设计初衷在于为用户提供一个便捷且高效的接口,用以处理数据集以及直观地展示检测结果。简化了对象检测、分类、标注、跟踪等计算机视觉的开发流程。开发者仅需加载数据集和模型,就能轻…

探索 Cesium 的未来:3D Tiles Next 标准解析

探索 Cesium 的未来:3D Tiles Next 标准解析 随着地理信息系统(GIS)和 3D 空间数据的快速发展,Cesium 作为领先的开源 3D 地球可视化平台,已成为展示大规模三维数据和进行实时渲染的强大工具。近年来,随着…