视频单目标跟踪研究

        由于对视频单目标跟踪并不是很熟悉,所以首先得对该领域有个大致的了解。

        视频目标跟踪是计算机视觉领域重要的基础性研究问题之一,是指在视频序列第一帧指定目标 后,在后续帧持续跟踪目标,即利用边界框(通常用矩形框表示)标定目标,实现目标的定位与尺度估计(目标跟踪问题通常分为单目标跟踪和多目标跟踪,这里主要关注单目标跟踪问题)。视觉跟踪技术是计算机视觉领域(人工智能分支)的一个重要课题,有着重要的研究意义;且在军事制导、视频监控、机器人视觉导航、人机交互、以及医疗诊断等许多方面有着广泛的应用前景。

        单目标跟踪任务,给定初始目标的位置和尺寸,要求跟踪器持续地对目标进行定位。不同于多目标跟踪,单目标跟踪要求可以处理任意的物体,而多目标跟踪通常是固定类别的物体,如行人、车辆等。单目标跟踪算法的这种“物体不定性”,一方面,待跟踪物体包罗万象,各种奇奇怪怪的物体为该任务带来诸多挑战;另一方面,不限制目标类别,又为跟踪任务的建模和训练带来无限可能。

        视频目标跟踪中的挑战

        对于视频目标跟踪问题,主要面临的挑战表现在视频目标前背景在跟踪过程中发生的复杂变化。这些变化包括:目标消失、目标形变、 背景干扰以及目标移动等情形。上述情况往往导致 视频序列中跟踪目标所依赖的特征,如外观、形状 或背景等信息,随时间变化存在较大的不一致性, 使得跟踪器在后续视频帧中无法准确识别和跟踪目标。

(1) 目标消失:目标消失是视频目标跟踪中最 具挑战性的问题之一,主要包括在某段时间内目标 (或部分目标)被其他物体遮挡或移出相机视野范 围,当目标重新出现时如何继续跟踪目标,如图a。影响此类问题的因素主要包括遮挡范围 和遮挡时间,若目标全部被遮挡或长时间被遮挡, 往往会造成跟踪器无法有效更新,从而跟踪失败。

(2) 目标变化:目标变化是视频目标跟踪中最 常见的问题之一,主要包括目标形变,目标旋转等 情形。通常来说,非刚性物体在跟踪过程中都会发 生不同程度的形变。左侧图b显示视频中目标(运动员)在执行动作过程中随时间发生了严重的形变,长宽比例变化明显。目标旋转通常包含两方面内容,一是平面内旋转,另一类是平面外旋转。前者是指目标旋转轴垂直于目标图像所在的平面,后者则表示旋转轴与图像平面不垂直的情 形,图 b 右图展示了目标平面外旋转的例子。

(3) 背景干扰:背景干扰也是目标跟踪问题经 常出现的问题,主要表现是背景杂乱和光照变化等 情形。图 c 分别展示了目标受杂乱背景干扰和 光照严重变化的情形。如何有效地进行前背景分离,从而精确地抓取前景抑制背景也是目标跟踪的根本问题。而光照变化不仅对背景造成干扰,也使 得目标前景本身的外观特征发生一定程度的变化。 强烈的光照变化通常造成不同帧序列之间目标外观差异增大,而同一帧之内目标前背景差异减小, 从而加大跟踪的难度。

(4) 目标移动:视频目标跟踪所研究的对象主体往往是运动的目标,目标移动对目标跟踪造成的 困难主要包括目标快速运动和目标运动模糊等情 形。由于目标跟踪通常采取在目标前一帧所处位置 周围区域进行搜索的策略,因此目标快速运动可能 造成目标与前序帧位置差异较大,甚至超出搜索区域。另一方面,目标移动本身造成的运动模糊也会 造成目标前景虚化,从而影响目标特征表达。同样 的,相机移动甚至会造成整幅图像的模糊,也是影响目标跟踪效果的挑战之一。

视频目标跟踪方法

近十年来最主流的两类方法是基于相关滤波 CF (Correlation Filter) 和孪生网络 (Siamese Network) 框架的方法。相关滤波目标跟踪算法自 2010 年提出之后,由于其在跟踪精度和算法速度 取得良好的平衡性,迅速发展成为目标跟踪的主流 方法之一。基于孪生网络的目标跟踪算法相比 相关滤波方法出现较晚,开创性工作是 2016 年出 现的 SiameseFC算法。

基于相关滤波的目标跟踪方法

相关滤波理论用于目标 跟踪问题表现良好主要得益于以下两方面原因:1) CF 目标跟踪方法隐式地利用了循环平移操作对训 练样本进行扩增,从而极大丰富了训练样本的多样 性,使得算法的鲁棒性和精度提升;2)快速傅利 叶变换 FFT (Fast Fourier Transform) 使得复杂的卷 积操作在频域内加速计算,计算量降低,模型求解 效率增加。

相关滤波目标跟踪框架

目标跟踪算法的输入是一段连续的视频序列, 以及视频第一帧指定的跟踪目标(以矩形标定框 B1 的形式给出),目标跟踪算法的输出是在后续 视频 t > 1 中估计目标的位置以及大小,同样以标 定框 Bt的形式给出。相关滤波目标跟踪算法的主 要思想是,在当前帧更新相关滤波器(记作 F ), 在下一帧利用所得的 F 通过循环卷积的操作实现 目标中心点定位。考虑相关滤波 目标跟踪算法在 t - 1 到第 t 帧的算法流程。如图 所示,相关滤波视频目标跟踪算法主要包含以下 5 个步骤:

步骤 1 (搜索区域):由于相邻两帧目标移 动范围有限,利用第 t - 1 帧的跟踪结果 Bt-1,通 过适当扩大Bt−1 得到目标搜索区域,并在视频第 t 帧图像的上述搜索区域内进行目标定位搜索。

步骤 2(特征提取):用步骤 1 得到的第 t 帧 的搜索区域,对该区域内的图像进行特征提取,得 到特征图 H。

步骤 3 (目标定位):相关滤波器 F作用于 提取的特征图 H,利用公式 得到响应图 C= H ∗ F,  式中 * 为循环卷积,计算响应图C的最大值所在 位置的坐标,即可得到当前帧图像上的目标中心位 置,Bt的大小可由Bt−1 进行缩放得到。

步骤 4(滤波更新):利用当前跟踪结果,如图下半栏所示,以目标为中心点截取子图像, 类似步骤 2 提取特征图 H,然后通过最小化公式 ,求解相关滤波器  

这里 Y 是以空间中心点为最高值的 2-D 高斯分布图。上述优化问题可以利用快速傅里叶变换 (FFT)方法得到闭合解。

步骤 5(交替迭代):令 t = t + 1,返回步骤 1 进行交替迭代。在视频每一帧重复上述步骤,可以 逐帧得到滤波器以及每帧目标的位置及尺寸,完成视频目标跟踪任务。

离散傅里叶变换

假设有离散序列x,长度为N。用x^表示该离散序列的离散傅里叶变换。x^中的第m个元素可以通过下式进行计算:

数据集

评价指标

多模态目标跟踪

基于 RGB-D 视频的目标跟踪

一些研究者开始关注 基于 RGB 图像和深度图像结合的视频目标跟踪算法。如图 所示,相比于颜色信息,深度信息 可以有效地帮助视频实现前景背景分离,同时为目标遮挡判定提供有效的指导.

基于 RGB-T 视频的目标跟踪

红外图像和 RGB 图像对于视频目标跟踪来说可 以提供互补的信息,例如 RGB 图像可以提供丰富 的目标外观颜色纹理信息,但在光照变化,雨雾场 景下受到较大的影响,而红外图像往往不受此类情 形的影响,如图 所示。与深度图像视频相似, 红外图像信息往往也能帮助指导视频中目标的前 背景分离。这是因为前景目标和背景通常具有不同 的热力值. 

目标跟踪交叉领域研究

视频目标分割又可以帮助跟 踪更好地完成前背景分离,从而学习目标前景特征.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/432830.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决sortablejs+el-table表格内限制回撤和拖拽回撤失败问题

应用场景: table内同一类型可拖拽,不支持不同类型拖拽(主演可拖拽交换位置,非主演和主演不可交换位置),类型不同拖拽效果需还原,试了好几次el-table数据更新了,但是表格样式和数据不能及时保持…

ArrayList源码实现(一)

ArrayList源码实现(一) 1. ArrayList的大小是如何自动增加的? 初始化 在构造函数中,可以设定列表的初始值大小,如果没有的话默认使用,提供的静态数据 public ArrayList(int initialCapacity) {if (initi…

RabbitMQ应用

RabbitMQ 共提供了7种⼯作模式, 进⾏消息传递 一、七种模式的概述 1、Simple(简单模式) P:生产者,就是发送消息的程序 C:消费者,就是接收消息的程序 Queue:消息队列,类似⼀个邮箱, 可以缓存消息; ⽣产者…

UniApp基于xe-upload实现文件上传组件

xe-upload地址:文件选择、文件上传组件(图片,视频,文件等) - DCloud 插件市场 致敬开发者!!! 感觉好用的话,给xe-upload的作者一个好评 背景:开发中经常会有…

几个可以给pdf加密的方法,pdf加密详细教程。

几个可以给pdf加密的方法,pdf加密详细教程。在信息快速传播的今天,PDF文件已经成为重要的文档格式,被广泛应用于工作、学习和个人事务中。然而,随着数字内容的增加,数据安全和隐私保护的问题愈发凸显。无论是商业机密、…

CAT1 RTU软硬件设计开源资料分析(TCP协议+Modbus协议+GNSS定位版本 )

01 CAT1 RTU方案简介: 远程终端单元( Remote Terminal Unit,RTU),一种针对通信距离较长和工业现场环境恶劣而设计的具有模块化结构的、特殊的计算机测控单元,它将末端检测仪表和执行机构与远程控制中心相连接。 奇迹TCP RTUGNS…

OpenHarmony(鸿蒙南向)——平台驱动指南【PWM】

往期知识点记录: 鸿蒙(HarmonyOS)应用层开发(北向)知识点汇总 鸿蒙(OpenHarmony)南向开发保姆级知识点汇总~ 持续更新中…… 概述 功能简介 PWM即脉冲宽度调制(Pulse Width Modul…

Flutter中使用FFI的方式链接C/C++的so库(harmonyos)

Flutter中使用FFI的方式链接C/C库(harmonyos) FFI plugin创建和so的配置FFI插件对so库的使用 FFI plugin创建和so的配置 首先我们可以根据下面的链接生成FFI plugin插件:开发FFI plugin插件 然后在主项目中pubspec.yaml 添加插件的依赖路径&…

排序--堆排序【图文详解】

二叉树的相关概念 叶子:没有子节点的节点叫叶子节点 大根堆:所有的父亲大于儿子 小根堆:所有的儿子大于父亲 父亲于儿子的的下标关系: 父亲的下标为i ,那么左孩子的下标为2*i1,右孩子的下标为2i2 子的下…

智源研究院与百度达成战略合作 共建AI产研协同生态

2024年9月24日,北京智源人工智能研究院(简称“智源研究院”)与北京百度网讯科技有限公司(简称“百度”)正式签署战略合作协议,双方将充分发挥互补优势,在大模型等领域展开深度合作,共…

tomcat服务搭建部署ujcms网站

tomcat服务搭建部署ujcms网站 关闭selinux和防火墙 setenforce 0 && systemctl stop firewalld安装java环境 #卸载原有java8环境 yum remove java*#上传java软件包,并解压缩 tar -xf openjdk-11.0.1_linux-x64_bin.tar.gz && mv jdk-11.0.1 jdk11…

Elasticsearch讲解

1.Elasticsearch基本知识 1.基本认识和安装 Elasticsearch是由elastic公司开发的一套搜索引擎技术,它是elastic技术栈中的一部分。完整的技术栈包括: Elasticsearch:用于数据存储、计算和搜索 Logstash/Beats:用于数据收集 Kib…

【学习笔记】地平线J3J5J6E对比

内容J3J5J6ECPU 4核Cortex-A53 1.2GHz 8核Cortex-A55 1.2GHz 6核Cortex-A78AE 1.5GHz MCU/ MStar 双核锁步Cortex-MStar 2核Cortex-R52 One DCLS core pairand one Split-Lock core 1.2GHz GPU// Mail-G78AE 800MHz 100 FP32 GFLOPS BPU 2*Bernoulli-architecture 5TOPS 2…

测试部署单副本 oceanbase-3.2.4.1 企业版

由于项目需要,测试部署单副本 oceanbase-3.2.4.1 企业版 1.安装前提 准备4cpu,12G内存,100G磁盘 统为centos7.9 yum install -y yum-utils wget net-tools tree yum-config-manager --add-repo https://mirrors.aliyun.com/oceanbase/OceanBase.repo 2.创建用…

计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统 体育赛事热度预测系统 体育赛事数据分析 体育赛事可视化 体育赛事大数据 大数据毕业设计

《HadoopSpark知识图谱体育赛事推荐系统》开题报告 一、研究背景及意义 随着互联网技术的迅猛发展和大数据时代的到来,体育赛事数据的数量呈爆炸式增长。用户面对海量的体育赛事信息,常常感到信息过载,难以快速找到感兴趣的赛事内容。如何高…

C语言中的一些小知识(三)

一、你了解printf()吗? 你知道下面代码的输出结果吗? int a123; printf("%2d \n",a); printf() 函数是 C 语言中用于格式化输出的标准函数,它允许你将数据以特定的格式输出到标准输出设备(通常是屏幕)。p…

uniapp 知识点

自定义导航 在page.json navigationstyle":"custom"navigateTo传参 页面传参只能onLoad(option)里面拿 px和upx的关系 在750设计图中,1px1upx 路由 navigateBack返回上一页 重定向 其实就是把当前页面干掉了 公共组件和页面共同点 computed,watc…

vue初学随笔

Vue基础 Vue基本概念 Vue是什么 Vue是一个渐进式的JavaScript框架,它基于标准 HTML、CSS 和 JavaScript 构建,并提供了一套声明式的、组件化的编程模型,帮助你高效地开发用户界面。 渐进式:各个特性可以根据项目需要逐渐引入和…

认知杂谈84《菜鸟的自我修炼:知易行难与行难知易》

内容摘要: 理解与行动之间的差距是日常生活的常见挑战。"知易行难"体现在理解简单但执行困难,例如知道蔬菜有益但难以坚持食用。而"行难知易"则是开始时困难但后来容易的任务,如学习骑自行车。 这种差异源于心理惰性和习…

Oracle RMAN 无敌备份脚本

1 说明 上一篇文章:Oracle逻辑备份脚本,介绍了如何部署Oracle数据库的逻辑备份脚本,在数据迁移场景下十分好用,但是作为备份来说有点牵强。仅仅有逻辑备份时,当故障发生后,逻辑备份恢复只能恢复到某一时刻…