【Da-SimaRPN】《Distractor-aware Siamese Networks for Visual Object Tracking》

在这里插入图片描述

ECCV-2018

中科大


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
    • 4.1 Features and Drawbacks in Traditional Siamese Networks
    • 4.2 Distractor-aware Training
    • 4.3 Distractor-aware Incremental Learning
    • 4.4 DaSiamRPN for Long-term Tracking
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 State-of-the-art Comparisons on VOT Datasets
    • 5.3 State-of-the-art Comparisons on UAV Datasets
    • 5.4 State-of-the-Art Comparisons on OTB Datasets
    • 5.5 Ablation Analyses
  • 6 Conclusion(own) / Future work


1 Background and Motivation

单目标跟踪的难点:occlusions, out-of-view, deformation, background cluttering and other variations

Siamese tracking approaches can only discriminate foreground from the non-semantic backgrounds,缺点如下

  • 背景复杂时效果可能翻车
  • 往往失去了 on-line 更新模型的机制
  • 长期跟踪的时候,full occlusion and out-of-view challenges 场景可能处理的不好

作者聚焦 accurate and long-term tracking,提出 Distractor-aware Siamese Networks,在离线训练阶段引入了 effective sampling strategy,推理阶段提出 distractor-aware module,效果显著

2 Related Work

  • Siamese Networks based Tracking
  • Features for Tracking
  • Long-term Tracking

3 Advantages / Contributions

  • 发现 imbalance of the non-semantic background and semantic distractor in the training data is the main obstacle for the learning.
  • 提出 Distractor-aware Siamese Region Proposal Networks (DaSiamRPN),训练的时候 to learn distractor-aware features,推理的时候 online tracking explicitly suppress distractors
  • 推理阶段提出 local-to-global search region strategy,提升 long-term 跟踪效果明显

4 Method

4.1 Features and Drawbacks in Traditional Siamese Networks

在这里插入图片描述
用的是 metric learning

Metric Learning,也称为距离度量学习或相似度学习,旨在学习一个能够捕捉数据高层语义信息的距离函数。这个函数通常被称为嵌入函数(Embedding Function),用于将数据映射到一个新的空间,使得在该空间中,相似样本之间的距离较小,而不同样本之间的距离较大。

训练的时候 non-semantic background occupies the majority

导致很难区分比较复杂的背景

图 1 展现的淋漓尽致

4.2 Distractor-aware Training

数据抽样方式

在这里插入图片描述

1)Diverse categories of positive pairs can promote the generalization ability

引入了 ImageNet Detection and COCO Detection 目标检测的数据集,丰富了正样本的类别,如图2(a)所示

2)Semantic negative pairs can improve the discriminative ability

负样本不仅来自于同类别,也引入了不同类别的负样本,如图2(b)和(c)

同类别的负样本可以让网络 focused on fine-grained representation

3)Customizing effective data augmentation for visual tracking

除了常规的 translation(12 pixels), scale variations(0.85 to 1.15) and illumination changes,

还引入了 motion blur 数据增强方法

25% of the pairs are converted to grayscale

4.3 Distractor-aware Incremental Learning

增量学习

增量学习(Incremental Learning)指的是一个学习系统能够不断地从新样本中学习新的知识,并能在这一过程中保存大部分以前已经学习到的知识。

在这里插入图片描述

通用的方法是用 cosine window to suppress the distractors(越近分值惩罚越低,越远越高), not guaranteed when the motion of objects are messy

作者 propose a distractor-aware module to effectively transfer the general representation to the video domain

(video domain 没有太明白指的是什么)

下面看看作者的具体增量学习方法——distractor-aware module

孪生跟踪器学习的是 similarity metric f ( z , x ) f(z,x) f(z,x),基础知识可以参考

  • 【SiamFC】《Fully-Convolutional Siamese Networks for Object Tracking》
  • 【SiamRPN】《High Performance Visual Tracking With Siamese Region Proposal Network》

在这里插入图片描述

作者在这个的基础上引入 hard negative samples (distractors)

17 ∗ 17 ∗ 5 proposals in each frame,用 NMS 筛选出 potential distractors d i d_i di in each frames,筛选的方式如下

在这里插入图片描述
h h h is the predefined threshold

z t z_t zt is the selected target in frame t t t,得分最高的 proposal 选为 z t z_t zt

the number of this set ∣ D ∣ = n |D| = n D=n

总结一下,就是和模板 z z z 相关后得分高于阈值 h h h 的 proposal 会被选定留下来作为 potential distractors

接下来 re-rank the proposals P P P which have top-k similarities with the exemplar——从 potential distractors 中挑出得分最高的 k k k 个 proposal ( p k p_k pk)进行后续操作

在这里插入图片描述

weight factor α ^ = 0.5 \hat{\alpha} = 0.5 α^=0.5

weight factor α i = 1 \alpha_i = 1 αi=1 can be viewed as the dual variables with sparse regularization

对偶变量是指在对偶线性规划问题中的变量,用于衡量资源或条件的价值。
它表示第i种资源每增加一单位对目标函数的贡献。

d i d_i di 需遍历 n n n 个 proposals

p k p_k pk 需遍历 k k k 个 proposals

使得分最高的 k 个 proposals p k p_k pk(除了得分最高的 z t z_t zt,可能就是目标 x 本身)和其他 NMS 后的 proposals 的相似度尽可能低——拉开前景和背景的差距,可以这么理解吧

exemplars and distractors can be viewed as positive and negative samples in correlation filters

作者对上述公式进行加速

在这里插入图片描述

it enables the tracker run in the comparable speed in comparisons with SiamRPN

引入学习率 β = ∑ i = 0 t − 1 ( η 1 − η ) i \beta = \sum_{i=0}^{t-1}(\frac{\eta}{1- \eta })^{i} β=i=0t1(1ηη)i η = 0.01 \eta=0.01 η=0.01

在这里插入图片描述

这就是优化目标,替代了上面的
在这里插入图片描述

训练的时候优化,推理的时候 online tracking

4.4 DaSiamRPN for Long-term Tracking

severe out-of-view and full occlusion introduce extra challenges in long-term tracking

作者引入了 a simple yet effective local-to-global search region strategy

在这里插入图片描述
目标丢失后,DaSiamRPN 的 score 明显降低了(红色曲线),这个应该是学习的网络更好导致的,和这个测试时候才使用的策略没有关系

目标丢失时,DaSiamRPN 搜索范围会增大——iterative local-to-global search strategy

以便捕捉到在常规搜索范围之外出现的目标

5 Experiments

5.1 Datasets and Metrics

数据集

  • VOT2015

  • VOT2016

  • VOT2017

  • UAV20L with 20 long-term videos

  • UAV123 with 123 videos

  • OTB2015

评价方式

  • accuracy (A)

  • robustness ®

  • expected average overlap (EAO)

  • OP: mean overlap precision at the threshold of 0.5;

  • DP: mean distance precision of 20 pixels;

  • Success and precision plots

5.2 State-of-the-art Comparisons on VOT Datasets

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

领先的很明显

5.3 State-of-the-art Comparisons on UAV Datasets

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
long-term tracking dataset can be attributed to the distractor-aware features and local-to-global search strategy.

5.4 State-of-the-Art Comparisons on OTB Datasets

All the trackers are initialized with the ground-truth object state in the first frame

在这里插入图片描述

5.5 Ablation Analyses

在这里插入图片描述

消融的实验很好的体现了本文提出的方法的提升点

6 Conclusion(own) / Future work

  • 核心提升,the distractor-aware features and local-to-global search strategy.(本博客 4.3 小节和 4.4 小节)

  • 作者写的博客ECCV视觉目标跟踪之DaSiamRPN
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/349328.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT办公与科研应用、论文撰写、数据分析、机器学习、深度学习及AI绘图高级应用

原文链接:GPT办公与科研应用、论文撰写、数据分析、机器学习、深度学习及AI绘图高级应用https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247606667&idx3&sn2c5be84dfcd62d748f77b10a731d809d&chksmfa82606ccdf5e97ad1a2a86662c75794033d8e2e…

基于Pytorch实现AI写藏头诗

网上你找了一圈发现开源的代码不是付费订阅就是代码有问题,基于Pytorch实现AI写藏头诗看我这篇就够了。 用到的工具:华为云ModelArts平台的notebook/Pycharm/Vscode都行。 镜像:pytorch1.8-cuda10.2-cudnn7-ubuntu18.04,有GPU优先使用GPU资源。 实验背景 在短时测试使用场…

字符串及其应用

内容 编写程序实现字符串的基本运算&#xff1a; (1) 求串的长度、两串连接、串比较、子串匹配&#xff1b; (2) 用库函数直接实现上一步的字符申操作 完整代码 #include <iostream> #include <stdio.h> #include<string.h> using namespace std; #define M…

ASUS华硕ROG幻14Air笔记本GA403UI(UI UV UU UJ)工厂模式原厂Windows11系统安装包,带MyASUS in WinRE重置还原

适用型号&#xff1a;GA403UI、GA403UV、GA403UU、GA403UJ 链接&#xff1a;https://pan.baidu.com/s/1tz8PZbYKakfvUoXafQPLIg?pwd1mtc 提取码&#xff1a;1mtc 华硕原装WIN11系统工厂包带有ASUS RECOVERY恢复功能、自带面部识别,声卡,显卡,网卡,蓝牙等所有驱动、出厂主题…

pdf格式转成jpg图片,pdf格式如何转jpg

pdf转图片的方法&#xff0c;对于许多人来说可能是一个稍显陌生的操作。然而&#xff0c;在日常生活和工作中&#xff0c;我们有时确实需要将pdf文件转换为图片格式&#xff0c;以便于在特定的场合或平台上进行分享、展示或编辑。以下&#xff0c;我们将详细介绍一个pdf转成图片…

博客摘录「 AXI三种接口及DMA DDR XDMA介绍(应用于vivado中的ip调用)」2024年6月10日

关键要点&#xff1a; 1.AXI Stream经过协议转换可使用AXI_FULL&#xff08;PS与PL间的接口&#xff0c;如GP、HP和ACP&#xff09;。 2.传输数据类里就涉及一个握手协议&#xff0c;即在主从双方数据通信前&#xff0c;有一个握手的过程。基本内容&#xff1a;数据的传输源会…

探索Jetpack Compose中的高效导航库:Voyager项目

探索Jetpack Compose中的高效导航库&#xff1a;Voyager项目 在Jetpack Compose中实现高效、可扩展的导航是每个开发者的追求。Voyager作为一个多平台导航库&#xff0c;不仅与Jetpack Compose无缝集成&#xff0c;还提供了一套务实的API&#xff0c;帮助开发者创建单活动应用…

数据分析常用6种分析思路(下)

作为一名数据分析师&#xff0c;你又没有发现&#xff0c;自己经常碰到一些棘手的问题就没有思路&#xff0c;甚至怀疑自己究竟有没有好好学过分析&#xff1f; 在上篇文章里&#xff0c;我们讲到了数据分析中的流程、分类、对比三大块&#xff0c;今天&#xff0c;我们继续讲…

哈喽GPT-4o——对GPT-4o Prompt的思考与看法

目录 一、提示词二、提示词的优势1、提升理解能力2、增强专注力3、提高效率 三、什么样的算无效提示词&#xff1f;1、过于宽泛2、含糊不清3、太过复杂4、没有具体上下文5、缺乏明确目标6、过于开放7、使用专业术语但未定义8、缺乏相关性&#xff1a; 四、提示词正确的编写步骤…

Linux2-系统自有服务防火墙与计划任务

一、什么是防火墙 防火墙主要用于防范网络攻击&#xff0c;防火墙一般分为软件防火墙、硬件防火墙 1、Windows中的防护墙设置 2、防火墙的作用 3、Linux中的防火墙分类 Centos6、Centos6>防火墙>iptables防火墙 防火墙系统管理工具 Centos7>防火墙>firewalld防火…

【踩坑】修复Ubuntu远程桌面忽然无法Ctrl C/V复制粘贴及黑屏

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你&#xff0c;欢迎[点赞、收藏、关注]哦~ 说在前面&#xff1a; 需要注意的是&#xff0c;我发现他应该是新开了一个窗口给我。我之前打开的东西&#xff0c;在这个新窗口里都没有了&#xff0c…

长亭培训加复习安全产品类别

下面这个很重要参加hw时要问你用的安全产品就有这个 检测类型产品 偏审计 安全防御类型 EDR类似于杀毒软件 安全评估 任何东西都要经过这个机械勘察才能上线 安全管理平台 比较杂 比较集成 审计 漏扫 评估 合在这一个平台 也有可能只是管理 主机理解为一个电脑 安了终端插件…

五、特征缩放和多项式回归

目录 一、为什么要使用特征缩放(Feature Scaling) 1.首先来看预测房价的例子 2.特征缩放前后效果对比 二、特征缩放方法 1.统一除以范围最大值 2.均值归一化(Mean Normalization) 3.Z-score标准化(Z-score Normalization) 4.一些可以接受/不接受的缩放范围 三、如何识别…

C# WPF入门学习主线篇(三十四)—— 图形和动画

C# WPF入门学习主线篇&#xff08;三十四&#xff09;—— 图形和动画 图形和动画是WPF的重要组成部分&#xff0c;能够大幅提升应用程序的用户体验。本篇博客将详细介绍WPF中图形和动画的使用方法&#xff0c;涵盖基本图形绘制、动画创建及多媒体的应用。通过本文&#xff0c;…

爆肝三天,制作属于自己的地图——DAY3(地图数据发布详细教程)

4&#xff0c;重建顶层。 倾斜摄影数据的组织方式&#xff0c;一个 Data 目录下的 Tile 可能会成千上万&#xff0c;如果不使用重建顶层&#xff0c;那么输出的3DTiles的包围盒会非常非常多&#xff0c;增加加载时长。重建顶层&#xff0c;程序会根据瓦片的空间结构关系采用八…

一文理清sshc包的使用场景和掌握两种连接方式及异常场景

一文理清sshc、ssh包的使用场景和两种连接方式 SSH协议SSH&#xff08;Secure Shell&#xff09;协议支持通过多种编程语言实现客户端和服务端的功能&#xff0c;包括Go、Python、Java、C#等。 GO语言 sshc包的使用建立连接1.DialWithKey2.DialWithPasswd 运行命令异常场景思维…

Git+Gitlab 远程库测试学习

Git远程仓库 1、Git远程仓库 何搭建Git远程仓库呢&#xff1f;我们可以借助互联网上提供的一些代码托管服务来实现 Gitee 码云是国内的一个代码托管平台&#xff0c;由于服务器在国内&#xff0c;所以相比于GitHub&#xff0c;码云速度会更快 码云 Gitee - 基于 Git 的代码托…

Mathtype插入word,以及mathtype在word上的卸载

1.Mathtype插入word 花了两个小时&#xff0c;最终得出的极品简单的安装方法&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; mathype下载地址&#xff1a;https://store.wiris.com/zh/products/mathtype/download/windows 下载完傻瓜式安装&#xff0c;不要…

集成学习模型对比优化—银行业务

1.Data Understanding 2.Data Exploration 3.Data Preparation 4.Training Models 5.Optimization Model 集成学习模型对比优化—银行业务 1.Data Understanding import pandas as pd from matplotlib import pyplot as plt import seaborn as sns df pd.read_csv(&quo…

如何通过 6 种方法从 iPhone 恢复已删除的文件

想知道如何从 iPhone 恢复已删除的文件吗&#xff1f;本文将指导您如何从 iPhone 恢复数据&#xff0c;无论您是否有 iTunes/iCloud 备份。 iPhone 上已删除的文件去哪儿了&#xff1f; 许多 iPhone 用户抱怨他们经常丢失 iPhone 上的一些重要文件。由于意外删除、iOS 更新失败…