详细分析DaSiamRPN,快速把握论文要点,不会请砍我!

文章目录

    • 整体把握
    • 训练集修改的创新点
      • 出发点
      • 修改

论文代码:https://github.com/foolwood/DaSiamRPN
论文题目:Distractor-aware Siamese Networks for Visual Object Tracking

整体把握

本篇论文赢得了vot2018短时跟踪比赛的冠军,长时跟踪比赛的第二名,比较值得研读,尤其要注意其中对于训练数据集的修改思想,值得借鉴。
这篇论文的核心内容在于:

  1. 通过对训练样本集的改善,从而达到提高跟踪器精度的目的。(主要)
  2. 提出了一种新的选取跟踪候选框的方法,即以前是通过余弦窗惩罚等惩罚选择得分最大的候选框作为跟踪框,现在是新建了一个可识别干扰的函数来挑选跟踪候选框。
  3. 提出了一种从局部到全局的搜索策略,这种策略主要应用在长时跟踪里面。策略的内容为当目标被遮挡时,搜索范围相应的扩大。

上述中的第2、3步并没有在代码中出现,作者给出的理由是如果加上了这些策略明显的跟踪速度会大大降低。其实我认为可能这项技术不成熟(狗头)。

训练集修改的创新点

出发点

  1. 训练数据集的质量越高,跟踪器的性能越好。
  2. 训练样本不均衡,尤其在语义信息(跟踪目标信息)、语义背景(非跟踪目标的物体信息)和非语义背景(非跟踪目标的背景信息)之间。消除样本不均衡,可以提高跟踪器的泛化能力。

修改

数据集的修改一共有三点:

  1. 正对的多样性会提高跟踪器的泛化能力

    1. 目前经常采用训练数据集一般都是从一个视频中的不同帧进行标注的,这样就会导致训练类别非常少,如VID 为20个类别,YouTube-BB为30个类别。那么若果跟踪器跟踪的目标是一种训练集没有出现的物体,跟踪的效果就会很差。
    2. 基于上述理由,作者提出了增加训练样本的多样性,从而提高跟踪器的泛化能力。
    3. 如果是重新标注的话,需要耗费大量的时间精力,于是作者将关注点转移到了目标检测领域的ImageNet和COCO检测数据集,这些数据集的种类繁多,符合训练样本多样性的要求。
    4. 由于我们的主体跟踪器是SiamRPN,它对于训练样本的要求为是一对图像对。于是,作者利用图像增强技术(平移,调整大小等)将静态图片转换成一对图像对后进行训练。
    5. 上述操作后,训练样本的数量大大增强,提高了跟踪器的判别能力和回归准确性。
  2. 语义否定对可以提高判别能力

    1. 语义否定对的含义:顾名思义,就是一对由非跟踪目标的物体组成的训练图片对。在这里插入图片描述
      如上图所示,如果滑板女孩是跟踪目标,那么图片中出现的老人和连衣裙女孩就是非跟踪的物体。
    2. 论文中提出了两个不均衡的观点印证语义否定对的出现的必要性:
      1. 目前的训练样本中背景占了很大的比重,导致了大多数的负样本都是非语义的(非物体),这就造成了语义对象之间的损失被大量容易否定的东西压倒。也就是跟踪器前景和背景的训练样本所占的比重过大而忽略了跟踪对象与非跟踪对象的训练样本,从而导致样本不均衡。
      2. 训练样本处理非跟踪对象的方法,是作为硬负性样本。本来跟踪对象与非跟踪对象训练样本占的分量就很小,如果只是固定的挑选负分数最高的几个非跟踪对象进行训练,进一步减少了跟踪对象与非跟踪对象的训练样本,加剧了样本不均衡。
    3. 针对上述出现的跟踪对象和非跟踪对象的训练样本过少的情况,添加其样本,也就是添加语义否定对。
    4. 添加语义否定对的本质是添加非跟踪对象的种类,分为添加非跟踪对象的相同种类和非跟踪对象的不同种类。
      1. 相同种类:添加相同种类,与跟踪目标组成多对语义否定对,增强跟踪器判别能力和泛化能力,更加精确。
      2. 不同种类:添加不同种类,是为了防止在跟踪过程中漂移到其他对象,如遮挡。
  3. 自定义有效的数据增强以进行视觉跟踪

    1. 作者提出了一种新的增强技术,称为运动模糊。
    2. 作者观察到运动模式可以通过网络中的浅层轻松建模,于是在数据扩充中明确引入了运动模糊。

对于数据集的修改是我认为这篇论文最主要的东西,剩下的搜索策略就是我上述提到的意思,至于新的选取跟踪候选框的方法作者其实没有用到,说明这种方法还不成熟,不建议大家去学。当然对自己高要求的同学,可以自己亲自去查看一下论文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/62297.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

应用统计432考研复试提问总结精简版【二】

一、自由度是什么? 定义:构成样本统计量的独立的样本观测值的数目解释:从书中所给的平均数的角度进行 二、讲一下对t检验的理解? t检验适用于两个变量均数间的差异检验。同时用t检验的前提下:正态性和方差齐性。t检…

本科论文常见答辩问题整理

这里写目录标题 专业性问题你系统的整体设计是怎么样?用了什么技术?这些技术应用的好处是什么?框架,SSM,SSH这些有什么优势。前端,前端用了什么;你数据库整体的设计是怎么样的,某个表…

iPhone苹果下载skype for business和skype有什么区别?苹果iPhone手机iOS系统如何下载Skype到iPhone苹果手机?

skype for business和skype有什么区别? 在国内iPhone苹果手机App Store上搜索:Skype,找不到真证的Skype,只能找到skype for business(以前称为Lync 2013); 而skype for business却不是一部分人…

1. 区块链项目开发常见错误-1-npm ERR! missing script: start

本节主要讨论在通过npm start 时,出现“npm ERR! missing script: start“错误 出现这个错误的常见原因是 在package.json中没有配置start 在通过truffle创建项目时,可以通过 1. truffle unbox webpack 通过这种方式创建的项目package.json的结构如下…

反编译微信小程序(支持分包)

手机端 小程序源文件具体本地目录: /data/data/com.tencent.mm/MicroMsg/018fd*****/appbrand/pkg/ 找到对应的包发送到电脑(如发送不了,压缩即可) 电脑端 环境:win7、10Node.js反编译脚本 1.下载反编译脚本并安装依赖 在反编译脚本目录…

反编译微信小程序工具之抓取小程序图片素材详细教程

一、关于软件 说明:本工具仅限学习使用,禁止使用此方法盗取他人的开发成果。由于经常反编译小程序,都是通过命令操作完成,步骤比较繁琐,故本人只好利用空闲时间对其进行小幅度修改,水平有限,经…

如何扒微信小程序源码

一.使用模拟器找到小程序.wxapkg文件(雷电模拟器为例或者夜神模拟器) 1.1在雷电模拟器中安装微信和文件管理器(RE管理器) 1.2登陆微信打开一个小程序 1.3在RE资源管理器找到小程序.wxapkg文件路径为/data/data/com.tencent.mm/Mi…

PC端使用微信小程序反编译工具的问题记录

PC端小程序路径:D: \用户\文档\WeChat Files\Applet\wx378xxxxxxxxxxxx0 通过查看修改日期确认自己要用到的小程序。 打开过的小程序建议移除掉之后重新添加小程序,小程序包回自动下载到目录下,这个时候把这个包复制出来进行反编译即可&…

VX小程序反编译

小程序反编译是是小程序测试必不可少的部分,接下来就让我们探讨其中一种反编译方式吧,以下纯属小分享,谢谢!!! 相关工具及链接: 链接:https://pan.baidu.com/s/1wutUCKbwrU-URD_RF…

微信小程序 - 实现简单登录和个人信息页面

接上节简单介绍完wxml,这节实际运用小程序的wxml来实现一套简单登录和个人信息展示。 微信个人信息获取接口已变更,请转移查看官方获取接口,本文仅作参考。小程序登录、用户信息相关接口调整说明 登录页面 创建好项目后,在page…

分享一款实用脑电分析软件,模拟非侵入性脑刺激

SimNIBS是用于模拟非侵入性脑刺激的软件。它允许对经颅磁刺激(TMS)和经颅直流电刺激(tDCS)诱导的电场进行实际计算。https://simnibs.drcmr.dk/ Gmsh是一个具有内置CAD引擎和后置处理器的三维有限元网格生成器.它的设计目标是提供…

开源免费的脑电/脑磁图数据分析软件汇总

常用的MEG/EEG工具包 MNE-python: http://mne.tools 基于python开发的开源软件包,用于探索,可视化和分析诸如MEG,EEG,sEEG,ECoG等人类神经生理学数据。它包括用于数据输入/输出,预处理,可视化&a…

NeuroImage:通信辅助技术削弱了脑间同步?看来维系情感还得面对面互动才行...

导读 向通信辅助技术的转变已经渗透到人类社会生活的各个方面。然而,它对社会脑的影响仍然是未知的,其影响可能在发育过渡期特别强烈。本研究采用双脑视角,并利用超扫描EEG测量了62对母子(儿童年龄:M12.26,范围10-14&…

运动想象,脑电情绪等公开数据集汇总

点击上面"脑机接口社区"关注我们 更多技术干货第一时间送达 运动想像数据 Left/Right Hand MI: http://gigadb.org/dataset/100295 Motor Movement/Imagery Dataset: https://www.physionet.org/physiobank/database/eegmmidb/ Grasp and Lift EEG Challenge: htt…

顶刊TPAMI 2023!解码大脑信号语义,中科院研发脑-图-文多模态学习模型

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【Transformer】微信技术交流群 转载自:机器之心 近日,中国科学院自动化研究所的研究人员杜长德等人开发了一种「脑 - 图 - 文 」多模态学习模型&…

数据分析实战<一>脑电(EEG)分析

这两天需要对预实验的脑电进行一个分类,在这里记录一下流程 脑电分析系列文章 mne官网 mne教程 随机森林分类 Python 多因素方差分析 文章目录 1. 脑电数据的处理1.1 基本概念1.2 实际处理1.3 全部代码 2. 随机森林分类1. label的制作2. 使用随机森林进行分类3. 全部…

TensorRT量化第一课:量化的定义及意义

目录 模型量化原理前言1. What、Why and How1.1 What1.2 Why1.3 How 2. 拓展-export参数详解3.总结参考 模型量化原理 前言 手写AI推出的全新TensorRT模型量化课程,链接。记录下个人学习笔记,仅供自己参考。 本次课程为第一课,主要讲解量化的…

TensorRT量化第三课:动态范围的常用计算方法

目录 模型量化原理注意事项一、2023/4/11更新二、2023/4/13更新三、2023/4/16更新四、2023/4/24更新前言1.前情回顾2.动态范围的常用计算方法3.Histogram3.1 定义3.2 histogram实现3.3 思考3.4 拓展 4.Entropy4.1 定义4.2 示例代码4.3 流程实现4.4 思考4.5 实际应用4.6 TRT Ent…

当下流行的ChatGPT与百度的文心一言谁才是AI的霸主

ChatGPT和百度的文心一言是两种不同的自然语言处理(NLP)AI技术,它们具有相似的功能和特点,但有着很大的差异和各自的优势。ChatGPT是OpenAI团队开发的基于Transformer框架的大规模语言模型,是从大量自然语言数据中训练…

游戏本地化项目简介

节选自《翻译与本地化项目管理》,:凯瑞J.邓恩、埃琳娜S.邓恩 一个典型而完整的多平台游戏本地化项目涉及了文本的翻译、翻译与本地化项目管理音频的修改或再创作、完成本地化之后游戏内容的整合、质量保证、交付厂家和项目行政管理。 翻译是游戏本地化的中心任务。游…