分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下

南方科技大学郑锋团队的这项研究:Track Anything ,很好的解决了 SAM 在视频领域的短板。

本月初,Meta 发布「分割一切」AI 模型(Segment Anything Model,简称 SAM),可以为任何图像或视频中的任何物体生成 mask,甚至包括没有见过的物体和图像。有人将这一研究比喻为计算机视觉领域的 GPT-3 时刻之一。

Meta 表示,「SAM 已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』即开即用,无需额外的训练。」

该模型一经发布,迅速引起计算机视觉领域的轰动,更是有人发出「CV 不存在了」这样的感慨。

然而目前 SAM 的应用主要集中在图像领域,在视频领域的应用仍然未被深入探索,尤其是对视频目标的跟踪 / 分割,仍是巨大挑战。同时,现有的跟踪模型的局限性也很明显,如,场景切换在现实视频中很常见,而现有的跟踪模型只能在单一场景下实现目标的精准定位;现有的模型要求准确的模版初始化,需要人为提供目标边界框或精准掩码,因而可用性被极大限制。

近日,南方科技大学郑锋团队提出了「跟踪一切」(Track Anything  Model ,TAM)的交互工具,其在视频中实现高性能的交互式跟踪和分割。Track Anything 是基于 SAM 的二次创作模型,适用于视频领域任意目标的跟踪任务,可以通过简单的鼠标点击实现对任意视频任意目标的像素级跟踪,实现了目标跟踪的交互性、灵活性、可用性。

9187b2f28effb95ccb9e37c40cd2778c.png

  • 论文地址:https://arxiv.org/pdf/2304.11968.pdf

  • 项目地址:https://github.com/gaomingqi/Track-Anything

  • Demo 地址:https://huggingface.co/spaces/watchtowerss/Track-Anything

Track Anything:交互式跟踪任意视频任意目标

Track Anything 效果到底如何呢?我们先从几个示例来说明。首先是多目标跟踪与分割。《清明上河图》大家早已耳闻,画中人物众多、形态各异,其间还穿插各种动作等等。想要跟踪里面的目标难度还是比较大的。下面视频显示 Track Anything 很好的跟踪了物体:

接下来考察 Track Anything 在快速运动场景下的跟踪能力。众所周知,打篮球需要动作敏捷、健步如飞…… 用 AI 技术跟踪一位篮球运动员并不容易,加之运动员动作幅度大、相互之间出现遮挡等,都加大了跟踪难度,出现错误跟踪、漏跟踪情况。但从下面展示的效果来看,即便是在瞬息万变的篮球比赛,Track Anything 跟踪效果都做的非常好:

接下来,我们在看一个示例。从下面视频中可以看到,一位身姿矫健的男生灵活的跨越众多障碍,即便人的运动速度再快、动作再复杂等,Track Anything 都能很好的处理:

由于 Track Anything 跟踪效果非常好,受到广大网友的好评。就像下面这位网友所说的:「这项研究给人一种强烈的终结者的感觉。SAM 在分割图像方面很在行,但在视频方面却不出色,而TMA仅通过少量人工输入,就能很好的实现对视频中物体的跟踪与分割。」

4ea98f19755a8a3a2a65fbbfbddd3633.gif

技术介绍

郑锋团队通过以使用者为中介的 SAM 与 VOS 模型的交互式组合,提出了 Track Anything 工具,它拥有强大的视频目标跟踪能力,并提供用户友好的操作界面,只需要简单的点击操作,就可以任意地跟踪用户感兴趣的一个或多个目标区域,还可以根据用户需求灵活调整目标对象,并自带用户纠错和视频编辑功能。其技术流程如下:

1 基于 SAM,用户通过正负样本点的选取,确定目标对象在视频中某一帧的空间区域。

2 使用用户确定的区域作为模板初始化跟踪模型。跟踪过程中,通过建立每个视频帧与模板区域之间的密集关联,实现将用户选取信息向整个视频的传递过程,从而实现目标跟踪。

3 跟踪过程中,用户可以随时暂停,同样通过正负样本选取的方式,实现对其他目标的追踪,或修正当前目标追踪的结果。

4 基于跟踪结果,用户可以使用目标擦除或视频修复功能,实现在视频中对特定区域的编辑。

bebe0b9c0150de7a689112bac51f17dd.png

总之,通过 Track Anything,使用者可以轻松地完成视频中单个或多个目标的精确标注,视频特定区域提取及编辑,以及长时 / 转场视频中的目标跟踪。

相关功能陆续上线中,欢迎大家试用!

郑锋团队不仅在视频领域研发了Track-Anything,还在图像和语言领域还推出了Caption-Anything系统。它是一个多功能的图像处理工具,结合了Segment Anything、Visual Captioning和ChatGPT在图像和语言领域的能力。项目地址:https://github.com/ttengwang/Caption-Anything/。

 转自:机器之心

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/72417.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习】分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下...

南方科技大学郑锋团队的这项研究:Track Anything ,很好的解决了 SAM 在视频领域的短板。 本月初,Meta 发布「分割一切」AI 模型(Segment Anything Model,简称 SAM),可以为任何图像或视频中的任何…

小孩上了半年小学,针对老师的评语总结,如何对症优化教育培养策略?chatGPT搜了一下,AI震惊了我

评语 班主任评语: 你是一个性格内向、聪明伶俐的男孩。平时能按时完成老师布置的作业,学习认真,成绩优良,做事认真。但有时自己的事情还不能自己完成,希望你以后可以独立起来,遇到问题多想办法&…

安卓APP源码和设计报告——体育馆预约系统

项目名称:体育馆体育场预约系统专业:班级:学号:姓名: 目 录 一、项目功能介绍3 二、项目运行环境3 1、开发环境3 2、运行环境3 3、是否需要联网3 三、项目配置文件及工程结构4 1、工程配置文件4 2、工程结构目…

波士顿人形机器人Atlas学会“跑酷”,身手超越大部分人类

最近,有外媒报道,波士顿动力公司发布了一则关于Atlas机器人“跑酷”的视频。 在视频中,机器人Atlas小跑单腿跳过障碍物,甚至面对前面的盒子,可以来个非常炫酷的“三连跳”,跳跃高度40厘米。 Atlas来个完美…

波士顿动力人形机器人会后空翻了

11月17日消息,据外媒报道,波士顿动力(BostonDynamics)开发的人形机器人Atlas本来是一个笨重的人形机器人,现在会后空翻了。 Atlas在过去的几年里进步非常大,它不仅学会了后空翻,而且变得更加轻便…

波士顿动力机器人齐秀舞姿,这是要成团出道?

2020-12-30 18:40:34 机器之心报道 作者:杜伟、魔王 距波士顿动力被韩国现代收购不到一个月的时间,这家致力于「酷炫」机器人研发的公司放出了新的视频。这次人形机器人 Atlas、机器狗 Spot 和双轮机器人 Handle 齐上阵,大秀舞姿。 波士顿动…

这10个要上天的人形机器人,哪个符合你心目中的“人设”?

原文:人工智能机器人联盟 2017-04-15 你的办公室什么时候会出现人形机器人? 人形机器人的研究起步于1960年代后期,目标是解决人形机器人的双足行走问题。从最初的“左手右手慢动作”的低级阶段到今天已经侵入军事、航天、护理、娱乐等领…

「人形机器人」赛博梦碎,资本不为想象力买单

NEW 关注剁手日记视频号 最新视频→【暮云白版DJI Pocket 2来啦】 来源|深响 文|陈文琦 据报道,今年6月底,软银在重组旗下的机器人业务(Softbank Robotics),而且在2020年8月已经停产了其最负盛名…

技术解析 | 特斯拉为什么押注人形机器人“擎天柱”?

特斯拉本次发布的人形机器人“擎天柱”采用了与特斯拉相同的完全自动驾驶系统FSD (Full Self-Driving) 以及Autopilot相关神经网络技术,通过传感器和计算机视觉,利用海量数据持续训练,动态感知周围世界,做出更佳决策。 灵活的机械…

人形机器人汇总

1 波士顿Atlas 第3版Atlas采用电源供电和液压驱动。 头上的激光雷达定位器和立体摄像机可以使Atlas规避障碍物、探测地面状况以及完成巡航任务。 波士顿动力制造的机器人,除了双足人形机器人 Atlas,还有四足机器人 Spot 和两轮人形机器人 Handle。 2 …

关于显著性检验,有你想要的!

何为显著性检验? 显著性检验(significance test)作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。在统计学中,显著性检验是“统计假设检验”(Statistical hypothesis testing&#xff09…

显著性测试(Friedman test, Post-hoc Nimenyi test以及可视化)

: 目标: 1 了解Friedman test的基本原理以及使用实践; 2 了解Post-hoc Nimenyi test 的基本原理以及使用实践,包括结果的可视化。 Friedman test 作用: 简单来说, Friedman test就是一种基于排序的统计方法用来比较…

显著性检测的四种经典方法

最近闲来蛋痛,看了一些显著性检测的文章,只是简单的看看,并没有深入的研究,以下将研究的一些收获和经验共享。 先从最简单的最容易实现的算法说起吧: 1、 LC算法 参考论文:Visual Attention Detection in…

Stata实证:一键显著代码免费教程

目录 一、写在前面 二、使用Python生成可变变量组合 三、Stata代码 四、更进一步-寻找中介效应的控制变量 一、写在前面 !!!!!…

显著性分析

选择图 为什么要分Non-parametric & parametric 方法 为了找到更符合数据的分析方法。每个方法有自己的假设&#xff0c;如果违背了结果会不精准。 Sign Test 是一个可以用于任何数据分布情况的pairwise 方法。 检查normality: Sample 数量 < 50,适用 Shapiro-Wilk&am…

显著性检测综述(完整整理)

转载请附链接&#xff0c;注明出处。 显著性对象检测综述 参考&#xff1a;http://mmcheng.net/zh/paperreading/ 一、 程明明等人的论文&#xff1a;Salient Object Detection: A Surve&#xff08;简单归纳了文章中的我认为比较重要的部分&#xff09; 该论文旨在全面…

显著性检测数据集—学习笔记

文章目录 DUT-OMRONDUTSHKU-ISECSSD/CSSDSODPASCAL-S参考资料 DUT-OMRON 数据集包含5168张图像&#xff0c;最大边长为400像素&#xff0c;数据集中具有一个或多个显著对象和相对复杂的背景&#xff0c;具有眼睛固定、边界框和像素方面的大规模真实标注的数据集。 论文: C. Ya…

【计算机网络】计算机网络基础知识总结(秋招篇)

文章目录 前言计算机网络笔记TCP和UDP分别是什么 有什么区别基于TCP UDP这两个协议的上层协议有哪些&#xff1f;TCP和UDP分别在哪些领域被用的多&#xff1f;TCP实现可靠性传输用了哪些技术&#xff1f;&#xff08;TCP如何实现可靠性传输&#xff09;讲一下超时重传和超时定时…

汤家凤高等数学基础手写笔记-导数与微分

越来越发现&#xff0c;下层基础决定上层建筑。除了考试&#xff0c;在研究中&#xff0c;我们能够用到的就是理论体系的知识&#xff0c;而不是会做题目的多少。做题目的目的在于加深对基础理论的理解。 本系列笔记汇总之处&#xff1a;汤家凤高等数学基础课2020年基础笔记概…