SAM(Segment Anything Model)让CV走到尽头?学CV的研究生还能正常毕业吗?怎么使用SAM?

SAM(Segment Anything Model)让CV走到尽头?学CV的研究生还能正常毕业吗?怎么使用SAM?

1. 引言

最近无论是在B站、知乎还是论坛、微博,都看了一些有关SAM的讨论。这个号称“CV界ChatGPT”的模型从出生起就备受各界关注。ChatGPT的开放使用一方面让大众深切体会到了顶尖团队的人工智能与“某某同学”、“小某小某”等“人工智障”的区别,另一方面也让公众对AI融入生活的期待值空前高涨。SAM恰巧诞生在这个CV界也正在寻求突破的时机,自然从出生起就伴随着争议。首先必须明确我的两个个人观点:

  • SAM强吗?——强,很强。无论是否诞生在这个时机,SAM本身的价值都是毋庸置疑的。

  • SAM会让CV走到尽头吗?学CV的研究生还能正常毕业吗?——SAM绝不会让CV走到尽头,学CV的研究生一样具有很多可能性。

2. SAM到底是什么

SAM是Facebook AI Research开发的一种计算机视觉模型。实现的功能是计CV中最常见的需求之一——分割(Segment)。分割的本质是:判断图像中的某个像素属于哪一个具体的对象。

在较新版本的PS中,已经引入了一些图像分割的应用,例如“选择主体”功能。

PS选择主体

PS可以轻松地选中图中的两条狗,但是当我放大图片尝试选择木棍时,PS显得有些乏力。

事实上,在具体的细分领域中,完成同SAM相同效果的图像分割是工程中最基础的任务之一。而SAM之所以产生了如此大的影响力,是因为SAM实现了不需要任何标注就可以完成(几乎)所有目标的分割。这也是模型的名字叫做Segment ANYTHING Model的原因。

SAM官方提供了Demo测试,演示了其强大的分割功能。我做了加个简单的测试,直接上图。

首先点击了模特的脸部,SAM分割出了男模特,精度整体可以接受。再右击男模特的身体部分(右击表示该像素点不在需要的目标内),SAM随即只选择了模特的头部。

除了基础的Segment之外,SAM的Demo还提供了一些进阶的功能。包括框选范围选择(BOX)、自动分割整张图片(EVERYTHOING)的模式,在官方提供的数据中都能达到不错的效果。再上图。

Box

EveryThing


分割线以上都是我使用官方提供的图片做的测试。SAM在一些偏激的使用场景下会有怎样的表现呢?我使用一张自己的图片做了测试。

自己的数据

图片是我之前做过的一个试验,图像中有一条亮度较高的激光线,以及若干条鱼。SAM的识别能力明显弱于在其官方数据中的表现。尤其是在边缘的识别上。点选的方式选中像素时,需要经过2-3次的调整,才能选中亮度较低的目标。使用Every Thing模式时,目标的边缘出现了较大的偏差。当然,这里所谓的”偏差“是跟”标准答案作对比的,客观地说,没有经过任何标签,能够做到这种精度的分割已经很了不起了。我同时简单标注了一些图片,使用Yolov7-segmentation标注,使用默认参数训练300 Epoch的效果与SAM零标签的效果类似。

yolov7segment

所以,SAM是一个强大的图像分割模型,能够在不进一步标注任何数据的情况下完成各种目标的分割。功能的实现除了归功于结构外,也无法忽视大数据发挥的重要作用,大力出奇迹在DL中格外适用。

PS:因为各种原因无法使用官方网站Demo的,也可以从github下载源码和模型,在本地跑测试。有需要的话我可以上传到度盘供下载。

3. 讨论:SAM真的会引发CV的巨变吗?

一些自媒体说SAM是CV界的ChatGPT,那就先让ChatGPT来回答一下这个问题吧:

每当一个新技术被提出时,总是会有一些人赶着热度唱衰整个行业。其实,SAM的出现只会将CV向前推进一步,而远不会使CV走到尽头。无论对从业者还是研究生,SAM带来的机遇都会大于挑战。

对于从业者来说:

  • SAM将Engineering的开箱即用做到了极致,SAM的生产力工具属性远远超过了其潜在的危险属性。在SAM问世之前,对于中下游的从业者来说,完成一个几乎没有学术意义的分割任务至少需要:1. 大量的图像标注工作 2. 算力说得过去的机器。而在SAM问世之后,几乎可以以零标注甚至是零代码的方式实现最基础的分割任务。

  • 可能会带来工作岗位的流失?一个真正伟大的扩时代的技术(且不论SAM有没有达到这个高度),带来的一定的工作岗位的增加,至少也该是更多应用的落地。SAM缩小了大厂、小厂之间的差距,让数据、算力都无法与大厂相比的中小型企业也有了站上CV顶端的可能性。只要思维够开阔,SAM可以带来很多便利。

对于CV研究生来说:CV很卷是事实,有一些人开始跑路也是事实。但是如果因为听信了一些自媒体鼓吹的SAM使CV走到了尽头,CV的研究生将无法毕业,那实在是过于悲观了。

  • 虽然SAM的作者们在朝着Segment Everything 的方向努力,但是真正的Segment Everything时代还没有来临(即使来临了,CV也不会走到尽头)。这是因为CV语义几乎可以无限细分,一些特定领域的分割语义是罕见、冷门甚至是自定义的。这些语义之间的逻辑关系错综复杂,目前的环境下很难通过一张图片来分割出所谓的Everything。

  • CV具有语义稀疏性、域间差异性和无限粒度性等天然的难题。例如,当前的图像识别、分割研究存在的一个问题是,当识别的粒度增加时,识别的确定性必然下降,也就是说,粒度和确定性是冲突的。举例说,在ImageNet中,存在着“家具”和“电器”两个大类;显然“椅子”属于“家具”,而“电视机”属于“家电”,但是“按摩椅”属于“家具”还是“家电”,就很难判断——这就是语义粒度的增加引发的确定性的下降。这还仅仅是继续针对分割而言的,即使今天Meta已经将分割做到了无懈可击,CV也不至于走到了尽头。

  • 不指望在任何分支领域做出突破,只想安安心心混个毕业?那SAM是否问世就更没有关系了。趁着SAM的热度还在,蹭一波热度应用到自己的领域中发几篇文章他不香吗?

4. SAM还能怎么用?

  • 与自动标签工具结合。SAM强大的分割功能最先让人想到打标签时的窒息。将SAM与标签工具结合,可以大大提高生产力。我已经在github上看到一些类似思路的工具,不过还没有试用,有需要可以自行检索。如果能够加上团队协作的功能就更完美了~。
  • 与AI绘画结合。前段时间很火的Stable Diffusion可以跟SAM做一个比较好的融合,尤其是在重绘功能的绘制蒙版时,可以进一步提高自动化的程度。
  • 给Idol换件衣服是不是也不错哈哈哈,这也是基于SAM的一个开源库,叫做Grounded-Segment-Anything

更多用法欢迎交流~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/60290.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4变笨实锤!3个月性能暴减1/10,代码生成大不如前,斯坦福最新研究引爆舆论

【导读】GPT-4性能下降终于有了依据。 GPT-4变笨实锤了? 斯坦福、UC伯克利最新研究称,和3月相比,GPT-4在6月的性能直接暴降。 甚至,代码生成、问题回答大不如前。 论文地址:https://arxiv.org/pdf/2307.09009.pdf …

留学文书why school怎么写你清楚吗?

每一个学校都期望你回答「为什么我要读你们这所学校」,有些学校将其成为一个问题,有些学校则内嵌在其他类型文书的小问题里。 然而,我们要记得,即使学校没有说要写,why school文书仍然是整个留学文书中不可或缺的一部分…

跨境电商平台开源BeikeShop系统-新增插件市场

前言:这次我们从v1.1.2升级到v1.2.0——BeikeShop终于迎来了一次大的变动! 最重要的!我们上线了beikeshop插件市场,用户可以根据需要付费购买、下载、上传、安装插件 根据用户们反馈的意见,这次重点对移动端兼容做了…

7个最佳WooCommerce跨境电商社交媒体插件

在互联的早期,您通常可以将产品直接放到网上并出售。但在今天你必须进行营销和做广告。如果没有包括社交媒体在内的可持续营销策略,您的商店可能会被忽视。值得高兴的是,有很多 WooCommerce跨境电商社交媒体插件可以用来传播信息,…

SpringBoot + Druid DataSource 实现监控 MySQL 性能

点击关注公众号,Java干货及时送达👇 来源:blog.csdn.net/lvoelife/article/details/128092586 1. 基本概念 我们都使用过连接池,比如C3P0,DBCP,hikari, Druid,虽然HikariCP的速度稍快…

使用eNSP配置防火墙USG6000v双机热备(VGMP+HRP+OSPF+NAT)

目录 前言 实验拓扑 配置过程 一、导入设备包 二、登陆USG6000v 三、配置接口IP地址 四、配置防火墙安全区域 五、配置内网路由器协议OSPF 五、配置VRRP 六、配置IP-Link联动双机热备 八、配置安全策略 九、配置NAT 十、配置外网路由 配置验证 前言 本实验使用华…

chatgpt赋能python:Python访问路由器

Python访问路由器 路由器是网络连接设备的重要组成部分,用于将信息从一个网络传输到另一个网络。为了使路由器正常运行,需要对其进行配置和管理。Python作为一种广泛应用的编程语言,可以通过多种方式访问和控制路由器。在本文中,…

【运维】使用AP模式接入已有的SP路由器

1. 前言 在使用Parsec时,遇到一个问题:就是Client客户端在接入到Internet时,“最好”只经过一个路由器(“Make sure your home isn’t using two routers”),Parsec官方给出的建议是通过AP模式接入SP的路由…

Python发送验证码短信

Python发送验证码短信 前提条件相关介绍实验环境发送验证码短信账户注册查看用户名查看密码主要步骤代码实现输出结果 前提条件 熟悉Python基本语法 相关介绍 Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被…

教育培训机构学生管理系统

摘 要 计算机网络如果结合使用信息管理系统,能够提高管理员管理的效率,改善服务质量。优秀的教育培训机构学生管理系统能够更有效管理教育培训机构学生信息业务规范,帮助管理者更加有效管理教育培训机构学生信息,可以帮助提高克服…

班级管理系统

摘要:在国家重视教育影响下,教育部门的密确配合下,对教育进行改革、多样性、质量等等的要求,使教育系统的管理和运营比过去十年前更加理性化。依照这一现实为基础,设计一个快捷而又方便的网上班级管理系统是一项十分重…

【学生管理系统】班级管理

目录 3. 班级管理 3.1 需求 3.1.1 添加班级 3.1.2 班级列表 3.2 搭建环境 3.2.1 前端实现 3.2.2 后端实现(9010) 3.3 添加班级 3.3.1 查询所有老师 3.3.2 【难】前端:选择老师 3.3.3 后端:添加班级 3.3.4 前端&#x…

postman解决session验证问题,试用验证码校验,带登录状态的请求

在测试后端接口时,我们经常会遇到某个接口是需要权限才能访问,如登录后才能访问,那postman如何模拟已登录的状态呢?再者,如果我们在做注册模块时,后端验证码生成并通过邮箱或短信发送给用户后,必…

TDengine高可用分布式集群详解

本文正在参与“拥抱开源|涛思数据TDengine有奖征稿:投稿地址。 文章目录 一、前言二、举个栗子1、努力工作的小T2、可怜的小T3、小T的老婆小D登场4、小T创业了5、平衡分配任务6、公司越做越大 三、分布式和集群概览1、单点1)单点概念2)单点故…

鹅厂发布的这个算力集群,最快4天训练万亿参数大模型

​| 文章来源于:“鹅厂技术派”公众号 大模型要成功,算力是关键。 这是腾讯云面向大模型训练场景,发布的全新一代的HCC高性能计算集群性能参数: “算力性能和上一代相比提升3倍,服务器接入带宽从1.6T提升到3.2T。”…

GPU集群使用

文章目录 一、GPU集群使用1、使用ssh远程连接2、新建虚拟环境3、修改信息4、常用命令 一、GPU集群使用 在GPU集群中,会有不同级别的用户,huge(最高级用户)、large(高级用户)、normal(普通用户),用户的级别不同,权限也不同。 1、…

部署+使用集群的算力跑CPU密集型任务

我先在开头做一个总结,表达我最终要做的事情和最终环境是如何的,然后我会一步步说明我是如何搭建。 要做的事情 尝试如何使用多台机器的算力共同跑一个CPU密集型或者GPU密集型的任务。这里以CPU密集型为例子。 在多台机器搭建MPI环境,构建…

今年你们赚到钱了吗?

峥嵘的2022年,各位程序员们,你们赚到钱了吗? 今天是2022年12月21日,眼看就快过年了! 今年你们赚到钱了吗?对于我而言,又是一个"窘迫/囧迫"的穷年,有点心慌慌,有…

教你一招利用python在网上接单赚钱,月薪过万太香了

前言 学习python编程,不仅可以找到一份高薪工作,而且不打算转化或者是在校学生的话,也能为你的日常生活提高一些帮助,比如:自动化办公 爬取一些数据信息之类的…另外闲暇时间也可以在网上接点小单,增加些收…

业余时间赚“外块”的话。给你汇总了用Python挣钱的4个方式,一起来瞧瞧吧~

渠道一:程序流程代笔 到淘宝网/猪八戒在网上搜:Python程序流程。随后到对应的店里找在线客服,便说你要做程序流程开发,是不是可以给个联系电话。渐渐地聊熟识了,还可以变成她们店面里的做兼职技术工程师。 或是添加一…