CV界的chatgpt出现——Segment Anything能分割万物

目录

  • 一、前言
    • (1)弱人工智能(Weak AI)
    • (2)强人工智能(General AI)
    • (3)超人工智能(Super AI)
  • 二、SAM的一些介绍
    • 2.1 模型的结构是什么?
    • 2.2 支持哪些类型的提示?
    • 2.3 该模型使用什么平台?
    • 2.4 模型有多大?
    • 2.5 推理需要多长时间?
    • 2.6 训练模型需要多长时间?
    • 2.7 模型是在哪些数据上训练的?
    • 2.8 模型是否生成掩码标签?
  • 三、象棋抠图测试
    • 3.1、图片上传
    • 3.2、鼠标物体响应
    • 3.3、一键扣图
  • 四、运动场景测试
  • 五、后记

一、前言

今天亲手体验了一下meta公司发布的Segment Anything,我们认为是cv界的chatgpt,这个模型太厉害了,厉害到可以对任意一张图进行分割,他们的网站上的例子也是挺复杂的,能够说明其强大的能力—demo链接,人工智能的技术迭代真是太快了。在模型的介绍中,有句话着实惊人——号称:“SAM已经学会了物体是什么的一般概念”:
在这里插入图片描述

通常人们认为,人工智能大致可以分为三个阶段:

(1)弱人工智能(Weak AI)

弱人工智能(Weak AI)简称弱智,指特定场景解决特定领域的问题。比如前段时间出现的AlphaGo,实现了围棋领域的的人工智能。

(2)强人工智能(General AI)

强人工智能更贴切的翻译是通用人工智能,就是以ChatGPT为代表的完全人工智能,能够适应人类大部分甚至是所有工作领域的一类人工智能。可以说我们如今,正在处于通用人工智能技术突破的时间转折点上。

(3)超人工智能(Super AI)

顾名思意,这个时候,人工智能在人类定义的”智能“领域已经全面超过了人类,随着量子计算等技术发展,相信实现是时间问题。真希望这个时代晚点到来,或者那时候,人类或许已经和超人工智能实现了融合,成为了新一代的超人。也希望那个时代,人类的道德境界也实现了满格。

二、SAM的一些介绍

2.1 模型的结构是什么?

  • ViT-H 图像编码器,每个图像运行一次并输出图像嵌入
  • 嵌入输入提示(如单击或框)的提示编码器
  • 基于转换器的轻量级掩码解码器,可从图像嵌入和提示嵌入中预测对象掩码

2.2 支持哪些类型的提示?

  • 前景/背景点
  • 边界框
  • 遮罩

2.3 该模型使用什么平台?

  • 图像编码器在 PyTorch 中实现,需要 GPU 才能进行高效推理。
  • 提示编码器和掩码解码器可以直接使用 PyTroch 运行,也可以转换为 ONNX,并在支持 ONNX 运行时的各种平台上的 CPU 或 GPU 上高效运行。

2.4 模型有多大?

  • 图像编码器具有632M参数。
  • 提示编码器和掩码解码器具有4M参数。

2.5 推理需要多长时间?

  • 图像编码器在 NVIDIA A0 GPU 上需要 ~15.100 秒。(没查到这款GPU,有知情的评论区告知)
  • 提示编码器和掩码解码器在浏览器中使用多线程 SIMD 执行的 CPU 上占用 ~50 毫秒。

2.6 训练模型需要多长时间?

  • 该模型在 3 个 A5 GPU 上训练了 256-100 天。

2.7 模型是在哪些数据上训练的?

  • 该模型在meta的SA-1B数据集上进行了训练。

2.8 模型是否生成掩码标签?

  • 否,模型仅预测对象掩码,不生成标签。

三、象棋抠图测试

笔者上传了自己的一个棋盘图片,利用Segment Anything提供的模型工具进行了测试,测试结果发现,能够很好地抠出棋盘中的棋子。

3.1、图片上传

在这里插入图片描述

3.2、鼠标物体响应

上传后,通过一点时间的识别后,把鼠标放到图片上面,就可以对上面的棋子做出响应,显然自动分离出了棋子棋盘。有一点厉害的是,它把棋子的厚度也给识别出来,认为也是棋子的一部分。
在这里插入图片描述

3.3、一键扣图

Segment Anything提供了手动框选分割功能,此外还有一个牛逼的功能是,自动对图像进行分割:
在这里插入图片描述
点击自动分割后,可以准确的识别出棋子:
在这里插入图片描述
识别完后,它会自动切出分离的物体如下32个棋子一个不少:
在这里插入图片描述

四、运动场景测试

输入一张随机的羽毛球图片:
在这里插入图片描述

识别结果如下:
在这里插入图片描述
好吧,我承认,我用opecv远远还不能达到以上的效果。

五、后记

以上的象棋、羽毛球图片其实场景并不复杂,比它网站上面的图片要简单的多,但是足够可以说明一件事,该模型可以胜任多个领域的机器视觉任务,或者是给各领域的cv工作者提供了底层解决方案或者思路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4185.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十个角度带你读懂百度财报:ChatGPT真是全村人希望吗?

北京时间2月22日,百度发布了截至2022年12月31日的第四季度及全年未经审计的财务报告。2022年,百度实现营收1236.75亿元,归属百度的净利润(非美国通用会计准则)206.8亿元,同比增长10%。 第四季度&#xff0c…

全面接入:ChatGPT杀进15个商业应用,让AI替你打工

智东西. 智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。 ChatGPT狂飙160天,世界已经不是两个月前的样子。 文|李水青 编辑|心…

ChatGPT访问量或现负增长 市场担忧“人工智能泡沫”

中国青年网|2023-07-03 14:05:02网站流量监测服务商Similarweb的数据显示,今年以来,ChatGPT访问量1月份的环比增长率为131.6%,此后逐月下降。5月时,这个数字已经跌至2.8%,预计6月将会出现环比负增长的情况。 ​ 不仅是…

AIGC和ChatGPT推进百度、阿里、腾讯、华为大模型技术创新

AIGC | PC集群 | PC Farm | GPU服务器 生成式AI | Stable Diffusion | ChatGPT 2022 年 12 月,OpenAI 推出了 ChatGPT,这是一种高性能计算的大型语言生成模型。它的出现推动了人机对话技术的发展,并在网络上引起了极大的关注。目前&#xff…

《花雕学AI》解锁ChatGPT潜力!183个最佳提示语,助您充分利用人工智能技术

随着机器学习和自然语言处理技术的不断进步,人工智能在各个领域的应用越来越广泛。ChatGPT(Generative Pre-trained Transformer)是一个强大的自然语言生成模型,它可以帮助我们生成高质量的文本内容。本文为你列举了 183 种可能的…

属于 PingCAP 用户和开发者的 2022 年度记忆

2022 年,我们一起穿越了许多荆棘时刻,面对着前所未有的不确定性。在这些挑战面前,我们发现技术和开发者扮演了重要角色。 技术为我们提供了穿越周期的桥梁,开发者帮助我们更好地应对挑战,解决问题并赋予这个世界更多创…

FPGA学习笔记-1 FPGA原理与开发流程

1 初识FPGA 文章目录 1 初识FPGA1.1 基本认知1.1.1 什么是FPGA?1.1.2 什么是HDL?什么是Verilog?1.1.3 硬件开发与软件开发1.1.4 FPGA与其他硬件的对比1.1.5 FPGA优势与局限性1.1.6 FPGA的应用1.1.7 FPGA的学习之路 1.2 FPGA开发流程1.2.1 一般…

腾讯、字节跳动“后退”,XR“没熟透”?

配图来自Canva可画 2023,XR进入寒冬期并不是空穴来风。 就在年初,国内外的各路玩家纷纷对XR赛道进行密集调整或裁撤。先有微软砍掉整个AltSpaceVR和MRTK开发团队、Meta裁员并关停Echo VR运营;再有字节跳动旗下PICO进行“组织优化”、快手暂…

从零教你写专利之开宗明义篇

大家好,我是英子老师。作为一名知识产权专家,深耕于专利行业十余年,具有丰富的专利工作经验:曾在大型专利代理机构从事专利代理工作、专利质检工作(抽查代理机构的专利代理人的撰写质量并评分);…

上海亚商投顾:沪指震荡反弹涨1.2% 中国移动创历史新高

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 大小指数今日走势分化,沪指午后涨超1%,长阳反包上周五阴线,创业板指盘中则跌逾…

2023年中国人工智能产业趋势报告

易观:尽管2022年人工智能市场发展活跃度不及预期,但2022年对人工智能产业来说无疑是令人激动的一年。年中由DALL-E 2以及其后Stable Diffusion和Midjourney等文本-图像生成模型引起公众对人工智能生成内容的大量关注,年末ChatGPT的横空出世刷…

亚马逊云科技为云端算力赋能

ChatGPT有多强?这取决于这个问题提出的时间。一个月以前,这可能还是个问题。但是,当ChatGPT连续创造纪录、并不断颠覆人们认知的现在,这已经不是个问题了。真正的问题是,ChatGPT如何变得这么强? 有人做过统…

“AI in the Alps“:身体与精神的一场盛宴

作者:Christofer Dutz 得益于 Timecho 的组织和安排,我最近参加了一个精彩绝伦的活动 “AI in the Alps”,并从中收获颇丰。 这次活动是由德国工业界知名博客 “Industrial AI Podcast”(http://aipod.de)的组织者 Ro…

美团大佬连夜冲向ChatGPT风口!自带3.5亿进场,只有一个判断:必须参与

杨净 明敏 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT汹涌而来,国内互联网大佬们坐不住了。 早已退休归隐的原美团联合创始人王慧文,昨晚高调官宣入局AI: 不在意岗位、薪资和title,还要自掏腰包5000万美元,只求组队。…

全面接入!ChatGPT杀进15个商业应用,让AI替你打工

ChatGPT API开放60多天,世界已经不是两个月前的样子了。 微软联合创始人比尔盖茨称GPT是“40多年来最革命性的技术进步”,英伟达创始人黄仁勋高呼:“我们正处于AI的iPhone时刻”,阿里董事会主席兼CEO张勇也说:“所有行…

收藏:一文掌握ChatGPT/AIGC技术(附166份报告)

AIGC/ChatGPT成为今年AI模型巨星,大模型大数据高算力,让ChatGPT不断突破。 (1)预训练大模型:GPT 大模型是 ChatGPT 的基础,目前已经过多个版本迭代, GPT-3 版本参数量达 1750 亿,训练效果持续优化。 (2)数据:数据是预…

投资几亿搞ChatGPT的,都是在诈骗

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 近年一直平平无奇的科技界,终于又出了一款现象级、应用场景相对明确的产品,当红炸子鸡ChatGPT的横空出世,吹皱了IT界、科创界、投资界的几池春水。美团联合创始人王…

ChatGPT的access_token获取(最新!!!)

ChatGPT的access_token获取(最新!!!) 序言 最近在搞移动应用开发,心血来潮写了个chatGPT的app,但是接口只能用官网提供的,我自己的号没有免费额度,朋友的号也就5$的额度…

如何申请免费ChatGPT 2500刀初创金

近日OpenAI 推出了OpenAI for Startups项目,那么什么是Startups项目呢: 它是由全球知名的人工智能研究公司 OpenAI 推出的一个开放式的创业计划,旨在为初创公司提供一种新的激励机制和技术推广方式。 也就是说我们可以用自己账号申请&#x…

用chatgpt的api实现你的简易个人聊天机器人demo

第一步:在官网申请api,针对已有openai账号,如果没有账号可自行搜索相关教程 https://platform.openai.com/ 右边点“View API keys” 进入api页面,点击“Create new secret key”就能获取api key 第二步:编写调用ap…