CV大模型应用:Grounded-Segment-Anything实现目标分割、检测与风格迁移

Grounded-Segment-Anything实现目标分割、检测与风格迁移

文章目录

  • Grounded-Segment-Anything实现目标分割、检测与风格迁移
    • 一、Segment-Anything介绍
    • 二、Grounded-Segment-Anything
      • 1、简介
      • 2、测试

一、Segment-Anything介绍

代码链接:https://github.com/facebookresearch/segment-anything

论文地址:https://arxiv.org/abs/2304.02643

官网地址:https://segment-anything.com/

继2023年4月5日meta AI发布了Segment Anything的论文和源码后,在github上已经超过了25.3k个⭐️

image-20230413140004637

号称分割一切的此模型,打破了传统的分割任务思路,将CV界震撼。不少大佬们也是开始了这个分割大模型的研究与应用。Segment Anything只针对分割任务,那么我们的物体检测、识别也可以与其结合使用。

二、Grounded-Segment-Anything

1、简介

代码链接:https://github.com/camenduru/grounded-segment-anything

这个项目背后的核心思想是结合不同模型的优势,以构建一个非常强大的管道来解决复杂的问题。值得一提的是,这是一个组合强专家模型的工作流程,其中所有部分可以单独使用,也可以组合使用,并且可以替换为任何类似但不同的模型

比如用GLIP或其他探测器替换Grounding DINO /用ControlNet替换Stable-Diffusion /与ChatGPT组合。

比如官方提供的给“坤坤”换衣服,真实完美搭配!

interactive-fashion-edit

接下来我将演示如何运行在线的项目。如果想要像在segment Anything官网跑一个demo图片,我们可以进到其colab中来在线运行这个demo

2、测试

首先进入其在线运行地址:https://github.com/camenduru/grounded-segment-anything-colab

打开后,点击colab中的open in colab进入jupyter notebook

image-20230413141315702

首先得确保你有一个能够正常登录的Google账号,在右上角点击展开并登录。已经登录那么可以直接点击连接按钮,并稍等片刻。

image-20230413142232077

连接成功后即可运行代码

image-20230413142342637

等待运行完成后,运行下一个代码块

image-20230413142955055

出现下方链接后点进去即可运行demo(两个都可以)

image-20230413143057063

进入demo之后我们可以传入图片,并输入描述的内容

分割任务例如:a door /a person

描绘任务例如:A man in a jacket

image-20230413143326739

但毕竟是免费的在线运行平台,右侧执行的速度会很慢,取决于分配给你的算力大小。如果需要处理比较复杂的图像或输入的关键词,可能会显示算力不够。

下面是我在上课时随意拍了张照片并传入,运行的一个简单分割demo处理结果(用了5分钟,输入为:a door)

image

可见,结合GPT、Segment Anything与detection

官方使用inpaint绘制运行结果,传入的目标是 one girl

渲染语句是:mermaid with beautiful face(美丽的美人鱼)

就将检测出的一个女孩渲染成了美人鱼。

但我这里没有运行出来绘制的功能,可能是因为目前模型才刚刚试运行两天,不足以免费让我们跑这种费算力的模型,只能说期待后续的优化吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31935.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉的应用6-利用VGG模型做毕加索风格图像迁移

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用5-利用VGG模型做毕加索风格图像迁移,本文将利用VGG模型实现毕加索风格图像迁移的方法。首先,我们将简要说明图像风格迁移的原理,然后使用PyTorch框架&#xff0c…

如何让ChatGPT帮我们提高开发效率

3 天前 ChatGPT云炬学长 ​关注 ChatGPT非常可怕!才不到短短的几个月时间有上亿用户。 火爆程度以至于官方都不得不暂停plus用户的升级,以缓解压力。 ChatGPT能够发展那么快,确实是因为他真的很强大! 能帮我们做ppt、帮我们做…

《联众》并购案细节公布,海虹海外公司浮出水面(ZT)

《联众》一夜身价暴增到2亿美金,《海虹>以及联众创始人成功套现1亿美金!这是中韩国际资本合作的典范?还是海外资本的大举进攻的信号?或者就是互联网第二次井喷的前奏?在历史给予答案之前,让我们理顺并购…

微信授权登录:移动端[unionid](一)

专栏简介 💒个人主页 📄本栏目录 📖心灵鸡汤📖 生活中其实没有绝境,绝境在于你自己的心没有打开。 ✍相关博文✍ 微信分享开发:准备工作微信PC端扫码登录 如果你有…

第三方对接-微信登陆对接

对接第三方之微信登陆 由于目前市面上社交软件的使用排行来看,基本上微信一马当先。因此在大多数应用上都会内置微信登陆的场景,这时候我们就非常有必要熟悉微信的登录流程。 微信登陆 微信官方开发文档说明目前移动应用上微信登录仅支持原生登陆方式…

对三大数学软件 Mathematica 、Maple 、MATLAB 的小测试比较

今天一时兴起,突然想试试几个数学软件的功能,就测试了一个不定积分,看看哪个算得最好,最简洁。 计算: 以下计算结果我都一一验算了。 1).先在Mathematica(我用的是在线的wolframalpha)中计算,结…

【计算机图形学(译)】 二、各种各样的数学

【计算机图形学(译)】 二、各种各样的数学 2 各种各样的数学 Miscellaneous Math2.1 集合和映射 Sets and Mapping2.1.1 反向映射 Inverse Mappings2.1.2 区间 Intervalsoft2.1.3 对数 Logarithms 2.2 解二次方程 Solving Quadratic Equations2.3 三角学 Trigonomet…

和托托一起学计算机图形学(一)-初识计算机图形学

文章目录 初识计算机图形学一、计算机科学与视觉信息处理二、计算机图形学的应用三、总结 数字图像基础一、像素二、RGB和CMY颜色模型三、颜色编码四、查色表五、图像文件六、总结 初识计算机图形学 一、计算机科学与视觉信息处理 计算机图形学:建模(建…

如何使用 ChatGPT 掌握讲故事的艺术

想出一个故事情节,虽然有时很有趣,但可能是一个耗时的过程。或者你可能会发现自己遇到了作家的障碍——每个作家存在的祸根。 这个重要的灵感火花是 ChatGPT 可以提供帮助的地方。OpenAI流行的文本生成聊天机器人可以协助写作过程的任何部分&#xff0c…

仅剩1位73岁开发者苦撑!能求解超复杂物理方程式的计算程序,要没人维护了...

明敏 Alex 发自 凹非寺量子位 | 公众号 QbitAI 高能物理先进计算必备程序之一,快要没人维护了。 随着唯一的长期维护者达到73岁高龄,计算系统FORM的命运开始变得扑朔迷离起来。 过去30多年,这个程序被视为粒子物理学研究的基础工具之一&#…

苹果的头显,只要看一眼就行

阅读本文大概需要 1.66 分钟。 今年的 WWDC23 开发者大会,不少人表示 iOS 更新了个寂寞,但 Vision Pro 头显却意外吸引眼球,看来苹果工程师都忙着搞头显去了。 苹果的头显终于还是来了,关于它的传闻,似乎这几年从未间断…

AN OVERVIEW OF LANGUAGE MODELS RECENT DEVELOPMENTS AND OUTLOOK

LLM系列相关文章,针对《AN OVERVIEW OF LANGUAGE MODELS: RECENT DEVELOPMENTS AND OUTLOOK》的翻译。 语言模型综述:近年来的发展与展望 摘要1 引言2 语言模型的类型2.1 结构化LM2.2 双向LM2.3 置换LM 3 语言单元3.1 字符3.2 单词和子单词3.2.1 基于统…

使用 Sealos 三分钟打造鉴黄神器,我有个大胆的想法……

"NSFW" 是 "Not Safe For Work" 的缩写,通常用于标记那些在工作场所可能不适当的的在线内容。这种内容可能包含暴力、色情、血腥、或者其他可能被认为是令人反感或冒犯的材料,最常见的原因……是 18 成人内容。在许多在线平台&#…

8年前端带你HTML+CSS入门到实战(附视频+源码)

本文主要是解决: ☆ 想要自学前端开发, ☆ 但又不太想看博客文章, ☆ 觉得自学有点吃力,有点不知道学习步骤的同学 目录 一、HTML 1、需要了解熟练的标签 2、不太常用的标签 3、怎么算是HTML学好了,可以继续学CSS了…

NLP中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert

点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要15分钟 跟随小博主,每天进步一丢丢 作者:JayLou,NLP算法工程师 知乎专栏:高能NLP之路 地址:https://zhuanlan.zhihu.com/p/56…

6款AI写作工具类网站推荐(第二版)

我们搜集了一些AI写作工具,希望对你有帮助,不论是在提升工作效率方面,还是在了解最新的AI技术方面,帮助你提升工作效率。 Notion AI https://www.notion.so/product/ai NotionAi可以提供AI智能写作,还能检查代码、语法…

国内大模型侵权第一案,6 年成果,被爬取 200+ 万次,仅索赔 1 元?

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 上个月,学而思曾透露消息称,目前其正在自研数学大模型 MathGPT,即面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心打造而成。 彼时许多…

用GPT-4 写2022年天津高考作文能得多少分?

正文共 792 字,阅读大约需要 3 分钟 学生必备技巧,您将在3分钟后获得以下超能力: 积累作文素材 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 | Kim 编辑者 | Linda ●图片由Lexica …

react聊天组件:用antd和react-chat-element组装的聊天列表

效果图: 安装库 用到了antd design和github上的一个库:react-chat-element (1)antd design: 安装:yarn add antd 修改 src/App.css,在文件顶部引入 antd/dist/antd.css import ~antd/dist/a…

chatgpt赋能python:人脸识别技术进程Python应用

人脸识别技术进程Python应用 人脸识别技术是计算机视觉领域的重要应用,随着深度学习技术的发展,越来越多的人开始关注并使用这种技术。Python作为一种高效、易用的编程语言,也在人脸识别领域得到了广泛应用,本文将介绍Python如何…