从Blip2到Segment Anything视觉语义金字塔+ChatGPT= 把图片变文本段落, 8G显存即可Run...

关注公众号,发现CV技术之美

2e82d457187bb508d45d6298a1404dc8.png

8G GPU显存即可以运行

37a7029a72c4f5f4748604b4dacef897.png

Twitter链接:https://twitter.com/awinyimgprocess/status/1646225454599372800?s=46&t=HvOe9T2n35iFuCHP5aIHpQ

4347e20b74d52e7a86dffdc1e7eb1189.png

代码链接:https://github.com/showlab/Image2Paragraph https://

      01      

动机 

怎么把图片表示成高质量文本一直是个热门的问题。传统的思路Show,and Tell 等 Image Caption和Dense Caption 等都是依赖大量的人工标注。首先依靠诸如亚马逊AMT( 亚非拉大兄弟们)等标注平台给每张图一人写一段描述。其中添加了一系列规则,诸如名词数目,颜色等等。通常用一句简短的话来描述一张图。

然而,这种朴素的标记思路造成了严重的One-to-many问题。如一张图对应很多文本。由于图片和文本之间信息的不对称性,在这类数据上训练的结果很容易陷入平凡解。(Pretrain中也经常遇到的问题)

而LLM(大语言模型)尤其是CHATGPT展现出来的逻辑能力让人望尘莫及。我们惊讶发现, 把Bounding Box 和 Object信息给到GPT4, GPT4很自然的能推理出物体之间的位置关系,甚至想像出物体之间的联系。

因此一个很自然的想法就是, 用GPT4对每张图生成高信息量的段落,From One-to-many to one-to-one

      02      

做法

e83995c029790c30f583e50ae3c21dad.png

低阶语义抽取:Image Caption, Dense Caption, Object Detection, Segement Anything 等等统一当成视觉理解组件。

如图所示,首先用BLIP2 得到一张图的Coars-grained Caption信息。再用 GRIT得到Dense Caption信息,最终用Segment Anything 去得到Fine- grained Region-level Semantic. 高阶推理:

把金字塔视觉语义给到ChatGPT,让ChatGPT去推理物体之间的关系和物体的物质信息等,最终生成一个高质量Unique的文本段落。

可视化:

最后对生成的段落,放进Control Net生成一张重构的图。

      03      

实验

最后是一些运行结果:

对生成的段落用ControlNet生成新图片。

01147914aa4b2d2136ca4dc0c0913680.png

6481a1af467fc789ba59bc1f3d5ddf30.jpeg

0baa540ea8770c71e3a2f62911f6df51.jpeg

Region-level Semantic:

7026300669fd28b6999d3c575c32ed58.jpeg

b80dc9c313b29e7747fabb96f7f4501f.png

最后有意思的是:

当我们把图片变成文本之后。不需要训练的情况下,检索效果竟然好与在COCO上 Train的结果。

1a4e2e4e4c60d628ae8ecf9c51175dd4.png

一些呼之欲出的问题即将到来:

现有Vision- language Pretrain需不需要新的 Data collection 范式?

现有的Image- Text 数据集尤其是Caption数据需不需要Refine?

参考:

Show,And Tell.

GRIT.

ChatGPT.

Segment Anything.

ControlNet.

Blip2.

本文为粉丝投稿。投稿邮箱 amos@52cv.net。

欢迎加入「图像分割交流群👇备注:Seg

8d31771d1cadd0ff531c44e11fa61db8.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41814.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

目标检测算法——YOLOv5/YOLOv7改进之结合​ASPP(空洞空间卷积池化金字塔)

&#x1f496;&#x1f496;>>>加勒比海带&#xff0c;QQ2479200884<<<&#x1f496;&#x1f496; &#x1f340;&#x1f340;>>>【YOLO魔法搭配&论文投稿咨询】<<<&#x1f340;&#x1f340; ✨✨>>>学习交流 | 温澜潮…

从BLIP-2到SAM视觉语义金字塔+ChatGPT= 把图片变文本段落, 8G显存即可Run

点击下方卡片&#xff0c;关注“CVer”公众号 AI/CV重磅干货&#xff0c;第一时间送达 点击进入—>【图像分割】微信技术交流群 作者&#xff1a;老大 |&#xff08;已授权转载&#xff09;编辑&#xff1a;CVer https://zhuanlan.zhihu.com/p/621503837 8G GPU显存即可以运…

问一下ChatGPT:DIKW金字塔模型

经常看到这张DIKW金字塔模型图&#xff0c;还看到感觉有点过份解读的图&#xff0c;后面又加上了insight&#xff0c;impact等内容。 Data&#xff1a;是数据&#xff0c;零散的、无规则的呈现到人们眼前&#xff0c;如果你只看到这些数字&#xff0c;如果没有强大的知识背景&a…

QCon: 工程师成长的金字塔思维

QCon 线下会议终于来了&#xff0c;但这次的分享有一些意外&#xff0c;不是性能、架构、内核、缓存&#xff0c;而不是AI实践相关的内容&#xff0c;论坛的主题是“工程师成长实践”&#xff0c;而我的topic 是“工程师成长的金字塔思维”。本以为这是一个非热门话题&#xff…

拉普拉斯金字塔

原文 高斯金字塔G0层下采样后为G1&#xff0c;用G0减去G1的上采样&#xff0c;就得到了拉普拉斯层L0. 高斯金字塔G1层上采样后与拉普拉斯金字塔L0层相加后就得到了G0层。 import numpy as np import cv2 as cv from matplotlib import pyplot as pltimg cv.imread(left_01.png…

微信称不会推出「已读」功能;马斯克宣布成立 AI 公司 xAI;GPT-4 架构曝光,有 1.8 万亿参数|极客头条

「极客头条」—— 技术人员的新闻圈&#xff01; CSDN 的读者朋友们早上好哇&#xff0c;「极客头条」来啦&#xff0c;快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 一分钟速览新闻点&…

百度版本gactgpt即将来临,gpt人工智能机器横空出世

百度版本gactgpt即将来临&#xff0c;gpt人工智能机器横空出世&#xff0c;“一言”为定&#xff01;百度版ChatGPT确认&#xff01;李彦宏OKR曝光&#xff0c;率先应用于收索业务 gactCBT 大获&#xff0c;当下极有可能成为人工智能的 iPhone 时刻。为了在这场人工智能竞赛中…

解锁实盘交易,打通量化系统交易环节!股票量化分析工具QTYX-V2.3.9

前言 本期我们把股票量化分析工具QTYX的“交易”子页面给解锁了&#xff0c;这样一来&#xff0c;就打通了量化交易系统从分析到交易的完整过程&#xff0c;注意当前的QTYX版本升级到了2.3.9。 QTYX完整架构如下所示&#xff0c;其中包括了QTYX股票量化分析系统和实盘机器人两部…

自己做量化交易软件(43)小白量化实战16--利用小白量化金融模块在恒生PTrade交易系统(交易端)上仿大智慧指标回测及实战交易设计

自己做量化交易软件(43)小白量化实战16–利用小白量化金融模块在恒生PTrade交易系统(交易端)上仿大智慧指标回测及实战交易设计 量化产品PTrade(Personalise Trade)交易系统采用事件驱动式回测平台&#xff0c;与聚宽量化平台类似的量化框架&#xff0c;内置Ta-lib金融模块&am…

量化投资 | 量化交易平台工具汇总

量化投资必备手册&#xff0c;分享30个量化交易平台给你们&#xff0c;转需&#xff0c;不用谢&#xff01; 1. 掘金量化 量化交易系统官方网址&#xff1a;https://www.myquant.cn/ 2、国泰君安量化交易系统 量化交易系统网址&#xff1a;https://quant.gtja.com/ 3. 量化云…

初学Linux—解决开机卡在用户登录界面的问题

1.Linux关机之后开机界面卡在登录界面没有反应&#xff1b; 可能是我删除了某个文件… 2.解决办法&#xff1a; ctrlaltF2 ;切换终端 su root ;切换到超级用户 然后会弹出输入密码提示&#xff0c;直接输入超级用户的密码&#xff08;注意&#xff1a;linux中密码不会回显&am…

centos6.8开机一直卡在登录界面,无法登录

** **后面发现&#xff0c;问题出在&#xff0c;前几天配置的 java的jdk&#xff0c;还有mysql的环境变量上。 ** 解决问题的方法 使用CtrlAIt F3&#xff0c;竟然命令控制面板&#xff08;但是&#xff0c;进去后&#xff0c;你使用指令&#xff0c;比如&#xff0c;vi,ls -…

Ubuntu开机后卡在登陆界面进去不

系统&#xff1a;Ubuntu18.03 系统跑代码卡死了&#xff0c;导致鼠标键盘都用不了&#xff0c;直接强制关机后&#xff0c;卡在登陆界面进不去 步骤&#xff1a; 1. 系统启动后&#xff0c;在BIOS引导界面按"ESC"键进入选择菜单&#xff0c;选择第一个"*Ubun…

记一次绕过安全狗与360艰难提权

0x01 前言背景 端午短暂休息三天&#xff0c;复工之后朋友又丢给我一个Webshell&#xff0c;在打台球途中了解了一下这个奇怪的shell&#xff0c;说是无法执行命令&#xff0c;经过测试发现只能执行dir命令&#xff0c;确实奇怪&#xff0c;草草打了几局台球就回去拿起电脑开日…

为什么我骂360弱智 周鸿祎却说“谢谢”

好吧&#xff0c;我承认我标题党了&#xff01; 不过&#xff0c;有图有真相&#xff01; 事情的起因是我在360开发者平台&#xff0c;提交了我们的客户端“缘创派”&#xff0c;这是一个给互联网创业者找创业合伙人的应用。之前上传的是1.0版本&#xff0c;最近更新了功能更为…

曾遭周鸿祎全网封杀的 360 猛将 :草根打工到 36 岁身家上亿的逆袭!

作者 | 云游小生 来源 | 纯洁的微笑&#xff08;ID:keeppuresmile&#xff09; 猎豹六周年&#xff0c;傅盛在内部演讲&#xff1a; “有部电视剧叫《奋斗》&#xff0c;名字很好&#xff0c;帅哥靓女&#xff0c;青春励志。 但看了开头&#xff0c;我就看不下去了。作为一个奋…

360 软件误报 与流氓战斗到底

写了个音乐贺卡软件&#xff0c;却被360报病毒 估计是设计到了一个音乐贺卡打包功能 这是非常令人气愤的 辛苦的工作&#xff0c;创意的想法&#xff0c;终于实现&#xff0c;最后却被这些杀毒的流氓误报&#xff0c;害的别人不能使用。 于是在360官方提交了误报检测 检测…

谁敢说360不行? 那是你不会用!教你制服360

360的强大与流氓想必是萦绕在大家耳边最耳熟能详的两个词了。 没错&#xff0c;360是很强大却也很流氓&#xff0c;但是稍微动动手就能还你的电脑一片清净 此次测试最新版360安全中心13.0&#xff0c;亲测&#xff0c;以身犯险 针对小白&#xff0c;大佬勿扰 一、安装过程 二、…

千万不要使用360安全管家

我以前使用过360&#xff0c;360广告超级多&#xff0c;360搜索引擎也答非所问&#xff0c;edge主页也经常被修改&#xff0c;如果安装了&#xff0c;可以这样做。 方法1&#xff08;亲测&#xff09;---------------------------------------- 1.使用360卸载360&#xff0c;…