从BLIP-2到SAM视觉语义金字塔+ChatGPT= 把图片变文本段落, 8G显存即可Run

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割】微信技术交流群

作者:老大 |(已授权转载)编辑:CVer

https://zhuanlan.zhihu.com/p/621503837

65a7b9e7b9ca4b0c52fd72614ce3fea8.jpeg

8G GPU显存即可以运行

d5ade007cbf97892c5eef5b165afb8a3.jpeg

代码链接(已开源): h

https://github.com/showlab/Image2Paragraph

动机:

怎么把图片表示成高质量文本一直是个热门的问题。传统的思路Show,and Tell 等 Image Caption和Dense Caption 等都是依赖大量的人工标注。首先依靠诸如亚马逊AMT( 亚非拉大兄弟们)等标注平台给每张图一人写一段描述。其中添加了一系列规则,诸如名词数目,颜色等等。通常用一句简短的话来描述一张图。

然而,这种朴素的标记思路造成了严重的One-to-many问题。如一张图对应很多文本。由于图片和文本之间信息的不对称性,在这类数据上训练的结果很容易陷入平凡解。(Pretrain中也经常遇到的问题)

而LLM(大语言模型)尤其是ChatGPT展现出来的逻辑能力让人望尘莫及。我们惊讶发现, 把Bounding Box 和 Object信息给到GPT4, GPT4很自然的能推理出物体之间的位置关系,甚至想像出物体之间的联系。

因此一个很自然的想法就是, 用GPT4对每张图生成高信息量的段落,From One-to-many to one-to-one

做法:

低阶语义抽取:

Image Caption, Dense Caption, Object Detection, Segement Anything 等等统一当成视觉理解组件。

99229f22d7148e13fd3918c592744d85.jpeg

如图所示,首先用BLIP2 得到一张图的Coars-grained Caption信息。再用 GRIT得到Dense Caption信息,最终用Segment Anything 去得到Fine- grained Region-level Semantic.

高阶推理:

把金字塔视觉语义给到ChatGPT,让ChatGPT去推理物体之间的关系和物体的物质信息等,最终生成一个高质量Unique的文本段落。

可视化:

最后对生成的段落,放进Control Net生成一张重构的图。

实验:

最后是一些运行结果:

对生成的段落用ControlNet生成新图片。

b5e507a2b8fae5f156f082242de38289.jpeg 5b945ceaebb2466d812f0ee0238b455d.jpeg 1d0b5950b51f1162de2f9ca198b39162.jpeg


Region-level Semantic:

f261983a0e6de6e600c87afe54390cff.jpeg



最后有意思的是:

当我们把图片变成文本之后。不需要训练的情况下,检索效果竟然好与在COCO上 Train的结果。

0011e4ba902b32f17ac843fd70896fd7.jpeg

一些呼之欲出的问题即将到来:

现有Vision- language Pretrain需不需要新的 Data collection 范式?

现有的Image- Text 数据集尤其是Caption数据需不需要Refine?

参考:

Show,And Tell. GRIT. ChatGPT. Segment Anything. ControlNet. Blip2.

点击进入—>【计算机视觉】微信技术交流群

最新CVPR 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

图像分割和多模态交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者多模态 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41812.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

问一下ChatGPT:DIKW金字塔模型

经常看到这张DIKW金字塔模型图,还看到感觉有点过份解读的图,后面又加上了insight,impact等内容。 Data:是数据,零散的、无规则的呈现到人们眼前,如果你只看到这些数字,如果没有强大的知识背景&a…

QCon: 工程师成长的金字塔思维

QCon 线下会议终于来了,但这次的分享有一些意外,不是性能、架构、内核、缓存,而不是AI实践相关的内容,论坛的主题是“工程师成长实践”,而我的topic 是“工程师成长的金字塔思维”。本以为这是一个非热门话题&#xff…

拉普拉斯金字塔

原文 高斯金字塔G0层下采样后为G1,用G0减去G1的上采样,就得到了拉普拉斯层L0. 高斯金字塔G1层上采样后与拉普拉斯金字塔L0层相加后就得到了G0层。 import numpy as np import cv2 as cv from matplotlib import pyplot as pltimg cv.imread(left_01.png…

微信称不会推出「已读」功能;马斯克宣布成立 AI 公司 xAI;GPT-4 架构曝光,有 1.8 万亿参数|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

百度版本gactgpt即将来临,gpt人工智能机器横空出世

百度版本gactgpt即将来临,gpt人工智能机器横空出世,“一言”为定!百度版ChatGPT确认!李彦宏OKR曝光,率先应用于收索业务 gactCBT 大获,当下极有可能成为人工智能的 iPhone 时刻。为了在这场人工智能竞赛中…

解锁实盘交易,打通量化系统交易环节!股票量化分析工具QTYX-V2.3.9

前言 本期我们把股票量化分析工具QTYX的“交易”子页面给解锁了,这样一来,就打通了量化交易系统从分析到交易的完整过程,注意当前的QTYX版本升级到了2.3.9。 QTYX完整架构如下所示,其中包括了QTYX股票量化分析系统和实盘机器人两部…

自己做量化交易软件(43)小白量化实战16--利用小白量化金融模块在恒生PTrade交易系统(交易端)上仿大智慧指标回测及实战交易设计

自己做量化交易软件(43)小白量化实战16–利用小白量化金融模块在恒生PTrade交易系统(交易端)上仿大智慧指标回测及实战交易设计 量化产品PTrade(Personalise Trade)交易系统采用事件驱动式回测平台,与聚宽量化平台类似的量化框架,内置Ta-lib金融模块&am…

量化投资 | 量化交易平台工具汇总

量化投资必备手册,分享30个量化交易平台给你们,转需,不用谢! 1. 掘金量化 量化交易系统官方网址:https://www.myquant.cn/ 2、国泰君安量化交易系统 量化交易系统网址:https://quant.gtja.com/ 3. 量化云…

初学Linux—解决开机卡在用户登录界面的问题

1.Linux关机之后开机界面卡在登录界面没有反应; 可能是我删除了某个文件… 2.解决办法: ctrlaltF2 ;切换终端 su root ;切换到超级用户 然后会弹出输入密码提示,直接输入超级用户的密码(注意:linux中密码不会回显&am…

centos6.8开机一直卡在登录界面,无法登录

** **后面发现,问题出在,前几天配置的 java的jdk,还有mysql的环境变量上。 ** 解决问题的方法 使用CtrlAIt F3,竟然命令控制面板(但是,进去后,你使用指令,比如,vi,ls -…

Ubuntu开机后卡在登陆界面进去不

系统:Ubuntu18.03 系统跑代码卡死了,导致鼠标键盘都用不了,直接强制关机后,卡在登陆界面进不去 步骤: 1. 系统启动后,在BIOS引导界面按"ESC"键进入选择菜单,选择第一个"*Ubun…

记一次绕过安全狗与360艰难提权

0x01 前言背景 端午短暂休息三天,复工之后朋友又丢给我一个Webshell,在打台球途中了解了一下这个奇怪的shell,说是无法执行命令,经过测试发现只能执行dir命令,确实奇怪,草草打了几局台球就回去拿起电脑开日…

为什么我骂360弱智 周鸿祎却说“谢谢”

好吧,我承认我标题党了! 不过,有图有真相! 事情的起因是我在360开发者平台,提交了我们的客户端“缘创派”,这是一个给互联网创业者找创业合伙人的应用。之前上传的是1.0版本,最近更新了功能更为…

曾遭周鸿祎全网封杀的 360 猛将 :草根打工到 36 岁身家上亿的逆袭!

作者 | 云游小生 来源 | 纯洁的微笑(ID:keeppuresmile) 猎豹六周年,傅盛在内部演讲: “有部电视剧叫《奋斗》,名字很好,帅哥靓女,青春励志。 但看了开头,我就看不下去了。作为一个奋…

360 软件误报 与流氓战斗到底

写了个音乐贺卡软件,却被360报病毒 估计是设计到了一个音乐贺卡打包功能 这是非常令人气愤的 辛苦的工作,创意的想法,终于实现,最后却被这些杀毒的流氓误报,害的别人不能使用。 于是在360官方提交了误报检测 检测…

谁敢说360不行? 那是你不会用!教你制服360

360的强大与流氓想必是萦绕在大家耳边最耳熟能详的两个词了。 没错,360是很强大却也很流氓,但是稍微动动手就能还你的电脑一片清净 此次测试最新版360安全中心13.0,亲测,以身犯险 针对小白,大佬勿扰 一、安装过程 二、…

千万不要使用360安全管家

我以前使用过360,360广告超级多,360搜索引擎也答非所问,edge主页也经常被修改,如果安装了,可以这样做。 方法1(亲测)---------------------------------------- 1.使用360卸载360,…

曾遭周鸿祎全网封杀的360猛将 :草根打工到36岁身家上亿的逆袭!

这是微笑哥再次给大家带来的人物分享。 全文7000字,阅读请谨慎。 作者 | 云游小生 来源 | 纯洁的微笑 转载授权(ID:keeppuresmile) 00 猎豹六周年,傅盛在内部演讲: “有部电视剧叫《奋斗》,名字很好&#x…

【OpenGL学习一】用OpenGL绘制图形,制作动画

1.OpenGL基本框架 1.1OpenGL简介 OpenGL(Open Graphics Library,开放图形库),是三维计算机图形和模型库。作为一个性能优越的图形应用程序设计界面(API),它独立于硬件和窗口系统。并在军事、广播电视、CAD/CAM/CAE、…