CV什么时候能迎来ChatGPT时刻?

卷友们好,我是rumor。

最近看了几篇CV的工作,肉眼就感受到了CVer们对于大一统模型的“焦虑”。

这份焦虑让他们开始尝试统一一切,比如:

  • 统一复杂的自动驾驶任务的优化目标[1],来自今年CVPR最佳论文。

  • 统一典型的CV任务,包括图片理解、推理、编辑[2]。今年CVPR另一篇最佳论文。

  • 仿照LLM的方式设计Large Vision Model的范式雏形[3]

然而如今NLP进化出这样的统一范式太难得了,其中有好几个层级:

  1. 任务形式的统一:19年GPT2把所有NLP任务都整合成了一种形式,即text-to-text。

  2. 网络结构的统一:统一使用transformer (decoder)

  3. 优化范式的统一:预训练+精调+prompt

下面我就带着有偏的NLP视角,分享一下这三篇工作在统一CV上的尝试,欢迎大家在留言区交流,也欢迎推荐其他有insight的工作。

自动驾驶优化目标的统一

《Planning-oriented Autonomous Driving》

自动驾驶像NLP的对话一样,是个很复杂的任务,它的解决方案也经历了几代变化:

  • Standalone Models(图a):传统的做法是把最终目标拆解成一个个简单的单一模块,再分别去优化。但模块多了会造成误差传导,同时也可能丢失传递的信息。

  • Multi-task(图b):有工作用多任务学习去训一个统一的模型,同时输出各个模块的预测结果。这样虽然某些任务会相互增强,但也有任务会相互削弱。而且每次更新都需要从新训练(避免遗忘之前的任务),会给系统带来很多变数,不确定性较高。

  • Vanilla End2End(图c.1):能不能直接端到端呢?也有相关尝试,但对于安全要求极高的自动驾驶系统来说,纯端到端的可解释性和安全保障太弱了,想加一些强规则根本加不进去,比如识别到行人在前方就立刻刹车。

b0ea94a6e7185ee6531197310db79751.png

考虑到以上方案的优缺点之后,一个更好的方案就呼之欲出了:结合Pipeline系统的可控性+端到端for目标优化的效果保证,进行端到端Pipeline的联合优化(图c.3)。

虽然之前的工作也有类似的思想(图c.2),但都缺少一些任务(下表):

2949d3d799c91a1e1a372194030237ed.png

所以作者(上海人工智能实验室, 武汉大学,商汤)整理了自动驾驶中的感知、预测、规划三大步骤后,提出了UniAD (Unified Autonomous Driving)。

8c97d8f81f6b855e29aad3fb2945a512.png

该网络由几个子模块组成,每个模块都是一个transformer decoder,不同模块之间通过向量进行交互,从而达到共同优化最终的目标。

这篇工作主要统一了自动驾驶系统中各模块的优化目标,联合优化后,在不同的子任务上都取得了较大的提升。

CV任务的统一

《Visual Programming: Compositional visual reasoning without training 》

另一篇今年的最佳论文是Visual Programming,出自AllenAI,简单地说就是利用GPT3/4强大的In-Context Learning能力,用伪代码的形式,把复杂的图像理解、编辑任务拆解成几个简单的CV子任务,再直接调用接口解决,如下图。

aedec63214a273563d68eeda0f0a21be.png

现在这个时间节点,大家可能已经对这个思路见怪不怪了,不过CVPR23的投稿时间其实是在ChatGPT发布之前,回到那个时间还是比较novel的。(如果关注Embodied AI的话,会发现去年这种LM去做子任务拆解的思路谷歌4月份发布的SayCan[4]就提了,anyway各个方向本身就是相互促进的,估计CVer之前看NLP一堆对比学习的文章也是见怪不怪)。

这种思路虽然很优雅地统一了CV任务的输入输出,但也存在两个让落地变难的点:

  1. 从实验结果看各种任务的准确率只有60%-80%(zero-shot),无法比上专门优化的模型。

  2. 作者在论文的实验中只定义了20个API,但如果真要覆盖所有CV任务,这个API定义是很大的工程量,而且随着候选API数量提升效果也会下降。

Large Vision Model的范式

《Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models》

这篇文章出自华为,作者首先明确了他们眼中AGI的定义,即:

maximizing reward in an environment

要做一个序列决策模型,单纯的图片是不够的,必需有连续的图像信号。因此作者参考参考LLM的训练思路,定义了CV大模型的几个训练步骤:

7b2f513de20ca64dea89a5efed96698c.png
  1. 环境构建:首先需要有一个高质量、贴近现实、能实现各种交互的环境供模型学习(下文我们会讨论为什么要创建一个环境而不直接用现有数据)。

  2. 生成式预训练:仿照LM,训练模型预测下一帧。目前CV模型的预训练主要是Contrastive learning(判别式)和Masked image modeling(生成式),但MIM还不是序列层面的。

  3. 指令精调:训练模型遵循指令,与环境交互完成各种任务。

  4. 感知下游任务:通过前两步的训练之后,作者期望模型可以具备一定的zeroshot能力,通过prompt完成各种子任务。

这篇工作虽然给出了CV大模型的优化范式,但对于细节讨论较少,实操起来还是会有很多挑战,比如第一步环境建立就是一个超大的工程(狗头。

CV统一模型是否可行

让我们再回看开头说的NLP三个统一层级,对于CV是否可行呢?

对于任务形式(输入输出),个人认为不必追求单个模态,两者结合才是最优的。CV和NLP有个很大的差别是图像的信息密度较低。视觉能表达的东西有限,所以衍生出了抽象的语言,对知识、智能建模,作为人之间交流的工具。正因如此,单纯的图像也不适合作为人和机器之间交流的工具。但硬上其实也可以,毕竟我们读书看电脑也都是视觉转语言,中间加一层OCR就可以了。说不定等比transformer更好的编码器出来后真能这么搞。

对于网络结构,近年来有不少工作在尝试了。不过个人认为CV可能还是需要backbone的创新,因为CNN不适合处理长序列,而transformer目前需要把图像压缩成离散的patch,会造成信息损失,在某些落地场景不可用[5]

像NLP一样以预训练为基座的优化范式的统一则是最难的。回到图像信息密度低的问题,这会导致CV大模型需要比NLP更多的数据进行训练,而数据的获取上就有诸多难点

  1. 互联网上的图片、视频没有文字多。

  2. 大部分文字都是通顺的,而视频是跳跃的[6]。用现实世界训练效率又很低,所以第三篇工作才倡导构建一个虚拟环境。

所以个人还是觉得多模态更加靠谱,加一个模态来补充信息。但多模态预训练需要的高质量视频数据也不多,所以我目前觉得可行的是以NLP为基座,再融入CV模态进行生成式的多模态预训练

最后,补充一个看论文看到的冷知识:我们学到的知识85%来自视觉信号

参考资料

[1]

Planning-oriented Autonomous Driving: https://arxiv.org/abs/2212.10156

[2]

Visual Programming: Compositional visual reasoning without training: https://arxiv.org/abs/2211.11559

[3]

Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models: https://arxiv.org/abs/2306.08641

[4]

SayCan: https://arxiv.org/abs/2204.01691

[5]

在CV界,传统卷积已经彻底输给Transformer了吗?: https://www.zhihu.com/question/531529633/answer/2797528246

[6]

为何 CV 里没有出现类似 NLP 大模型的涌现现象: https://www.zhihu.com/question/597657073/answer/3003932801

65dc690b3685edcf4e2e6007ea933b3f.jpeg


我是朋克又极客的AI算法小姐姐rumor

北航本硕,NLP算法工程师,谷歌开发者专家

欢迎关注我,带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「早点学CV」a654f6fbe67ead5f48c1e6f941f2fd4b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13948.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

轻松客观认识大模型系列:一

这是我关于《轻松客观认识大模型系列》第一篇 一、前言 这篇文章旨在为没有计算机科学背景的读者提供一些关于ChatGPT及其类似的人工智能系统(如GPT-3、GPT-4、Bing Chat、Bard等)如何工作的原理。ChatGPT是一种聊天机器人,建立在一个大型语…

【综述专栏】“ChatGPT的问题、风险与机遇”会议综述

来源:清华大学智能法治研究院 在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说&am…

利用ChatGPT来学习Power BI

学习Power BI,或者说学习微软的相关产品的时候,最讨厌的就是阅读微软的官方文档,写的真的太硬了,有时候实时是啃不动,只能说不愧是巨硬。 但是,我们现在有AI帮忙了啊,ChatGPT3都通过了谷歌L3工…

如何用ChatGPT协助搭建品牌视觉体系(VI)?

该场景对应的关键词库(18个): VI体系、品牌、目标市场、品牌DNA、人群特征、设计理念、标志设计、配色方案、字体选择、图形元素、价值观、形象、客户经理、需求、品牌定位、目标受众、主色调、辅助色 提问模板(2个)&…

用Python代码画chatGPT的LOGO

文章目录 简介代码运行效果备注 简介 用python代码画chatGPT的LOGO,仅使用turtle库。如下: 绘画过程可以在下列平台查看: 抖音:用代码画chatGPT的logo b站:用代码画chatGPT的logo_哔哩哔哩_bilibili 代码 # codin…

2023,AIGC能赚到钱吗?

2022年,AIGC(生成式AI)是当之无愧的网红。 AI作画在各大社交平台刷屏,ChatGPT火爆国内外出尽了风头,依靠AI生成语音和表情、动作的数字人也频频露脸。2022年12月,Science杂志发布了2022年度科学十大突破&am…

跳出零和博弈,AIGC是元宇宙的“催命符”还是“续命丹”?

文 | 智能相对论 作者 | 青月 从科幻小说《雪崩》里走出来的元宇宙,如今正在上演“地价雪崩”。 CoinGecko的一项调查显示,Otherdeed for Otherside、The Sandbox、Decentraland、Somnium Space和Voxels Metaverse 这五款知名元宇宙土地价格近期均出现…

人工智能落地新范式:“大模型+”

7月8日,在2023世界人工智能大会(下称WAIC)上,一位参展商透露——“大模型”,是绕不开的主题。为期3天的大会,每场会议都有关于大模型的话题,每个论坛都离不开围绕大模型的讨论,国内A…

元宇宙退潮,人工智能起飞,大厂 Al 新赛点在哪?

作者 | 何苗 出品 | CSDN(ID:CSDNnews) 自去年底至今,多个企业在近期缩减元宇宙业务,如今ChatGPT有多火爆,上一任科技“网红”元宇宙就显得有多落寞。在大厂集体撤退元宇宙之后,似乎纷纷…

【饭谈】你是不是最近很少玩chatGPT了?AI泡沫可能要碎呀~

从三月份左右突然大火的chatGPT,席卷了全球后,带动了一大批的行业和造富运动。全世界人民为之疯狂,连我乡下的大婶都天天研究gpt,并为此付出了几千块的学费。 一晃,四个月过去了.... 猛然之间我发现,好像…

九龙证券|下阶段市场主线逐渐浮现 资金偏好或转向中大盘成长股

上星期,“中字头”基建股连续大幅攀升,成为带动沪指站稳3300点的主要力量。与此一起,前期火热的题材股则呈现退潮,例如部分ChatGPT概念股高位回撤,新动力概念也继续低位运行,资金呈现“以大为美”的特征。 …

不做XR业务,腾讯如何做元宇宙?

作者 | 刘然 来源 | 洞见新研社 腾讯的XR业务,沦为弃子。 去年6月份成立,到目前不足1年的腾讯XR(混合现实)部门,在今年一月份开始陆续退场,其XR部分业务开始暂停。有媒体报道,2月16日下午&…

Potato家族提权学习

声明 出品|博客(ID:moon_flower) 以下内容,来自moon_flower作者原创,由于传播,利用此文所提供的信息而造成的任何直接或间接的后果和损失,均由使用者本人负责,长白山攻防实验室以及文章作者不承担任何责…

potato电脑版连接不上_potato chat正式版PC端安装教程

potato chat正式版PC端是一款非常优秀的聊天工具,potato chat正式版PC端具有快速、安全、云存储等特点,它支持主流的操作系统进行使用,也可选择您需要使用的平台,支持windows、mac、linux、ios、android、web多平台;软件的功能方面也比较的全面,支持多国语言进行使用,可…

PG::Potato

nmap -Pn -p- -T4 --min-rate1000 192.168.171.101 nmap -Pn -p 22,80,2112 -sCV 192.168.171.101 打开80端口未发现可利用的服务 尝试对路径爆破,同时FTP可匿名访问,查看FTP内是否有可用信息 dirb http://192.168.171.101 在FTP中得到了网站源码的…

python实现一个土豆聊天 potato chat 机器人

python实现一个土豆聊天 potato chat 机器人 一、下载安装1、 官网: [https://www.potato.im/](https://www.potato.im/), 下载对应版本的程序 二、创建机器人1、创建机器人注册开发者注册开发者成功后,创建机器人 2、获得token设置允许您的机…

ios跳转到potato群聊

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_43299553/article/details/84632269 首先贴代码: NSString *url [NSString stringWithFormat:"pt://join?invite202cb962ac59075b964b07152d234b70…

ChatGPT | LangChain的文本切割方法对比

本文来自http://blog.csdn.net/hellogv/ ,引用必须注明出处! ChatGPT面向对话格式的文本理解很好,但如果要把网络上的文章让ChatGPT直接分析则会有格式的问题。文本清洗是个大课题,讲起来需要很多篇幅,优化起来前路漫…

ChatGPT确实有一种即时学习的能力

以下是ChatGPT即时纠正自己错误的一段对话,大家发现了什么没有,欢迎评论。 再次回答时,它立即更正了自己之前的错误; 提问中的个别错别字并没有影响到它对问题的理解; 再次回答时并没有重复第一次回答中的大部分内容&a…

ChatGPT办公应用:制作PPT大纲

正文共 617字,阅读大约需要 4 分钟 解决方案专家必备技巧,您将在4分钟后获得以下超能力: 制作PPT大纲 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 | Kim 编辑者 | Yuke PPT技能是一…