AGI—从GPT和大型语言模型中汲取的经验教训

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

3eacfe685d59b2de6f16a11f81acce46.gif

a5bd6119a8a7e632499ec885316575a6.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

673e9a89ea3d095abf79ea190f2d1471.png

论文地址:https://arxiv.org/pdf/2306.08641.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

人工智能界一直在追求被称为通用人工智能(AGI)的算法,这些算法适用于任何类型的现实世界问题。

ea00a2ec1ee540c6fc329dcd770f8fff.gif

01

总  述

最近,由大型语言模型(LLM)提供支持的聊天系统出现了,并迅速成为在自然语言处理(NLP)中实现AGI的一个有前途的方向,但在计算机视觉(CV)中实现AGI的道路仍不清楚。人们可能会将这种困境归因于视觉信号比语言信号更复杂,但我们有兴趣找到具体的原因,并从GPT和LLM中吸取经验来解决这个问题。

5ccc5cffc45ce8ee3b8ea8062e677210.png

在今天分享中,从AGI的概念定义开始,简要回顾了NLP如何通过聊天系统解决广泛的任务。该分析启发我们,统一是CV的下一个重要目标。但是,尽管在这个方向上做出了各种努力,CV仍然远远不是一个像GPT这样自然集成所有任务的系统。我们指出,CV的本质弱点在于缺乏从环境中学习的范式,而NLP已经完成了文本世界中的任务。然后,我们想象一个管道,将CV算法放在世界范围的可交互环境中,对其进行预训练,以预测其动作的未来帧,然后用指令对其进行微调,以完成各种任务。我们希望通过大量的研究和工程努力来推动这一想法并扩大其规模,为此我们分享了我们对未来研究方向的看法。

592e0441d8f70a506e487e8642bed404.gif

02

背景

世界正在见证一场迈向通用人工智能(AGI)的史诗之旅,我们按照惯例将AGI定义为一种可以复制人类或其他动物所能完成的任何智力任务的计算机算法。具体来说,在自然语言处理(NLP)中,计算机算法已经发展到可以通过与人类聊天解决广泛任务的程度。一些研究人员认为,这些系统可以被视为AGI的早期火花。这些系统大多建立在大型语言模型(LLM)之上,并通过指令调优进行了增强。它们配备了外部知识库和专门设计的模块,可以完成解决数学问题、生成可视化内容等复杂任务,体现了其理解用户意图和执行初步思想链的强大能力。尽管在某些方面存在已知的弱点(例如,讲述科学事实和被点名的人之间的关系),但这些开创性的研究已经显示出一种明显的趋势,即将NLP中的大多数任务统一为一个系统,这反映了对AGI的追求。

2e027b4231eb59716892ca19957c49cb.jpeg

与NLP中统一的快速进展相比,计算机视觉社区还远远不是统一所有任务的目标。常规的CV任务,如视觉识别、跟踪、生成等,大多使用不同的网络架构/或专门设计的通道进行处理。研究人员期待着像GPT这样的系统,它可以通过统一的提示机制处理广泛的CV任务,但在实现单个任务的良好实践和在广泛的任务中推广之间存在权衡。例如,为了报告目标检测和语义分割中的高识别精度,最好的策略是在用于图像分类的强大主干上设计特定的头部模块,并且这种设计通常不会转移到其他问题。

因此,出现了两个问题:(1)为什么CV的统一如此困难?(2) 为了实现这一目标,可以从GPT和LLM中学到什么?

为了回答这些问题,重新审视GPT,并将其理解为在文本世界中建立一个环境,并允许算法从交互中学习。CV研究缺乏这样的环境。因此,算法无法模拟世界,因此它们对世界进行采样,并学会在所谓的代理任务中获得良好的性能。在经历了史诗般的十年深度学习之后,代理任务不再有意义地表明CV算法的能力;越来越明显的是,继续追求对它们的高精度可以使我们远离AGI。

539fb1a6d4052ce31c359256ebad1de7.gif

03

总  述

简而言之,AGI就是学习一个广义函数a=π(s)。尽管形式很简单,但老式的人工智能算法很难使用相同的方法、算法甚至模型来处理所有这些问题。在过去的十年里,深度学习提供了一种有效而统一的方法:人们可以训练深度神经网络来近似函数a=π(s),而不知道它们之间的实际关系。强大的神经网络架构(如transformer)的出现甚至使研究人员能够为不同的数据模式训练一个模型。

实现AGI存在巨大困难,包括但不限于以下问题。

  • 数据的复杂性。真实世界的数据是多方面和丰富的。一些数据模态(例如,图像)可能具有相当高的维度,并且不同模态之间的关系可能是复杂和潜在的。

  • 人类智力的复杂性。AGI的目标不仅是解决问题,还包括计划、推理、对不同事件的反应等。有时,人类行为和目标之间的关系是模糊的,很难用数学形式表示。

  • 缺乏神经或认知理论。人类还不了解人类的智慧是如何实现的。目前,计算机算法提供了一种途径,但随着神经病学和/或认知学的未来研究,可能会出现更多的可能性。

84c7be05743a3821e3a395e760b43198.gif

04

GPT

NLP中AGI的火花

在过去的一年里,ChatGPT3、GPT-4和其他人工智能聊天机器人,如Vicuna4,在AGI方面取得了重大进展。它们是为自然语言处理(NLP)开发的计算机算法。通过与人类的聊天程序,他们可以理解人类的意图,并完成广泛的任务,只要这些任务能够以纯文本呈现。特别是,GPT-4在通用问题解决方面有很强的能力,被认为是NLP领域AGI的早期火花。

06baa93fcea89a56d527ab14762f30f9.png

尽管GPT-4尚未向公众开放视觉界面,但官方技术报告展示了几个关于多模式对话的奇特例子,即基于输入图像的聊天作为参考。这意味着GPT-4已经具备了将语言特征与视觉特征相结合的能力,因此它可以执行基本的视觉理解任务。正如我们稍后将看到的,视觉社区已经为相同的目的开发了几种替代品,关键在于使用ChatGPT或GPT-4来生成(指导)训练数据。此外,通过简单的提示,GPT-4还能够调用用于图像生成的外部软件(例如,Midtravel,如下图所示)和用于解决计算机视觉中复杂问题的外部库(例如,HuggingFace库)。

d93e944be67441f6d180c5202c398992.png

这些人工智能聊天机器人是分两个阶段进行训练的。在第一阶段,使用自监督学习在大型文本数据库上预训练大型语言模型(LLM),其中大部分基于transformer架构。在第二阶段,预先训练的LLM由人工指令监督,以完成特定任务。如有必要,收集人类反馈并进行强化学习,以微调LLM,使其具有更好的性能和更高的数据效率。CV:AGI的下一个战场

d2839174487acc8b5f1330755a6e7805.gif

05

AGI下一个战场

CV:AGI的下一个战场

人类基于多种数据模态感知世界。众所周知,我们所学的大约85%是通过我们的视觉系统完成的。因此,鉴于NLP社区已经显示出AGI的前景,自然会将计算机视觉(CV)或多模态(至少包括视觉和语言领域)视为AGI的下一个战场。

在此提供两项补充意见,以补充上述声明。首先,很明显,CV是NLP的超集,因为人类阅读文章首先识别捕获图像中的字符,然后理解内容。换句话说,CV中的AGI(或多模态)应涵盖NLP中AGI的所有能力。其次,我认为,在许多情况下,仅靠语言是不够的。例如,当人们试图找到关于未知物体(例如,动物、时尚等)的详细信息时,最好的方法是捕捉图像并将其用于在线搜索;单纯依赖文本描述可能会带来不确定性和不准确性。另一种情况是,正如我前面提及那样,在场景中引用细粒度语义(用于识别或图像编辑)并不总是容易的,而且以视觉友好的方式思考更有效,例如,使用点或框来定位目标,而不是说“穿着黑色夹克、站在黄色汽车前的人,和另一个人说话。”

理想与现实

希望有一种CV算法,可以通过与环境交互来解决一般任务。注意,该要求不限于识别所有内容或基于图像或视频剪辑执行对话。它应该是一个整体系统,从人类那里接收通用命令并产生期望的结果。但是,CV的现状还很初步。如下图所示,CV一直在为不同的视觉任务使用不同的模块甚至系统。

bc7c1761f558e3d8378cb573287c7311.png

统一是趋势

下面,我将最近关于CV统一的研究主题总结为五类。

  • Open-world Visual Recognition

a4de16d645887feae314daa8db407323.png

在很长一段时间内,大多数CV算法只能识别训练数据中出现的概念,导致视觉概念的“封闭世界”。相反,“开放世界”的概念是指CV算法能够识别或理解任何概念的能力,无论它以前是否出现过。开放世界能力通常是由自然语言引入的,因为它是人类理解新概念的自然方式。这就解释了为什么图像字幕和视觉问答等与语言相关的任务促成了最早的视觉识别开放世界设置。

  • The Segment Anything Task

0a8676e9c67f009b89f709f72822605d.png

Segment Anything任务是最近引入的一个通用模块,用于将原始图像像素聚类成组,其中许多像素对应于图像中的基本视觉单元。所提出的任务支持多种类型的提示,包括点、轮廓、文本等,并为每个提示或每个提示组合生成一些掩码和分数。在拥有约1000万张图像的大规模数据集上进行训练后,衍生模型SAM能够转移到广泛的分割任务中,包括医学图像分析、伪装对象分割、3D对象分割、对象跟踪,以及图像修复等应用场景。SAM还可以与最先进的视觉识别算法一起使用,例如将视觉基础算法产生的边界框细化为掩码,并将分割单元输入用于图像标记的开集分类算法。

  • Generalized Visual Encoding

86bea45926bdcbc9f2ffb6038fd22c7b.png

统一CV任务的另一种方法是为它们提供通用的视觉编码。有几种方法可以实现这一目标。一个关键的困难在于视觉任务之间的巨大差异,例如,目标检测需要一组边界框,而语义分割需要对整个图像进行密集预测,这两者都与图像分类所需的单个标签非常不同。正如所有人都能理解的那样,自然语言提供了一种统一的形式来表示一切。一项名为pix2seq的早期研究表明,物体检测结果(即边界框)可以公式化为自然语言和坐标,然后转换为标记作为视觉模型的输出。在后来的版本pix2seq-v2中,他们对表示进行了概括,以目标检测、实例分割、关键点检测和图像字幕的输出。类似的想法也用于其他图像识别、视频识别和多模态理解任务。

  • LLM-guided Visual Understanding

b9ab5766d7f182b25d343daa96e3e1da.png

视觉识别可能很复杂,尤其是当它涉及组成概念和/或视觉实例之间的关系时。端到端模型(用于视觉问答的视觉语言预训练模型)很难按照人类容易理解的程序产生答案。为了缓解这个问题,一种实用的方法是生成可解释的逻辑来帮助视觉识别。这个想法并不新鲜。几年前,在transformer架构出现之前,研究人员提出使用长短期记忆(LSTM)模型来生成程序,以便调用视觉模块作为复杂问题回答的模块。当时,LSTM的能力在很大程度上将这个想法限制在相对简单和模板化的问题范围内。

最近,大型语言模型(尤其是GPT系列)的出现使任意问题的转换成为可能。具体来说,GPT可以以不同的方式与人类相互作用。例如,它可以将基本识别结果总结为最终答案,或者生成代码或自然语言脚本来调用基本视觉模块。因此,视觉问题可以分解为基本模块。这对于逻辑问题尤其有效,例如询问对象之间的空间关系或取决于对象数量的问题。

  • Multimodal Dialog

多模式对话框将基于文本的对话框扩展到视觉领域。早期的工作涉及视觉问答,其中构建了具有简单问题的各种数据集。随着LLM的快速发展,通过将预先训练的视觉和语言模型一起微调,可以实现多轮问答。研究还表明,可以通过多模态的上下文学习或使用GPT作为逻辑控制器来回答广泛的问题。

c08e571fd378afd63cb47874e57ad11a.png

最近,GPT系列中开发的一种新范式,命名为指导学习,被继承来提高多模式对话的质量。其想法是从GT实况注释或识别结果中提供一些参考数据(例如,目标、描述),并要求GPT模型生成指令数据(即丰富的问答对)。通过对这些数据进行微调(无需参考),视觉和语言的基础模型可以通过轻量级网络模块(例如Q-former)相互交互。多模式对话为计算机视觉提供了一个初步的交互基准,但作为一项语言指导任务,它也有开放世界视觉识别中分析的弱点。我们希望丰富查询形式(例如,使用通用视觉编码方法)可以将多模式对话推向更高的水平。

c2ed38412b5647ab5e62365654b2a896.gif

06

未来

从环境中学习

An Imaginary Pipeline

887046ed561f25e594c9a28da94be489.png

上图显示了我们的想法。该管道包括三个阶段:第0阶段用于建立环境,第1阶段用于预训练,第2阶段用于微调。必要时,可以提示微调后的模型执行传统的视觉识别任务。

Comments on Research Directions

最后,对未来的研究方向进行了展望。随着主要目标从代理任务的性能转移到从环境中学习,许多流行的研究方向可能不得不调整其目标。这里有一个免责声明:以下所有声明都是我们的个人意见,可能是错误的。

论营造环境

一个明确的目标是继续增加虚拟环境的规模、多样性和保真度。有多种技术可以提供帮助。例如,新的3D表示形式(例如,neural rendering field, NeRF)在实现重建质量和开销之间的折衷方面可能更有效。另一个重要的方向是丰富的环境。定义新的、复杂的任务并将它们统一为一个提示系统是一项不平凡的任务。此外,人工智能算法可以从更好地模拟其他代理的行为中受益匪浅,因为它可以在很大程度上提高环境的丰富性,从而提高训练算法的稳健性。

论生成性预训练

主要有两个因素影响预训练阶段,即神经架构设计和代理任务设计。后者显然更为重要,前者应建立在后者的基础上。应修改现有的预训练任务,包括对比学习和掩蔽图像建模,以便在虚拟环境中进行有效探索。我们希望新设计的代理专注于数据压缩,因为视觉数据中的冗余比语言数据中的要重得多。新的预训练代理定义了神经架构的要求,例如,为了实现数据压缩和视觉识别之间的折衷,设计的架构应该具备根据请求提取不同级别(粒度)视觉特征的能力。此外,跨模态(例如,文本到图像)生成将成为衡量预训练性能的直接指标。当统一的标记化方法可用时,可以将其公式化为重建损失的多模式版本。

论指导微调

我们还没有进入新范式中定义任务的范围。由于现实世界中的任务可能非常复杂,我们推测可以首先定义和训练一些基本任务,以便将复杂的任务分解为它们。为此,应该设计一个统一的提示系统,并收集丰富的人工指令。作为一个合理的推测,指令数据的数量可能比为训练GPT和其他聊天机器人而收集的数据大几个数量级。这对CV来说是一个全新的故事。未来的道路充满了未知的困难和不确定性。目前我们看不到太多,但未来会出现清晰的道路。

© THE END 

转载请联系本公众号获得授权

75ee815a22cbd14eb8213a0b5e986d3f.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

2e04748179eeb140bcb932eb776eff7d.png

往期回顾

01

|ICLR 2023 | RevCol:大模型架构设计新范式

02

|清华大学提出LiVT,解决不平衡标注数据

03

|AI大模型落地不远了

04

|华为诺亚极简网络,靠13层就拿下83%精度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/70569.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

走向计算机视觉的通用人工智能:从GPT和大型语言模型中汲取的经验教训 (下)...

点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID|计算机视觉研究院 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2306.08641.pdf 计算机视觉研究院专栏 Column of Computer Vision Institute 人工智能…

自动化系列(五)Python实现企业微信机器人

自动化系列(五)Python实现企业微信机器人 上期介绍了如何定时推送数据到钉钉群,这次介绍如何定时推送数据到企业微信群。 添加自定义机器人 创建群聊:企业微信没有场景群,可以拉三五好友进群,然后再给他…

企业微信机器人 api 使用

key 来自: 一、发送消息 function sendText(key , text , mentioned []) {try {axios({method: post,url: https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key key,data: {msgtype: text,text: {content: text,mentioned_list: mentioned}}})} catch (er…

每个人都可以用的开源微信机器人

经历过UOS web协议的重放荣光,又经过一段时间的封禁,又有大神把UOS web协议救回来了。免费的快乐又重新回来了,不是吗? 这意味着每个人都可以用Wechaty搞事情了,什么服务器通知,定时给女友发微信,群发消息…

WorkTool(一)企业微信群管理机器人实现

简介 WorkTool 主程序是一个开源的安卓应用 APP,不需要 root 权限就可以直接安装。 源码友情链接 测试发送消息 API 使用 WorkTool APP 来自动执行一个自己企微里的账号,并通过后台调用对应的 API 来驱动机器人自动执行任务,如收发消息、自…

用企业微信机器人搞事情

从把办公通信工具从微信迁移到企业微信后,群组里面多了一个叫“群聊机器人”的功能,如下图,我在某个群建了一个叫“测试”的机器人。 听名字会让人以为群里面有个能自动答复的机器人,它就能跟他对话。其实并不能,他的功…

VX线报机器人的使用

使用步骤: 1. 下载上面的压缩包,并解压到同一个文件夹,没有解压是使用不了的 2. 双击Update.exe来下载机器人框架核心文件 3. 把com.bbs.weiququ.vlw.dll文件移到Plugin文件夹下 4.双击【我的框架.exe】来启动机器人框架 5.在我的帐号页…

AI热潮来袭||网友:AI会不会抢自己的饭碗啊~~~

ChatGPT还没搞懂,平地一声雷,GPT-4重磅发布!瑟瑟发抖的吃瓜群众逐渐变多:AI会不会抢自己的饭碗啊~~~ 答案是:会! 人工智能助手“阿里小蜜”承担95%的客服咨询; 机器人“天巡”接替运维人员以…

用友助力中核集团建设财务共享中心新华发电分中心,实现业财融合

企业在进行决策时需要大量的财务信息作为依据,财务共享中心的建设可以帮助企业将财务和业务分离后重新有序融合,使得决策数据更有价值,也帮助企业的管理和决策更加贴合实际。 新华水力发电有限公司(简称“新华发电”)…

【占星学】天蝎座女生性格特点

一、性格特点 天蝎座女的个性非常细腻,拥有非常敏锐的观察能力,外表总是一副冷漠的样子,但其实她们内心非常希望能够有一个人懂自己,天蝎座的女生其实是典型的外冷内热。此外,天蝎座的女生骨子里有争强好胜的性格&…

html星座代码,各星座详细页面.html

各星座详细页面 $axure.utils.getTransparentGifPath function() { return resources/images/transparent.gif; }; $axure.utils.getOtherPath function() { return resources/Other.html; }; $axure.utils.getReloadPath function() { return resources/reload…

如何搭建产品知识库?让产品知识库管理更有序高效!

任何一款成功的产品,都需要将自己的产品知识(内部制作和外部搜集)进行汇总和整理,帮助用户可以运用产品知识库中的内容,去解决实际应用中存在的问题。 有序高效的知识库管理 当一款产品从研发到投入使用,整…

基于GPT搭建私有知识库聊天机器人(一)实现原理

文章链接: 基于GPT搭建私有知识库聊天机器人(二)环境安装 基于GPT搭建私有知识库聊天机器人(三)向量数据训练 基于GPT搭建私有知识库聊天机器人(四)问答实现 1、成品演示 支持微信聊天支持网…

对阿,为什么大学程序设计老师不去外面公司当程序员?

我在大学的时候,老师都感觉很厉害的样子,一节课讲下来不带断句的(当然也碰到过一本书照着念不错一个字的)大学老师的工资应该没程序员的工资高吧,这其中存在着怎样的原因呢? 先看看网友是怎么吐槽的&#x…

程序员们,你会考虑使用中文编程吗?

众所周知,编程语言有一条无形的“鄙视链”。 Java和C#相互不服,并且看不起写Python的,Python看不起PHP,PHP看不起前端。而中文编程就在这个语言“鄙视链”的底端艰难生存。 有人对中文编程嗤之以鼻,相比于“人生苦短…

为什么大学还在教过时的软件技术,程序员:只能说你根本不懂软件

这几天小编一个刚毕业的学弟来向我取经,也抱怨了一些自己入职后工作上的事情。其中“为什么大学教的都是一些过时的软件技术,比如JSP,工作之前还要从头学习新的技术”这个问题让我特别有感触。按理说作为计算机科学来说,优势就在于…

DX滑块验证码别乱捅!一不小心就反爬了。

​大家好,我是TheWeiJun,欢迎来到我的公众号。今天我们将探讨一个有趣的话题:逆向滑块验证码。在互联网时代,随着网络安全问题日益引起人们的关注,各种验证码技术被广泛应用于各种网站和应用程序中,其中包括…

《当下的哲学》[法]阿兰.巴迪欧(作者)epub+mobi+azw3格式下载

下载地址:点我 下载后手机可浏览 内容简介 本书是巴迪欧与齐泽克针对同一问题所做对话的记录,包括两人各自的观点概述,以及一次激烈的辩论,从中可以看出两人之间存在怎样的一致性与分歧。这既是一封哲学讨论的邀请函,也…

读书计划-2008年12月

凭心而论,广图的图书更新速度还是很不错的。不过今天也发现,哲学、人文类的图书,越是新的书越少人借,一个小时里就发现有差不多10本是从来没有人借过的。 本月读书计划。 1. 《软件开发的滑铁卢》 广图一共有三本,到…

书评“世界杯”

昨天晚上,手捧《哈扎尔词典》的米洛拉德帕维奇以1比0敲碎了君特格拉斯的《铁皮鼓》;斯拉沃热齐泽克拎着《伊拉克:借来的壶》2比2浇灭了贝侯赛因奥巴马的《我父亲的梦想》和他《无畏的希望》。 今天早上,0比0,史蒂文杰拉…