DALL-E发明者:我对其两年来产生的影响感到惊讶

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>CV微信技术交流群

转载自:机器之心 | 作者:Sharon Goldman | 编辑:袁铭怿

DALL-E 等生成式模型的「高光时刻」已经出现,作为发明者,Ramesh 表示:「我们第一次尝试这个研究方向,是想看看能有什么作为。现在想来,恍如昨日。」

919701c8f8934fbc578a01eb89fa469a.png

OpenAI 研究员、DALL-E 发明者和 DALL-E 2 联合开发者 Aditya Ramesh(图源自 OpenAI)。

在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前,该领域仅有一篇论文,即《零样本文本到图像生成》(Zero-Shot Text-to-Image Generation)。

2021 年 1 月 5 日,也就是两年前,随着这篇论文和网站演示的发布,OpenAI 推出了 DALL-E—— 可以「根据文本说明为各种用自然语言表达的概念创建图像」的神经网络。而据报道,OpenAI 近日正在就「估值为 290 亿美元的收购要约」进行谈判。

b100e3e60dce9b9a43377a116ed75610.png

图源自 DALL-E。

经过训练,Transformer 语言模型 GPT-3 的 120 亿参数版本可以使用文本图像对数据集从文本描述中生成图像。VentureBeat 记者 Khari Johnson 在描述时说,其「旨在唤起艺术家 Salvador Dali 和机器人 WALL-E」,并附上了 DALL-E 生成的「穿着芭蕾舞裙的小白萝卜遛狗」的插图。

OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示,自那以后,整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展,这算是一种很保守的说辞。随后便是扩散模型的迅速崛起,其出现改变了去年 4 月发布的 DALL-E 2,以及它的开源对手:Diffusion 和 Midjourney 原有的格局。

Ramesh 告诉 VentureBeat:「我们第一次尝试这个研究方向,想看看能有什么作为,现在感觉恍如昨日。我知道这项技术将会对消费者产生影响,也会帮助到并对许多不同的应用程序,但我仍然对其发展速度之快感到惊讶。」

如今,生成式模型正在逐渐发展到「图像生成和多种模态的高光时刻」。他说:「我很高兴能够为所有这些即将出现的应用做点什么。」

与 CLIP 合作开发的原创研究

CLIP 是与 DALL-E 1 研究共同开发和公布的,它是一个基于零样本学习的独立模型,实际上算是 DALL-E 的秘密武器。CLIP 从互联网上获取了 4 亿对带有文字说明的图像进行训练,能够使用自然语言进行分类基准测试并对 DALL-E 结果进行排名。

当然,很多早期迹象表明,当前即将迎来文字到图像的进步。英属哥伦比亚大学(University of British Columbia)的计算机科学副教授 Jeff Clune 说道:「多年来的研究显示,这种未来近在咫尺。」2016 年,他的团队制作出了他所说的第一批与真实图像难以分辨的合成图像。

他说:「我的意思是,几年后,人们可以描述任何想要的图像,然后由 AI 来生成它,比如特朗普面带假笑地接受普京的贿赂。」

Air Street Capital 的合伙人 Nathan Benaich 认为,生成式 AI 自始至终都是 AI 的核心部分。他在接受 VentureBeat 采访时表示:「值得一提的是,2014 年生成式对抗网络(GANs)的开发和 DeepMind 2016 年的 WaveNet 等研究已经开始展示 AI 模型如何分别从头生成新的图像和音频。」

尽管如此,最初的 DALL-E 论文「在当时给人留下了深刻的印象」,未来学家、作家和 AI 研究员 Matt White 补充道。他说:「虽然这不是文本到图像合成领域的首项工作,但 OpenAI 不仅仅向 AI 研究领域推广他们工作的方法,更是将推广范围扩大到公众层面,这自然也是其颇受关注的原因所在。」

尽可能地推动 DALL-E 研究

Ramesh 说,他的初心始终是尽可能地推动这项研究。

他说:「我们觉得文本到图像的生成很有意思,作为人类,我们能够通过一句话来描述我们在现实生活中可能遇到的任何情况,也可以是不可能发生的幻想场景,或者是疯狂的幻想。所以我们想看看我们训练的模型是否能得当地从文本中生成图像,并且和人类一样做出推断。」

Ramesh 还补充道,对原始 DALL-E 的主要研究影响之一是 VQ-VAE,这是一种由 DeepMind 研究人员 Aaron van den Oord 首创的技术:像语言模型所训练的 token 一样,将图像也分解为 token。

他解释说:「所以我们可以采用像 GPT 这样的 transformer,训练它的目的是为了预测下一个单词,并用这些额外的图像 token 来增强它的语言 token。这让我们可以应用同样的技术来生成图像。」

他说,DALL-E 会带给人们惊喜,因为「在语言模型中看到泛化的例子是一回事,但当在图像生成中看到它时,它就会更加直观且具有更深的影响力。」

DALL-E 2 向扩散模型的转变

但最初 DALL-E 研究发表时,Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已经在研究在 GLIDE(一种新的 OpenAI 扩散模型)的修改版本中使用扩散模型。

这导致 DALL-E 2 的架构与第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解释的那样,「DALL-E 1 使用离散变分自编码器 (dVAE)、下一个 token 预测和 CLIP 模型重新排序,而 DALL-E 2 直接使用 CLIP 嵌入,并通过类似 GLIDE 的扩散来解码图像。」

Ramesh 说:「将扩散模型和 DALL-E 结合起来,看似是一件自然而然的事,因为扩散模型有很多优点,其中最明显的特点是用扩散模型能够利落而又巧妙地修复图像。」

他解释道,在 DALL-E 2 中加入了在开发 GLIDE 时使用的一种特殊技术 —— 无分类器指导 —— 这大大改进了字幕的匹配度以及真实感。

「当 Alex 第一次尝试时,没有人想到结果会有这么大的改善。我最初只期望 DALL-E 2 能成为 DALL-E 的更新版本,但让我惊讶的是,它已经开始让用户受益了。」

2022 年 4 月 6 日,当 AI 社群和普通用户第一次看到 DALL-E 2 的图像输出时,他们中的大部分都惊叹于图像质量的差异。

3c5a126a0d5c4154debf1fa385e760b0.png

图源自 DALL-E 2。

「竞争激烈,喜忧参半」

Hugging Face 的首席伦理科学家 Margaret Mitchell 在电子邮件告诉 VentureBeat,2021 年 1 月发布的 DALL-E 是第一波文本到图像研究的浪潮,这些研究建立在语言和图像处理的基本进展之上,包括变分自动编码器和 autoregressive transformers。DALL-E 2 发布时,「扩散是我们行内人意料之外的突破,它切实地提升了游戏质量,」她说。

她补充说,自从最初的 DALL-E 研究论文发表以来,过去两年一直是「竞争激烈,喜忧参半」。

「对如何建立语言和图像模型的关注是以如何最好地获取模型的数据为代价的,」她还指出,在现代文本到图像的进展中,个人权利和同意「几乎被抛弃了」。目前的系统「基本上是在窃取艺术家的概念,而没有为艺术家提供任何追索权,」她如此总结道。

DALL-E 没有公开源代码,这导致其他系统开发了开源的文本转图像选项,这在 2022 年夏天前引起了轰动。

最初的 DALL-E「很有意思,但无法使用」,Stability AI 的创始人 Emad Mostaque 说,他在 8 月发布了开源文本到图像生成器 Stable Diffusion 的第一个迭代,并说「只有我的团队训练的模型可以称作开源」。Mostaque 补充说:「我们从 2021 年夏天开始积极资助和支持它。」

展望未来,White 认为,即使不久将要迎来新一代,DALL-E 的未来依旧任重而道远。

「DALL-E 2 在稳定性、质量和道德层面都存在问题,」,他指出,这些问题是相互交织且互相影响的,像「一只棕色的狗穿着红衬衫」这样的 prompt 可能会产生属性颠倒的结果(即红狗穿棕色衬衫,红狗穿红色衬衫或完全不同的颜色)。此外,他补充道,DALL-E 2 在面部和身体构造、图像文本生成的一致性方面仍然存在困难,「特别是当遇到较长的单词时。」

DALL-E 和生成式 AI 的未来

Ramesh 希望更多的人了解到 DALL-E 2 的技术工作原理,这样可以消除很多误解。

他说:「在大众眼里。这个模型的工作方式是:它在某处有个图像数据库,它生成图像的方式是将这些图像片段剪切粘贴在一起,从而创造出新的东西。但实际上,它的工作方式更接近于人类,当模型接受图像训练时,它会学习所有这些概念的抽象表征。」

他还解释道:「在我们从头开始生成图像时,我们不再使用训练数据。扩散模型从他们试图生成物的模糊近似开始,经过多重步骤,逐步添加细节,就像艺术家总是从一个粗略的草图开始发挥,随着时间的推移再慢慢充实他的作品。」

他说,助艺术家创作一臂之力也是 DALL-E 自始至终的目标。

「过去,我们热切地希望这些模型能成为艺术家的得力助手 —— 成为可以让许多日常任务变得更简单、更有效率的得力工具,就像 Codex 是程序员的副驾驶一样。据我们所知,一些艺术家认为在创建想法原型时,DALL-E 非常有用,因为他们通常会花几个小时甚至几天的时间来探索某个概念,随后才决定采用它,而 DALL-E 可以将这个过程缩短至几个小时甚至是几分钟。」

Ramesh 说,他希望越来越多的人能够在学习和探索过程中逐渐学会应用 DALL-E 和其他生成式 AI 工具。

「通过(OpenAI 的)ChatGPT,我认为我们已经极大地扩展了这些 AI 工具的功能,并让很多人接触到它。希望随着时间的推移,那些想运用我们的技术做事的人可以很毫不费力地通过我们的网站获取它,并找到方法来使用其构建出他们心中所想。」

原文链接:https://venturebeat.com/ai/two-years-after-dall-e-debut-its-inventor-is-surprised-by-impact/

 

点击进入—>CV微信技术交流群

CVPR/ECCV 2022论文和代码下载

 

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24798.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【原创】AIGC之Midjourney绘画应用

AIGC是什么 AIGC - AI Generated Content (AI生成内容),对应我们的过去的主要是 UGC(User Generated Content)和 PGC(Professional user Generated Content)。 AIGC就是说所有输出内容是通过AI机…

目标检测算法——图像分类开源数据集汇总(附下载链接)

>>>深度学习Tricks&#xff0c;第一时间送达<<< 目录 1、CUB-200-2011 鸟类细粒度图像分类数据集 2、飞机数据集 3、Stanford Dogs Dataset 狗类细粒度图像分类数据集 4、花卉数据集 5、90种动物图像数据集 6、综合汽车数据集 7、衣服数据集 8、商标…

协程相比线程到底好在哪里?

协程虽然被提出的时间很早&#xff0c;但是使用它的年限很短。尤其是最近几年&#xff0c;随着 Go、Lua 等语言的流行&#xff0c;把协程推向了一个新的高潮。 在所有语言中都存在着层级调用&#xff0c;比如 A 调用 B&#xff0c;B 在执行过程中又调用了 C&#xff0c;C 执行…

GPT-4:不了不了,这些我还做不到

ChatGPT的余波未平&#xff0c;GPT-4的风波又起。这次GPT-4的全新升级&#xff0c;再一次突破了技术的壁垒&#xff0c;很快受到众人的追捧&#xff1a; 有人说GPT-4的出现是场变革&#xff0c;但也许只是对人工智能的过度炒作&#xff1b; 有人说GPT-4可以直接生成好莱坞电影&…

【满血Buff】ChatGPT科普篇,三段式介绍

【满血Buff】ChatGPT科普篇&#xff0c;三段式介绍&#xff0c;内含各种高效率插件 1、ChatGPT是什么2、为什么要掌握ChatGPT效能工具3、ChatGPT能做什么 本篇博客采用三段论的叙事方式进行时下流行的人工智能工具ChatGPT的科普。 1、ChatGPT是什么 ChatGPT是Chat Generated b…

ChatGPT 又一波王炸更新!

公众号关注 “GitHubDaily” 设为 “星标”&#xff0c;每天带你逛 GitHub&#xff01; 令很多人都没想到的是&#xff0c;在过去的一两个月时间&#xff0c;AIGC 的热度看似有所下降&#xff0c;但其实是各个 AI 科技公司都在养精蓄锐憋大招。甩手便是王炸&#xff0c;不鸣则已…

一位同学拿到 亚马逊 offer 的经历 (毫无保留)

之前分享过很多国内的互联网公司的面试心得&#xff0c;这几天看到一位同学面试外企的心得&#xff0c;写的很全面&#xff0c;换个视角看看国外互联网是怎么面试人才的。 从这 5 个方向进行了总结&#xff1a;算法刷题、简历、系统设计、面试技巧、offer沟通。 希望对想去外企…

深圳内推 | 粤港澳大湾区数字经济研究院招聘NLP/多模态算法实习生

合适的工作难找&#xff1f;最新的招聘信息也不知道&#xff1f; AI 求职为大家精选人工智能领域最新鲜的招聘信息&#xff0c;助你先人一步投递&#xff0c;快人一步入职&#xff01; IDEA研究院 粤港澳大湾区数字经济研究院&#xff08;International Digital Economy Academ…

北京内推 | 微软亚洲研究院DKI组招聘大模型方向研究实习生

合适的工作难找&#xff1f;最新的招聘信息也不知道&#xff1f; AI 求职为大家精选人工智能领域最新鲜的招聘信息&#xff0c;助你先人一步投递&#xff0c;快人一步入职&#xff01; 微软亚洲研究院 Cloud Intelligence组是微软亚洲研究院DKI (Data, Knowledge & Intelli…

香港大学赵恒爽老师招收计算机视觉博士/博士后/研究助理

导师信息 赵恒爽博士 (www.cs.hku.hk/~hszhao) 是香港大学计算机科学系的助理教授&#xff0c;研究方向为计算机视觉、机器学习和人工智能。赵老师此前分别在麻省理工学院 Antonio Torralba 教授组和牛津大学 Philip Torr 教授组开展博士后研究。他博士毕业于香港中文大学&…

香港大学招聘研究助理、软件工程师和博士生

来源&#xff1a;机器之心 导师简介 余涛 (Tao Yu) 是香港大学计算机科学助理教授&#xff0c;共同领导港大自然语言处理实验室 (HKUNLP)。他于 Yale 博士毕业&#xff0c;在 UW NLP 访问一年&#xff0c;曾获得 2021 Amazon Research Award。他的研究旨在设计和构建基于大型语…

何恺明大神回归学界,网友:要成全MIT引用最高的人了

梦晨 Alex 发自 凹非寺来源 | 量子位 AI大牛何恺明有了最新动向&#xff0c;而且是回归学术界。 MIT CSAIL实验室发布公告&#xff0c;3月13日下周一&#xff0c;何恺明将到MIT做学术演讲。 此事引起AI圈广泛关注。在相关知乎问题下&#xff0c;MIT博士Charles指出&#xff0c;…

通用人工智能:定义、范围和作为早期 AGI 的 ChatGPT

通用人工智能 (AGI) 一直是人工智能研究领域内备受关注和争论的话题&#xff0c;尤其是自 GPT-4 推出以来。通用人工智能 (AGI) 代表在软件中模拟人类认知能力。因此&#xff0c;使 AGI 系统能够找到解决不熟悉任务的方法。AGI 的最终目标是执行人类可以完成的任何任务&#xf…

当医疗健康遇上ChatGPT,会碰撞出什么样的火花?

最近&#xff0c;ChatGPT刷屏朋友圈&#xff0c;人工智能&#xff08;AI&#xff09;再一次颠覆了人们的想象。当先进的人工智能技术遇上医疗健康行业&#xff0c;又会碰撞出什么样的火花&#xff1f; 什么是ChatGPT ChatGPT是美国一家名为OpenAl的人工智能公司在2022年11月发布…

模型转换、模型压缩、模型加速工具汇总

目录 一、场景需求解读二、模型转化工具汇总 1、模型转换工具的作用2、模型转换工具简介 1、MMdnn2、 ONNX3、 X2Paddle 三、模型压缩和加速工具汇总 1、模型压缩加速工具的作用2、模型压缩加速工具简介 1、PocketFlow3、distiller4、TVM5、tflite6、ncnn7、MNN8、OpenVIO9、T…

树莓派与STM32之间串口通信

目录 一、树莓派串口通信模块介绍 二、树莓派蓝牙、串口引脚映射对换步骤 1.启动串口 2. 禁用蓝牙&#xff08;硬件串口与mini串口映射对换&#xff09; 3.验证是否交换成功 三、树莓派安装mini串口调试助手 四、树莓派与电脑串口调试 五、树莓派与STM32串口调试 一、树…

【python】选择合适的机器学习模型

文章目录 1. python包&#xff1a;lazypredict1.1 安装lazypredict1.2 使用lazypredict 2. 选择模型3. 常用第三方库 1. python包&#xff1a;lazypredict lazypredict包功能&#xff1a;了解哪些模型在没有任何参数调整的情况下效果更好 1.1 安装lazypredict 直接用pip安装…

AI是什么?AI工具集网站大全

大家好&#xff0c;我是网媒智星&#xff0c;今天给大家总结了一些AI工具&#xff0c;希望能给大家提供帮助。 AI是什么&#xff1f; AI 是人工智能的缩写&#xff0c;指的是通过计算机技术和算法来实现智能的能力。我们人类的智能是基于我们的大脑所实现的&#xff0c;而 AI…

文心一言的魔性作图,我愣住了……

最近啊&#xff0c;关于智能AI的新闻&#xff0c;可以说是一波接着一波。 刚开始的时候是关于AI绘画工具的&#xff0c;一键合成小姐姐&#xff0c;秒变插画大佬&#xff0c;只需要简单的输入几行描述就可以。 后来&#xff0c;ChatGPT爆火全网&#xff0c;且在程序员圈炸开了锅…

读者问:省厅选调 和 阿里开发岗怎么选?

经常有小伙伴问编程君&#xff1a;程序员年龄大了&#xff0c;要不要转公务员&#xff1f; 于我而言&#xff0c;虽然能去个不错的互联网公司或者也可能进事业单位。但是一旦走上创业这个道路&#xff0c;真的就是不回路&#xff01; 很多时候别人问我如何做选择&#xff1f; 我…