吴恩达的2022年终盘点:生成式AI、ViT、大模型

 Datawhale干货 

作者:吴恩达,斯坦福大学,编辑:智源社区

近日,吴恩达在圣诞节的《The Batch》特刊上发布了一年一度的年终盘点。在过去的一年,生成式AI迎来爆发式增长,由人工智能生成的图片在社交平台疯狂传播,引发大量争议的同时也推动了投资;视觉 Transformer(ViT) 的工作也出现爆炸性增长,在过去一年中,研究人员共计发表超过 17,000 篇 ViT 论文;AlphaCode、Codex 等的推出便利了开发者,大受欢迎;与此同时,研究人员也在不断拓宽语言模型的边界,在解决可信度、偏见和实时性等问题方面做出持续不断的努力。 

亲爱的朋友们:

随着寒假的临近,我突然想到,我们不是在面对人工智能的冬天,而是在一个人工智能炙热的夏天。 

今天,人工智能创造的绝大多数经济价值都来自监督式学习工具,经过训练能够生成简短的标签(如判断垃圾邮件/非垃圾邮件)或一系列标签(如一段音频的文本)。今年,建立在监督式学习之上的生成式成为第二个主要工具,使人工智能能够生成复杂且引人注目的图像或文本段落。

以往开发重要新工具(例如强化学习)的一些尝试,尚未取得与其铺天盖地的宣传相称的成果。但是生成式AI做得很好,它为人工智能应用创造了一个新的范式。

而且监督学习还远远没有发挥出它的全部潜力!依靠监督学习,仍然有数以百万计的的应用有待开发。许多团队仍然在试图找出通过监督学习开发产品的最佳实践。

未来,我期待着继续与生成式AI共舞,为每个人创造大量的价值。我感到很幸运能活在这个时代,科技飞速发展,我们有机会一起创造未来!能与我的家人和你们分享这个世界,我感到倍加幸运。

节日快乐,

Andrew

01

2022:人工智能闪耀的一年

2e38814860b42c73945db757ccf9ebe7.png

节日将近,人们也许正一边手捧着一杯热可可,一边催促 ChatGPT 建议节日礼物。这个特殊的时刻,让我们回顾这一年人工智能所取得的巨大进步。能够生成类人的文本、图像和代码的系统(视频和音乐也即将推出)让用户倍感惊喜,尽管有人对创造力的未来提出了质疑。 

这一年,解码化学和物理学的模型推动了科学发现,同时政府则采取行动推动专用微处理器的供应,使这种创新成为可能。这些科技发展让我们震惊的同时,在这期《 The Batch 》特刊中,我们将着重回顾人工智能在2022年创造的奇迹。

6fbe0ef39bca437cca4a674363d32f68.png

02

合成图像遍天下

由人工智能制作的图片像病毒一样开始疯狂传播,引发了争议,推动了投资。

大事件: 新一代的文生图工具激发了大量的实验,将文本描述转化为迷人的艺术作品和照片,引发超现实主义的幻想。商业企业迅速将这项技术投入使用,使图像生成成为创建和编辑图形软件的必备功能。

背后的驱动力:由于友好的用户界面、具有高度娱乐性的输出以及开放的 API 和模型,能够生成文字和图像的模型成为人工智能的公众名片。

  • OpenAI 在四月份推出了 DALL-E 2。超过150万用户测试了这个模型,今年9月,公司将它推向了市场。微软为 OpenAI 提供资金,以换取其作品的独家商业版权,并将该模式整合到 Azure AI-as-a-service 平台中。

  • 7月,只需操作按钮的艺术家们用简单的 Craiyon 制作的相对粗糙的图片,这些图片在社交平台上随处可见。

  • Stability AI很快就加大了赌注,推出了开源的扩散模型(Stable Diffusion),最终吸引了超过1亿美元的新资金。扩散模型于去年11月升级到2.0版。

  • Adobe、Getty Images 和 Shutterstock 将图像生成模型集成到他们自己的产品和服务中。

  • 这些应用根据给出的文本提示(prompt)会产生截然不同的结果。PromptBase 为生成有趣输出的文本字符串打开了一个市场。

缺点:这样的模特是在从网上搜刮来的图像上训练的。像大型语言模型一样,他们继承了嵌入在网络内容中的偏见,可能会模仿煽动性的表达风格。

  • Lensa AI 是一款照片编辑应用程序,可以根据用户的自拍生成艺术化身,它登上了app商店排行榜的榜首。它的成功带来了一定程度的争议,因为用户,尤其是女性,发现这个app使她们的图片变得更加性感。

  • 视觉艺术家在线社区 ArtStation 推出了自己的“文字到图像”功能。许多艺术家感到受到电脑程序的威胁,这些程序可以在几秒钟内复制艺术家来之不易的个人风格,因此开始抵制该网站。

新闻背后: 扩散模型经过一系列步骤有选择地去噪来产生输出。加州大学伯克利分校和斯坦福大学的研究人员于2015年引入了这一技术(http://proceedings.mlr.press/v37/sohl-dickstein15.pdf?),在此之后的几年里,他们一直处于幕后,直到最近的研究表明,他们能够制作出与生成性对抗网络(GAN)输出相竞争的图像。Stability AI 把扩散模型放在核心位置。DALL-E 初始版本基于GAN,OpenAI在大约同一时间用扩散模型对其进行了更新。

现状:来年将迎来一场计算机辅助创造力的革命。生成图像的风潮不会止步于图片。谷歌和 Meta 今年发布了令人印象深刻的文本到视频模型(https://www.deeplearning.ai/the-batch/googles-phenaki-generates-long-form-video-from-text/),而 OpenAI 将文本到 3D物体的生成速度提高到了一个新高度。(https://arxiv.org/abs/2212.08751?)

6bbc5c7c77f5d901e1bc01ddf99401eb.png

03

程序员的好朋友—编程工具大显身手

软件项目进度落后?有个软件可以帮你。

大事件:事实证明,经过计算机代码微调的语言模型能够生成类似于经验丰富的开发人员编写的软件例程ーー尽管结果可能是偶然的。

背后的驱动力:人工智能驱动的代码生成器进入了大公司,甚至小规模公司的开发人员(和非开发人员)也可以访问它们。

  • 今年年初,Ebay 将低代码工具交到非工程师手中,使他们能够在没有人工智能或机器学习知识的情况下构建和部署模型。

  • 今年 2 月,DeepMind 推出了 AlphaCode(https://www.deeplearning.ai/the-batch/competitive-coder/),这是一款用 12 种编程语言对 8600 万个程序进行预训练的 Transformer,并针对编码竞赛的内容进行了微调。通过推理,它产生了一百万种可能的解决方案,并过滤掉了不佳的解决方案。通过这种方式,它在 10 次编程竞赛中击败了一半以上的参赛者。

  • 今年 6 月,GitHub 开放了 Copilot 的访问权限,这是一个能够实时提供代码建议的自动完成系统。虽然学生和经过验证的开源开发者可以免费访问,但用户需要支付订阅费。

新闻背后:OpenAI 的 GPT-3语言模型的用户表明,它最早可以在 2020 年中期生成工作代码。一年后,OpenAI 推出了一个经过微调的版本,名为 Codex,它是 GitHub 的 Copilot 的基础。

缺点:这种技术的广泛使用的版本还不能编写复杂的程序。通常乍一看,它们的输出看起来是正确的,但实际上却存在错误。此外,它们的法律地位可能还有待商榷。一项针对 GitHub、 OpenAI 和微软的集体诉讼声称,Codex 的训练违反了开源许可协议。这一结果可能会对生成文本、图像和其它媒体数据的模型产生法律影响。

现状:人工智能驱动的编程工具不太可能在不久的将来取代人类程序员,但它们可能会取代技术问答网站 Stack Overflow,成为开发人员最依赖的辅助工具。

bc13f65878b49e8ba1707b17389ed5b8.png

04

人工智能之眼进化

视觉 Transformer(ViT) 的工作在 2022 年出现爆炸性增长。

大事件:在这一年中,研究人员发表了超过 17,000 篇 ViT 论文。其中一个主题是: 将自注意力和卷积结合起来。

背后的驱动力:谷歌大脑的一个团队在 2020 年引入了视觉 Transformer(ViT,https://arxiv.org/abs/2010.11929?) 。从此,视觉 Transformer 的架构经历了不断的改进。一系列最近的工作使 ViT 适应新的任务并解决其缺点。

  • 用海量数据训练 ViT 可以得到最好的性能,因此 Meta 和索邦大学的研究人员专注于提高 ViT 在包含数百万条数据的数据集上的性能(https://www.deeplearning.ai/the-batch/a-formula-for-training-vision-transformers/)。他们利用 Transformer 特有的已建立的程序(如数据增强和模型正则化)的适配来提高模型性能。

  • Inha 大学的研究人员修改了两个关键部件,使得 ViT与卷积神经网络更相似(https://www.deeplearning.ai/the-batch/less-data-for-vision-transformers/)。首先,他们将图像分割成重叠更多的图块(patch)。其次,他们修改了自注意力机制,使其关注与图块相邻的图块,而不是图块本身,并使其能够学习是否更均匀或更有选择性地权衡相邻的图块。这些修改极大地提高了精度。

  • 印度理工学院孟买校区的研究人员为 ViT 配备了卷积层(https://www.deeplearning.ai/the-batch/upgrade-for-vision-transformers/)。由于重量共享机制,卷积带来了像素的局部处理和更小的内存占用等好处。在精度和速度方面,他们的卷积 ViT 优于普通的 ViT 和运行时优化的 Transformer(如 Performer,Nyströformer 和线性 Transformer)。其他团队采取了类似的方法。

新闻背后:尽管许多 ViT 研究旨在超越并最终取代卷积神经网络(CNN) ,但更有力的趋势是将二者结合起来。ViT 的优势在于它能够在小尺度和大尺度上考虑图像中所有像素之间的关系。但这种模型的一个缺点是,它需要通过额外的训练来学习随机初始化后融入 CNN 架构的方法。CNN 的局部上下文窗口(只考虑局部像素问题)和权重共享(使它能够以相同的方式处理不同的图像位置)帮助 Transformer 利用更少的数据中学习更多。

现状:在过去的一年中,视觉 Transformer 的应用范围扩大了。ViT 可以生成逼真的连续视频帧,利用 2D 图像序列生成3D 场景,并在点云中检测目标。很难想象在没有 ViT 的情况下,最近研究者们能够取得基于扩散模型的文本到图像生成器的进展。

d615595e5c44df85d8285555412f2cc1.png

05

语言模型持续扩展

研究人员推动了语言模型的边界,以解决可信度、偏见和可更新性等持续存在的问题。

大事件: 许多人工智能实验室的目标是通过改进数据集和训练方法(包括训练 Transformer 翻译1000 种语言的方法)使大规模语言模型更加复杂(https://www.deeplearning.ai/the-batch/machine-learning-model-trained-to-translate-1-000-languages/),而其它实验室则扩展了模型架构,以搜索 Web 网页、查阅外部文档和适应新信息。

背后的驱动力: 语言模型产生似是而非的文本的能力超过了它们辨别事实、避免编造幻想和表达社会偏见的能力。研究人员致力于使他们的研究结果更加可靠,而不是那么具有煽动性。

  • 2021 年底,DeepMind 提出了 RETRO 模型(https://www.deeplearning.ai/the-batch/large-language-models-shrink/),该模型可以从 MassiveText 数据集中检索段落,并将其整合到输出中。

  • AI21 实验室春季发布的 Jurassic -X 引入了一系列模块(https://www.deeplearning.ai/the-batch/neural-nets-rules-truer-text/)——包括一个计算单元和一个查询维基百科的系统——利用事实核查语言模型对数学问题、历史事实等的答案。

  • 斯坦福大学和洛桑联邦理工学院的研究人员创建了 SERAC 系统(https://www.deeplearning.ai/the-batch/update-any-language-model/),该系统可以用新的信息更新语言模型,而无需重新训练它们。他们使用单独的系统存储新数据,学习为与该数据相关的查询提供输出。

  • Meta 构建了语言模型 Atlas(https://www.deeplearning.ai/the-batch/how-small-language-models-can-perform-specialized-tasks/),通过从文档数据库中检索信息来回答问题。8 月份发布后,这一方法使 110 亿参数的 Atlas 在回答问题时的表现超过了具有 5400 亿参数的 PaLM。

  • 今年晚些时候,OpenAI 对 ChatGPT 进行了微调(https://www.deeplearning.ai/the-batch/how-ai-professionals-reacted-to-chatgpt-on-twitter/),从而最小化不真实、有偏见或有害的输出。人类对模型的训练数据质量进行排名,然后用强化学习算法对模型产生的输出给出奖励,这些输出与排名靠前的输出类似。

  • 这些技术发展加强了对语言评测基准的需求,从而评估更多样化和微妙的能力。为此,超过130 个机构合作开发了“BIG-bench”(https://www.deeplearning.ai/the-batch/toward-next-gen-language-models/),它包括根据表情符号推断电影名称、参与模拟审查以及检测逻辑谬误等任务。

新闻背后: 进展过程并非一帆风顺。Meta 公开演示的 Galactica 语言模型,被训练用于生成科学和技术主题的文本。在 11 月份上线三天后,开发者因为它容易生成虚假信息和引用不存在的信息来源而停止演示。今年 8 月,同样来自 Meta 的聊天机器人 BlenderBot 3 很快就因滔滔不绝的种族主义成见和阴谋论而饱受争议。

现状: 在过去的一年中,文本生成中考虑生成结果真实、得体的工具箱大幅度增长。成功的技术将在未来的某项“爆款”模型引发的浪潮中找到前进的道路。

dfd175b1ea270fbe5e18d54ec65e2ff1.png

06

全能模型

大事件:某些多任务深度学习模型在数百个任务中证明了它们所向披靡。多任务模型的范畴在过去的一年里急剧扩大。

背后驱动力:研究人员推动了神经网络可以学习技能数量的极限。他们的灵感来自于大规模语言模型的新兴技能ーー比如,在不调整架构的情况下创作诗歌和编写计算机程序的能力ーー以及经过文本和图像训练的模型找到不同数据类型之间对应关系的能力。

  • 今年春天,谷歌的 PalM在涉及语言理解和生成的数百项小样本学习任务中取得了目前最优的结果。在某些情况下,它的表现优于经过微调的模型或人类的平均表现。

  • 不久后,DeepMind 推出了一款名为 Gato 的 Transformer 模型(https://www.deeplearning.ai/the-batch/one-model-hundreds-of-tasks/),它学会了完成 600 多种不同的任务ーー玩 Atari 游戏、用机器臂堆积木、生成图片描述等等ーー尽管不一定比专门用于这些任务的独立模型更好。该系统同时接受了多种数据集的监督训练(从文本、图像到强化学习智能体生成的动作等)。

  • 随着这一年接近尾声,谷歌研究人员也将类似的能力引入了机器人领域。RT-1 是一种使机器人能够执行超过 700 项任务的 Transformer模型。该系统对动作和图像进行词例化,利用近一年半的机器人队伍收集的 130,000 个 episode 构成的数据集学习。与先前的技术相比,它在新的任务、环境和对象中取得了出色性能。

新闻背后: 欧盟拟议的 AI 法案的最新草案可能在 2023 年成为法律,该草案将要求通用 AI 系统的用户向当局注册,评估其系统的潜在的误用可能,并进行定期审计。草案将通用系统定义为那些“执行通用功能的系统,如图像/语音识别、音频/视频生成、模式检测、问答、翻译等”,并且能够“具有多种预期和非预期目的”,一些观察家批评该定义过于宽泛。新出现的真正通用的模型可能促使监管机构收紧其定义。

现状: 我们仍然处于构建算法的早期阶段,这些算法可以泛化到数百个不同的任务上。这一年的进展表明,深度学习有潜力帮助我们实现这一目标。

b26c882b8981bb8cc2b8f64007955ba8.png

整理不易,三连

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16870.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

讯飞星火认知大模型 VS CHATGPT3.5

2023年5月6日,科大讯飞(002230.SZ)宣布将于当日举行“讯飞星火认知大模型”成果发布会。 与其他厂商的大模型发布相比,本次发布会具有三个特点:1.全程真机互动,现场实测、现场体验;2.技术先进性不是笼统表达&#xff…

AI测试|史上最全,细数AIGC在测试领域落地的困难点

一、引言&背景 自2022年由横空出世的ChatGPT引发的各类AIGC(Generative AI)爆发以来,人们对其在各个领域的应用潜力产生了极大的兴趣。在研发领域,各种研究已经证明了Github Copilot在研发效能提高上的积极作用。 在测试领域…

ChatPDF,来了!

转自:量子位 ChatGPT生产力,又上了一个台阶! 现在,甩一个PDF过去,它能自己读,你只负责提问就行。 一篇满是专业词汇的论文,它三言两语就能解释清楚,还都是中文大白话。 而且准确性很…

ChatPDF也来了!一键上传文件即可解读,复制粘贴都省了...

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【计算机视觉】微信技术交流群 明敏 发自 凹非寺转载自:量子位(QbitAI) ChatGPT生产力,再进阶! 现在,甩…

GPT-4 来了!这些开源的 GPT 应用又要变强了

作者:HelloGitHub-小鱼干 近日,在 GPT-3.5 发布的半年后,OpenAI 正式推出了大版本的 GPT-4,不同于 GPT-3 到 GPT-3.5 耗时两年,这次版本升级只用了半年。如果你对 OpenAI 不熟悉,答应我读下这篇《ChatGPT 会…

GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福

【导读】OpenAI的GPT-4在万众瞩目中闪亮登场,多模态功能太炸裂,简直要闪瞎人类的双眼。李飞飞高徒、斯坦福博士Jim Fan表示,GPT4凭借如此强大的推理能力,已经可以自己考上斯坦福了! 果然,能打败昨天的Open…

GPT4发布,有哪些升级和应用?

引言: GPT-4是OpenAI GPT系列研究最新里程碑,GPT-4接受图像和文本输入, 是一个大型多模态模型(接受图像和文本输入,输出为文本)。本文结合OpenAI官方Blog、技术报告微软Copilot发布会内容,详细介…

OpenAI推出GPT-4:功能强过ChatGPT 能玩梗图还能做网页

雷递网 雷建平 3月15日 在人们还在熟悉ChatGPT之际,人工智能企业OpenAI又推出了更强大的GPT-4,也被称为“王炸”产品。OpenAI CEO Sam Altman 称,GPT-4 是“我们迄今为止最强大、对齐最好的模型”。 OpenAI总裁Greg Brockman说:“…

日读300篇文献的技巧

感觉自己看文章很慢,有时候也抓不住重点。 如果是英文文献的话,可能还要有点难度,毕竟英语渣渣还是需要有中文-》英文的转换过程。 最近在搞毕业论文的时候,发现了一个非常好玩的东西,大大提升了我看文章搞科研&#x…

ChatPDF也来了!一键上传文件即可解读,复制粘贴都省了

来源丨网络 ChatGPT生产力,再进阶! 现在,甩一个PDF过去,它能自己读,你只负责提问就行。 一篇满是专业词汇的论文,它三言两语就能解释清楚,还都是中文大白话。 而且准确性很赞! 论文中…

ChatGPT的5月大事记

(5-11)Google 举办 I/O 开发者大会,Google版ChatGPT史诗级更新 整场大会,Google 共提及「AI」一词近 200 次,几乎把 AI 写进了包括 Gmail、搜索、Pixel 等所有产品里面,迫切地想向所有人证明自己仍在 AI 最…

励志小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023

Pine 发自 凹非寺来源 | 量子位 QbitAI 能读图的GPT-4震撼发布了!但要用它还得排队。。。 不如先试试这个~ 加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。 并且…

杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023

Pine 发自 凹非寺量子位 | 公众号 QbitAI 能读图的GPT-4震撼发布了!但要用它还得排队。。。 不如先试试这个~ 加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。 并…

网络带宽/吞吐量/chariot介绍

吞吐量是指在没有帧丢失的情况下,设备能够接受并转发的最大数据速率。

Linux网络性能评估工具iperf 、CHARIOT测试网络吞吐量

目录 一、 Iperf能做什么 1、TCP方面 2、UDP方面 二、 Iperf的安装与使用 1.安装iperf 2.iperf参数介绍 三、 Iperf应用实例 1.测试TCP吞吐量 2 . 测试UDP丢包和延迟 四、利用IXCHARIOT进行网络测速 网络性能评估主要是监测网络带宽…

用Speedtest-Tracker跟踪上网速度

什么是 Speedtest-Tracker ? Speedtest-Tracker 每小时运行一次 speedtest 检查,并将结果绘制成图表。后端使用 Laravel 编写,前端使用 React。它使用 Ookla 的 speedtest cli 包获取数据,并使用 Chart.js 绘制结果。 从功能上看和…

chatgpt赋能Python-pythongpu加速

Python GPU加速:让你的Python应用飞速运行 介绍 Python是一种高级编程语言,具有易于学习、易于使用和强大的功能。作为一门解释型语言,Python会在运行时逐行解释程序代码,而这种解释方式会导致Python在运行速度上较慢。在需要大…

Jasper狂飙:AIGC现象级应用的增长秘笈

随着ChatGPT开放自己的API,不少人开始期待AIGC应用大爆发。不过与大模型的进展类似,中国在AIGC应用上也滞后了。 在ChatGPT出来前,AIGC应用在国外率先开枝散叶,除了Google、Meta这些科技巨头外,有OpenAI,做…

2023年有哪些技术值得我们关注呢?chatgpt/AI/机器学习/5G/区块链

2023年,除了云原生之外还会涌现出很多新的技术和趋势,以下是其中一些可能的技术和趋势: 5G技术: 随着5G网络的普及,将会出现更多5G相关的应用和场景,例如智能家居、无人驾驶、虚拟现实等。 AI和机器学习&am…

中二青年付杰的逆袭故事:从二本生到 ICLR 杰出论文奖,我用了20年

二本出身,读了两个硕士才在29岁开始读博,39岁才结束博士后研究的付杰形容,他的20年就像个体与系统的博弈: 在一些机器学习的文章中,研究者会根据训练初始阶段 Training Curve(训练曲线)的模式来…