2022年AI顶级论文 —生成模型之年（中）

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

过去十年来，人工智能技术在持续提高和飞速发展，并不断冲击着人类的认知。

2012年，在ImageNet图像识别挑战赛中，一种神经网络模型（AlexNet）首次展现了明显超越传统方法的能力。
2016年，AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。
2017年，Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型架构，奠定了当前大模型领域主流的算法架构基础。
2018年，谷歌提出了大规模预训练语言模型 BERT，该模型是基于 Transformer 的双向预训练模型，其模型参数首次超过了3亿（BERT-Large约有3.4个参数）；同年，OpenAI提出了生成式预训练 Transformer 模型——GPT，大大地推动了自然语言处理领域的发展。
2018年，人工智能团队OpenAI Five战胜了世界顶级的Dota 2人类队伍，人工智能在复杂任务领域树立了一个新的里程碑；此后在2018年底，Google DeepMind团队提出的AlphaFold以前所未有的准确度成功预测了人类蛋白质结构，突破了人们对人工智能在生物学领域的应用的想象。
2019年，一种人工智能系统AlphaStar在2019年击败了世界顶级的StarCraft II人类选手，为人工智能在复杂任务领域的未来发展提供了有力的证明和支持。
2020年，随着OpenAI GPT-3模型（模型参数约1750亿）的问世，在众多自然语言处理任务中，人工智能均表现出超过人类平均水平的能力。
2021年1月，Google Brain提出了Switch Transformer模型，以高达1.6万亿的参数量成为史上首个万亿级语言模型；同年12月，谷歌还提出了1.2亿参数的通用稀疏模型GLaM，在多个小样本学习任务的性能超过GPT-3。
2022年2月，人工智能生成内容（AIGC）技术被《MIT Technology Review》评选为2022年全球突破性技术之一。同年8月，Stability AI开源了文字转图像的Stable Diffusion模型。也是在8月，艺术家杰森·艾伦（Jason Allen）利用AI工具制作的绘画作品《太空歌剧院》（Théâtre D’opéra Spatial），荣获美国科罗拉多州艺术博览会艺术竞赛冠军，相关技术于年底入选全球知名期刊《Science》年度科技突破（Breakthrough of the Year 2022）第2名。

今年，我们看到生成模型领域取得了重大进展。Stable Diffusion 🎨 创造超现实主义艺术。ChatGPT 💬 回答关于生命意义的问题。Galactica🧬 学习人类科学知识的同时也揭示了大型语言模型的局限性。本文涵盖了 2022 年 20 篇最具影响力的 AI 论文，但是这篇文章绝不是详尽无遗的，今年有很多很棒的论文——我最初想列出 10 篇论文，但最后缺列出了 20 篇，涵盖不同主题的论文，例如生成模型（稳定扩散、ChatGPT）、AI 代理（MineDojo、Cicero）、3D 视觉（即时NGP、Block-NeRF）和新的state-of-the-基本 AI 任务中的艺术（YOLOv7，Whisper）。

8. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors

YOLOv7：可训练的 Bag-of-Freebies 为实时目标检测器设置了新的最先进技术

作者：Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao

文章链接：https://arxiv.org/abs/2207.02696

简介

YOLOv7 在 5 FPS 到 160 FPS 的范围内在速度和精度上都超过了所有已知的物体检测器，并且在 GPU V100 上具有 30 FPS 或更高的所有已知实时物体检测器中具有最高的精度 56.8% AP。YOLOv7-E6 目标检测器（56 FPS V100，55.9% AP）在速度上优于基于变压器的检测器 SWIN-L Cascade-Mask R-CNN（9.2 FPS A100，53.9% AP）509% 和 2%，并且基于卷积的检测器 ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) 速度提高 551%，准确度提高 0.7% AP，以及 YOLOv7 优于：YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、 DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-B 和许多其他速度和准确性的物体检测器。此外，我们只在 MS COCO 数据集上从头开始训练 YOLOv7，而不使用任何其他数据集或预训练权重。

如今，Vision Transformers (ViTs) 似乎已经取代了卷积神经网络 (ConvNets)，成为图像分类的最新技术。在这篇论文中，作者深入探讨了是什么让每个架构都表现良好，并提出了一个新的 ConvNets 系列，称为 ConvNeXt，它与 ViTs 相得益彰。

9. A ConvNet for the 2020s

2020 年代的 ConvNet

作者：Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie

文章链接：https://arxiv.org/abs/2201.03545

简介

视觉识别的“咆哮的 20 年代”始于 Vision Transformers (ViTs) 的引入，它迅速取代了 ConvNets，成为最先进的图像分类模型。另一方面，vanilla ViT 在应用于对象检测和语义分割等一般计算机视觉任务时面临困难。正是层次化的 Transformers（例如 Swin Transformers）重新引入了几个 ConvNet 先验，使得 Transformers 作为通用视觉骨干实际上可行，并在各种视觉任务上展示了卓越的性能。然而，这种混合方法的有效性在很大程度上仍然归功于 Transformers 的内在优势，而不是卷积固有的归纳偏差。在这项工作中，我们重新检查设计空间并测试纯 ConvNet 可以达到的极限。我们逐渐“现代化”标准 ResNet 以设计视觉 Transformer，并发现几个导致性能差异的关键组件。这一探索的成果是一系列被称为 ConvNeXt 的纯 ConvNet 模型。ConvNeXts 完全由标准的 ConvNet 模块构建而成，在准确性和可扩展性方面与 Transformers 相得益彰，在 COCO 检测和 ADE20K 分割方面实现了 87.8% 的 ImageNet top-1 准确性并优于 Swin Transformers，同时保持了标准 ConvNets 的简单性和效率。

10. A Generalist Agent (Gato)

通才智能体（Gato）

作者：Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron

文章链接：https://arxiv.org/abs/2205.06175

简介

受大规模语言建模进展的启发，我们采用类似的方法来构建超越文本输出领域的单一通才代理。我们称之为 Gato 的代理作为多模态、多任务、多实施的通用策略工作。具有相同权重的同一个网络可以播放 Atari、字幕图像、聊天、用真实的机器人手臂堆叠积木等等，并根据其上下文决定是否输出文本、关节力矩、按钮按下或其他标记。在这份报告中，我们描述了模型和数据，并记录了 Gato 的当前功能。

Gato 是一个多模态智能体，可以用真实的机械臂玩 Atari、字幕图像、聊天和堆叠积木。不同的模态被序列化为扁平的标记序列，并由类似于语言模型的 Transformer 进行处理。

11. MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge

MineDojo：使用互联网规模的知识构建开放式具体代理

作者：Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, Anima Anandkumar

文章链接：https://arxiv.org/abs/2206.08853

简介

自治代理在 Atari 游戏和围棋等专业领域取得了长足进步。然而，他们通常在孤立的环境中以有限的和手动构想的目标学习白板，因此无法概括广泛的任务和能力。受人类如何在开放世界中不断学习和适应的启发，我们提倡构建通才代理的三位一体要素：1) 支持多种任务和目标的环境，2) 多模式知识的大规模数据库，以及 3 ) 灵活且可扩展的代理架构。我们介绍了 MineDojo，这是一个基于流行的 Minecraft 游戏构建的新框架，它具有一个模拟套件，其中包含数千种不同的开放式任务，以及一个包含 Minecraft 视频、教程、维基页面和论坛讨论的互联网规模知识库。使用 MineDojo 的数据，我们提出了一种新颖的代理学习算法，该算法利用大型预训练视频语言模型作为学习奖励函数。我们的代理能够解决各种以自由形式语言指定的开放式任务，而无需任何手动设计的密集整形奖励。我们将仿真套件、知识库、算法实现和预训练模型开源，以促进研究朝着具有普遍能力的具体代理的目标发展。

MineDojo 是一个建立在 Minecraft 之上的项目，旨在推进通才代理人的培训。该项目引入了一个模拟套件，其中包含数千个开放式任务和一个包含视频、教程、维基页面和论坛讨论的互联网规模知识库。

12. Human-level Play in the Game of Diplomacy by Combining Language Models with Strategic Reasoning (Cicero)

将语言模型与战略推理相结合，在外交游戏中发挥人类水平（Cicero)

作者：Meta Fundamental AI Research Diplomacy Team

文章链接：https://www.science.org/doi/10.1126/science.ade9097

简介

尽管在训练人工智能 (AI) 系统模仿人类语言方面取得了很大进展，但构建使用语言在交互式环境中有意与人类交流的代理仍然是一个重大挑战。我们介绍Cicero，这是第一个在外交中实现人类水平表现的人工智能代理，外交是一种涉及合作和竞争的战略游戏，强调七名玩家之间的自然语言谈判和战术协调。Cicero 通过从对话中推断玩家的信念和意图并生成对话以实现其计划，将语言模型与规划和强化学习算法相结合。在一个匿名的在线外交联盟的 40 场比赛中，Cicero取得了人类球员平均得分的两倍多，并且在参加超过一场比赛的参与者中排名前 10%。

Cicero 是在外交中达到人类水平表现的代理人，外交是一种涉及合作与竞争与自然语言谈判的战略游戏。人工智能研究人员经常使用围棋、扑克和我的世界等游戏作为人工智能代理的游乐场。

13. Training Language Models to Follow Instructions with Human Feedback (InstructGPT and ChatGPT)

训练语言模型以遵循人类反馈的指令（InstructGPT 和 ChatGPT）

作者：Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal

文章链接：https://arxiv.org/abs/2203.02155

简介

使语言模型更大并不能从本质上使它们更好地遵循用户的意图。例如，大型语言模型可能会生成不真实的、有毒的或对用户没有帮助的输出。换句话说，这些模型与其用户不一致。在本文中，我们展示了一种途径，可以通过根据人类反馈进行微调，使语言模型与用户对各种任务的意图保持一致。从一组标记器编写的提示和通过 OpenAI API 提交的提示开始，我们收集了所需模型行为的标记器演示数据集，我们用它来使用监督学习微调 GPT-3。然后，我们收集模型输出排名的数据集，我们使用该数据集通过人类反馈的强化学习进一步微调该监督模型。我们将生成的模型称为 InstructGPT。在对我们的提示分布的人工评估中，1.3B 参数 InstructGPT 模型的输出优于 175B GPT-3 的输出，尽管参数少 100 倍。此外，InstructGPT 模型显示了真实性的提高和有毒输出生成的减少，同时对公共 NLP 数据集的性能回归最小。尽管 InstructGPT 仍然会犯一些简单的错误，但我们的结果表明，根据人类反馈进行微调是使语言模型与人类意图保持一致的一个有前途的方向。

使用带有人类反馈的强化学习 (RLHF) 微调语言模型可以使它们更好地与人类意图保持一致，从而对用户更有用。用户可以通过简单的说明或问题与 ChatGPT 等微调模型进行交互。ChatGPT 在短短 5 天内获得了 100 万用户，使其成为有史以来增长最快的产品之一。

14. LaMDA: Language Models for Dialog Applications

LaMDA：对话应用程序的语言模型

作者：Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker et cetera

文章链接：https://arxiv.org/abs/2201.08239

简介

我们介绍 LaMDA：对话应用程序的语言模型。LaMDA 是一个基于 Transformer 的专用于对话的神经语言模型家族，具有多达 137B 个参数，并在 1.56T 的公共对话数据和网络文本词上进行了预训练。虽然模型缩放本身可以提高质量，但它在安全性和事实基础方面的改进较少。我们证明，使用带注释的数据进行微调并使模型能够参考外部知识源可以显着改善安全性和事实基础这两个关键挑战。第一个挑战是安全性，涉及确保模型的反应符合一系列人类价值观，例如防止有害的建议和不公平的偏见。我们使用基于一组说明性人类价值观的指标来量化安全性，并且我们发现使用 LaMDA 分类器过滤候选响应并使用少量众包注释数据进行微调提供了一种提高模型安全性的有前途的方法。第二个挑战是事实基础，涉及使模型能够参考外部知识源，例如信息检索系统、语言翻译器和计算器。我们使用基础指标量化事实性，我们发现我们的方法使模型能够生成基于已知来源的响应，而不是仅仅听起来似是而非的响应。最后，我们探讨了 LaMDA 在教育和内容推荐领域的使用，并分析了它们的帮助性和角色一致性。LaMDA 是一系列基于 Transformer 的对话语言模型。这些模型使用带注释的数据进行微调，以防止有害建议、减少偏见并改善事实依据。

更多Ai资讯：公主号AiCharm
在这里插入图片描述