2022年AI顶级论文 —生成模型之年(中)

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。

  • 2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。

  • 2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。

  • 2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。

  • 2018年,谷歌提出了大规模预训练语言模型 BERT,该模型是基于 Transformer 的双向预训练模型,其模型参数首次超过了3亿(BERT-Large约有3.4个参数);同年,OpenAI提出了生成式预训练 Transformer 模型——GPT,大大地推动了自然语言处理领域的发展。

  • 2018年,人工智能团队OpenAI Five战胜了世界顶级的Dota 2人类队伍,人工智能在复杂任务领域树立了一个新的里程碑;此后在2018年底,Google DeepMind团队提出的AlphaFold以前所未有的准确度成功预测了人类蛋白质结构,突破了人们对人工智能在生物学领域的应用的想象。

  • 2019年,一种人工智能系统AlphaStar在2019年击败了世界顶级的StarCraft II人类选手,为人工智能在复杂任务领域的未来发展提供了有力的证明和支持。

  • 2020年,随着OpenAI GPT-3模型(模型参数约1750亿)的问世,在众多自然语言处理任务中,人工智能均表现出超过人类平均水平的能力。

  • 2021年1月,Google Brain提出了Switch Transformer模型,以高达1.6万亿的参数量成为史上首个万亿级语言模型;同年12月,谷歌还提出了1.2亿参数的通用稀疏模型GLaM,在多个小样本学习任务的性能超过GPT-3。

  • 2022年2月,人工智能生成内容(AIGC)技术被《MIT Technology Review》评选为2022年全球突破性技术之一。同年8月,Stability AI开源了文字转图像的Stable Diffusion模型。也是在8月,艺术家杰森·艾伦(Jason Allen)利用AI工具制作的绘画作品《太空歌剧院》(Théâtre D’opéra Spatial),荣获美国科罗拉多州艺术博览会艺术竞赛冠军,相关技术于年底入选全球知名期刊《Science》年度科技突破(Breakthrough of the Year 2022)第2名。

       今年,我们看到生成模型领域取得了重大进展。Stable Diffusion 🎨 创造超现实主义艺术。ChatGPT 💬 回答关于生命意义的问题。Galactica🧬 学习人类科学知识的同时也揭示了大型语言模型的局限性。本文涵盖了 2022 年 20 篇最具影响力的 AI 论文,但是这篇文章绝不是详尽无遗的,今年有很多很棒的论文——我最初想列出 10 篇论文,但最后缺列出了 20 篇,涵盖不同主题的论文,例如生成模型(稳定扩散、ChatGPT)、AI 代理(MineDojo、Cicero)、3D 视觉(即时NGP、Block-NeRF)和新的state-of-the-基本 AI 任务中的艺术(YOLOv7,Whisper)。

8. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors

YOLOv7:可训练的 Bag-of-Freebies 为实时目标检测器设置了新的最先进技术

作者:Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao

文章链接:https://arxiv.org/abs/2207.02696

简介

        YOLOv7 在 5 FPS 到 160 FPS 的范围内在速度和精度上都超过了所有已知的物体检测器,并且在 GPU V100 上具有 30 FPS 或更高的所有已知实时物体检测器中具有最高的精度 56.8% AP。YOLOv7-E6 目标检测器(56 FPS V100,55.9% AP)在速度上优于基于变压器的检测器 SWIN-L Cascade-Mask R-CNN(9.2 FPS A100,53.9% AP)509% 和 2%,并且基于卷积的检测器 ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) 速度提高 551%,准确度提高 0.7% AP,以及 YOLOv7 优于:YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、 DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-B 和许多其他速度和准确性的物体检测器。此外,我们只在 MS COCO 数据集上从头开始训练 YOLOv7,而不使用任何其他数据集或预训练权重。

      如今,Vision Transformers (ViTs) 似乎已经取代了卷积神经网络 (ConvNets),成为图像分类的最新技术。在这篇论文中,作者深入探讨了是什么让每个架构都表现良好,并提出了一个新的 ConvNets 系列,称为 ConvNeXt,它与 ViTs 相得益彰。

9. A ConvNet for the 2020s

2020 年代的 ConvNet

作者:Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie

文章链接:https://arxiv.org/abs/2201.03545

简介 

       视觉识别的“咆哮的 20 年代”始于 Vision Transformers (ViTs) 的引入,它迅速取代了 ConvNets,成为最先进的图像分类模型。另一方面,vanilla ViT 在应用于对象检测和语义分割等一般计算机视觉任务时面临困难。正是层次化的 Transformers(例如 Swin Transformers)重新引入了几个 ConvNet 先验,使得 Transformers 作为通用视觉骨干实际上可行,并在各种视觉任务上展示了卓越的性能。然而,这种混合方法的有效性在很大程度上仍然归功于 Transformers 的内在优势,而不是卷积固有的归纳偏差。在这项工作中,我们重新检查设计空间并测试纯 ConvNet 可以达到的极限。我们逐渐“现代化”标准 ResNet 以设计视觉 Transformer,并发现几个导致性能差异的关键组件。这一探索的成果是一系列被称为 ConvNeXt 的纯 ConvNet 模型。ConvNeXts 完全由标准的 ConvNet 模块构建而成,在准确性和可扩展性方面与 Transformers 相得益彰,在 COCO 检测和 ADE20K 分割方面实现了 87.8% 的 ImageNet top-1 准确性并优于 Swin Transformers,同时保持了标准 ConvNets 的简单性和效率。

10. A Generalist Agent (Gato) 

通才智能体(Gato)

作者:Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron

文章链接:https://arxiv.org/abs/2205.06175

简介

      受大规模语言建模进展的启发,我们采用类似的方法来构建超越文本输出领域的单一通才代理。我们称之为 Gato 的代理作为多模态、多任务、多实施的通用策略工作。具有相同权重的同一个网络可以播放 Atari、字幕图像、聊天、用真实的机器人手臂堆叠积木等等,并根据其上下文决定是否输出文本、关节力矩、按钮按下或其他标记。在这份报告中,我们描述了模型和数据,并记录了 Gato 的当前功能。

      Gato 是一个多模态智能体,可以用真实的机械臂玩 Atari、字幕图像、聊天和堆叠积木。不同的模态被序列化为扁平的标记序列,并由类似于语言模型的 Transformer 进行处理。

11. MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge

MineDojo:使用互联网规模的知识构建开放式具体代理

作者:Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, Anima Anandkumar

文章链接:https://arxiv.org/abs/2206.08853

简介

      自治代理在 Atari 游戏和围棋等专业领域取得了长足进步。然而,他们通常在孤立的环境中以有限的和手动构想的目标学习白板,因此无法概括广泛的任务和能力。受人类如何在开放世界中不断学习和适应的启发,我们提倡构建通才代理的三位一体要素:1) 支持多种任务和目标的环境,2) 多模式知识的大规模数据库,以及 3 ) 灵活且可扩展的代理架构。我们介绍了 MineDojo,这是一个基于流行的 Minecraft 游戏构建的新框架,它具有一个模拟套件,其中包含数千种不同的开放式任务,以及一个包含 Minecraft 视频、教程、维基页面和论坛讨论的互联网规模知识库。使用 MineDojo 的数据,我们提出了一种新颖的代理学习算法,该算法利用大型预训练视频语言模型作为学习奖励函数。我们的代理能够解决各种以自由形式语言指定的开放式任务,而无需任何手动设计的密集整形奖励。我们将仿真套件、知识库、算法实现和预训练模型开源,以促进研究朝着具有普遍能力的具体代理的目标发展。

       MineDojo 是一个建立在 Minecraft 之上的项目,旨在推进通才代理人的培训。该项目引入了一个模拟套件,其中包含数千个开放式任务和一个包含视频、教程、维基页面和论坛讨论的互联网规模知识库。 

12. Human-level Play in the Game of Diplomacy by Combining Language Models with Strategic Reasoning (Cicero)

将语言模型与战略推理相结合,在外交游戏中发挥人类水平(Cicero)

作者:Meta Fundamental AI Research Diplomacy Team

文章链接:https://www.science.org/doi/10.1126/science.ade9097

简介

      尽管在训练人工智能 (AI) 系统模仿人类语言方面取得了很大进展,但构建使用语言在交互式环境中有意与人类交流的代理仍然是一个重大挑战。我们介绍Cicero,这是第一个在外交中实现人类水平表现的人工智能代理,外交是一种涉及合作和竞争的战略游戏,强调七名玩家之间的自然语言谈判和战术协调。Cicero 通过从对话中推断玩家的信念和意图并生成对话以实现其计划,将语言模型与规划和强化学习算法相结合。在一个匿名的在线外交联盟的 40 场比赛中,Cicero取得了人类球员平均得分的两倍多,并且在参加超过一场比赛的参与者中排名前 10%。

       Cicero 是在外交中达到人类水平表现的代理人,外交是一种涉及合作与竞争与自然语言谈判的战略游戏。人工智能研究人员经常使用围棋、扑克和我的世界等游戏作为人工智能代理的游乐场。

13. Training Language Models to Follow Instructions with Human Feedback (InstructGPT and ChatGPT)

训练语言模型以遵循人类反馈的指令(InstructGPT 和 ChatGPT)

作者:Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal

文章链接:https://arxiv.org/abs/2203.02155

简介

      使语言模型更大并不能从本质上使它们更好地遵循用户的意图。例如,大型语言模型可能会生成不真实的、有毒的或对用户没有帮助的输出。换句话说,这些模型与其用户不一致。在本文中,我们展示了一种途径,可以通过根据人类反馈进行微调,使语言模型与用户对各种任务的意图保持一致。从一组标记器编写的提示和通过 OpenAI API 提交的提示开始,我们收集了所需模型行为的标记器演示数据集,我们用它来使用监督学习微调 GPT-3。然后,我们收集模型输出排名的数据集,我们使用该数据集通过人类反馈的强化学习进一步微调该监督模型。我们将生成的模型称为 InstructGPT。在对我们的提示分布的人工评估中,1.3B 参数 InstructGPT 模型的输出优于 175B GPT-3 的输出,尽管参数少 100 倍。此外,InstructGPT 模型显示了真实性的提高和有毒输出生成的减少,同时对公共 NLP 数据集的性能回归最小。尽管 InstructGPT 仍然会犯一些简单的错误,但我们的结果表明,根据人类反馈进行微调是使语言模型与人类意图保持一致的一个有前途的方向。

       使用带有人类反馈的强化学习 (RLHF) 微调语言模型可以使它们更好地与人类意图保持一致,从而对用户更有用。用户可以通过简单的说明或问题与 ChatGPT 等微调模型进行交互。ChatGPT 在短短 5 天内获得了 100 万用户,使其成为有史以来增长最快的产品之一。 

14. LaMDA: Language Models for Dialog Applications

LaMDA:对话应用程序的语言模型

作者:Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker et cetera

文章链接:https://arxiv.org/abs/2201.08239

简介

       我们介绍 LaMDA:对话应用程序的语言模型。LaMDA 是一个基于 Transformer 的专用于对话的神经语言模型家族,具有多达 137B 个参数,并在 1.56T 的公共对话数据和网络文本词上进行了预训练。虽然模型缩放本身可以提高质量,但它在安全性和事实基础方面的改进较少。我们证明,使用带注释的数据进行微调并使模型能够参考外部知识源可以显着改善安全性和事实基础这两个关键挑战。第一个挑战是安全性,涉及确保模型的反应符合一系列人类价值观,例如防止有害的建议和不公平的偏见。我们使用基于一组说明性人类价值观的指标来量化安全性,并且我们发现使用 LaMDA 分类器过滤候选响应并使用少量众包注释数据进行微调提供了一种提高模型安全性的有前途的方法。第二个挑战是事实基础,涉及使模型能够参考外部知识源,例如信息检索系统、语言翻译器和计算器。我们使用基础指标量化事实性,我们发现我们的方法使模型能够生成基于已知来源的响应,而不是仅仅听起来似是而非的响应。最后,我们探讨了 LaMDA 在教育和内容推荐领域的使用,并分析了它们的帮助性和角色一致性。LaMDA 是一系列基于 Transformer 的对话语言模型。这些模型使用带注释的数据进行微调,以防止有害建议、减少偏见并改善事实依据。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26923.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型battle?LLM排行榜出炉,清华竟位列第五!

【CSDN 编者按】自GPT爆火之后,当下流行的开源大型语言模型越来越多,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)建立了 Chatbot Arena 基准平台通过匿名随机竞争来评估他们,随后发布 Elo 等级排行榜,排…

手把手教你写个扫雷(插旗,及展开图解与实现)

学习了二维数组以后,不仅可以写个三子棋,我们也可以更近一步,来写个扫雷玩玩? 编写程序的时候,一定要先做好构思与大体思路步骤,扫雷的基本运行逻辑其实并不算非常复杂,我们只需要把每一步捋顺…

四步手把手教你实现扫雷游戏(c语言)

七步手把手教你实现扫雷游戏 c语言实现扫雷游戏一. 整体思路二. 设计棋盘以及初始化三. 埋雷四. 扫雷 c语言实现扫雷游戏 一. 整体思路 和上一篇文章的三子棋一样 第一步咱们创建三个工程文件 game.c 文件 用来实现游戏的函数定义 game.h 文件 用来声明函数以及需要的头文件 …

C/【扫雷】

**本文是用C语言写的扫雷小游戏———一个C语言前期寓教于乐的小游戏。 🌱博客主页:大寄一场. 🌱系列专栏:C语言学习笔记 😘博客制作不易欢迎各位👍点赞⭐收藏➕关注 目录 一.游戏菜单的创建 二.游戏实现…

扫雷游戏-C实现

扫雷游戏 纯C,运用数组,循环实现,基础巩固 注:本篇将重心放在思路以及核心步骤讲解,重要的不是将每一部分代码记下了,而是将核心思路和代码实现理解透彻。如果你对本篇一些内容跳转,细节表示茫然…

ChatGPT 速通手册——ChatGPT 的自我介绍

从 ChatGPT 的名字就可以看出,它的最核心功能就是 Chat(聊天)。那么,我们就以聊天的形式,开始本书的内容。 先让 ChatGPT 自己做一次自我介绍。既可以展现 ChatGPT 的产品使用形式,也可以快速了解 ChatGPT 的技术概念:…

VUE svg图标 报错

:咱前端用到svg的地方多了去了 这可得会 目录 下载安装 svg 配置config文件 在vue.config.js 创建icon文件夹,存放svg格式图片 icon/index.js 创建组件components ---> SvgIcon src/utils/validate.js 在main.js引入 下载安装 svg npm ins…

可以微调类ChatGPT模型啦!开源Alpaca-LoRA+RTX 4090就能搞定

源 | 机器之心 Alpaca-LoRA 将微调类 ChatGPT 模型的算力需求降到了消费级,训练个自己的中文对话模型真就没那么难了。 2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。 ChatGPT 功能强大,但 OpenAI…

如何使用OpenAI fine-tuning(微调)训练属于自己专有的ChatGPT模型?

要使用OpenAI的微调技术来训练自己的专有模型,您需要遵循以下步骤: 获取和准备数据集:首先,您需要准备自己的数据集。可以使用公共数据集,也可以使用自己的数据集。数据集需要以特定格式(如JSONL)进行存储,并且需要经过清洗和预处理。 选择合适的模型和超参数:根据您…

一觉睡醒,ChatGPT 竟然被淘汰了?

转自机器之心 编辑:杜伟、陈萍 OpenAI 的 Andrej Karpathy 都大力宣传,认为 AutoGPT 是 prompt 工程的下一个前沿。 近日,AI 界貌似出现了一种新的趋势:自主人工智能。 这不是空穴来风,最近一个名为 AutoGPT 的研究开始…

ChatGPT实现stackoverflow 解释

stackoverflow 解释 ChatGPT 公开服务以来,程序员们无疑是最早深入体验和"测试"的一批人。出色的效果也引发了一系列知识产权上的争议。著名的 stackoverflow 网站,就宣布禁止用户使用 ChatGPT 生成的内容来回答问题,一经发现&…

ChatGPT疯狂生成「辣鸡」内容,Stack Overflow气急,连夜封杀!

时下爆火的ChatGPT,被网友们用来生成海量答案。而Stack Overflow已经不堪其扰,发起「追杀」:应封尽封! OpenAI的新模型ChatGPT才诞生没几天,已经成为广大网友的「装逼利器」。 它的回答不说正确不正确,乍一…

轻松掌握RecyclerView缓存机制

在 Android 应用程序中,RecyclerView 是一个非常重要的控件。它被广泛使用,因为它可以帮助我们展示大量的数据,同时也能够提供流畅的滑动体验。然而,如果我们不小心处理好 RecyclerView 的缓存机制,就可能会导致性能下…

chatgpt赋能python:Python内存管理:如何清理内存

Python内存管理:如何清理内存 Python作为一种高级编程语言,在各种应用领域都得到了广泛的应用。作为一种解释型语言,Python有着自动垃圾回收器的优点,但在长时间运行的应用程序中,Python可能会占用大量内存&#xff0…

[chat-GPT]解决OpenAI‘s services are not available in your country问题

OpenAI‘s services are not available in your country 按照网上的教程一步步配置chat-GPT,一直换不同国家的梯子也无济于事,各种搜索尝试,终于解决 解决方法 1.换浏览器 我换了firefox 一开始用的谷歌浏览器 2.清楚当前使用的浏览器所有…

最新版ui成语填空答题,成语接龙小程序源码,修复登录接口问题

这类的成语接龙填词游戏,之前我就见过朋友在玩,自带裂变属性,引流、广告效果都是一绝。强制分享广告,可拆随机金额红包,广告配置、激励配置等都在后台即可配置管理,无需翻改代码。朋友运营过的东西&#xf…

小程序“成语猜题”部分答案

哀哀父母可哀呀可哀,我的父母啊!原指古时在暴政下人民终年在外服劳役,对父母病痛、老死不能照料而悲哀。哀哀欲绝绝:断气,死。形容极其悲痛。哀兵必胜原意是力量相当的两军对阵,悲愤的一方获得胜利。后指受…

chatgpt赋能python:Python怎样模拟成语填空游戏

Python怎样模拟成语填空游戏 成语填空游戏是一种非常受欢迎的智力游戏。在这个游戏中,玩家需要根据提示,在给出的空格中填入对应的成语。而Python是一个功能强大的编程语言,用起来十分简单。在本文中,我们将介绍如何使用Python来…

看图猜成语小程序设计与实现(小程序+PHP)

目 录 摘 要 I Abstract II 1 绪论 1 1.1 研究背景 1 1.2 国内外研究现状 1 1.2.1 国内研究现状 1 1.2.2 国外研究现状 2 1.3 论文组织结构 3 2 相关技术 4 2.1微信小程序介绍 4 2.1.1微信介绍 4 2.1.2微信小程序简介 4 2.1.3微信小程序基本功能 5 2.2开发技术的介绍 6 2.2.1 P…

12月编程语言排行榜:前三终于变了,Java跌出前三?它居然首次进前三!

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:爆火的ChatGPT太强了!写代码、改bug,网友&…