五年时间被引用3.8万次,Transformer宇宙发展成了这样

来源:机器之心

关于 Transformer ,这是一篇很好的学习指南,可以帮助你熟悉最流行的 Transformer 模型。

自 2017 年提出至今,Transformer 模型已经在自然语言处理、计算机视觉等其他领域展现了前所未有的实力,并引发了 ChatGPT 这样的技术突破,人们也提出了各种各样基于原始模型的变体。

由于学界和业界不断提出基于 Transformer 注意力机制的新模型,我们有时很难对这一方向进行归纳总结。近日,领英 AI 产品战略负责人 Xavier Amatriain 的一篇综述性文章或许可以帮助我们解决这一问题。

54d4859bc13e879c74ace77d2af7b90c.jpeg

9f454c4b73cb1d86b0e91a9863e04091.png

在过去的几年里,陆续出现了数十个来自 Transformer 家族模型,所有这些都有有趣且易懂的名字。本文的目标是为最流行的 Transformer 模型提供一个比较全面但简单的目录和分类,此外本文还介绍了 Transformer 模型中最重要的方面和创新。

论文《Transformer models: an introduction and catalog》:

351ab6783e9285d60cc0818965b74365.jpeg

论文链接:

https://arxiv.org/abs/2302.07730

GitHub:https://github.com/xamat/TransformerCatalog

简介:什么是 Transformer

Transformer 是一类由一些架构特征定义的深度学习模型。首次出现在谷歌研究人员于 2017 年发表的著名论文《Attention is All you Need》中(这篇论文在短短 5 年就被引用了 3.8 万余次)以及相关的博客文章中。Transformer 架构是编码器 - 解码器模型 [2] 的一个特定实例,该模型在 2 - 3 年前开始流行起来。然而,在此之前,注意力只是这些模型使用的机制之一,这些模型主要基于 LSTM(长短期记忆)[3] 和其他 RNN(循环神经网络)[4] 变体。Transformers 论文的关键见解是,正如标题所暗示的那样,注意力可以被用作推导输入和输出之间依赖关系的唯一机制。讨论 Transformer 体系结构的所有细节超出了本博客的范围。为此,本文建议参考上面的原论文或 Transformers 的帖子,内容都十分精彩。话虽如此,本文将简要叙述最重要的方面,下面的目录中也会提到它们。本文将先从原始论文中的基本架构图开始,继而展开叙述相关内容。

编码器 / 解码器架构

通用编码器 / 解码器体系架构 (参见图 1) 由两个模型组成。编码器接受输入并将其编码为固定长度的向量。解码器获取该向量并将其解码为输出序列。编码器和解码器联合训练以最小化条件对数似然。一旦训练,编码器 / 解码器可以生成给定输入序列的输出,或者可以对输入 / 输出序列进行评分。在最初的 Transformer 架构中,编码器和解码器都有 6 个相同的层。在这 6 层中的每一层编码器都有两个子层:一个多头注意层和一个简单的前馈网络。每个子层都有一个残差连接和一个层归一化。编码器的输出大小是 512。解码器添加了第三个子层,这是编码器输出上的另一个多头注意层。此外,解码器中的另一个多头层被掩码。

55bb709de6cf0d6c5fd453ec305fcde2.png

图 1:Transformer 体系架构

283074f40ae887e9091a48e9b590c248.jpeg

图 2:注意力机制

注意力

从上面的描述可以清楚地看出,模型体系架构唯一的特别元素是多头注意力,但是,正如上面所描述的,这正是模型的全部力量所在。那么,注意力到底是什么?注意力函数是查询和一组键值对到输出之间的映射。输出是按值的加权和计算的,其中分配给每个值的权重是通过查询与相应键的兼容性函数计算的。Transformers 使用多头注意力,这是一个被称为缩放点积注意力的特定注意力函数的并行计算。关于注意力机制如何工作的更多细节,本文将再次参考《The Illustrated Transformer》的帖文,将在图 2 中再现原始论文中的图表,以便了解主要思想。与循环网络和卷积网络相比,注意力层有几个优势,最重要的两个是它们较低的计算复杂性和较高的连通性,特别是对于学习序列中的长期依赖关系非常有用。

Transformer 的用途是什么,为什么它们如此受欢迎

最初的 Transformer 是为语言翻译而设计的,特别是从英语到德语。但是,通过原先的研究论文就可以看出,该架构可以很好地推广到其他语言任务。这一特别的趋势很快就引起了研究界的注意。在接下来的几个月里,大多数与语言相关的 ML 任务排行榜完全被某个版本的 Transformer 架构所主导(比方说,著名的 SQUAD 排行榜,其中所有位于顶部的模型都是 Transformer 的集合)。Transformer 能够如此迅速地占据大多数 NLP 排行榜的关键原因之一是它们能够快速适应其他任务,也就是迁移学习。预训练的 Transformer 模型可以非常容易和快速地适应它们没有经过训练的任务,这具有巨大的优势。作为 ML 从业者,你不再需要在庞大的数据集上训练大型模型。你所需要做的就是在你的任务中重新使用预训练的模型,也许只是用一个小得多的数据集稍微调整它。一种用于使预训练的模型适应不同任务的特定技术被称为微调。

事实证明,Transformer 适应其他任务的能力是如此之强,以至于尽管它们最初是为与语言相关的任务而开发的,但它们很快就被用于其他任务,从视觉或音频和音乐应用程序,一直到下棋或做数学。

当然,如果不是因为有无数的工具,任何人都可以轻松地编写几行代码,那么所有这些应用程序都不可能实现。Transformer 不仅能被迅速整合到主要的人工智能框架(即 Pytorch8 和 TF9)中,甚至基于此创建起整个公司。Huggingface 是一家迄今为止已经筹集了 6000 多万美元的初创公司,几乎完全是围绕着将开源 Transformer 库商业化的想法建立的。

最后,有必要谈谈 Transformer 普及初期 GPT-3 对其的影响。GPT-3 是 OpenAI 在 2020 年 5 月推出的 Transformer 模型,是他们早期 GPT 和 GPT-2 的后续产品。该公司通过在预印本中介绍该模型而引起了很大的轰动,他们声称该模型非常强大,以至于他们无法向世界发布它。从那以后,该模型不仅发布了,而且还通过 OpenAI 和微软之间的大规模合作实现了商业化。GPT-3 支持 300 多个不同的应用程序,是 OpenAI 商业战略的基础 (对于一家已经获得超过 10 亿美元融资的公司来说,这是很有意义的)。

RLHF

最近,从人类反馈(或偏好)中强化学习(RLHF(也称作 RLHP)已成为人工智能工具包的一个巨大补充。这个概念已经在 2017 年的论文《Deep reinforcement learning from human preferences》中提出。最近,它被应用于 ChatGPT 和类似的对话智能体,如 BlenderBot 或 Sparrow。这个想法很简单:一旦语言模型被预先训练,用户就可以对对话生成不同的响应,并让人类对结果进行排序。人们可以在强化学习环境中使用这些排名(也就是偏好或反馈)来训练奖励(见图 3)。

扩散

扩散模型已经成为图像生成中的新 SOTA,显然将之前的方法如 GANs(生成对抗网络)推到了一边。什么是扩散模型?它们是一类经过变分推理训练的潜变量模型。以这种方式训练的网络实际上是在学习这些图像所代表的潜在空间(参见图 4)。 

扩散模型与其他生成模型有关系,如著名的 [生成对抗网络 (GAN)] 16,它们在许多应用中已经被取代,特别是与(去噪)自动编码器。有些作者甚至说扩散模型只是自编码器的一个具体实例。然而,他们也承认,微小的差异确实改变了他们的应用,从 autoconder 的潜在表示到扩散模型的纯粹生成性质。

b10368d8a8b58b9ee4c667bd5d8e465c.jpeg

图 3:带有人类反馈的强化学习。

95e6a58465d0014c8ecb824f41322c45.jpeg

图 4:概率扩散模型架构摘自《Diffusion Models: A Comprehensive Survey of Methods and Applications》

本文介绍的模型包括:

23cdeb27c490c3d5bffd847e1f484916.jpeg

476f620d0dc2bfbe4425bd9deb004f52.jpeg

b990b26eea76a87c8ff6e8430277cfe7.jpeg

443115262e18ff4ecc5c9c52795c3077.jpeg

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 奖金675万!3位科学家,斩获“中国诺贝尔奖”!

  • 又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

444c10270ce28570924d9d2533fa22aa.jpeg

👆 长按识别,邀请您进群!

869c3d75308344e91f0e9974c4b4f81d.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19550.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

火爆全球!影响超250万读者,Python入门圣经全新升级!

人生苦短,我用 Python ! 什么?你没用过,也没开始学习,甚至没有认真了解过这门语言?那你一定这一秒就开始发力——下面让我们先简单看看 Python 有多火。 权威编程语言排行榜 TIOBE,2022 和 2023 都是第一。…

如何学好人工智能?

“在主流的视频直播教学之外,直接与老师在课件上互动能够更快地让我进入学习状态。” 大家的时间都很宝贵,当我们好不容易下定决心要学习一门新知识时,各种影响学习的噪声会在本不富裕的耐心上大打折扣,万事开头难变成了真理。特别…

惊呆啦!不懂编程, 年入230万,AI提示工程师爆火!!!

来源:《华尔街日报》、Euronews Next、CBS 编辑:智东西 & 周炎 智东西4月28日消息,据《华尔街日报》报道,在生成式AI浪潮下,AI提示工程师(prompt engineers)正在成为热门职业。目前一些科技…

一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产力变革 | 文末福利

a15a 著,贾雪丽,0xAres,张炯 编 电子工业出版社-博文视点 2023-04-01 ISBN: 9787121353932 定价: 79.00 元 新书推荐 🌟今日福利 |关于本书| 《一本书读懂AIGC:ChatGPT、AI绘画、智能文明与生产…

微软Copilot“杀疯了”:Bing接入ChatGPT,弯道超车的机会来了?

转载自AI前线 作者:刘燕、冬梅、核子可乐 5 月 23 日消息,微软在刚刚举办的 Build 大会上宣布了一项令人振奋的消息。毫无疑问,本届大会的重点落在了 AI 上,包括 Copilots for Windows 11 及其他一系列产品。软件巨头还将原有分析…

ChatGpt介绍,影响,解读等资料汇总合集29篇

ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI [1] 研发的聊天机器人程序 [12] ,于2022年11月30日发布 [2-3] 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学…

400页PPT,讲清ChatGPT前世今生

点击上方“AI遇见机器学习”,选择“星标”公众号 第一时间获取价值内容 下载方式: 公众号后台回复:ChatGPT前世今生 我将资料免费分享在我的星球,后续也将会持续更新 欢迎大家加入我的这个”AIGC与GPT“知识星球,价格便…

OpenAI提出的新摩尔定律怎样理解?中国隐藏算力巨头有话说

允中 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT火遍全世界,与之相关的一切都在风口浪尖。 OpenAI首席执行官Sam Altman看似随意分享的一句话,就成为热议的焦点: 新版摩尔定律很快就要来了,宇宙中的智能每18个月翻一倍。 一些人猜…

“C# 不停止膨胀,必将走向灭亡”

【CSDN 编者按】编程语言更新的频率是越快越好,还是越慢越好,不断增加的功能是否真的就是开发者想要的? 原文链接:https://medium.com/codex/c-is-dying-fa21a96107c5 声明:本文为 CSDN 翻译,未经允许&…

Sam Altman的成功学|升维指南

Datawhale干货 作者:Sam Altman,Open AI CEO “如果把Sam Altman扔到某个食人族之岛,5年后他会成为这个食人族岛的国王。“ 在硅谷创业教父Paul Graham的眼里,Sam Altman是一位极具魄力的领导者和开拓者。如今,已成为…

手把手教你做做一份高质量投标书

今天我整理一份word版的标书模板制作方法。 就用最详细、最直观的方法,手把手教大家做技术标书模板,一次做完,多次受益,可反复利用哦! PS:该文章专业性较强,文字表述较多,内容比较枯…

AI工智能讲师叶梓培训简历及提纲:AI人工智能之基于人工智能的内容生成(AIGC)简历提纲

叶梓老师简介 威信:amliy007 上海交通大学计算机专业博士毕业,高级工程师,高级程序员 主研方向:数据挖掘、机器学习、人工智能。 国内知名上市IT企业的AI技术总监、资深技术专家 一线人工智能经验(12年)&am…

腾讯、阿里、字节….等大厂都更喜欢程序员什么样的简历?

我985毕业,为什么筛选简历时输给了一个普通一本? 我投了20份简历,为什么没有一个大厂回我? 每次HR收到简历就没下文了,是我的简历有问题吗? 诚然,在求职时,简历往往就是我们给予H…

ChatGPT 的开源“替代”来了!前 OpenAI 团队出手,能用中文提问,3 天斩获 3k+ Star...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 近来 ChatGPT 的爆火,令不少人开始关注其背后的 OpenAI。 追溯过往才发现,原来成立于 2015 年的 OpenAI,最初声称是一家非营利机构,会向公众开放专利和…

免费搜索vs付费搜索:百度谷歌的有力竞争者刚刚出现!

北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理 人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典 搜索引擎的游戏刚刚被改变! 人们对昨天(12月1号)OpenAI 发布…

探索大语言模型垂直化训练技术和应用-陈运文

内容来源:ChatGPT 及大模型专题研讨会 分享嘉宾:达观数据董事长兼CEO 陈运文博士 分享主题:《探索大语言模型垂直化训练技术和应用》 转载自CSDN稿件 本文整理自 3月11日 《ChatGPT 及大规模专题研讨会》上,达观数据董事长兼CEO…

ECharts之柱状图 饼状图 折线图

1.柱状图 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>柱状图</title><script src"https://cdn.bootcss.com/echarts/3.7.2/echarts-en.js"></script> </head> …

ChatGPT工作提效之数据可视化大屏组件Echarts的实战方案(大数据量加载、伪3D饼图、地图各省cp中心坐标属性、map3D材质)

ChatGPT工作提效系列文章目录 ChatGPT工作提效之初探路径独孤九剑遇强则强ChatGPT工作提效之在程序开发中的巧劲和指令(创建MySQL语句、PHP语句、Javascript用法、python的交互)ChatGPT工作提效之生成开发需求和报价单并转为Excel格式ChatGPT工作提效之小鹅通二次开发批量API对…

100天精通Python(可视化篇)——第93天:Pyecharts绘制多种炫酷饼图参数说明+代码实战(百分比、环形、玫瑰、内嵌、多个子图饼图)

文章目录 专栏导读1. 基础饼图add函数简单案例改变颜色 2. 百分比饼图3. 环形饼图4. 玫瑰饼图5. 内嵌环图6. 多个饼图书籍推荐&#xff08;包邮送书5本&#xff09; 专栏导读 &#x1f525;&#x1f525;本文已收录于《100天精通Python从入门到就业》&#xff1a;本专栏专门针…