大语言模型-GPT3-Language Models are Few-Shot Learners

一、背景信息:

GPT3是于2020 年由OpenAI 发布的预训练语言模型。
GPT3在自然语言处理(NLP)任务中表现出色,可以生成连贯的文本、回答问题、进行对话等。
GPT3的网络架构继续沿用GPT1、GPT2的是多层Transformer Decoder改的结构。
GPT3出自Language Models are Few-Shot Learners,语言模型是Few-Shot学习者。

二、整体结构:

更新改动

GPT3继续沿用在GPT2中使用的单向 Transformer Decoder 的结构。其中96层Decoder的GPT3被称作“GPT”
相较于GPT2模型结构,GPT3做了下面几项改动:

  • 模型中的Transformer采用了类似Sparse Transformer 的结构,用以节省模型训练过程中的显存占用。
  • GPT3使用的最长词向量长度为12888。
  • GPT3上下文划窗的窗口大小提升至2048个token。
  • GPT3分别使用了24、32、40、96层的Transformer Decoder。

Sparse Transformer

GPT3在 transformer 层中交替地使用稠密的(alternating Dense Attention)和局部带状稀疏(locally Band sparse Attention)的注意力模式,类似于 Sparse Transformer。
使用 sparse attention 的好处主要有以下两点:

  1. 减少注意力层的计算复杂度: 节约显存和耗时,从而能够处理更长的输入序列;
  2. 具有“局部紧密相关和远程稀疏相关”的特性: 对于距离较近的上下文关注更多,对于距离较远的上下文关注较少;
(1)Sparse Transformer 的两个模式

Sparse Transformer 原文中提到了两种不同模式stride 模式、 fixed 模式。
【stride模式】本质上也是两种基础模式的组合,即带状模式和相对的间隔模式。在多头注意力机制中,不同的头采用不同的基础模式。
【fixed模式】本质上也是两种基础模式的组合,即分块模式和固定的间隔模式。在多头注意力机制中,不同的头采用不同的基础模式。

stride模式是这样的,在二维空间中定义分解注意模式的一种自然方法是,让一个头关注位置L之前的元素(行),另一个头关注每第L个位置(列),其中L是步幅,选择接近np。

(2)Band Attention

带状稀疏注意力,也被称为滑动窗口注意力。
带状注意力假设:一个元素(或令牌、像素等)与其邻近元素的关联性通常要比与远处元素的关联性更强。因此,限制每个查询仅关注其邻近节点是一种自然且有效的方式。
因此,带状注意力通过将注意力限制在一个局部区域内,显著减少了计算量。因为它只计算和存储那些可能高度相关的元素对之间的关系。此外,这种方法还能帮助模型更加聚焦于局部上下文,这在很多任务中是非常有益的,比如在处理语言时捕捉短语层面的依赖关系,或在处理图像时关注局部特征。

(3)稀疏注意力(Sparse Attention)的理解

自注意力(Self-Attention)机制是Transformer模型核心组成部分,它允许模型在处理序列数据时动态地关注序列中的不同部分。
然而,随着序列长度的增加,标准的自注意力机制的计算复杂度和内存需求也会指数增加,这限制了模型处理长序列数据的能力。
稀疏注意力(Sparse Attention)机制的提出就是为了解决这个问题。
稀疏注意力机制的核心思想是在自注意力计算中引入稀疏性,即不是让序列中的每个位置都与其他所有位置进行注意力计算,而是仅选择部分位置进行计算。这种选择可以基于不同的策略,例如固定的模式(如局部窗口)、基于内容的选择(如与当前位置最相关的其他位置),或者是通过学习得到的模式。通过这种方式,稀疏注意力机制减少了计算量和内存占用,使得模型能够更高效地处理长序列。

dense attention:每个 token 之间两两计算 attention,复杂度 O(n²)
sparse attention:每个 token 只与其他 token 的一个子集计算 attention,复杂度 O(n*logn)
一般sparse attention 除了相对距离不超过 k 以及相对距离为 k,2k,3k,… 的 token,其他所有 token 的注意力都设为 0

三、模型评估

(1)In-context learning

(又称为few shot learning)通过少数几个例子告诉模型你想要的结果,然后模型就按照给的示例来进行执行。
GPT-3使用了“In-Context Learning”的方式,在不进行梯度更新或fine-tune的情况下,直接在上下文中进行学习。

元学习(meta-learning):
元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围,使得模型能够在有限的数据集上快速拟合,并获得不错的效果。

MAML(Model-Agnostic Meta-Learning)是一种元学习算法,正常的监督学习是将一个批次的数据打包成一个batch进行学习。但是元学习是将一个个任务打包成batch,每个batch分为支持集(support set)和质询集(query set),类似于学习任务中的训练集和测试集。

MAML的迭代涉及两次参数更新,分别是内循环(inner loop)和外循环(outer loop)。内循环是根据任务标签快速的对具体的任务进行学习和适应,而外循环则是对参数进行更新。
直观的理解,我用一组MAML的参数权重去学习多个任务,如果每个任务都学得比较好,则说明这组参数是一个不错的初始化值,否则我们就去对这组参数进行更新。

GPT-3中据介绍的in-context learning(情境学习)是元学习的内循环,而基于语言模型的SGD则是外循环:

(2)性能评估

对于每个任务,在以下3种条件下评估GPT-3:
少样本学习(few-shot learning),除了任务描述外,模型还看到了一些任务示例。不执行梯度更新。
单样本学习(one-shot learning),除了任务描述外,模型会收到任务的单个示例。不执行梯度更新。
零样本学习(zero-shot learning),仅根据任务的自然语言描述来预测答案。不执行梯度更新。

发展历程

模型规模

在这里插入图片描述

Reference

1、Language Models are Few-Shot Learners
2、The ChatGPT Models Family
3、Generating Long Sequences with Sparse Transformers
4、Transformer综述(一):稀疏注意力
5、大模型结构基础(五):注意力机制的升级
6、大师兄-预训练语言模型之GPT-1,GPT-2和GPT-3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/413132.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL的安装配置以及可视化工具的安装

一、MySQL 的安装配置 1、找到官网 MySQL :: Download MySQL Installer (Archived Versions)https://downloads.mysql.com/archives/installer/ 2、下载 3、安装 接下来只需要一直 next 下去就好 此时我们的MySQL就安装完成了,有些人的电脑在点击完这个finish以后…

Linux内核6.12新特性:panic之后扫码显示故障信息

Linux 内核 6.12 版本即将引入一项有趣的功能——在内核Panic时显示一个可选的二维码。这一功能将允许用户通过扫描二维码直接访问内核Panic信息的日志,从而更容易地诊断问题所在。 这不是 Linux 第一次尝试使用二维码。早在2014年,就有过关于在内核Pani…

HarmonyOS(52) 使用安全控件SaveButton保存图片

SaveButton使用简介 前言SaveButton简介约束与限制 实现点击事件全部源码 参考资料: 前言 在HarmonyOS(50) 截图保存功能实现一文中简单介绍了截图保存功能,本篇博文介绍一个更简单的保存图片控件SaveButton. SaveButton简介 SaveButton允许用户通过点…

EasyCVR中的H.265技术:助力实现大规模高效流畅的视频监控应用

随着视频监控技术的不断发展和用户对视频质量要求的不断提高,高效能、低延迟的视频编码技术成为视频监控系统中的重要支撑。TSINGSEE青犀视频旗下的EasyCVR视频汇聚平台凭借其强大的视频处理能力和对H.265技术的支持,在视频监控系统中展现出显著的应用优…

运用Premiere自学视频剪辑,这些岗位你能胜任!

随着短视频的兴起和火热,短视频后期制作越来越受到人们的重视,甚至衍生出很多岗位的高薪工作。如大家所了解的,Adobe premiere正是一款视频后期剪辑和制作工具,其功能强大,应用也十分广泛,是从事后期工作者…

Mysql常见问题汇总【持续更新】

文章目录 Invalid default value for CREATE_TIME 或则 启动时 sql_mode 报错1130错误码,MySQL不能通过ip连接第一种命令方式图形化界面 mysql给用户授管理员权限mysql 新建用户时,主机名选择区别Mysql常用命令大全 Invalid default value for CREATE_T…

四大消息队列:Kafka、ActiveMQ、RabbitMQ、RocketMQ对比

四大消息队列:Kafka、ActiveMQ、RabbitMQ、RocketMQ对比 1. 社区活跃度2. 持久化消息3. 技术实现4. 高并发性能5. RabbitMQ与Kafka对比 💖The Begin💖点点关注,收藏不迷路💖 在软件开发中,消息队列&#xf…

基础算法(1)——双指针

1. 概念 常见的双指针有两种形式,一种是对撞指针,一种是快慢指针 1.1 对撞指针 一般用于顺序结构中,也称为左右指针 对撞指针从两端向中间移动,一个指针从最左端开始,另一个从最右端开始,逐渐往中间逼近…

.net dataexcel winform控件 更新 日志

增加 列宽度调整时动态显示列象素大小 更改列的宽度可以使用 column.Width属性进行修改

【持续更新】Mχ Plaayer Pro 1.86.0安卓知名播放器最新免费高级修改版

Mχ Plaayer Pro MOD 版本免费 APK,专为安卓手机和平板打造。这是一款功能强大的视频播放器,具备先进的硬件加速技术和字幕支持功能。 • 硬件加速 - 新增 HW 解码器帮助更多视频格式实现硬件加速。 • 多核心解码 - Mχ Plaayer 是首款支持多核心解码的…

基于STM32的RFID高速收费系统(论文+源码+实物)

1系统方案设计 本文基于STM32的RFID高速收费系统,其可以实现小车和货车两种车型收费,当车辆超过了规定的重量后,出现声光报警提示,并且启动杆不会抬起,只有当车辆重量低于设置值时,启动杆才会自动抬起&…

【Linux】在 bash shell 环境下,当一命令正在执行时,按下 control-Z 会?

目录 题目分析答案 题目 分析 ctrl-c: 发送 SIGINT 信号给前台进程组中的所有进程。常用于终止正在运行的程序;ctrl-z: 发送 SIGTSTP信号给前台进程组中的所有进程,常用于挂起一个进程;ctrl-d: 不是发送信…

揭秘排行榜系统:如何在高并发场景下实现高效更新!

大家好,我是你们的技术分享伙伴小米!今天我们来聊聊一个非常有趣的话题——如何设计一个排行榜。在这个互联网时代,无论是游戏、学习平台,还是各种社交应用,排行榜都是用户互动和竞争的核心功能之一。而如何设计一个高效、实时更新的排行榜,是一个充满挑战性的问题。今天…

win11,vscode上用docker环境跑项目

1.首先用dockerfile创建docker镜像 以下是dockerfile文件的内容: FROM pytorch/pytorch:1.11.0-cuda11.3-cudnn8-devel LABEL Service"SparseInstanceActivation"ENV TZEurope/Moscow ENV DETECTRON_TAGv0.6 ARG DEBIAN_FRONTENDnoninteractiveRUN apt-…

vim常用快捷键问答

vim的光标位置操作快捷键有哪些?怎样记忆它们? 在 Vim 中,光标位置的操作快捷键非常重要,可以帮助你更高效地编辑文本。下面是一些常用的光标位置操作快捷键: 基本移动 h:光标左移一个字符j:光…

使用安信可Ai-WB2-12F开启wifi与手机通信TCP-IP(AT指令)

当时在做两个单片机之间无线通信,或者单片机与手机无线通信,就像找一个蓝牙和wifi双模的无线模块,一开始看ESP8684(ESP32-C2)这个芯片模组是有wifi和蓝牙的,买回来后才发现他不可以在程序运行中更换蓝牙或者…

主流AI绘画工具-StableDiffusion本地部署方法(mac电脑版本)

Stable Diffusion是一款强大的AI生成图像模型,它可以基于文本描述生成高质量的图像。对于想要在本地运行此模型的用户来说,使用Mac电脑部署Stable Diffusion是一个非常吸引人的选择,特别是对于M1或M2芯片的用户。本文将详细介绍如何在Mac上本…

视频化时代,用好AIGC产品赋能企业培训打造增效降本“最佳实践”

根据IBM的数据,85%的中国企业正在加速投资AI领域,其中超过63%的企业已积极采用生成式AI。德勤的调研进一步显示,近80%的全球受访企业高管认为,生成式AI的兴起与发展将在3年内推动组织和行业发生实质性变革,这也就意味着…

探秘DevSecOps黄金管道,安全与效率的完美融合

软件应用的安全性已成为企业和用户关注的焦点,DevSecOps作为一种将安全融入开发和运维全过程的理念和实践,旨在消除传统开发模式中安全被后置处理的弊端。DevSecOps黄金管道(Golden Pipeline)是实现这一理念的核心框架&#xff0c…

C++领进门(第三讲)

目录 7.内联函数 7.1 概念 7.2 特征 8. auto关键字(C11) 8.1 auto简介 8.2 auto的使用细则 8.3 auto不能推导的场景 9. 基于范围的for循环(语法糖)(C11) 9.1 范围for的语法 9.2 范围for的使用条件 10. 指针空值nullptr(C11) 7.内联函数 7.1 概念 以inline修饰的函数…