GTP3 大模型
- 模型架构
- 训练核心思想
GTP3 :
- OpenAI 在 2020 年 5 月发布 GPT-3,发表
Language Models are Few-Shot Learner
- 理念:Few-Shot 思想 , 用少量样本微调,让模型更准确
参数 :
- 最大模型 : 1750 亿参数
- 多头 Transformer : 96 层
- Head size : 96
- 词向量维度 : 12288
- 文本长度大小 : 2048
特点 :
- 优点 : few-shot 友谊 ; 去除了 fine-tuning 任务
- 缺点 : 可能有敏感内容 ; 对部分任务效果不佳 ; 当生成文本较长 , 可能前后矛盾 ; 成本太大
模型架构
GPT 模型结构 :
- 引入 Sparse Transformer 中的 sparse attention 模块 : 每个 token 只与其他 token 的一个子集计算 attention,复杂度 O(n*logn)
sparse attention 好处:
- 减少注意力层的计算复杂度 , 节约显存和耗时 , 能处理更长输入序列
- 根据 局部紧密相关和远程稀疏相关 特性 , 对距离较近上下文关注多 , 对距离较远上下文关注少
训练核心思想
GPT-3 评估和预测下游任务的三种方法 :
- Zero-shot : 对任务描述,提供测试数据 , 直接让模型进行翻译 ; 效果最佳
- On-shot : 对任务描述,并提供一个例子 , 告诉模型如何翻译 ; 效果次之
- Few-shot : 对任务描述,并提供 N 个例子 , 告诉模型如何翻译 ; 效果最差
情境学习 (提示学习) (in-context learning) :
- 方法 : Few-shot、One-shot
- 核心思想 : 通过少量数据寻找合适初始化范围,让模型快速拟合,获得不错效果
in-context learning
/fine-tuning
的区别:
fine-tuning
: 基于标注数据更新模型参数in-context learning
: 用标注数据时不进行梯度回传,模型参数不更新in-context learning
依赖数据量 (10~100) <fine-tuning
一般的数据量