GPT系列

GPT(Generative Pre-Training):

训练过程分两步:无监督预训练+有监督微调

模型结构是decoder-only的12层transformer

1、预训练过程,窗口为k,根据前k-1个token预测第k个token,训练样本包括7000本书的内容

2、微调过程,使用有标记的样本,样本输入预训练模型,使用最后一层transformer的输出,接linear+softmax层,预测输出

损失函数如下

使用L1作为辅助优化目标有两点好处,首先能够提高模型的泛化能力,第二是能够加速收敛。

3、不同任务的输入格式适配:将结构化的输入转化为有序序列



GPT系列演化参考文档:简单之美 | GPT 系列模型技术演化之路



GPT-2

与 GPT-1 不同,GPT-2 对每个 Encoder Block 的自注意力层,前后分别都进行了层归一化(Layer Normalization)操作,即在每一层的输入和输出都有一个 Layer Normalization 子层。

在输入自注意力层之前新增 Layer Normalization 层,能够将输入数据的均值和方差分别标准化为 0 和 1,使数据在不同的尺度上保持一致。而且,这种策略能够缓解梯度消失和梯度爆炸的问题。同时,层归一化有助于优化器在更新权重时找到合适的方向,提高模型的训练稳定性和收敛速度。

GPT-3

预训练后,不微调,使用上下文学习(In Context Learning,ICL)
引入稀疏注意力机制

GPT-3 就是使用的普通 Transformer 和 Sparse Transformer 的混合模式。Sparse Transformer 的特点是只关注 Top-k 个贡献最大的特征的状态,它使用稀疏注意力机制替代了 Transformer 的密集注意力。

GPT-3.5/InstructGPT

代码数据训练和人类偏好对齐

基于人类反馈的强化学习算法RLHF

基于GPT-3进行微调,三个阶段的微调方法和过程,可以通过下图给出的步骤来简要说明

分别对应于上面提到的三个模型(SFT 模型、RM 模型、RL 模型),InstructGPT 的训练过程主要包括如下三个步骤:
Step 1: Collect demonstration data, and train a supervised policy.
Step 2: Collect comparison data, and train a reward model.
Step 3: Optimize a policy against the reward model using PPO.

GPT-4

GPT -4是一个多模态大模型

GPT-4 的核心原理是,基于 Decoder-only 的 Transformer 自回归语言模型,即通过给定的文本序列,预测下一个词的概率分布,从而生成新的文本。GPT-4 采用了大规模的无监督预训练和有监督微调的方法,即先在海量的通用文本语料上进行预训练,学习文本的通用特征和规律,然后在特定的下游任务上进行微调,学习任务的特定知识,从而实现对任意文本的生成和理解。

OpenAI在技术报告中强调了GPT-4的安全开发重要性,并应用了干预策略来缓解潜在问题,如幻觉、隐私泄露等。





本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/442849.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++ 计算同一行上的最大点数(Count maximum points on same line)

示例图 给定二维平面上的 N 点作为一对 (x, y) 坐标,我们需要找到位于同一条线上的最大点数。 例子: 输入:points[] {-1, 1}, {0, 0}, {1, 1}, {2, 2}, {3, 3}, {3, 4} 输出:4 那么位于同一条线上的点…

专题十_穷举vs暴搜vs深搜vs回溯vs剪枝_二叉树的深度优先搜索_算法专题详细总结

目录 搜索 vs 深度优先遍历 vs 深度优先搜索 vs 宽度优先遍历 vs 宽度优先搜索 vs 暴搜 1.深度优先遍历 vs 深度优先搜索(dfs) 2.宽度优先遍历 vs 宽度优先搜索(bfs) 2.关系图暴力枚举一遍所有的情况 3.拓展搜索问题全排列 决策树 1. 计算布尔⼆叉树的值(medi…

JAVA智能国际商城跨境电商系统小程序源码

智能国际商城跨境电商系统——全球购物,一触即达 🌍 开篇:智能科技,重塑跨境购物新体验 在这个全球化的时代,跨境购物已经不再是遥不可及的事情。而“智能国际商城跨境电商系统”正是这样一款将智能科技与跨境电商完…

Badge插件的用法

文章目录 1 概念介绍2 实现方法3 示例代码我们在上一章回中介绍了WebView组件相关的内容,本章回中将介绍如何在图标旁边添加小红点.闲话休提,让我们一起Talk Flutter吧。 1 概念介绍 在实际项目中有时候需要在图标旁边显示小红点,而且小红点内还有数字,比如购物车图标显示…

柯桥外语培训韩语学习考级韩语中TOPIK常用语法表达

-기 위해서는 -는 것이 좋다 为了......,......比较好 -는 것보다는 -는 것이 좋다 比起......,......比较好 -(으)려면 -아/어/야 한다 如果想......的话,得...... -왜냐하면 -기 때문이다 因为...... -그 이유는 -기 때문이다 理由是…

【JAVA面试题】Java和C++主要区别有哪些?各有哪些优缺点?

文章目录 强烈推荐前言区别:1. 语法和编程风格2.内存管理3.平台独立性4.性能5.指针和引用6.多线程7.使用场景 Java 的优缺点优点:缺点: C 的优缺点优点:缺点: 总结专栏集锦 强烈推荐 前些天发现了一个巨牛的人工智能学…

【第三版 系统集成项目管理工程师】第15章 组织保障

持续更新。。。。。。。。。。。。。。。 【第三版】第十五章 组织保障 15.1信息和文档管理15.1.1 信息和文档1.信息系统信息-P5462.信息系统文档-P546 15.1.2 信息(文档)管理规则和方法1.信息(文档)编制规范-P5472.信息(文档)定级保护-P5483.信息(文档)配置管理-P549练习 15.…

DP35 【模板】二维前缀和

文章目录 1.题目描述输入描述:输出描述: 示例1 2.思路3.代码 1.题目 DP35 【模板】二维前缀和 描述 给你一个 n 行 m 列的矩阵 A ,下标从1开始。 接下来有 q 次查询,每次查询输入 4 个参数 x1 , y1 , x2 , y2 请输出以 (x1, …

大文件-分片下载

0.需求背景 文件过大,单次文件流数据过多需要有下载进度需要提高下载速度 1.大文件下载的解决思路 获取文件大小,根据实际网络情况设置分片大小,确定份数根据分片的大小索引,获取分片的流数据所有的分片下载后,合并…

计算机毕业设计 基于Flask+vue的博客系统的设计与实现 Python毕业设计 Python毕业设计选题 Flask框架 Vue【附源码+安装调试】

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

Python绘制--绘制心形曲线

今天,我们将通过Python代码来绘制一个心形曲线,这是一个经典的数学表达。 一、心形曲线的数学原理 心形曲线,也被称为心脏曲线,是一个代数曲线,可以通过参数方程定义。其数学表达式如下: x16sin⁡3(t)x16…

1,STM32CubeMX生成第一个freeRTOS工程

1,前言 本章内容是CubeMX工程配置freeRTOS的demo工程,后续其他本专栏文章中不再提及,默认在本章内容上完成。 单片机型号:STM32F407 编程环境 :STM32CubeMX Keil v5 2,STM32CubeMX新建工程 双击打开ST…

新增数据集 SDK、“关系抽取”文本标注、优化模型监控和管理|ModelWhale 版本更新

ModelWhale 带来了新一轮的版本更新,期待为大家带来更优质的使用体验。 本次更新中,ModelWhale 主要进行了以下功能迭代: 数据管理:新增 mw_python_sdk 支持通过查看、下载、制作、更新数据集 文本标注:新增“关系抽取…

最新版本SkyWalking【10.1.0】部署

这里写目录标题 前言前置条件启动Skywalking下载解压启动说明 集成Skywalking Agent下载Agent在IDEA中添加agent启动应用并访问SpringBoot接口 说明 前言 基于当前最新版10.1.0搭建skywalking 前置条件 装有JDK11版本的环境了解SpringBoot相关知识 启动Skywalking 下载 地…

停车位识别数据集 图片数量12416张YOLO,xml和txt标签都有; 2类类别:space-empty,space-occupied;

YOLO停车位识别 图片数量12416张,xml和txt标签都有; 2类类别:space-empty,space-occupied; 用于yolo,Python,目标检测,机器学习,人工智能,深度学习&#xff0…

WordPress修改固定链接后301的重定向方法

网站改版实际上是很忌讳的,尤其是针对已被搜索引擎收录的网站,新站不用考虑这些问题,而已经收录的网站网页在不遵守搜索引擎规则的前提下,是会被降权,关键词排名下滑、流量IP会被剥夺、收录会减少 、业务成交量会急剧下…

Java—逻辑控制与输入输出

各位看官:如果您觉得这篇文章对您有帮助的话 欢迎您分享给更多人哦 感谢大家的点赞收藏评论,感谢您的支持!!! 一.顺序结构: 我每天起床,躺在床上玩手机,然后吃中午饭,睡…

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(2)Keras

文章目录 前言一、Keras二、使用Kears 估计回归问题的神经网络1. 载入、处理数据2. 数据预处理:归一化3. 设定一系列随机数种子4. 定义了一个简单的深度神经网络5. 训练模型6. 查看训练结果7. 使用最优轮数(index1)重新估计 此神经网络模型8.…

Authentication Lab | Timing Attacks

关注这个靶场的其它相关笔记:Authentication Lab —— 靶场笔记合集-CSDN博客 0x01:Timing Attacks 前情提要 由于软件系统对不同输入处理时间的差异,可能会导致系统存在侧信道攻击的隐患。比如,如果输入的是无效的用户名&#x…

通信工程学习:什么是三网融合

三网融合 三网融合,又称“三网合一”,是指电信网、广播电视网、互联网在高层业务应用上的深度融合。这一概念在近年来随着信息技术的快速发展而逐渐受到重视,并成为推动信息化社会建设的重要力量。以下是对三网融合的详细解释: 一…