GPT模型训练实践(2)-Transformer模型工作机制

        Transformer 的结构如下,主要由编码器-解码器组成,因为其不需要大量标注数据训练和天然支持并行计算的接口,正在全面取代CNN和RNN:

扩展阅读:What Is a Transformer Model?

其中

编码器中包含自注意力层和前馈神经网络层;

解码器包含自注意力层、编码器-解码器注意力层、前馈神经网络层三个部分。

了解Transformer,需要了解什么是超参数,这也与稍后的代码实践相关:

超参数:事先设定的。Transformer典型的超参数有Token数量,词向量,位置向量,解码器层数,自注意力头数、注意力维度数、学习率等。

与超参数对应的还有一个词叫参数,参数是在训练过程中得到的,出厂前的训练叫预训练,会得到基础参数(最开始的参数叫原始参数,随机生成的),但在实际的使用过程中,需要经过Fine-tuning,也就是微调,类似于把一套毛坯房装修为精装房的过程,以后在使用该模型的时候,其实就等于入住了。

通常来说,微调过后的参数与基础参数是不同的,这是由模型最终使用者的应用目的有关的,比如要把一个基础模型训练为安全领域的模型,那么在训练过程中就要使用安全行业的相关语料,同时结合安全专家的经验,不断调节参数,最终使模型能够在安全领域进行推理。微调这件事情主要要关注参数是否更改、在哪一层调整以及作用形式,目前主要的微调技术包括SFT(有监督微调),Prompt(提示词微调),LORA(低秩矩阵适应微调)、RLHF(人类反馈的强化学习)等。chatGPT是基于GPT3,花了一年多时间采用SFT、RM(奖励模型)、和PPO等微调之后才产生的。【想想要花多少钱)

在GPT中,只采用了解码器,且不是Transformer中标准的解码器层因为没有编码器的输入,所以解码器也去掉了编码器-解码器注意力层,最终结构如下图所示:

其内部的结构如下图所示:

第一层自注意子层:捕捉输入序列之间相互之间的关系,能学习完整的语义依赖;

第二层前馈神经网络子层:能捕捉整改输入序列的隐藏的、复杂的关联信息。

GPT总体结构如下图所示:

下面详细介绍:本介绍主要基于合集·GPT模型详细解释课程中“我是一个人”作为输入。分词为 

我     是     一个   ,3个token

1、输入处理:输入处理主要包括分词、向量嵌入、词向量+位置向量三个处理部分,处理完毕之后输出为一个3×12288的矩阵。

2、解码器栈:两部分组成,先看自注意子层

在自注意力子层中,有自注意头,且因为没有输出,其输入主要来自自己,也就是左边的信息,所有叫做自回归自注意力机制。 此部分主要是关于q.,k,v的计算。

 自注意力子层最终输出的为一个3×12288的矩阵。

接下来看第二个部分--前馈神经网络子层。

前馈神经网络输入是3×12288的矩阵,经过一系列计算之后,输出一个3×12288的矩阵。

3、输出部分:输出为一个3×50257的概率权重矩阵

 

附图:GPT、BERT、ELMo三者对比

尤其感谢B站UP主三明2046,其作品《合集GPT模型详细解释》生动精彩,本系列文章充分吸收学习了该课程,并且在文章图片素材多有引用;

本文代码部分主要引用How to build a GPT model

如有侵权,请联系笔者删除,感谢,致敬!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14055.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MQTT】Esp32数据上传采集:最新mqtt插件(支持掉线、真机调试错误等问题)

前言 这是我在Dcloud发布的插件-最完整Mqtt示例代码(解决掉线、真机调试错误等问题),经过整改优化和替换Mqtt的js文件使一些市场上出现的问题得以解决,至于跨端出问题,可能原因有很多,例如,合法…

跨站脚本攻击漏洞(XSS):基础知识和防御策略

数据来源 部分数据来源:ChatGPT 一、跨站脚本攻击简介 1、什么是跨站脚本攻击? 跨站脚本攻击(Cross-site scripting,XSS)是一种常见的网络安全漏洞,攻击者通过在受害网站注入恶意脚本代码,使得其他用…

人工智能监管趋严:拜登政府对ChatGPT等工具加强监管

一、AI风起云涌,监管迟来的关注 自从以ChatGPT为代表的大模型如同火箭一般腾飞,全球各国都开始关注这一新兴科技的发展。最近,美国政府表示需要开始考虑对像ChatGPT这样的人工智能工具进行监管。正如我们所见,ChatGPT已经吸引了超…

腾讯百余人因贪腐被辞退/ ChatGPT API将开放/ 《黑神话悟空》发售时间公开…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 1月17日,一个平凡但又愈发靠近除夕的周二。 这个大好的日子里,科技圈都发生了哪些大事? 《黑神话悟空》将在2024年夏公开发售 “黑神话之悟空”游戏官方发布了兔年贺岁小短片《兔哥惊魂记》&#x…

如何用 ChatGPT 做数据进阶可视化?(三维交互图与动图视频)

你只需输入数据和需求,结果自然来。 自动可视化 在《如何用 ChatGPT 帮你自动分析数据?》这篇文章里,我已经为你介绍过 Code Interpreter 。它是 ChatGPT 的一个模式,目前还在 alpha 测试阶段。 Code Interpreter 可以接收文件输入…

【ChatGpt】解决视频框交换中的平滑过渡的问题

【ChatGpt】解决视频框交换中的平滑过渡的问题 问题抽象chatgpt 看看直接给参考代码 解决效果 问题 在视频的播放中,我们想调换下容器的位置 ,在互调的过程中,如果需要重新进行数据的初始化,获取与加载,就会很慢&…

130亿参数开源模型「小羊驼-Vicuna」来了!复刻ChatGPT九成功力,GPT-4亲自监考

源|机器之心 OpenAI 的强大模型们,被开源社区复刻得差不多了。 过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象。 以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型…

chatgpt赋能python:Python就业学历要求

Python 就业学历要求 Python 是一门广泛应用于数据科学、人工智能、Web 开发和自动化等领域的编程语言,正在迅速成为行业内最受欢迎的语言之一。如果你想进入这些领域从事相关职业,那么 Python 编程技能将是你的一个优势。但是,Python 就业所…

Azure OpenAI 官方指南02|ChatGPT 的架构设计与应用实例

ChatGPT 作为即将在微软全球 Azure 公有云平台正式发布的服务,已经迅速成为了众多用户关心的服务之一。而由 OpenAI 发布的 ChatGPT 产品,仅仅上线两个月,就成为互联网历史上最快突破一亿月活的应用。本期从技术角度深度解析 ChatGPT 的架构设…

聚观早报 | ChatGPT炒股回报率超500%;网易发布11新游戏

今日要闻:微信支付正式发布“微信刷掌”产品;ChatGPT炒股回报率超500%;网易发布11新游戏;国家超算中心发布中文大语言模型;B站试水付费专属视频 微信支付正式发布“微信刷掌”产品 5 月 21 日,北京轨道交通…

chatgpt赋能python:Python在炒股领域的应用

Python在炒股领域的应用 Python语言在炒股领域的应用越来越广泛。Python具有易于学习、开发速度快、跨平台等优点,同时可以通过各种第三方库来获取财经数据、进行数据分析和可视化等操作,使其成为炒股界不可或缺的工具。 获取财经数据 Python编程语言…

chatgpt赋能python:用Python制作动画,你不可错过的工具

用Python制作动画,你不可错过的工具 Python是一种高级编程语言,最初被设计用于编写自动化脚本和简化复杂任务。然而,如今它越来越多地被用于创意和艺术性的项目,甚至是动画制作。 Python在动画制作中的优势一直受到赞誉。它是一…

chatgpt赋能python:制作简单动画:Python带你飞

制作简单动画:Python带你飞 Python不只是一门编程语言,它还能制作简单的动画。Python用于动画的库,有很多种,包括turtle、graphics.py和pygame等等。本文将以turtle为例,介绍如何使用Python制作简单的动画。 turtle简…

ChatGPT真神奇,但是也真焦虑

ChatGPT火爆 ChatGPT的火爆程度不用说也知道。就目前来说,已经开始冲击各行业了,比如客服、智能助手、语言学习、自然语言处理等等等。。 ChatGPT冲击 冲击最高的可能就是中间这个段位的了。高段位无法取代,但是低段位,通过使用Ch…

过于神奇的 ChatGPT

实在好奇究竟用的什么数据集,居然能得到下述问答: 最后又扣回了第一个问题「按照你的要求直接给出答案」,确实很强!

一文看懂ChatGPT与存算一体化

ChatGPT开启大模型“军备赛”,存储作为计算机重要组成部分明显受益: ChatGPT开启算力军备赛,大模型参数呈现指数规模,引爆海量算力需求,模型计算量增长速度远超人工智能硬件算力增长速度,同时也对数据传输速度提出了…

戴眼镜检测和识别1:戴眼镜检测数据集(含下载链接)

戴眼镜检测和识别1:戴眼镜检测数据集(含下载链接) 目录 戴眼镜检测和识别1:戴眼镜检测数据集(含下载链接) 1. 前言 2.Eyeglasses-Dataset数据集说明 3.Eyeglasses-Dataset数据集下载 4.戴眼镜检测和识别(Python版本) 5.戴眼…

ChatGPT近视眼镜购买指南:防雾防尘、舒适度与价格平衡的完美选择

最近眼镜坏了,想买一个新的,之前对眼镜这块不是很了解,于是就问了ChatGPT4. 我:想买一个近视眼镜,需要注意什么?有没有防尘防雾的眼镜?需要加防蓝光功能吗? GPT: 在购买…

AR眼镜方案_基于ChatGPT的AR智能眼镜设计方案

AR眼镜是一种创新的技术,可以在用户的视野中显示虚拟物体和信息。然而,眼镜的人机交互一直是一个难题。幸运的是,ChatGPT的出现带来了新的解决方案,可以为AR眼镜提供更好的人机交互支持。 现在,用户可以通过对AR眼镜内…

谷歌全球大裁员,涉及1.2万人

Datawhale干货 方向:就业信息,来源:机器之心 最近几天科技领域的流行词不是某一项新技术,而是裁员。 1 月 20 日,谷歌母公司 Alphabet 在一份员工备忘录中表示,由于面临「变化的经济现状」,该公…