【大模型系列篇】预训练模型：BERT GPT

【大模型系列篇】预训练模型：BERT GPT

news/2024/12/23 19:03:10/文章来源:https://blog.csdn.net/Jackie_vip/article/details/141603806

2018 年，Google 首次推出 BERT（Bidirectional Encoder Representations from Transformers）。该模型是在大量文本语料库上结合无监督和监督学习进行训练的。 BERT 的目标是创建一种语言模型，可以理解句子中单词的上下文和含义，同时考虑到它前后出现的单词。

2018 年，OpenAI 首次推出 GPT（Generative Pre-trained Transformer）。与 BERT 一样，GPT 也是一种大规模预训练语言模型。但是，GPT 是一种生成模型，它能够自行生成文本。 GPT 的目标是创建一种语言模型，该模型可以生成连贯且适当的上下文文本。

BERT和GPT是两种基于Transformer架构的预训练模型，BERT侧重于理解句子中的上下文和含义，适合词语级别的任务；而GPT则专注于生成连贯的文本，适用于生成式任务。两者在训练方式、任务目标和适用场景上有所不同，BERT使用掩码语言模型和下一句预测，GPT采用自回归语言模型。

首先我们拿BERT、GPT和ELMo【关于ELMO在上篇《词向量 - 从Word2Vec到ELMo》中已经有介绍】的模型结构图做一个简要对比，可以帮助更清晰的理解三类模型的差异。

BERT是基于Transformer架构的双向编码器。它通过掩码语言建模和下一个句子预测的任务进行无监督预训练。

GPT是基于Transformer架构，它是一个单向的生成式模型。GPT通过自回归方式预训练，即根据前面的词预测下一个词。

简单来说，如果我们把 ELMO 的特征抽取器(LSTM)换成Transformer，那么我们会得到 BERT模型结构。如果我们把 GPT 预训练阶段换成双向语言模型，也会得到 BERT模型结构。

`BERT, GPT之间的不同点`

关于特征提取器：
- GPT和BERT采用Transformer进行特征提取；
- BERT采用的是Transformer架构中的Encoder模块；
- GPT采用的是Transformer架构中的Decoder模块。
单/双向语言模型:
- GPT和BERT都源于Transformer架构；
- GPT的单向语言模型采用了经过修改后的Decoder模块，Decoder采用了look-ahead mask，只能看到context before上文信息，未来的信息都被mask掉了；
- BERT的双向语言模型采用了Encoder模块，Encoder只采用了padding mask，可以同时看到context before上文信息，以及context after下文信息。

很多NLP任务表明Transformer的特征提取能力强于LSTM，

对于ELMo而言，采用1层静态token embedding + 2层LSTM，提取特征的能力有限。

`BERT, GPT各自的优点和缺点`

GPT：
- 优点：GPT使用了Transformer提取特征，使得模型能力大幅提升。
- 缺点：GPT只使用了单向Decoder，无法融合未来的信息。
BERT：
- 优点：BERT使用了双向Transformer提取特征，使得模型能力大幅提升。添加了两个预训练任务, 掩蔽语言模型(MLM) + 下一句预测(NSP)的多任务方式进行模型预训练。
- 缺点：模型过于庞大，参数量太多，需要的数据和算力要求过高，训练好的模型应用场景要求高。更适合用于语言嵌入表达，语言理解方面的任务，不适合用于生成式的任务。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/411126.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

新华三H3C HCL配置IS-IS基本配置

新华三H3C HCL配置IS-IS基本配置

实验目标完成本实验,应该能够达到以下目标。 ●掌握如何在路由器进行单区域IS-IS的基本配置 ●掌握如何在路由器上查看IS-IS路由表、邻居信息 ●掌握如何在路由器上查看IS-IS的LSDB信息实验拓扑 IP地址表实验任务单区域配置： 在本实验任务中,需要在路由器上…

阅读更多...

Dockerfile+私有仓库

Dockerfile+私有仓库

使用Dockerfile创建应用镜像在Docker file中定义所需要执⾏的指令，使⽤ docker build创建镜像，过程中会按照dockerfile所定义的内容进⾏打开临时性容器，把docker file中命令全部执⾏完成，就得到了⼀个容器应⽤镜像，每…

阅读更多...

排序算法刷题【leetcode88题目：合并两个有序数组、leetcode21：合并两个有序链表】

排序算法刷题【leetcode88题目：合并两个有序数组、leetcode21：合并两个有序链表】

一、合并两个有序数组题目比较简单，使用归并排序里面的同样的操作就可以，代码如下所示 #include <iostream> #include <vector> using namespace std;/* leetcode88题：合并两个有序数组 */ class Solution { public:void merge…

阅读更多...

代码随想录训练营 Day41打卡动态规划 part08 121. 买卖股票的最佳时机 122. 买卖股票的最佳时机II 123. 买卖股票的最佳时机III

代码随想录训练营 Day41打卡动态规划 part08 121. 买卖股票的最佳时机 122. 买卖股票的最佳时机II 123. 买卖股票的最佳时机III

代码随想录训练营 Day41打卡动态规划 part08 一、力扣121. 买卖股票的最佳时机给定一个数组 prices ，它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计…

阅读更多...

网络安全总结②

网络安全总结②

上一篇：网络安全总结① 下一篇： 传统防火墙传统防火墙技术：访问控制、代理技术、会话机制工作层次：应用层一下防御模式：通过防御设备划分边界，基于IP/端口和特征进行判断；以隔离为基础&am…

阅读更多...

java Boss直聘爬虫数据分析

java Boss直聘爬虫数据分析

摘要本报告利用Java和Selenium爬虫技术获取数据，并使用ECharts库对薪资数据进行可视化分析，旨在探究不同经验和学历的薪资分布情况。数据来源数据来源于Boss直聘，使用Java结合Selenium库进行数据抓取。数据总数：约2000家企…

阅读更多...

LeetCode --- 411周赛

LeetCode --- 411周赛

题目列表 3258. 统计满足 K 约束的子字符串数量 I 3259. 超级饮料的最大强化能量 3260. 找出最大的 N 位 K 回文数 3261. 统计满足 K 约束的子字符串数量 II 一、统计满足K约束的子字符串数量I 这种要求满足区间内某种性质的题，一般都可以用滑动窗口来做。这题…

阅读更多...

黄河：曾月入十几万，被裁后做独立开发，我每天必须要做的事就是写代码

黄河：曾月入十几万，被裁后做独立开发，我每天必须要做的事就是写代码

这是《开发者说》的第16期，本期我们邀请的开发者是黄河，来自西北城市银川，半路转行为程序员，靠着自己对编程的热爱，一路坚持下来，虽地处偏远，正是得益于互联网的好处，让全球每一个角…

阅读更多...

畅捷通CRM newleadset.php SQL注入漏洞复现

畅捷通CRM newleadset.php SQL注入漏洞复现

0x01 产品简介用友畅捷通CRM是面向小企业全力打造的简单、实用的客户关系管理应用。帮助企业用好自己的客户资源、管好商机跟进过程、引导好业务员跟单行为，促进团队销售能力的提升；通过查询和分析，识别企业的价值客户，融合电话、短信、邮件等工具，实现精准营销；帮助企…

阅读更多...

网络安全之渗透测试实战-DC-3-靶机入侵

网络安全之渗透测试实战-DC-3-靶机入侵

一、下载靶机DC-3，解压后导入Vmware Workstation https://pan.baidu.com/s/17BcSH6RqC7wuyB7PRNqOow?pwdkc12启动DC-3靶机，由于不知道密码，无需登录二、靶机的网卡采用的是NAT模式自动获取IP地址，此时我们需要先获取其MAC地址…

阅读更多...

Qt：鼠标事件

Qt：鼠标事件

虽然Qt是跨平台的c开发框架，但是Qt的很多能力是系统提供的，只是其封装了系统的API，例如在Linux环境下的Qt就封装了Linux的一堆API 系统API 事件：图形化界面中，用户操作和程序之间交互的机制（封装了系统的事…

阅读更多...

机器学习：DBSCAN算法（内有精彩动图）

机器学习：DBSCAN算法（内有精彩动图）

目录前言一、DBSCAN算法 1.动图展示（图片转载自网络） 2.步骤详解 3.参数配置二、代码实现 1.完整代码 2.代码详解 1.导入数据 2.通过循环确定参数最佳值总结前言 DBSCAN（Density-Based Spatial Clustering of Applications w…

阅读更多...

探索数据结构：图(三)之最短路径算法

探索数据结构：图(三)之最短路径算法

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯，先赞后看哦~🎈🎈 所属专栏：数据结构与算法贝蒂的主页：Betty’s blog 1. 最短路径算法最短路径问题可分为单源最短路径和多源最短路径。其指…

阅读更多...

《机器学习》 SVM支持向量机推导、参数解析、可视化实现

《机器学习》 SVM支持向量机推导、参数解析、可视化实现

目录一、SVM支持向量机 1、什么是SVM 例如： 2、SVM的主要特点是： 二、SVM方程 1、超平面方程 2、标签问题 3、决策函数： 符号函数： 整合： 4、距离问题 1）点到直线距离 2）点到平面…

阅读更多...

航空公司名字趣史：看看有趣又有意义的命名背后有什么玄机

航空公司名字趣史：看看有趣又有意义的命名背后有什么玄机

上周“东海航空”事件引发了东方航空在社交媒体上的一系列被迫营业，因为媒体的乌龙报道误将“东海航空”简称为“东航”，甚至直接用错了图片。众号：标猿公司起名给公司起个好名字其实除了大部分以地域、国家命名的航空公司，还…

阅读更多...

Android Auto推出全新Google助手设计

Android Auto推出全新Google助手设计

智能手机与汽车的无缝整合已成为现代驾驶的重要组成部分，而 Android Auto 一直在这一领域处于领先地位。谷歌通过不断推出新功能和更新，体现了其致力于提升 Android Auto 体验的决心。最近，Android Auto 引入了 Google助手的全新设计。当系…

阅读更多...

【Qt】多元素控件QTreeWidget

【Qt】多元素控件QTreeWidget

多元素控件QTreeWidget 使用QTreeWidget表示一个树型结构，里面的每一个元素都是QTreeWidgetItem，每个QTreeWidgetItem可以包含多个文本和图标，每个文本/图标表示一列。可以给QTreeWidget设置顶层结构（顶层节点可以有多个&#…

阅读更多...

redis面试（二十二）读锁释放

redis面试（二十二）读锁释放

假设现在已经有各种锁的重入什么的，那如何释放锁？ 读锁读锁假如说，同一个线程多次加读锁，或者不同的线程加了多个读锁当前的锁结构长这样 anyLock: { “mode”: “read”, “UUID_01:threadId_01”: 2, “UUID_02:threadId_02…

阅读更多...

去雾去雨算法

去雾去雨算法

简单版 import cv2 import numpy as npdef dehaze(image):"""简单去雾算法，使用直方图均衡化来增强图像"""# 将图像转换为YUV颜色空间yuv_image cv2.cvtColor(image, cv2.COLOR_BGR2YUV)# 对Y通道（亮度）进行…

阅读更多...

数据结构——队的基本操作

数据结构——队的基本操作

一、顺序队队的用法：先进先出跟平时我们遇到的大多情况一样，队的主要思想就是先进先出，比如我去食堂打饭，我先排那么就是我先打到饭咯顺序队：其实说白了就是一块空间用两个指针去指向，为了实现先进先…

阅读更多...

最新文章

推荐文章