自然语言处理:Transformer、BERT

BERT(Bidirectional Encoder Representations from Transformers)和Transformer是自然语言处理(NLP)领域中的两个重要概念。Transformer是一种新型的深度学习架构,而BERT是基于Transformer架构的具体模型之一,主要用于预训练语言表示。

Transformer架构

Transformer是由Vaswani等人在2017年的论文《Attention is All You Need》中提出的,旨在解决序列数据处理中的长依赖问题。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同,Transformer完全依赖于自注意力机制(self-attention mechanism),使得它可以并行处理序列数据,并且能够更好地捕捉长距离依赖关系。

Transformer的主要组成部分
  1. 输入嵌入层(Input Embedding Layer)

    • 将输入的词索引转换为词向量表示。
    • 通常还会添加位置编码(Positional Encoding),以保留输入序列的位置信息。
  2. 编码器(Encoder)

    • 包含多个相同的编码器层(通常为6到12层)。
    • 每个编码器层由两部分组成:多头自注意力机制(Multi-Head Self-Attention)和前馈神经网络(Feed-Forward Neural Network)。
  3. 解码器(Decoder)

    • 包含多个相同的解码器层(同样通常为6到12层)。
    • 每个解码器层由三部分组成:多头自注意力机制、编码器-解码器注意力机制(Encoder-Decoder Attention)和前馈神经网络。
  4. 线性层和Softmax层

    • 解码器输出通过一个线性层映射到词汇表大小的维度。
    • 然后通过Softmax层生成下一个词的概率分布。
Transformer的工作流程
  1. 输入嵌入和位置编码

    • 输入序列经过嵌入层转换为词向量,并添加位置编码。
  2. 编码器层

    • 多头自注意力机制计算每个词与其他词之间的相关性,并生成加权后的表示。
    • 前馈神经网络进一步处理这些表示,增加模型的非线性能力。
  3. 解码器层

    • 解码器首先使用多头自注意力机制处理目标序列的嵌入。
    • 然后使用编码器-解码器注意力机制将目标序列与源序列对齐。
    • 最后通过前馈神经网络生成最终的表示。
  4. 生成输出

    • 解码器的输出通过线性层和Softmax层生成下一个词的概率分布。

BERT模型

BERT(Bidirectional Encoder Representations from Transformers)是Google在2018年提出的一种预训练语言模型,它利用Transformer架构来生成上下文相关的词嵌入。BERT的主要特点是双向编码器,即同时考虑了单词左侧和右侧的上下文信息。

BERT的关键特性
  1. 双向编码器

    • BERT使用了Transformer的编码器部分,并且采用了双向训练方式,即同时考虑了单词左侧和右侧的上下文信息。
    • 这与传统的单向语言模型(如LSTM或GRU)不同,后者只能从左到右或从右到左处理文本。
  2. 预训练任务

    • Masked Language Model (MLM):随机遮蔽输入序列中的一些词,并要求模型预测这些被遮蔽的词。这种方式使得模型必须理解整个句子的上下文。
    • Next Sentence Prediction (NSP):给定两个句子A和B,要求模型判断B是否是A的下一句。这有助于模型理解句子间的关系。
  3. 微调(Fine-tuning)

    • 预训练完成后,BERT可以在特定的任务上进行微调,例如文本分类、命名实体识别、问答系统等。
    • 微调时只需在BERT的基础上添加少量的任务特定层,并使用任务特定的数据集进行训练。
BERT的架构

BERT的架构基于Transformer的编码器部分,具体包括以下组件:

  1. 输入嵌入层

    • 输入包括三个部分:词嵌入(Token Embeddings)、段嵌入(Segment Embeddings)和位置嵌入(Position Embeddings)。
    • 词嵌入表示输入序列中的每个词。
    • 段嵌入用于区分输入序列中的不同句子(BERT可以处理一对句子)。
    • 位置嵌入用于保留输入序列的位置信息。
  2. 编码器层

    • BERT通常包含12层或24层编码器(分别对应BERT-base和BERT-large版本)。
    • 每个编码器层由多头自注意力机制和前馈神经网络组成。
  3. 输出层

    • 编码器的最后一层输出是一个矩阵,其中每一行对应输入序列中每个词的上下文表示。
BERT的工作流程
  1. 输入嵌入

    • 将输入序列中的每个词转换为词嵌入,并添加段嵌入和位置嵌入。
  2. 编码器层

    • 输入嵌入依次通过多个编码器层,每层都包含多头自注意力机制和前馈神经网络。
    • 每个编码器层生成更丰富的上下文表示。
  3. 预训练任务

    • 在预训练阶段,BERT使用MLM和NSP任务来训练模型。
    • MLM任务要求模型预测被遮蔽的词,NSP任务要求模型判断句子B是否是句子A的下一句。
  4. 微调

    • 在微调阶段,BERT在特定任务上进行训练,通常只需要在最后一层添加任务特定的输出层,并使用任务特定的数据集进行训练。

示例代码:使用Hugging Face的Transformers库加载和使用BERT

Hugging Face的Transformers库提供了方便的接口来加载和使用BERT模型。以下是一个简单的示例,展示如何使用BERT进行文本分类。

安装依赖
pip install transformers torch
加载预训练的BERT模型
from transformers import BertTokenizer, BertForSequenceClassification
import torch# 加载预训练的BERT tokenizer和模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)# 示例输入文本
text = "Hello, how are you?"# 对输入文本进行编码
inputs = tokenizer(text, return_tensors='pt')# 获取模型输出
with torch.no_grad():outputs = model(**inputs)# 输出分类结果
logits = outputs.logits
predictions = torch.argmax(logits, dim=-1)
print("Predictions:", predictions.item())
训练BERT模型

下面是一个简单的例子,展示如何在PyTorch中使用BERT进行微调。

from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset# 加载数据集
dataset = load_dataset('glue', 'mrpc')# 加载预训练的BERT tokenizer和模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)# 定义数据处理函数
def preprocess_function(examples):return tokenizer(examples['sentence1'], examples['sentence2'], truncation=True)# 对数据集进行预处理
encoded_dataset = dataset.map(preprocess_function, batched=True)# 设置训练参数
training_args = TrainingArguments(output_dir='./results',evaluation_strategy="epoch",learning_rate=2e-5,per_device_train_batch_size=8,per_device_eval_batch_size=8,num_train_epochs=3,weight_decay=0.01,
)# 初始化Trainer
trainer = Trainer(model=model,args=training_args,train_dataset=encoded_dataset['train'],eval_dataset=encoded_dataset['validation'],
)# 开始训练
trainer.train()

总结

  • Transformer 是一种新型的深度学习架构,利用自注意力机制处理序列数据,具有并行处理能力和捕捉长距离依赖的优势。
  • BERT 是基于Transformer架构的预训练语言模型,采用双向编码器和预训练任务(MLM和NSP),能够生成上下文相关的词嵌入,并在多种NLP任务上表现出色。

通过使用Hugging Face的Transformers库,可以方便地加载和使用预训练的BERT模型,并在特定任务上进行微调。

Transformer 和 BERT 的主要区别

虽然BERT是基于Transformer架构构建的,但它们在设计目标、应用场景和具体实现上有显著的区别。以下是对两者的主要区别的详细解析:

1. 架构与目的
  • Transformer

    • 架构:Transformer是一种通用的深度学习架构,最初由Vaswani等人在2017年的论文《Attention is All You Need》中提出。它包括编码器(Encoder)和解码器(Decoder),主要用于处理序列数据,如机器翻译。
    • 目的:旨在解决长距离依赖问题,并提供一种可以并行化处理序列数据的方法。Transformer通过自注意力机制(Self-Attention Mechanism)捕捉输入序列中的全局依赖关系。
  • BERT

    • 架构:BERT(Bidirectional Encoder Representations from Transformers)仅使用了Transformer的编码器部分,没有解码器。BERT模型通常包含多个相同的编码器层(通常是12层或24层)。
    • 目的:BERT是一个预训练语言模型,旨在生成上下文相关的词嵌入。它的主要特点是双向编码器,即同时考虑了单词左侧和右侧的上下文信息,从而更好地理解句子的整体含义。
2. 输入与输出
  • Transformer

    • 输入:Transformer可以处理一对序列(例如源语言句子和目标语言句子),并通过位置编码保留序列的位置信息。
    • 输出:解码器生成一个输出序列,通常用于生成翻译结果或其他序列预测任务。
  • BERT

    • 输入:BERT接收单个句子或一对句子作为输入。输入包括三个部分:词嵌入(Token Embeddings)、段嵌入(Segment Embeddings)和位置嵌入(Position Embeddings)。段嵌入用于区分输入序列中的不同句子。
    • 输出:编码器的最后一层输出是一个矩阵,其中每一行对应输入序列中每个词的上下文表示。这些表示可以用于各种下游任务,如文本分类、命名实体识别等。
3. 训练方式
  • Transformer

    • 训练任务:Transformer通常用于有监督的任务,如机器翻译。训练过程中,模型通过最小化目标序列的真实值和预测值之间的损失来优化参数。
  • BERT

    • 训练任务:BERT采用无监督的预训练方式,主要包括两个任务:
      • Masked Language Model (MLM):随机遮蔽输入序列中的一些词,并要求模型预测这些被遮蔽的词。这种方式使得模型必须理解整个句子的上下文。
      • Next Sentence Prediction (NSP):给定两个句子A和B,要求模型判断B是否是A的下一句。这有助于模型理解句子间的关系。
    • 微调:预训练完成后,BERT可以在特定的任务上进行微调,通常只需要在最后一层添加任务特定的输出层,并使用任务特定的数据集进行训练。
4. 应用场景
  • Transformer

    • 应用场景:Transformer广泛应用于需要处理序列数据的任务,如机器翻译、文本摘要、问答系统等。由于其并行化的能力,Transformer在大规模数据集上的训练效率较高。
  • BERT

    • 应用场景:BERT主要用于自然语言理解任务,如文本分类、情感分析、命名实体识别、问答系统等。BERT通过预训练生成强大的语言表示,然后在特定任务上进行微调,表现出色。
5. 性能与效果
  • Transformer

    • 性能:Transformer在处理长序列时表现出色,因为它能够捕捉全局依赖关系。然而,传统的Transformer模型在处理某些复杂的语言理解任务时可能不如BERT有效。
  • BERT

    • 性能:BERT在多种NLP基准测试中取得了优异的成绩,特别是在理解和生成上下文相关的词嵌入方面表现突出。BERT的双向编码器使其能够更好地捕捉句子的语义信息。

具体对比表

特性TransformerBERT
架构包含编码器和解码器仅包含编码器
输入可以处理一对序列(如源语言和目标语言)单个句子或一对句子
输出输出为序列(如翻译结果)上下文相关的词嵌入矩阵
训练任务有监督任务(如机器翻译)无监督预训练(MLM和NSP)
应用场景序列到序列任务(如机器翻译、文本摘要)自然语言理解任务(如文本分类、问答系统)
优点捕捉全局依赖关系,适用于长序列任务双向编码器,上下文相关词嵌入,适合复杂语言理解任务
缺点解码器部分限制了其在某些语言理解任务中的表现计算资源需求高,预训练时间较长

示例代码对比

Transformer 示例(机器翻译)
from transformers import MarianMTModel, MarianTokenizer# 加载预训练的MarianMT模型和tokenizer
model_name = 'Helsinki-NLP/opus-mt-en-de'
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)# 示例输入文本
text = "Hello, how are you?"# 对输入文本进行编码
inputs = tokenizer(text, return_tensors='pt')# 获取模型输出
with torch.no_grad():outputs = model.generate(**inputs)# 解码输出
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Translated Text:", translated_text)
BERT 示例(文本分类)
from transformers import BertTokenizer, BertForSequenceClassification
import torch# 加载预训练的BERT tokenizer和模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)# 示例输入文本
text = "This movie was fantastic!"# 对输入文本进行编码
inputs = tokenizer(text, return_tensors='pt')# 获取模型输出
with torch.no_grad():outputs = model(**inputs)# 输出分类结果
logits = outputs.logits
predictions = torch.argmax(logits, dim=-1)
print("Predictions:", predictions.item())

总结

  • Transformer 是一种通用的深度学习架构,适用于广泛的序列数据处理任务,特别是那些需要生成新序列的任务(如机器翻译、文本摘要)。
  • BERT 是基于Transformer编码器部分的预训练语言模型,专注于生成上下文相关的词嵌入,特别适用于自然语言理解任务。

两者的主要区别在于架构设计、训练方式和应用场景

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31984.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码优化——基于element-plus封装组件:表单封装

前言 今天实现一个基于element-plus表单组件的二次封装&#xff0c;什么是二次封装&#xff1f;查看以下表单&#xff0c;传统表单组件是不是用<el-form>嵌套几个<el-form-item>即可实现&#xff0c;那么一个表单可不可以实现&#xff0c;传入一个对象给封装组件&a…

docker私有仓库配置

基于 harbor 构建docker私有仓库 1、机器准备 os&#xff1a;openEuler 、rockylinux mem&#xff1a;4G disk&#xff1a;100G 2、关闭防火墙、禁用SELinux 3、安装docker和docker-compose yum install docker-ce -y配置加速 vim /etc/docker/d…

SpringBoot集成MQ,四种交换机的实例

​RabbitMQ交换机&#xff08;Exchange&#xff09;的核心作用 在RabbitMQ中&#xff0c;​交换机 是消息路由的核心组件&#xff0c;负责接收生产者发送的消息&#xff0c;并根据规则&#xff08;如路由键、头信息等&#xff09;将消息分发到对应的队列中。 不同交换机类型决…

Docker 配置镜像源

》》Daemon {"registry-mirrors": ["https://docker.1ms.run","https://docker.xuanyuan.me"] }》》》然后在重新 docker systemctl restart docker

llamafactory 微调教程

文章目录 llamlafactory微调deepseekr1-0.5b1.1 说明1.2 搭建环境创建GPU实例连接实例部署llama_factory创建隧道&#xff0c;配置端口转发访问llama_factory 1.3 微调大模型从huggingface上下载基座模型查看模型是否下载成功准备数据集微调评估微调效果导出合并后的模型 释放实…

[项目]基于FreeRTOS的STM32四轴飞行器: 七.遥控器按键

基于FreeRTOS的STM32四轴飞行器: 七.遥控器 一.遥控器按键摇杆功能说明二.摇杆和按键的配置三.按键扫描 一.遥控器按键摇杆功能说明 两个手柄四个ADC。 左侧手柄&#xff1a; 前后推为飞控油门&#xff0c;左右推为控制飞机偏航角。 右侧手柄&#xff1a; 控制飞机飞行方向&a…

2025-03-08 学习记录--C/C++-PTA 习题10-1 判断满足条件的三位数

合抱之木&#xff0c;生于毫末&#xff1b;九层之台&#xff0c;起于累土&#xff1b;千里之行&#xff0c;始于足下。&#x1f4aa;&#x1f3fb; 一、题目描述 ⭐️ 裁判测试程序样例&#xff1a; #include <stdio.h> #include <math.h>int search( int n );int…

光谱相机检测肉类新鲜度的原理

光谱相机通过分析肉类样本在特定波长范围内的光谱反射特性&#xff0c;结合化学与生物指标的变化规律&#xff0c;实现对其新鲜度的无损检测。其核心原理可概括为以下方面&#xff1a; 一、光谱特征与物质成分的关联性 ‌物质特异性吸收/反射‌ 不同化学成分&#xff08;如水分…

【一起学Rust | Tauri2.0框架】基于 Rust 与 Tauri 2.0 框架实现软件开机自启

文章目录 前言 一、准备工作1.1 环境搭建1.2 创建 Tauri 项目1.3 添加依赖 二、实现开机自启的基本原理2.1 开机自启的基本概念2.2 Tauri 应用的生命周期 三、Windows 平台实现3.1 Windows 注册表机制3.2 实现步骤3.3 注意事项 四、Linux 平台实现4.1 Linux systemd 服务4.2 实…

Windows10下docker desktop命令行操作指南(大部分也适用于Linux)

Windows系统最大的特点就是可视化操作&#xff0c;点点鼠标就能操作软件。但是在特殊的情况下&#xff0c;比如docker desktop图标点了之后没反应&#xff0c;但是看后台程序&#xff0c;它又已经运行了&#xff0c;这时候就要使用命令行来操作了。 针对这次情况&#xff0c;所…

静态时序分析:无法满足的生成时钟(TIM-255警告、UITE-461或PTE-075错误)

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 在阅读本文前&#xff0c;强烈建议首先阅读介绍生成时钟的文章&#xff0c;尤其是其中关于时钟极性和反相的相关内容。 静态时序分析&#xff1a;SDC约束命令cr…

计算机网络--访问一个网页的全过程

文章目录 访问一个网页的全过程应用层在浏览器输入URL网址http://www.aspxfans.com:8080/news/index.aspboardID5&ID24618&page1#r_70732423通过DNS获取IP地址生成HTTP请求报文应用层最后 传输层传输层处理应用层报文建立TCP连接传输层最后 网络层网络层对TCP报文进行处…

从零开发Chrome广告拦截插件:开发、打包到发布全攻略

从零开发Chrome广告拦截插件&#xff1a;开发、打包到发布全攻略 想打造一个属于自己的Chrome插件&#xff0c;既能拦截烦人的广告&#xff0c;又能优雅地发布到Chrome Web Store&#xff1f;别担心&#xff0c;这篇教程将带你从零开始&#xff0c;动手开发一个功能强大且美观…

AI智能眼镜主控芯片:技术演进与产业生态的深度解析

一、AI智能眼镜的技术挑战与主控芯片核心诉求 AI智能眼镜作为XR&#xff08;扩展现实&#xff09;技术的代表产品&#xff0c;其核心矛盾在于性能、功耗与体积的三角平衡。主控芯片作为设备的“大脑”&#xff0c;需在有限空间内实现复杂计算、多模态交互与全天候续航&#xf…

elasticsearch 8.17.3部署文档

elasticsearch 8.17.3部署文档 一、架构拓扑 ip主机名角色192.168.241.151slave1master192.168.241.152slave2node1192.168.241.153slave3node2 二、安装包下载——分别下载上传至所有的节点 下载地址https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-…

PySide(PyQT),QGraphicsItem的pos()和scenePos()区别

在QGraphicsItem中&#xff0c;pos()和scenePos()是两个重要的方法&#xff0c;用于描述图形项的位置&#xff0c;但它们的含义和用途有所不同。理解它们的区别对于正确操作和管理QGraphicsItem的位置至关重要。 1. pos()方法 • 定义&#xff1a;pos()返回的是QGraphicsItem在…

Linux 进程控制:创建、终止、等待与程序替换全解析

亲爱的读者朋友们&#x1f603;&#xff0c;此文开启知识盛宴与思想碰撞&#x1f389;。 快来参与讨论&#x1f4ac;&#xff0c;点赞&#x1f44d;、收藏⭐、分享&#x1f4e4;&#xff0c;共创活力社区。 目录 1.进程创建 1-1 fork函数初识​ 1-2 fork函数返回值​ 1-3…

GStreamer —— 2.18、Windows下Qt加载GStreamer库后运行 - “播放教程 6:音频可视化“(附:完整源码)

运行效果 介绍 GStreamer 带有一组将音频转换为视频的元素。他们 可用于科学可视化或为您的音乐增添趣味 player 的本教程展示了&#xff1a; • 如何启用音频可视化 • 如何选择可视化元素 启用音频可视化实际上非常简单。设置相应的标志&#xff0c;当纯音频流为 found&#…

Excel多级联动下拉菜单设置

1.问题描述 现有数据表如下图所示&#xff1a; 该表中包括省、市、县三级目录。 现要将其整理成数据表模板&#xff0c;如下图所示&#xff1a; 要求制作成下拉菜单的形式&#xff0c;且每一级目录的下拉菜单列表要根据上一级目录的内容来确定。 如上图所示&#xff0c;只有…

Web基础:HTML快速入门

HTML基础语法 HTML&#xff08;超文本标记语言&#xff09; 是用于创建网页内容的 标记语言&#xff0c;通过定义页面的 结构和内容 来告诉浏览器如何呈现网页。 超文本&#xff08;Hypertext&#xff09; 是一种通过 链接&#xff08;Hyperlinks&#xff09; 将不同文本、图像…