什么是 Transformer 机器学习模型？

什么是 Transformer 机器学习模型？

news/2024/12/25 12:22:54/文章来源:https://blog.csdn.net/stevensxiao/article/details/136905228

此为视频What are Transformers (Machine Learning Model)?的笔记。在这里插入图片描述

其实标题里已经揭示了最重要的一点：Transformer，也就是GPT中的T，是一种机器学习模型，或者更准确的说，是一种深度学习模型。基于翻译为中文可能会导致误解，所以文章中就不翻译了。

作者首先让gpt-3生成了一个笑话（笑话不重要，重要的是他是gpt生成的），gpt-3 是一种自回归语言模型，它生成的文本看起来像是人类编写的。

gpt-3就是transformer的一个例子，它可以从一个序列转换为另一个序列。

另一个很好的例子是语言翻译。例如翻译“How are you”。transformer由编码器和解码器2部分组成，分别负责输入和输出。

表面上看，翻译不过是简单的查找（lookup）工作，例如将‘Why’翻译为‘为什么’。但实际并非如此，短语中的词序经常会变化。transformer的工作方式是通过序列到序列的学习，其中transformer采用一系列标记（token，在本例中是句子中的单词），并预测输出序列中的下一个单词。

它通过迭代编码器层来实现这一点，以便编码器生成定义输入序列的哪些部分彼此相关的编码，然后将这些编码传递到下一个编码器层。解码器采用所有这些编码并使用它们派生的上下文来生成输出序列。

transformer 是半监督学习的一种形式。半监督是指它们以无监督的方式使用大量未标记的数据集进行预训练，然后通过监督训练进行微调，以使它们现在表现得更好。

Transformer 和循环神经网络或 RNN不同，因为其不一定按顺序处理数据。Transformer 使用称为**注意力机制（attention mechanism）**的东西，这提供了输入序列中项目周围的上下文。

因此，transformer不是以“How”这个词开始翻译，尽管它位于句子的开头。而是尝试识别为序列中每个单词带来含义的上下文，正是这种注意力机制使 transformer比必须按顺序运行的 rnn 等算法更具优势。

Transformer 并行运行多个序列，这大大加快了训练时间。

Transformer 还可用于做文档摘要。您可以将整篇文章作为输入序列，然后生成一个输出序列，该输出序列实际上只是总结要点的几个句子。

Transformer 可以创建全新的文档，例如写一篇完整的博客文章，除了语言之外，Transformer 还可以学习下棋和执行图像处理，甚至可以与卷积神经网络（RNN）的能力相媲美。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/280862.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

jmeter的函数助手使用方法

jmeter的函数助手使用方法

如某个上传文件接口，一个文件只能同时被一个接口调用，如果被并发同时调用就会报错创建多个测试文件比如50并发，创建更多的文件防止并发多时随机数生成重复生成随机数函数工具–函数助手-选择random-输入范围（1-696&#…

阅读更多...

基于net的医院病历管理系统

基于net的医院病历管理系统

摘要伴随着我国社会的发展，人民生活质量日益提高。互联网逐步进入千家万户，改变传统的管理方式，医院病历管理系统以互联网为基础，利用net技术，和SQL Server数据库开发设计一套医院病历管理系统，提高工作…

阅读更多...

【鸿蒙HarmonyOS开发笔记】通知模块之发布基础类型通知，内含如何将图片变成PixelMap对象

【鸿蒙HarmonyOS开发笔记】通知模块之发布基础类型通知，内含如何将图片变成PixelMap对象

通知简介应用可以通过通知接口发送通知消息，终端用户可以通过通知栏查看通知内容，也可以点击通知来打开应用。通知常见的使用场景： 显示接收到的短消息、即时消息等。显示应用的推送消息，如广告、版本更新等。显示当前正…

阅读更多...

基于SpringBoot的学生成绩管理系统

基于SpringBoot的学生成绩管理系统

基于SpringBootVue的家教管理系统的设计与实现~ 开发语言：Java 数据库：MySQL 技术：SpringBoot 系统功能结构展示登录界面图现今，越来越多的人乐于选择一项合适的管理方案，但是普通用户往往受到管理经验地限制&…

阅读更多...

利用 STM32 TIMER 触发 ADC 实现分组转换

利用 STM32 TIMER 触发 ADC 实现分组转换

1、问题描述使用 STM32G4 系列芯片开发产品，用到其中一个 ADC 模块的多个通道，他希望使用 TIMER 来定时触发这几个通道的转换。不过他有两点疑惑。第一，他期望定时器触发这几个通道是每触发一次则只转换一个通道，这样依次触发…

阅读更多...

五、分支结构

五、分支结构

一、程序的组织结构无论程序是大是小，都可以用顺序结构、选择结构和循环结构表示二、单分支结构单分支结构：如果表达式的值是True就执行代码，如果表达式的值是False就跳过语句执行后面语句 ageint(input(请输入你的年龄：)) i…

阅读更多...

聚类分析 | Matlab实现基于PCA+DBO+K-means的数据聚类可视化

聚类分析 | Matlab实现基于PCA+DBO+K-means的数据聚类可视化

聚类分析 | Matlab实现基于PCADBOK-means的数据聚类可视化目录聚类分析 | Matlab实现基于PCADBOK-means的数据聚类可视化效果一览基本介绍程序设计参考资料效果一览基本介绍 PCA（主成分分析）、DBO（蜣螂优化算法）和K-means聚类…

阅读更多...

ASP.NET 服务器控件

ASP.NET 服务器控件

目录一、使用的软件 1、下载 2、新建文件（写一个简单的web网页） 二、相关知识点 1、Web窗体网页的组件 （1）可视化组件 （2）用户接口逻辑 2、Web Form网页的代码模型 （1）单文件…

阅读更多...

在基于全志V851se的TinyVision上手动构建 Linux 6.1 + Debian 12 镜像

在基于全志V851se的TinyVision上手动构建 Linux 6.1 + Debian 12 镜像

构建 SyterKit 作为 Bootloader SyterKit 是一个纯裸机框架，用于 TinyVision 或者其他 v851se/v851s/v851s3/v853 等芯片的开发板，SyterKit 使用 CMake 作为构建系统构建，支持多种应用与多种外设驱动。同时 SyterKit 也具有启动引导的功能&a…

阅读更多...

C# 数组（Array）

C# 数组（Array）

C# 数组（Array） 初始化数组声明一个数组不会在内存中初始化数组。当初始化数组变量时，您可以赋值给数组。数组是一个引用类型，所以您需要使用 new 关键字来创建数组的实例。例如： double[] b new double[10];…

阅读更多...

宝宝洗衣机十大排名：2024年十大超高销量婴儿洗衣机整理

宝宝洗衣机十大排名：2024年十大超高销量婴儿洗衣机整理

婴儿的衣物对于卫生要求需要高一些，其抵抗力是比较弱的，再加上普通洗衣机无法对婴儿的衣物进行有效的消毒处理，轻则会对婴儿的健康造成威胁，重则会导致皮肤病的发生。因此，一台可以对衣物进行高温除菌的婴儿洗衣机非常…

阅读更多...

【Flutter】文件选择器（file_picker）的用法

【Flutter】文件选择器（file_picker）的用法

Flutter 没有提供内置的文件选择器，但社区内有人贡献了一个比较完整的解决方案——file_picker。 file_picker 的 API 简洁易用，支持全平台（Android / iOS / Mac / Linux / Windows），是我开发桌面应用时的首选。这边…

阅读更多...

蓝桥杯刷题-替换字符

蓝桥杯刷题-替换字符

代码： 顺着题目意思写即可 sinput() nint(input()) for i in range(n):l, r, x, y input().split() if x not in s[int(l)-1:int(r)]: # 如果待替换字符不在区间内则跳过continueelse:# 找到待替换字符的位置，用replace函数进行替换ss[:int(l)-1]s[in…

阅读更多...

【C++】CC++内存管理

【C++】CC++内存管理

目录一、C/C内存分布二、C语言中动态内存管理方式：malloc/calloc/realloc/free三、 C内存管理方式3.1 new/delete操作内置类型3.2 new和delete操作自定义类型3.3 长度域四、operator new与operator delete函数五、new和delete的实现原理5.1 内置类型5.2 自定义类…

阅读更多...

第十二届蓝桥杯省赛CC++ 研究生组-货物摆放

第十二届蓝桥杯省赛CC++ 研究生组-货物摆放

还是整数分解问题,注意n本身也是约数 #include <iostream> int main(){printf("2430");return 0; }#include <iostream> #include<cmath> #include<algorithm> using namespace std; typedef long long ll; const ll n 2021041820210418LL…

阅读更多...

更安全的C gets()和str* 以及fgets和strcspn的用法

更安全的C gets()和str* 以及fgets和strcspn的用法

#include <stdio.h>int main() {char *str;gets(str);puts(str);return(0); }可以说全是错误首先char *str没有指向一个分配好的地址，就直接读入，危险 ps: 怎么理解char *str "Hello World" 是将一个存储在一个只读的数据段中字符串常…

阅读更多...

Linux查看硬件型号详细信息

Linux查看硬件型号详细信息

1.查看CPU （1）使用cat /proc/cpuinfo或lscpu （2）使用dmidecode -i processor Dmidecode 这款软件允许你在 Linux 系统下获取有关硬件方面的信息。Dmidecode 遵循 SMBIOS/DMI 标准，其输出的信息包括 BIOS、系统、主板、…

阅读更多...

Docker启动失败，报错Is the docker daemon running? Is the docker daemon running?

Docker启动失败，报错Is the docker daemon running? Is the docker daemon running?

问题： docker没有正常启动解决方法： systemctl daemon-reload systemctl restart docker.service

阅读更多...

chrome浏览器扩展插件开发包括打包、注册开发者账号、发布

chrome浏览器扩展插件开发包括打包、注册开发者账号、发布

打包chrome扩展程序注册开发者账号 https://developer.chrome.com/docs/webstore/register?hlzh-cn 人工智能学习网站： https://chat.xutongbao.top

阅读更多...

【学习】python函数语法（面像对象、封装函数）

【学习】python函数语法（面像对象、封装函数）

阅读开源深度学习源码的时候，使用到了很多封装函数以及Python的高级语法，看起来很混乱很痛苦很困难。对python函数语法做个总结！！！ Table of Contents 熟练Python语法，尤其是函数参数、迭代器与生成器、函…

阅读更多...

最新文章

推荐文章