transfmer学习认识

整体架构

在这里插入图片描述

1.自注意机制

1.1.softmax

在机器学习和深度学习中,softmax 函数是一个常用的激活函数,用于将一个向量转换为一个概率分布。softmax 函数的公式如下:
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/35c158988402498ba6ca699389a7f2c1.png
在这里插入图片描述

softmax 函数的作用
将输出转换为概率分布:softmax 函数可以将一个向量的每个元素转换为一个介于 0 和 1 之间的值,并且所有元素的和为 1。这使得输出可以被解释为概率分布。
多分类问题:在多分类问题中,softmax 函数常用于最后一层,将模型的输出转换为每个类别的概率。

1.2.dk开根号和 除以8的关系

在这里插入图片描述
这张图片展示了Transformer模型中的自注意力(Self-Attention)机制的一个计算示例,特别是如何计算注意力分数和应用Softmax函数来确定每个输入元素的重要性。

图片内容解释
1.2.1.输入和词嵌入:

输入是两个单词“Thinking”和“Machines”,它们首先被转换为词嵌入向量(x1和x2)。
查询、键和值向量:
对于每个输入单词,模型生成查询向量(q1和q2)、键向量(k1和k2)和值向量(v1和v2)。

1.2.2.打分:

计算查询向量与所有键向量的点积来得到分数(例如,q1与k1的点积为112,q1与k2的点积为96)。

1.2.3.除以根号维度:

为了防止点积结果过大导致梯度爆炸,通常会除以键向量的维度的平方根(sqrt(d_k)),这里d_k是键向量的维度。图片中显示除以8(可能是sqrt(d_k)的一个示例值)。

1.2.4.Softmax:

将得到的分数通过Softmax函数转换为概率分布,表示每个值向量相对于其他值向量的重要性。例如,q1与k1的分数为14,与k2的分数为12,经过Softmax处理后,得到的概率分别为0.88和0.12。
自注意力机制的作用
自注意力机制允许模型在处理序列数据时动态地关注序列中不同部分的重要性。这种机制是Transformer模型的核心,使得模型能够有效地处理长距离依赖问题,并在各种序列到序列的任务中表现出色,如机器翻译、文本摘要等。
总结
这张图片通过一个简单的例子展示了Transformer模型中的自注意力机制如何工作。通过计算查询向量与键向量的点积,然后应用Softmax函数,模型能够确定序列中每个元素的重要性,从而更好地理解和生成文本。这种机制是Transformer模型能够有效处理序列数据的关键。
在这里插入图片描述

残差连接

在这里插入图片描述
概念:残差连接是深度学习中的一种技术,它将输入直接加到后面的层的输出上,目的是缓解深层网络训练中的梯度消失或梯度爆炸问题,使得网络可以训练得更深。
应用:在Multi-Head Attention中,输入矩阵 α 直接与输出 b 相加。这种设计可以让模型更容易学习到输入和输出之间的残差,从而加快训练速度并提高模型性能。

层归一化

在这里插入图片描述

参考:

1.【原理篇&实战篇】一文读懂Transformer
2.万字长文,小白都能看得懂的 Transformer 解析(图解版)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22729.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 macOS 的 ARM 架构上按住 Command (⌘) + Shift + .(点)。这将暂时显示隐藏文件和文件夹。

在 macOS 的 ARM 架构(如 M1/M2 系列的 Mac)上,设置 Finder(访达)来显示隐藏文件夹的步骤如下: 使用快捷键临时显示隐藏文件: 在Finder中按住 Command (⌘) Shift .(点&#xff…

【HarmonyOS NEXT星河版开发实战】天气查询APP

目录 前言 界面效果展示 首页 添加和删除 界面构建讲解 1. 获取所需数据 2. 在编译器中准备数据 3. index页面代码讲解 3.1 导入模块: 3.2 定义组件: 3.3 定义状态变量: 3.4 定义Tabs控制器: 3.5 定义按钮样式: 3.6 页面显示时触发…

idea debug功能演示线程安全问题

概述 用idea debug功能演示上一篇博客中提到的 本实现中的出队、入队的实现逻辑会不会有线程安全问题?如果有,怎么解决? 测试用例 package com.lovehena.datastructure.test;import com.lovehena.datastructure.ArrayQueue;/* * 测试 offer…

力扣每日一题【算法学习day.132】

前言 ###我做这类文章一个重要的目的还是记录自己的学习过程,我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非常非常高滴!!! 习题 1.统计相似字符串对的数目 题目链…

C++操作符重载案例

在学习ZLToolKit源码时&#xff0c;发现代码中涉及好多运算符重载&#xff0c;因此对其做一下归类学习。 直接写一个代码案例如下&#xff1a; #include <iostream> #include <memory> #include <functional>// 定义类 A class A { public:A(int a) { _a a…

Kafka系列之:记录一次源头数据库刷数据,造成数据丢失的原因

Kafka系列之:记录一次源头数据库刷数据,造成数据丢失的原因 一、背景二、查看topic日志信息三、结论四、解决方法一、背景 源头数据库在很短的时间内刷了大量的数据,部分数据在hdfs丢失了 理论上debezium数据采集不会丢失,就需要排查数据链路某个节点是否有数据丢失。 数据…

爬虫小案例豆瓣电影top250(json格式)

1.json格式&#xff08;仅供学习参考&#xff09; import requests, json, jsonpathclass Start(object):# 类实例化时会执行def __init__(self):self.headers {user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.…

位运算实用技巧与LeetCode实战

位操作&#xff08;Bit Manipulation&#xff09;有很多有趣的技巧&#xff0c;其中一个比较著名的资源是 Bit Twiddling Hacks 网站&#xff0c;它收集了各种位操作的高阶玩法&#xff0c;网址是&#xff1a; http://graphics.stanford.edu/~seander/bithacks.html 不过&…

Android输入事件传递流程系统源码级解析

1. 硬件层到Linux内核 设备节点&#xff1a;触摸事件由内核驱动捕获&#xff0c;写入/dev/input/eventX。关键结构体&#xff1a;input_event&#xff08;包含时间戳、类型、代码、值&#xff09;。 2. Native层处理&#xff08;system_server进程&#xff09; 2.1 EventHub …

【云安全】云原生-Docker(六)Docker API 未授权访问

Docker API 未授权访问 是一个非常严重的安全漏洞&#xff0c;可能导致严重的安全风险。 什么是 Docker API &#xff1f; Docker API 是 Docker 容器平台提供的一组 RESTful API&#xff0c;用于与 Docker 守护程序进行通信和管理 Docker 容器。通过 Docker API&#xff0c;…

请说明C#中的List是如何扩容的?

在 C# 中&#xff0c;List<T>是一个动态数组&#xff0c;它会根据需要自动调整其容量以容纳更多的元素。 目录 1 扩容条件与扩容算法规则 2 总结 1 扩容条件与扩容算法规则 当你创建一个新的List<T>实例时&#xff0c;如果没有指定初始容量&#xff0c;它会使…

Screen Wonders for Mac v3.3.1 3D屏保应用 支持M、Intel芯片

应用介绍 Screen Wonders 是一款专为 macOS 设计的屏保应用&#xff0c;它提供了多种高质量的动态屏保选择&#xff0c;旨在为用户的屏幕增添美感和个性化元素。 如果你厌倦了桌面上静止的图片&#xff0c;如果你准备好迎接世界各地甚至平行宇宙的魔力&#xff0c;我们在这个…

Apache Struts RCE (CVE-2024-53677)

前言 对目前的Apache Struts RCE (CVE-2024-53677)的poc进行总结&#xff0c;由于只能单个ip验证&#xff0c;所以自己更改一下代码&#xff0c;实现&#xff1a;多线程读取url验证并保存&#xff0c;更改为中文解释 免责声明 请勿利用文章内的相关技术从事非法测试&#xf…

【R语言】绘图

一、散点图 散点图也叫X-Y图&#xff0c;它将所有的数据以点的形式展现在坐标系上&#xff0c;用来显示变量之间的相互影响程度。 ggplot2包中用来绘制散点图的函数是geom_point()&#xff0c;但在绘制前需要先用ggplot()函数指定数据集和变量。 下面用mtcars数据集做演示&a…

人工智能(AI)的不同维度分类

人工智能(AI)的分类 对机器学习进行分类的方式多种多样&#xff0c;可以根据算法的特性、学习方式、任务类型等不同维度进行分类这些分类都不是互斥的&#xff1a; 1、按数据模态不同:图像&#xff0c;文本&#xff0c;语音&#xff0c;多态等 2、按目标函数不同:判别式模型…

Java 大视界 -- Java 大数据未来十年的技术蓝图与发展愿景(95)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

【网络安全 | 漏洞挖掘】账户接管+PII+原漏洞绕过

文章目录 前言正文前言 本文涉及的所有漏洞测试共耗时约三周,成果如下: 访问管理面板,成功接管目标列出的3000多家公司。 获取所有员工的真实指纹、机密文件及个人身份信息(PII)。 绕过KYC认证,成功接管电话号码。 绕过此前发现的漏洞。 正文 在测试目标时,我发现了一…

MySQL的Union和OR查询

这里写目录标题 **1. 创建表和索引****2. 编写 UNION 查询****3. 使用 EXPLAIN 分析查询****4. 分析 EXPLAIN 结果****可能的结果分析**&#xff1a; **5. 验证索引合并****总结****1. UNION 操作的分析****为什么使用临时表&#xff1f;** 2. OR 条件的分析为什么使用索引合并…

二叉排序树 -- AVL树 红黑树

手撕 – AVL树、红黑树 个人主页&#xff1a;顾漂亮 文章专栏&#xff1a;Java数据结构 文章目录 手撕 -- AVL树、红黑树1.AVL树1.1AVL树的概念1.2AVL树的性质1.3AVL树的实现 -- Java代码1.4AVL树的性能分析 2.红黑树2.1概念2.2红黑树的性质2.3红黑树的实现2.4AVL树和红黑树的比…

在 .NET 8/9 中使用 AppUser 进行 JWT 令牌身份验证

文章目录 一、引言二、什么是 JSON Web 令牌&#xff1f;三、什么是 JSON Web 令牌结构&#xff1f;四、设置 JWT 令牌身份验证4.1 创建新的 .NET 8 Web API 项目4.2 安装所需的 NuGet 软件包4.3 创建 JWT 配置模型4.4 将 JWT 配置添加到您的 appsettings.json 中4.5 为 Config…