Token Embedding（词嵌入）和Positional Encoding（位置编码）的矩阵形状关系及转换过程

Token Embedding（词嵌入）和Positional Encoding（位置编码）的矩阵形状关系及转换过程

news/2025/3/26 5:53:06/文章来源:https://blog.csdn.net/lzm12278828/article/details/145741938

在从零开始构建一个小型字符级语言模型时，简化的实现步骤是：数据准备→模型架构设计→训练→评估与生成。模型架构设计阶段的流程如下：

图1 模型架构设计阶段的流程

包含了输入层、嵌入层、解码器层和输出层。其中在嵌入层中包括了Token Embedding（词嵌入）和Positional Encoding（位置编码），那么这两个矩阵具体是如何实现的，以及它们之间有什么关系呢？

在Transformer模型中，Token Embedding（词嵌入）和Positional Encoding（位置编码）的矩阵形状关系及转换过程如下：

本文的前置基础，Windows安装Hugging Face Transformers库，看我的文章：Windows安装Hugging Face Transformers库并实现案例训练的详细教程_ktransformers本地windows安装部署-CSDN博客

从零开始构建一个小型字符级语言模型的详细教程（基于Transformer架构）之一数据准备-CSDN博客

一、矩阵形状的对应关系

1.Token Embedding矩阵

形状: (vocab_size=50, d_model=128)

作用: 将字符索引（0~49）映射到128维语义向量空间

示例：字符'h'（索引0）→ 向量[0.2, -1.3, ..., 0.7]（128维）

这里是原始文本提取出来的唯一字符编码成词汇表，再将词汇表中的字符映射到128维语义向量空间。示意图如下：

图2 将所有唯一字符转换为向量表示

2. Positional Encoding矩阵

形状: (block_size=64, d_model=128)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/20732.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Bigemap Pro如何设置经纬网出图网格设置

Bigemap Pro如何设置经纬网出图网格设置

第一步：打开bigemap pro软件，单击顶部网格选项第二栏，弹出经纬网设置对话框，如下图： 按作图需求自定义设置后，点击应用如下图： 第二步：设置好经纬网之后，进行作图&#x…

阅读更多...

代码辅助工具

代码辅助工具

爱聚合爱聚合包含各种AI工具 Fitten Code Fitten Code 小浣熊小浣熊 Inscode InsCode 可以完整的创建一个应用并实现在线部署。而且可以更新需求一步一步实现代码。

阅读更多...

JAVA中常用类型

JAVA中常用类型

一、包装类 1.1 包装类简介 java是面向对象的语言，但是八大基本数据类型不符合面向对象的特征。因此为了弥补这种缺点，为这八中基本数据类型专门设计了八中符合面向面向对象的特征的类型，这八种具有面向对象特征的类型，就叫做包…

阅读更多...

原生稀疏注意力机制(NSA)：硬件对齐且可原生训练的稀疏注意力机制-论文阅读

原生稀疏注意力机制(NSA)：硬件对齐且可原生训练的稀疏注意力机制-论文阅读

摘要长上下文建模对于下一代语言模型至关重要，但标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力提供了一种在保持模型能力的同时提高效率的有前途的方向。本文提出了一种名为 NSA（原生可训练稀疏注意力机制） 的方法&#xff…

阅读更多...

DeepSeek联网搜索

DeepSeek联网搜索

deepseek 0、前言1、未联网2、联网2.1 SerpAPI2.2 SerpAPIDeepseek 0、前言为获取最新消息，需给deepseek联网 1、未联网 from dotenv import load_dotenv from langchain_deepseek import ChatDeepSeekload_dotenv()# 1、模型 model ChatDeepSeek(model"d…

阅读更多...

MySQL 的存储引擎简介

MySQL 的存储引擎简介

使用show engines可以查看安装的MySQL的引擎相关信息 MySQL 的引擎不止这么多，这只是安装的这个版本有的引擎。可以看到，只有 InnoDB 支持事务，其他的引擎都是不支持事务的。说几个我了解的比较多的引擎： InnoDB InnoDB 是MyS…

阅读更多...

DeepBI助力跨境电商打破流量垄断：AI驱动的亚马逊广告投放新打法

DeepBI助力跨境电商打破流量垄断：AI驱动的亚马逊广告投放新打法

#亚马逊广告优化# 亲爱的亚马逊跨境电商卖家们，是否曾因亚马逊的广告打法不清晰，或是纠结于亚马逊广告费用过高，或是为亚马逊电商广告怎么投放合适的问题而苦恼？在竞争激烈的亚马逊市场中，广告投放效果平平&#xff0…

阅读更多...

保护大数据的最佳实践方案

保护大数据的最佳实践方案

在当今数字化时代，保障大数据安全的重要性再怎么强调也不为过。随着科技的迅猛发展以及对数据驱动决策的依赖日益加深，企业必须将保护其宝贵信息置于首位。我们将深入探讨保障大数据安全的流程，并讨论关键原则、策略、工具及技术&#xf…

阅读更多...

解决DeepSeek服务器繁忙的有效方法

解决DeepSeek服务器繁忙的有效方法

全球42%的企业遭遇过AI工具服务器过载导致内容生产中断（数据来源：Gartner 2025）。当竞品在凌晨3点自动发布「智能家居安装指南」时，你的团队可能正因DeepSeek服务器繁忙错失「净水器保养教程」的流量黄金期⏳。147SEO智能调度系统…

阅读更多...

DeepSeek核心算法解析：如何打造比肩ChatGPT的国产大模型

DeepSeek核心算法解析：如何打造比肩ChatGPT的国产大模型

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录 DeepSeek大模型技术系列一DeepSeek核心算法解析：如何…

阅读更多...

山石网科×阿里云通义灵码，开启研发“AI智造”新时代

山石网科×阿里云通义灵码，开启研发“AI智造”新时代

近日，山石网科正式宣布全面接入阿里云通义灵码企业专属版，这标志着山石网科在研发智能化、自动化领域迈出重要一步，为研发工作注入强大的AI动力，实现多维度的效率飞跃。此次合作，阿里云通义灵码依托强大的AI能力&…

阅读更多...

Linux部署DeepSeek r1 模型训练

Linux部署DeepSeek r1 模型训练

之前写过一篇windows下部署deepseekR1的文章，有小伙伴反馈提供一篇linux下部署DeepSeek r1 模型训练教程，在 Linux 环境下，我找了足够的相关资料，花费了一些时间，我成功部署了 DeepSeek R1 模型训练任务，结…

阅读更多...

学习kafka和flink

学习kafka和flink

kafka kafka安装一套流程方法一：启动需安装zookeeper和kafka 【Kafka】Windows下安装Kafka（图文记录详细步骤） 安装Tzq2018写的上面链接安装的，一切很顺利，除了zookeeper的环境变量不管如何配置都不管用&#xff0…

阅读更多...

安装海康威视相机SDK后，catkin_make其他项目时，出现“libusb_set_option”错误的解决方法

安装海康威视相机SDK后，catkin_make其他项目时，出现“libusb_set_option”错误的解决方法

硬件：雷神MIX G139H047LD 工控机系统：ubuntu20.04 之前运行某项目时，处于正常状态。后来由于要使用海康威视工业相机（型号：MV-CA013-21UC），便下载了并安装了该相机的SDK，之后运行…

阅读更多...

K8s 之端口暴露（The Port of K8s is Exposed）

K8s 之端口暴露（The Port of K8s is Exposed）

K8s 之端口暴露 Kubernetes 是一个用于管理容器化应用程序的流行工具。然而，关于它的工作原理存在一些误解。最常见的误解之一是关于 Kubernetes Pod 中的端口暴露。本文将解释 Kubernetes 中端口暴露的真相。 1 误解像许多 Kubernetes 新手一样，我最…

阅读更多...

科普：Docker run的相关事项

科普：Docker run的相关事项

一、镜像名（含标签）太长如，通过如下命令行： docker pull designthru2019/dify:56c6d1af0944dbdb5e0115cb623ff0e118a4ac62拉取的镜像名（及标签）太长，可以通过改名的方法变短。在 Docker 中&…

阅读更多...

Windows服务器搭建时间同步服务

Windows服务器搭建时间同步服务

一、配置NTP服务器 1、在局域网内找一台时间可靠的计算机或服务器做为NTP服务器，例IP：209.209.209.2 2、在NTP服务器上运行 regedit 打开注册表 3、在注册表中展开HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\TimeProviders\NtpSer…

阅读更多...

【Hugging Face系列篇】01初步介绍：“AI界的GitHub”

【Hugging Face系列篇】01初步介绍：“AI界的GitHub”

Hugging Face 是一个开源机器学习平台，专注于自然语言处理（NLP）和人工智能，提供模型、数据集、工具及协作社区支持，被誉为“AI界的GitHub”。目录一、历史发展二、核心价值三、核心功能与工具四、适用人群与场景五、优势与竞争力六、使用方法（以情感分析为例…

阅读更多...

企业内部知识库：安全协作打造企业智慧运营基石

企业内部知识库：安全协作打造企业智慧运营基石

内容概要作为企业智慧运营的核心载体，企业内部知识库通过结构化的信息聚合与动态化的知识流动，为组织提供了从数据沉淀到价值转化的系统性框架。其底层架构以权限管理为核心，依托数据加密技术构建多层级访问控制机制，确保敏感信…

阅读更多...

知识库的进化：从知识存储到知识共享

知识库的进化：从知识存储到知识共享

一、知识存储：知识库的起源与初步形态回溯到知识库的早期阶段，受当时技术水平的显著限制，其功能相对较为单一，主要集中在知识存储方面。那时的知识库如同一个静态的知识仓库，管理员在后台辛勤地上传各类文档&#xff…

阅读更多...

最新文章

推荐文章