手写llm(1):实现BPE Tokenizer

手写llm(1):实现BPE Tokenizer

news/2025/3/9 10:51:48/文章来源:https://blog.csdn.net/weixin_38346042/article/details/145532928

文章目录

- 1. Tokenizer介绍
- - 1.1 tokernizer的使用
  - 1.2 word embedding
  - - 1.2.1 词向量化(embedding)的介绍
    - 1.2.2 词向量化的使用
    - 1.2.3 自定义embedding的实现
- 2. BPE Tokenizer 的实现
- - 2.1 bpe 算法的原理
  - - 2.1.1 BPE的核心思想
    - 2.1.2 BPE算法执行流程
    - 2.1.3 案例
  - 2.2 BPE Tokenizer
  - 2.2.1 代码的使用
  - 2.2.2 代码的详解
  - - (1) train方法
    - (2) encode
    - (3) decode
    - (4) 词表的save和load
- 总结

本系列会通过手写来做一个大模型，会实现一个参数量相对来说比较小的LLM大模型。本文会重点介绍分词器 tokenizer的实现, 后续文章会基于一些问答数据集来训练我们的大模型。

1. Tokenizer介绍

1.1 tokernizer的使用

以通义千问为例说明，来介绍LLM大模型中Tokenizer的使用。

from modelscope import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model ontomodel =

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/30150.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

在人工智能软件的帮助下学习编程实例

在人工智能软件的帮助下学习编程实例

1 引言本文记录在人工智能软件的帮助下学习一种全新的编程环境的实例，之所以提人工智能软件而不是单指DeepSeek，一方面DeepSeek太火了，经常服务器繁忙，用本机本地部署的最多运行70b模型，又似乎稍差。另一方面也作为一…

阅读更多...

记录一下Django的密码重置(忘记密码)

记录一下Django的密码重置(忘记密码)

一. Django默认的密码重置 1.路由 # url.pyfrom django.contrib.auth import views as auth_viewsurlpatterns [# 密码重置path(password_reset/, auth_views.PasswordResetView.as_view(), namepassword_reset),# 用户输入邮箱后，跳转到此页面path(password_res…

阅读更多...

零售交易流程相关知识（top-down拆解）

零售交易流程相关知识（top-down拆解）

引入关于POS机交易时的后台数据交互模块之间数据交换，都可以能被窃取或篡改。由此引入加密、解密机制和签名、验签机制经典的加密、解密机制： 对称加密：DES\ TDES\ AES\ RC4 非对称加密：RSA\ DSA\ ECC 经典的签名、验签…

阅读更多...

Web网页开发——水果忍者

Web网页开发——水果忍者

1.介绍复刻经典小游戏——水果忍者 2.预览 3.代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title&…

阅读更多...

项目实战--网页五子棋（对战功能）(8)

项目实战--网页五子棋（对战功能）(8)

上期我们完成了websocket建立连接后的数据初始化，今天我们完成落子交互的具体代码： 这里我们先复习一下，之前约定好的落子请求与响应包含的字段： 1. 发送落子请求我们在script.js文件中找到落子的相关方法，增加发送请…

阅读更多...

从0开始的操作系统手搓教程24——完成我们的键盘驱动子系统

目录所以，我们现来说说转义字符我们需要如何处理扫描码当键入的是双字符键时当键入的是字母键时下一篇我们下面来看看我们的键盘驱动子系统是一个怎么个事情。驱动程序，你可以认为是对硬件的一层封装。我们按照手册规格的规定姿势&#xff0…

阅读更多...

根据输入汉字生成带拼音的米字格字帖

根据输入汉字生成带拼音的米字格字帖

实现了下面功能： 1、根据输入汉字，自动调整米字格和四线格的行数； 2、给汉字自动加上拼音和声调（暂时不考虑多音字）； 3、汉字在米字格，拼音在四线格， 4、第一列用黑色，2-…

阅读更多...

软件高级架构师 - 软件工程

软件高级架构师 - 软件工程

补充中测试测试类型静态测试动态测试测试阶段单元测试中，包含性能测试，如下： 集成测试中，包含以下： 维护遗留系统处置高水平低价值：采取集成对于这类系统，采取集成的方式&…

阅读更多...

DeepSeek专题：DeepSeek-V2核心知识点速览

DeepSeek专题：DeepSeek-V2核心知识点速览

AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台，涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等…

阅读更多...

电脑如何拦截端口号，实现阻断访问？

电脑如何拦截端口号，实现阻断访问？

如果你弟弟喜欢玩游戏，你可以查询该应用占用的端口，结合以下方法即可阻断端口号，让弟弟好好学习，天天向上！ 拦截端口可以通过防火墙和路由器进行拦截 ，以下是常用方法： 方法 1：使用…

阅读更多...

【NLP 32、文本匹配任务 —— 深度学习】

【NLP 32、文本匹配任务 —— 深度学习】

大劫大难以后，人不该失去锐气，不该失去热度，你镇定了却依旧燃烧，你平静了却依旧浩荡，致那个从绝望中走出来的自己，共勉 —— 25.1.31 使用深度学习在文本匹配任务上主要有两种方式：① 表示型 ②…

阅读更多...

【AD】5-15 Active Route的自动布线辅助

【AD】5-15 Active Route的自动布线辅助

1.如图所示点击Panels，打开Active Route 2.按如图设置后，点击向导走线确定好走向后，在点击自动辅助布线，布好后可自行微调

阅读更多...

使用 Arduino 和 ThingSpeak 通过 Internet 进行心跳监测

使用 Arduino 和 ThingSpeak 通过 Internet 进行心跳监测

使用 Arduino 和 ThingSpeak 通过 Internet 进行心跳监测在这个项目中，我们将使用 Arduino 制作一个心跳检测和监测系统，该系统将使用脉搏传感器检测心跳，并在与其连接的 LCD 上显示 BPM（每分钟心跳次数）读数。它还将使用 Wi-Fi 模块ESP8266将读数发送到 ThingSpeak 服务…

阅读更多...

正则表达式，idea，插件anyrule

正则表达式，idea，插件anyrule

package lx;import java.util.regex.Pattern;public class lxx {public static void main(String[] args) {//正则表达式//写一个电话号码的正则表达式String regex "1[3-9]\\d{9}";//第一个数字是1，第二个数字是3-9，后面跟着9个数字…

阅读更多...

分析不同高度障碍物检测情况

分析不同高度障碍物检测情况

import re import matplotlib.pyplot as plt from datetime import datetime import matplotlib.dates as mdates from matplotlib.font_manager import FontProperties# 设置中文字体 font_path /usr/local/sunlogin/res/font/wqy-zenhei.ttc # 替换为你的实际字体路径 my_f…

阅读更多...

Qt添加MySql数据库驱动

Qt添加MySql数据库驱动

文章目录一. 安装MySql二.编译mysql动态链接库 Qt版本：5.14.2 MySql版本：8.0.41 一. 安装MySql 参考这里进行安装：https://blog.csdn.net/qq_30150579/article/details/146042922 将mysql安装目录里的bin，include和lib拷贝出来…

阅读更多...

算法005——有效三角形个数

算法005——有效三角形个数

力扣——有效三角形个数点击链接跳转判断三条边是否能组成三角形，大家第一时间想到的就是两边之和大于第三边但是运用这个方法，我们需要判断三次，有一个更简单的方法，只需要判断一次因为 C 已经是三边之中最大的了&#xff…

阅读更多...

【大学生体质】智能 AI 旅游推荐平台(Vue+SpringBoot3)-完整部署教程

【大学生体质】智能 AI 旅游推荐平台(Vue+SpringBoot3)-完整部署教程

智能 AI 旅游推荐平台开源文档项目前端地址 ☀️项目介绍智能 AI 旅游推荐平台（Intelligent AI Travel Recommendation Platform）是一个利用 AI 模型和数据分析为用户提供个性化旅游路线推荐、景点评分、旅游攻略分享等功能的综合性系统。该系统融合…

阅读更多...

Hive八股

Hive八股

Hive八股一级目录二级目录三级目录 Hive1Hive1hive简介2hive架构3hive与Hadoop的关系4hive与传统数据库对比5hive的数据存储 2Hive表类型1 Hive 数据类型2 Hive 内部表！！！3 Hive 外部表 external table！！！…

阅读更多...

Aruco 库详解：计算机视觉中的高效标记检测工具

Aruco 库详解：计算机视觉中的高效标记检测工具

1. 引言：Aruco 在计算机视觉中的重要性在计算机视觉领域，标记（Marker）检测和识别是许多应用的基础，包括机器人导航、增强现实（AR）、相机标定（Calibration）以及物体跟踪…

阅读更多...

最新文章

推荐文章