Go语言实现大模型分词器tokenizer

文章目录

  • 前言
  • 核心结构体定义
  • 构造函数
  • 文本初始处理
  • 组词
  • 构建词组索引
  • 训练数据
  • 编码
  • 解码
  • 打印状态信息
  • 运行效果
  • 总结

前言

大模型的tokenizer用于将原始文本输入转化为模型可处理的输入形式。tokenizer将文本分割成单词、子词或字符,并将其编码为数字表示。大模型的tokenizer通常基于词表进行编码,使用词嵌入将单词映射为向量表示。tokenizer还可以将输入文本进行填充和截断,以确保所有输入序列的长度一致,以便于模型的批量处理。

这篇博客的tokenizer分析器使用纯粹的Go语言标准库实现,不借用任何其它第三方库。用轮子是生活,造轮子是信仰。

核心结构体定义

type BytePairEncoder struct {wsToken  stringunkToken string// k: word, v: tokenswordToken map[string]*[]string// k: word, v: countwordCount map[string]int// k: token, v: counttokenCount map[string]int// k: id, v: tokenidToken map[int]string// k: token, v: idtokenId map[string]int
}

构造函数

func DefaultBytePairEncoder() *BytePairEncoder {return NewBytePairEncoder("_", " ")
}func NewBytePairEncoder(wsToken, unkToken string) *BytePairEncoder {return &BytePairEncoder{wsToken:    wsToken,unkToken:   unkToken,wordToken:  make(map[string]*[]string),wordCount:  make(map[string]int),tokenCount: make(map[string]int),idToken:   make(map[int]string),tokenId:   make(map[string]int),}
}

文本初始处理

func (e *BytePairEncoder) wordToTokens(word string) *[]string {parts := []rune(word)n := len(parts)res := make([]string, n)for i := 0; i < n; i++ {token := string(parts[i])e.tokenCount[token]++res[i] = token}return &res
}func (e *BytePairEncoder) preprocess(text string) []string {text = strings.TrimSpace(text)return strings.Fields(text)
}func (e *BytePairEncoder) processWord(word string) {e.wordToken[word] = e.wordToTokens(word)e.wordCount[word]++
}func (e *BytePairEncoder) initState(text string) {words := e.preprocess(text)for _, word := range words {e.processWord(e.wsToken + word)}
}

组词

func (e *BytePairEncoder) mergePair() {// k: token, v: countm := make(map[string]int)for word, tokens := range e.wordToken {n := len(*tokens) - 1for i := 0; i < n; i++ {m[(*tokens)[i]+(*tokens)[i+1]] += e.wordCount[word]}}maxToken := ""maxCount := 0for k, v := range m {if v > maxCount {maxToken = kmaxCount = v}}if maxCount < 2 {return}e.tokenCount[maxToken] = maxCountfor _, tokens := range e.wordToken {n := len(*tokens) - 1for i := 0; i < n; i++ {if (*tokens)[i]+(*tokens)[i+1] == maxToken {e.tokenCount[(*tokens)[i]]--e.tokenCount[(*tokens)[i+1]]--post := (*tokens)[i+1:]post[0] = maxToken*tokens = (*tokens)[:i]*tokens = append((*tokens), post...)*tokens = (*tokens)[:len(*tokens)]i--n -= 2}}}
}func (e *BytePairEncoder) merge(steps int) {for i := 0; i < steps; i++ {e.mergePair()}
}

构建词组索引

func (e *BytePairEncoder) buildIndex() {e.tokenId[e.unkToken] = 0e.idToken[0] = e.unkTokeni := 1for token := range e.tokenCount {e.tokenId[token] = ie.idToken[i] = tokeni++}
}

训练数据

func (e *BytePairEncoder) Train(text string, steps int) {e.initState(text)e.merge(steps)e.buildIndex()
}

编码

func (e *BytePairEncoder) segment(words []string) []int {res := make([]int, 0)for _, word := range words {parts := []rune(word)NEXT:for i := len(parts); i >= 1; i-- {if code, ok := e.tokenId[string(parts[:i])]; ok {parts = parts[i:]res = append(res, code)goto NEXT}}if len(parts) == 0 {continue}code := e.tokenId[string(parts[0])]res = append(res, code)parts = parts[1:]if len(parts) != 0 {goto NEXT}}return res
}func (e *BytePairEncoder) Encode(text string) []int {words := e.preprocess(text)return e.segment(words)
}

解码

func (e *BytePairEncoder) Decode(codes []int) []string {res := make([]string, 0)for _, code := range codes {res = append(res, e.idToken[code])}return res
}

打印状态信息

func (e *BytePairEncoder) Dump() {fmt.Println("===== dump state ======")fmt.Println("===> dump wordToken <===")for word, tokens := range e.wordToken {fmt.Println(word, "=>", *tokens)}fmt.Println()fmt.Println("===> dump wordcnt <===")for word, count := range e.wordCount {fmt.Println(word, "=>", count)}fmt.Println()fmt.Println("===> dump tokenCount <===")for token, count := range e.tokenCount {fmt.Println(token, "=>", count)}fmt.Println()fmt.Println("===> dump idTokens <===")for code, token := range e.idToken {fmt.Println(code, "=>", token)}fmt.Println()fmt.Println("===> dump tokenIds <===")for token, code := range e.tokenId {fmt.Println(token, "=>", code)}fmt.Println()
}

运行效果

我们的tokenizer已经开发完毕,现在可以运行我们的tokenizer,看看是否能达到我们想要的效果

package mainimport ("fmt""os""tokenizer"
)func main() {trainData, err := os.ReadFile("./data.txt")if err != nil {panic(err)}steps := 50enc := tokenizer.DefaultBytePairEncoder()enc.Train(string(trainData), steps)input := "提取数据特征进行预测"codes := enc.Encode(input)tokens := enc.Decode(codes)fmt.Println(codes)fmt.Println(tokens)
}

输入数据集
data.txt

机器学习、深度学习和强化学习是人工智能领域中的三个重要技术方向。以下是它们的区别:
机器学习:机器学习是一种通过从数据中自动学习模式和规律来进行预测和决策的方法。它涉及到使用算法和统计模型,从数据中提取特征并进行模型训练,进而对未知数据进行预测或分类。机器学习的重点在于自动学习和泛化能力,它不需要明确的指令或规则来执行任务,而是通过数据和经验来改善性能。
深度学习:深度学习是机器学习的一个分支,它使用包含多个神经网络层的深度神经网络进行学习和预测。深度学习模型通过层层堆叠的方式,从原始数据中学习到多个抽象层次的特征表示。深度学习的优势在于可以自动提取复杂的特征,并通过大规模数据的训练来优化模型性能。它被广泛应用于计算机视觉、自然语言处理和语音识别等领域。
强化学习:强化学习是一种机器学习的方法,旨在让机器学习从环境中的交互中通过试错来改善性能。它通过不断与环境进行交互,观察环境状态并执行动作,然后从环境的反馈中学习如何在给定环境中做出最优的决策。强化学习的目标是通过学习最优的策略来最大化累积奖励。强化学习在游戏、机器人控制和优化问题等领域有着广泛应用。
总的来说,机器学习是从数据中学习模式和规律,深度学习是机器学习的一种方法,使用深度神经网络来提取复杂的特征表示,强化学习是通过试错学习从环境中改善性能。

运行效果
在这里插入图片描述

可以根据情况使用Dump函数打印状态信息查看更多细节

总结

恭喜你已经制作了一个属于自己的tokenizer分词器,我们实现的相对粗糙一点,但是对于初学者是难得的实战项目,麻雀虽小,五脏俱全。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/208713.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux下Docker 离线安装详细步骤,亲测成功

1.离线原因&#xff1a;公司新创不能使用开元linux&#xff0c;使用了一个变种centOS&#xff0c;致使yum被禁 2.步骤&#xff1a; 2.1 下载docker tar包&#xff0c;下载地址&#xff1a;Index of linux/https://download.docker.com/linux/ 2.2 新建自己的软件目录&am…

DBeaver 社区版(免费版)下载、安装、解决驱动更新出错问题

DBeaver 社区版&#xff08;免费版&#xff09; DBeaver有简洁版&#xff0c;企业版&#xff0c;旗舰版&#xff0c;社区版&#xff08;免费版&#xff09;。除了社区版&#xff0c;其他几个版本都是需要付费的&#xff0c;当然相对来说&#xff0c;功能也要更完善些&#xff…

Screenshot To Code

序言 对于GPT-4我只是一个门外汉&#xff0c;至于我为什么要了解screenshot to code&#xff0c;只是因为我想知道&#xff0c;在我不懂前端设计的情况下&#xff0c;能不能通过一些工具辅助自己做一些简单的前端界面设计。如果你想通过此文深刻了解GPT-4或者该开源项目&#…

Redis--11--Redis事务的理解

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 Redis事务事务回滚机制Redis 事务是不支持回滚的&#xff0c;不像 MySQL 的事务一样&#xff0c;要么都执行要么都不执行&#xff1b; Redis的事务原理 Redis事务 …

【C++】类和对象——初始化列表和static修饰成员

首先我们来谈一下初始化列表&#xff0c;它其实是对于我们前边构造函数体内初始化的一种补充&#xff0c;换一种说法&#xff0c;它以后才是我们构造函数的主体部分。 我们先考虑一个问题&#xff0c;就是一个类里面有用引用或const初始化的成员变量&#xff0c;比如说&#xf…

数据库系统原理——备考计划2:数据库系统的概述

前言&#xff1a; 基于课本、上课ppt、复习总结ppt进行一个知识点的罗列&#xff0c;方便后期高效地复习 目录 前言&#xff1a; 一、基本概念 1.数据&#xff1a; &#xff08;1&#xff09;概念&#xff1a; &#xff08;2&#xff09;数据的种类&#xff1a; &#xff08;3&…

安装selenium+chrome详解

1、创建yaml文件 创建yaml文件,命名为:docker-compose-chrome.yaml,具体内容如下: version: "3.9" services:spiderdriver:image: selenium/standalone-chrome:114.0restart: alwayshostname: spiderdrivercontainer_name: spiderdriverdeploy:resources:limit…

springboot基础配置及maven运行

目录 1、spring快速开始&#xff1a; 2、通过idea工具打开导入包 3、maven打包 1、springboot快速开始&#xff1a; 环境依赖&#xff1a;jdk17 Spring | Quickstart spring初始化包下载&#xff1a; 点击generate&#xff0c;下载包 2、通过idea工具打开导入包 我之前写了…

[英语学习][6][Word Power Made Easy]的精读与翻译优化

[序言] 针对第18页的阅读, 进行第二次翻译优化以及纠错, 这次译者的翻译出现的严重问题: 没有考虑时态的变化导致整个翻译跟上下文脱节, 然后又有偷懒的嫌疑, 翻译得很随意. [英文学习的目标] 提升自身的英语水平, 对日后编程技能的提升有很大帮助. 希望大家这次能学到东西,…

WebUI自动化学习(Selenium+Python+Pytest框架)003

1.元素操作 在成功定位到元素之后&#xff0c;我们需要对元素进行一些操作动作。常用的元素操作动作有&#xff1a; &#xff08;1&#xff09;send_keys() 键盘动作&#xff1a;向浏览器发送一个内容&#xff0c;通常用于输入框输入内容或向浏览器发送快捷键 &#xff08;2…

TCP 基本认识

1&#xff1a;TCP 头格式有哪些&#xff1f; 序列号&#xff1a;用来解决网络包乱序问题。 确认应答号&#xff1a;用来解决丢包的问题。 2&#xff1a;为什么需要 TCP 协议&#xff1f; TCP 工作在哪一层&#xff1f; IP 层是「不可靠」的&#xff0c;它不保证网络包的交付…

【java+vue+微信小程序项目】从零开始搭建——健身房管理平台(2)后端跨域、登录模块、springboot分层架构、IDEA修改快捷键、vue代码风格

项目笔记为项目总结笔记,若有错误欢迎指出哟~ 【项目专栏】 【java+vue+微信小程序项目】从零开始搭建——健身房管理平台(1)spring boot项目搭建、vue项目搭建、微信小程序项目搭建 【java+vue+微信小程序项目】从零开始搭建——健身房管理平台(2)后端跨域、登录模块、sp…

Excel导入组件的封装以及使用页面点击弹出该弹框

封装的组件 <template><el-dialogwidth"500px"title"员工导入":visible"showExcelDialog"close"$emit(update:showExcelDialog, false)"><el-row type"flex" justify"center"><div class&q…

leetCode 131.分割回文串 + 动态规划 + 回溯算法 + 优化 + 图解 + 笔记

我的往期文章&#xff1a; leetCode 647.回文子串 动态规划 优化空间 / 中心扩展法 双指针-CSDN博客https://blog.csdn.net/weixin_41987016/article/details/133883091?spm1001.2014.3001.5501leetCode 131.分割回文串 回溯算法 图解 笔记-CSDN博客https://blog.csdn.n…

SVN下载使用和说明

一、SVN <1>SVN的简介 1、svn是什么&#xff1f; 2、作用 3、基本操作 <2>服务器端的软件下载和安装 1、下载 2、查看环境变量 3、验证安装是否成功 <3>创建项目版本库 1、创建项目版本库&#xff08;svn reponsitory&#xff09; 2、svn版本控制文件说明…

python弹球小游戏

import pygame import random# 游戏窗口大小 WIDTH 800 HEIGHT 600# 定义颜色 WHITE (255, 255, 255) BLACK (0, 0, 0) RED (255, 0, 0) GREEN (0, 255, 0) BLUE (0, 0, 255)# 球的类 class Ball:def __init__(self):self.radius 10self.speed [random.randint(2, 4),…

第8关:定义一个名为PROC_AVGWEIGHT的有参数存储过程

USE mydata; #请在此处添加实现代码 ########## Begin ########## DELIMITER $ CREATE PROCEDURE PROC_AVGWEIGHT(IN SNO VARCHAR(10), IN JNO VARCHAR(10), OUT AVG_WEIGHT INT) BEGINSELECT ROUND(SUM(P.WEIGHT * SPJ.QTY) / SUM(SPJ.QTY)) INTO AVG_WEIGHTFROM PJOIN SPJ ON…

WordPress付费阅读、付费下载、付费复制插件推荐

如果我们是用WordPress内核程序&#xff0c;我们可以用插件解决这个功能。现在市面上小编有看到三款WordPress内容付费或者是有的称作WordPress会员插件&#xff0c;可以实现WordPress付费阅读、付费下载&#xff0c;甚至付费复制的功能。在这几个插件中&#xff0c;简单的盘点…

23.Python 图形化界面编程

目录 1.认识GUI和使用tkinter2.使用组件2.1 标签2.2 按钮2.3 文本框2.4 单选按钮和复选按钮2.5 菜单和消息2.6 列表框2.7 滚动条2.8 框架2.9 画布 3. 组件布局4.事件处理 1.认识GUI和使用tkinter 人机交互是从人努力适应计算机&#xff0c;到计算机不断适应人的发展过程&#…