GPT2 模型训练

GPT2 模型训练

news/2025/2/21 8:32:13/文章来源:https://blog.csdn.net/jcc3120/article/details/145762796

GPT2 预训练模型基座

专门供给别人使用的。

对中文分词是一个字一个字分，是Bert的分类方法

好处：灵活。

词库可以适应任何文章。

坏处：训练的难度更大。需要增加数据量

中文分词如果按词组分词

好处：需要的数据量小，训练难度小

坏处：灵活性差

GTP2模型结构

vocab 字典：21128

位置编码：1024

out_feature=21128

文章生成，必须要给个开头。

有开头后面100个空格，21128个概率，按概率大小往后填字

do_sample=false, 每次结果都一样，取概率最大的一个输出；

do_sample=true, 每次结果都不一样，取概率比较大的Top k的随机一个；

文章生成，对白话文，古文，现代诗文，没有什么格式要求，让模型生成没什么问题，但对于对联或者古诗词，对格式有要求，生成的效果会不太行。这种格式，不是通过AI 做的，而是通过算法去纠正和优化。

GPT-2的核心是生成自然语言文本，而非分类。虽然可以通过技术手段扩展其用途，但它的本质是生成模型。如果需要分类任务，通常会选择像BERT、RoBERTa等更适配的架构，或在GPT-2基础上添加分类层进行微调。

如何使用GPT2 作为文本生成的训练，要比BERT模型训练要容易的多。

文本生成评估指标：

客观评价指标：相似度

主观评价指标：人为评判

开源的大的数据集：用于标注打分

这跟BERT分类模型不一样，BERT模型是通过精度来看指标。

BERT训练基本上是后面的增量微调（输出层）。前面的BERT只做特征提取。只要理解文本含义就可以。

GPT2 白话文，需要训练古诗词需要全量微调。

BERT模型的模型参数保存，一般根据验证集得分来保存模型。

GPT2生成模型不会验证集的得分来保存模型，因为不够全面。所以一般是保存模型参数的后面几轮（最后一轮），要么每一轮都保存。

训练过程中，学习率LR减小，可以让模型足够稳定。

loss一般在1.5左右就比较好了。具体还要看损失函数。

BERT模型用的是transformer的编码器（特征提取）， GPT模型是transformer（特征生成/还原）的解码器。翻译模型同时使用了transformer的编解码结构。

Q：训练准确率上去了，每轮后的验证准确率上不去

1.验证集和测试集也要做样本均化处理，不然评估精度不太对。

2.验证集和测试集也要做样本已做均化处理，那就是训练还不够。

Epoch是指整个训练数据集被神经网络完整地遍历一次的过程；

Batch是每一轮每次训练多少数据。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/21290.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

进程等待和进程程序替换

进程等待和进程程序替换

进程控制进程等待进程程序替换进程等待如果子进程没有退出而父进程在进行执行waitpid进行等待，阻塞等待， 进程阻塞了在等待某种条件发生（子进程退出） 进程程序替换 1 #include <stdio.h>2 #include <unistd.h>3…

阅读更多...

UEFI Spec 学习笔记---6 - Block Translation Table (BTT) Layout

UEFI Spec 学习笔记---6 - Block Translation Table (BTT) Layout

6.1 Block Translation Table (BTT) Background 定义个一个连续地址的非易失性的namespace，就是将一整个namespace 拆分成一个个block，其中的地址保存至BBT（块转换表），这样可以防止扇区撕裂（由于电源问题导…

阅读更多...

SAP 代码扫描工具

SAP 代码扫描工具

描述： ZSCANNER是一个先进的代码分析工具，旨在提供对程序和功能模块内部工作的全面见解。它揭示了代码的技术细节，包括正在创建、读取、更新或删除的数据表（CRUD操作），以及正在调用的类、功能模块和BAPI&a…

阅读更多...

c语言基础第12节《函数的调用》

c语言基础第12节《函数的调用》

c语言基础10 函数函数的调用调用方式 ①函数语句： test(); // 对于无返回值的函数，直接调用 int res max(2,4); // 对于有返回值的函数，一般需要再主调函数中接收被调函数的返回值。②函数表达式： 4 max(2,4) scanf(&qu…

阅读更多...

C++：iterator迭代器失效

C++：iterator迭代器失效

说明：这里拿 vector 举例。原因一：扩容导致迭代器失效 // 迭代器失效 void insert(iterator pos, const T& x) {assert(pos > _start);assert(pos < _finish);// 满了就扩容if (_finish _end_of_storage){reserve(capacity() 0 ? 4 : ca…

阅读更多...

QT之改变鼠标样式

QT之改变鼠标样式

QT改变鼠标图片资源路径如下代码实现 QPixmap customCursorPixmap(":/images/mouse.png");QCursor customCursor(customCursorPixmap);QWidget::setCursor(customCursor); // 可以设置为整个窗口或特定控件QWidget::setCursor(); // 设置为透明光标&#xff0c…

阅读更多...

用DeepSeek零基础预测《哪吒之魔童闹海》票房——从数据爬取到模型实战

用DeepSeek零基础预测《哪吒之魔童闹海》票房——从数据爬取到模型实战

系列文章目录 1.元件基础 2.电路设计 3.PCB设计 4.元件焊接 5.板子调试 6.程序设计 7.算法学习 8.编写exe 9.检测标准 10.项目举例 11.职业规划文章目录 **一、为什么要预测票房？****二、准备工作****三、实战步骤详解****Step 1：数据爬取与清洗&am…

阅读更多...

高并发下秒杀系统的设计

高并发下秒杀系统的设计

文章目录 1 业界通用做法1.1 压力分摊1.2 RedisMySQL1.3 Inventory Hint1.4 压力分摊RedisMQ 2 Redis MQ 解决高并发下的秒杀场景2.1 Redis库存预扣减2.1.1 lua脚本执行流程：2.1.2 Lua脚本主要做了几件事： 2.2 MySQL库存扣减2.3 记录操作流水的原因 3 I…

阅读更多...

双重差分学习笔记

双重差分学习笔记

双重差分适用的研究场景： 研究某项政策或者冲击造成的影响例如，某某小学在2024.12.12日颁布了小红花激励措施，我们要研究这项措施对学生成绩的影响，此时，就可以使用双重差分模型。双重差分适用的数据类型&#xf…

阅读更多...

深入理解 C++17 中的 std::atomic＜T＞::is_always_lock_free

深入理解 C++17 中的 std::atomic＜T＞::is_always_lock_free

文章目录原子操作与锁无关性（Lock-Free）锁无关性（Lock-Free）无锁（Lock-Free）与无阻塞（Wait-Free） std::atomic<T>::is_always_lock_free 是什么？truefalse与 is_l…

阅读更多...

VSCode 中 Git 添加了多个远端，如何设置默认远端

VSCode 中 Git 添加了多个远端，如何设置默认远端

VSCode 中 Git 添加了多个远端，如何设置默认远端查看分支：设置默认远端手动指定远端查看分支： * 表示当前默认远端 git branch -vv* master a1b2c3d [origin/main] Fix typo dev d4e5f6g [upstream/dev] Add feature设置默认远端将本…

阅读更多...

一文讲清 AIO BIO NIO的区别

一文讲清 AIO BIO NIO的区别

引言在 Java 编程中，BIO（Blocking I/O）、NIO（Non-blocking I/O）和 AIO（Asynchronous I/O）是三种不同的 I/O 模型，它们在处理输入输出操作时有着不同的机制和特点，但是市…

阅读更多...

使用(xshell+xftp)将前端项目部署到服务器

使用(xshell+xftp)将前端项目部署到服务器

一.以vue项目为例将项目打包生成dist文件二.下载载安装xshell和xftp 下载地址：家庭/学校免费 - NetSarang Website 三.连接服务器在xshell新建会话（需要用到服务器、用户名、密码、端口号）正确输入后连接到服务器使用命令连接&#x…

阅读更多...

硬件岗位是否适合你？

硬件岗位是否适合你？

在当今科技飞速发展的时代，硬件行业作为技术创新的基石，始终扮演着至关重要的角色。无论是智能手机、自动驾驶汽车，还是人工智能服务器，硬件都是这些技术的核心支撑。然而，硬件岗位是否适合你？作为一名硬件专家，我将从多个角度为你分析，帮助你判断自己是否适合从事硬件…

阅读更多...

Linux基本指令（二）

Linux基本指令（二）

文章目录基本指令echocat（输入重定向）history日志moretail和headmv（重要）时间相关的指令查找的命令知识点Linux下一切皆文件为什么计算机关机了，开机后还能准确地记录时间呢？ 基本指令 echo 1. echo&…

阅读更多...

【Blender】二、建模篇--05，阵列修改器与晶格形变

【Blender】二、建模篇--05，阵列修改器与晶格形变

阵列修改器是bender里面一个比较常用的修改器，所以我们单独开口来讲，我们会先从几片树叶出发，然后我们用阵列修改器把这几片树叶变成这样的造型和这样的造型。这两个造型分别就代表着阵列修改器最常用的两种偏移方法，我们现在就开始我们先来做几个树叶。 1.树叶建模首先…

阅读更多...

fpga助教面试题

fpga助教面试题

第一题 module sfp_pwm( input wire clk, //clk is 200M input wire rst_n, input wire clk_10M_i, input wire PPS_i, output reg pwm ) reg [6:0] cunt ;always (posedge clk ) beginif(!rst_n)cunt<0;else if(cunt19) //200M是10M的20倍cunt<0;elsecunt<cunt1;…

阅读更多...

SpringAI系列 - ToolCalling篇（二） - 如何设置应用侧工具参数ToolContext（有坑）

SpringAI系列 - ToolCalling篇（二） - 如何设置应用侧工具参数ToolContext（有坑）

目录一、引言二、集成ToolContext示例步骤1：在`@Tool`标注的工具方法中集成`ToolConext`参数步骤2：`ChatClient`运行时动态设置`ToolContext`参数三、填坑一、引言在使用AI大模型的工具调用机制时，工具参数都是由大模型解析用户输入上下文获取的，由大模型提供参数给本地…

阅读更多...

Jest单元测试

Jest单元测试

由于格式和图片解析问题，可前往阅读原文前端自动化测试在提高代码质量、减少错误、提高团队协作和加速交付流程方面发挥着重要作用。它是现代软件开发中不可或缺的一部分，可以帮助开发团队构建可靠、高质量的应用程序单元测试（Unit Testi…

阅读更多...

pyside6学习专栏(二):程序图像资源的加载方式

pyside6学习专栏(二):程序图像资源的加载方式

pyside6中的QLabel控件可以加载图像和gif动画，可以直接从外部文件加载，也可以从QRC类型的文件(实际是一脚本文件)经编绎生成对应的资源.PY模块文件(就是将qrc文本中指定的资源文件的16制内容写入.py文件)来使用，本文对两种方式作了一简单的示…

阅读更多...

最新文章

推荐文章