MiniMind用极低的成本训练属于自己的大模型

本篇文章主要讲解，如何通过极低的成本训练自己的大模型的方法和教程，通过MiniMind快速实现普通家用电脑的模型训练。
日期：2025年3月5日
作者：任聪聪

一、MiniMind 介绍

基本信息

在这里插入图片描述

在2小时，训练出属于自己的28M大模型。

开源地址：https://github.com/jingyaogong/minimind

特性说明：

1、在家用电脑中即可进行大模型的训练。

2、训练时间可在一天之内，让你获得低成本训练出的大模型。

3、适用于性能不高的电脑本地运行及训练迭代。

模型基础认知

1.模型大小

诸如目前大家都会讲解的，多少M 多少B 等等，这代表了模型涵盖的参数数量。

2.模型速度

一般通过token/s测量，这代表了每秒输出的字符数，也是api常见的计费形式。

3.模型消耗

一般分为三个部分即算力消耗、能源消耗、硬件成本。一般情况下模型训练需要耗费大量的算力及电力。这是由GPU集群计算机决定的。

二、安装MiniMind

安装前的准备：

1、GPU:一台入门级独显计算机RTX 3060 左右的显卡。
2、RAM：16-64GB
3、硬盘：500GB及以上
4、python 3.9环境
5、pycharm 编辑器
6、git 版本管理工具
备注：配置低的也可以就是满，且效果没有配置高的电脑好。

安装说明：

通过git进行clone进行下载，使用python的pip进行安装所需依赖。

步骤一、克隆到本地

输入指令：

git clone https://github.com/jingyaogong/minimind.git

在这里插入图片描述
等待下载完毕…

步骤二、使用PyCharm打开项目工程如下图：

在这里插入图片描述
进入到加载打开项目的目录，如下图：

点击“OK”进入到项目，并等待加载完毕。

选择python 3.9的版本，过低的版本可能会报错，建议选择更高或相同于本篇文章的版本，点击“OK”进入到下一个环节。

步骤三、使用PIP 安装我们所需的依赖

输入命令：pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

在这里插入图片描述
直到安装和完毕，如下图：

三、训练模型

需要先准备好所需的数据集，而后通过训练集和验证集进行训练，并同构测试集测试模型的性能。

阶段分为：预训练、监督微调、循环迭代

步骤一、准备好我们的训练数据，如下：

这里我们使用自己的数据集，优先创建一个val目录并在val目录下，创建名为training_data.txt 的文件如下图：
在这里插入图片描述
编入内容，一行一条：

步骤二、对数据进行预处理，如下优先安装预处理依赖：

pip install transformers datasets

下载依赖完毕后，通过pycharm创建一个新项目如下图：
在这里插入图片描述
完成后进入项目，并把val数据集放入项目根目录：

创建我们的预处理脚本，在项目根目录下：

内容如下：

from transformers import BertTokenizer
from datasets import Dataset# 加载预训练的BERT分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')# 读取文本文件
with open('./val/training_data.txt', 'r', encoding='utf-8') as file:lines = [line.strip() for line in file.readlines()]# 将文本转换为分词后的输入
def fc_func(examples):return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=512)dataset = Dataset.from_dict({'text': lines})
tokenized_dataset = dataset.map(fc_func, batched=True)# 保存处理后的数据集
tokenized_dataset.save_to_disk('./go_ai_data')

步骤三、开始运行我们的数据预处理脚本：

运行成功后我们将得到如下的文件信息：
在这里插入图片描述
这些数据便是我们用来进行预训练的数据集，在根目录下创建训练脚本如下图：

脚本内容：

from transformers import BertTokenizer, BertForMaskedLM, Trainer, TrainingArguments
from datasets import Dataset# 加载预训练的BERT分词器和模型
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = BertForMaskedLM.from_pretrained('bert-base-chinese')# 读取文本文件并处理数据
with open('./val/training_data.txt', 'r', encoding='utf-8') as file:lines = [line.strip() for line in file.readlines()]def preprocess_function(examples):return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=512)dataset = Dataset.from_dict({'text': lines})
tokenized_dataset = dataset.map(preprocess_function, batched=True)# 设置训练参数
training_args = TrainingArguments(output_dir='./results',overwrite_output_dir=True,num_train_epochs=3,per_device_train_batch_size=8,save_steps=10_000,save_total_limit=2,
)# 创建Trainer实例并开始训练
trainer = Trainer(model=model,args=training_args,train_dataset=tokenized_dataset,
)trainer.train()

修改并设置自己的输出参数及输入的预训练数据，即可通过下方命令进行运行脚本执行训练，等待一段时间后将会获得自己的模型。
在这里插入图片描述
训练好的模型文件后缀为 .pth,通过自定义编写python的模型加载和调用脚本即可生成远端api进行外部的调用与本机的web ui的使用，此处不做详细说明，运行模型详细见章节四部分。

四、运行模型

一般情况，模型的运行使用api的形式调用，这里客户端一般为web ui、app、pc等客户端，其中客户端只是用来呈现我们的模型运行效果和对话消息的，主要用于我们的日常生活办公。

步骤一、下载我们所需的运行模型项目

命令输入：

git clone https://huggingface.co/jingyaogong/MiniMind2

在这里插入图片描述
完成，如下图：

步骤二、通过pycharm打开项目：

在这里插入图片描述
安装所需依赖命令 pip install streamli：

步骤三、运行我们的web ui对话框

在pycharm的 --> minimind <—项目终端目录下，打卡我们的scripts目录如下图：

cd scripts

在这里插入图片描述

并执行运行web ui的命令：

streamlit run web_demo.py

运行后如下，需要输入自己的电子邮箱：

在这里插入图片描述
输入完毕后按下“Enter” 即可运行，弹出防火墙信息：

此处点击允许即可，回到终端即可看到web ui 的地址：

大功告成，ui已经正常运行.。

五、性能体验与迭代说明

实际效果

在这里插入图片描述
可以看到速度非常快！

迭代说明

形式说明通过模型的迭代，可以让模型的数据量及信息量，不断的增长和扩大所覆盖的参数信息，以此对模型的能力进行更新。

END：闭环，不断收集新的数据，筛选数据，不断迭代模型，使得其更加完善和智慧。

常见问题：

1、PIP提示更新：

在这里插入图片描述
解决办法：

命令 python.exe -m pip install --upgrade pip 进行更新即可重试。

2、初次进入到项目提示报错情况

具体报文内容如下：

pcFailed to Create Virtual Environment
Executed command:
C: Users/admin/ApDatalLocalyPrograms/Ppython/python39/python.exe cyProgram files/letrainsPycharm 2024.1/plugins/python,hepershitualenv-20.24.5 pyzEildeveloplaiminimindven
Error occurred:
AttributeError: module 'virtualenv.create.via global ref.buitin.cpython.mac os' has no attribute 'CPython2macOsframework'
Command output:
Traceback(most recent call last)File "c: \Users ladminlAppDatalLocal!Programs Python\Python39\lib\runpy. py", line 197, in _run module_as_mainreturn rum code(code, main globals, oneFile "c: \UsersladminlAppDatalLocal\ProgramslPython\Python39\liblrunpy.py", line 87, in ru codeexec(code, rum globals)File C:\Program FilesWletBrains\Pycharn2024,1lpluginslpvthonlhelperslvirtualenv-20.24.5.pyzl main py ,line 163,in<module>File "C:\Program FilesWJetBrains\PyCharms\virtualenv-20.24.5.pyz\ main .py", line 159, in run00941File"C:\ProgramFilesiletBrainslPvchars\virtualenv-20.24.5.pyz\virtualenvl main .py", line 18, in run“C:\ProgramFileFileslTetBrains\Pvchars\virtualenv-20.24.5.pyz\virtualenv\run\  init..py", line 3l, in cli_runFile"C:\Programinit .py ，line 49, in session via cliEileslTetBrainslPycha1111g119111svirtualenv-20.24.5.pvglvirtualenvirunlFile"C:\Program Files\JetBrains\Pycharmslvirtualenv-20.24.5.pyz\virtualenvlrunl  init__.py", line 82, in build_parser1\p1ug111sFile"C:\ProgramTetBrains\Pvchar1-20.24.5.pyz\virtualenv\run\plugin\creators.py",line 24,ininitFilesw“C:1PrOgIEi1e1-20.24.5.pyz\virtualenv\run\plugin\creators.py", line 31, in for_interpreter“C,5.pyz\virtualenv\run\pluginlbase.py", line 45, in options\Progr2File"C:Prograilhelperslvirtualeny-20.24.5.pyzlvirtualenv(runlpluginlbase.py", line 24, in entry points forFile\Prog120.24.5.pyzlvirtualenv\runlpluginlbase.py", line 24, in<genexpr>~C.File“C:\Isers\import1ih\metadata.py .line 79.in loadreturn functools.rattrs, moduleAttributeRrror: modulevirtualenv.create.via global ref.builtin.cpython.mac os’has no attributeCPython2macOsFramework
OK
Cancel

直接点击OK即可进入到项目目录，可以忽略

3、无法安装运行web ui的必要依赖 streamli 报错如下时：

在这里插入图片描述
通过加入镜像源进行再次下载即可：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple streamlit

在这里插入图片描述

4、打开链接后报错缺少依赖情况：

在这里插入图片描述
这个报错由于我们少安装依赖导致，只需要通过pip进行安装提示中的对应依赖 tansformers即可，具体命令如下：

pip install transformers

在这里插入图片描述
等待安装完毕即可解决该报错问题。

5、报错模型项目问题如下图：

在这里插入图片描述
这是由于我们git clone时没有将模型项目放入 minimind 目录的根目录导致，只需要转移目录即可。

6、预处理数据时报错：

在这里插入图片描述
这是由于缺少必要依赖导致，我们只需要下载特定提示的依赖即可。

pip install torch torchvision torchaudio
pip install tensorflow
pip install flax

等待下载完毕即可重新运行。

7、训练到一半突然报错停止的情况

在这里插入图片描述
更新检查依赖兼容性或脚本运行的python版本，建议使用最新的版本号。