本地离线模型搭建指南-中文大语言模型底座选择依据

本地离线模型搭建指南-中文大语言模型底座选择依据

news/2024/12/26 21:06:12/文章来源:https://blog.csdn.net/Master_Shifu_/article/details/139903072

搭建一个本地中文大语言模型（LLM）涉及多个关键步骤，从选择模型底座，到运行机器和框架，再到具体的架构实现和训练方式。以下是一个详细的指南，帮助你从零开始构建和运行一个中文大语言模型。

本地离线模型搭建指南将按照以下四个部分展开

中文大语言模型底座选择依据
本地运行显卡选择
RAG架构实现
LLaMA-Factory训练框架及工具

1 中文大语言模型底座选择依据

在选择中文大语言模型（LLM）的底座时，可以参考以下几个关键因素：

1.1 模型规模与参数

根据具体应用场景选择不同规模的模型。比如：

ChatGLM系列：包含6B参数的模型，适合中小规模应用，且支持商业用途。
LLaMA系列：提供7B、8B、13B、33B和70B等多种规模，部分版本可商用。
Baichuan系列：提供7B和13B参数的模型，适合需要较大规模的应用。
Qwen系列：提供7B、14B、72B和110B参数的模型，支持较长的上下文长度，适合复杂场景。
BLOOM：从1B到176B-MT，多种规模选择。
Aquila系列：包括7B和34B参数版本。
InternLM系列：从7B到20B参数，支持代码应用。
Mixtral、Yi、DeepSeek、XVERSE等：提供多种参数规模，适合不同应用需求。

在这里插入图片描述

常见底座模型细节概览：

底座	包含模型	模型参数大小	训练token数	训练最大长度	是否可商用
ChatGLM	ChatGLM/2/3 Base&Chat	6B	1T/1.4	2K/32K	可商用
LLaMA	LLaMA/2/3 Base&Chat	7B/8B/13B/33B/70B	1T/2T	2k/4k	部分可商用
Baichuan	Baichuan/2 Base&Chat	7B/13B	1.2T/1.4T	4k	可商用
Qwen	Qwen/1.5 Base&Chat	7B/14B/72B/110B	2.2T/3T	8k/32k	可商用
BLOOM	BLOOM	1B/7B/176B-MT	1.5T	2k	可商用
Aquila	Aquila/2 Base/Chat	7B/34B	-	2k	可商用
InternLM	InternLM/2 Base/Chat/Code	7B/20B	-	200k	可商用
Mixtral	Base&Chat	8x7B	-	32k	可商用
Yi	Base&Chat	6B/9B/34B	3T	200k	可商用
DeepSeek	Base&Chat	1.3B/7B/33B/67B	-	4k	可商用
XVERSE	Base&Chat	7B/13B/65B/A4.2B	2.6T/3.2T	8k/16k/256k	可商用

1.2 训练数据与Token数

不同模型经过不同规模的数据训练，影响其在特定任务上的表现：

ChatGLM：经过1到1.4T的中英文标识符训练，适合中文问答和对话。
LLaMA：经过1T到2T的训练。
Baichuan：训练数据在1.2T到1.4T之间。
Qwen：训练数据量高达2.2T到3T，支持复杂任务。
BLOOM：经过1.5T的训练。
XVERSE：训练数据量达2.6T到3.2T。

1.3 上下文长度支持

根据应用需求选择支持较长上下文长度的模型：

ChatGLM2-6B：上下文长度扩展到32K。
Qwen：支持8K到32K的上下文长度。
Mixtral、Yi、DeepSeek：支持200k到256k的上下文长度。

1.4 商业用途许可

确保所选模型允许商业用途：

ChatGLM、LLaMA、Baichuan、Qwen、BLOOM、Aquila、InternLM、Mixtral、Yi、DeepSeek、XVERSE等模型均允许商业用途。

1.5 垂直领域微调与应用

考虑模型在特定领域的微调效果：

医疗、法律、金融、教育、科技、电商、网络安全、农业等领域的垂直应用。

1.6 具体模型推荐

以下是一些具体的模型推荐及其特点：

ChatGLM系列：适合中文问答和对话，经过中英文双语训练，支持商业用途。
LLaMA系列：提供多种规模，部分版本适合商用。
Baichuan系列：适合需要较大规模训练的应用。
Qwen系列：支持复杂任务和长上下文长度。
InternLM系列：适合代码相关应用。

更多详细信息和具体模型的链接，请访问 Awesome-Chinese-LLM 项目。

下一篇介绍
本地离线模型搭建指南-本地运行显卡选择

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/359210.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于Springboot + vue 的抗疫物质管理系统的设计与实现

基于Springboot + vue 的抗疫物质管理系统的设计与实现

目录 📚 前言 📑摘要 📑系统流程 📚 系统架构设计 📚 数据库设计 📚 系统功能的具体实现 💬 系统登录注册系统登录登录界面用户添加 💬 抗疫列表展示模块区域信息管理 …

阅读更多...

APP自动化测试-Appium常见操作之详讲

APP自动化测试-Appium常见操作之详讲

一、基本操作 1、点击操作示例：element.click() 针对元素进行点击操作 2、初始化：输入中文的处理说明：如果连接的是虚拟机（真机无需加这两个参数，加上可能会影响手工输入），在初始化配置中…

阅读更多...

【初阶数据结构】深入解析栈:探索底层逻辑

【初阶数据结构】深入解析栈:探索底层逻辑

🔥引言本篇将深入解析栈:探索底层逻辑，理解底层是如何实现并了解该接口实现的优缺点，以便于我们在编写程序灵活地使用该数据结构。 🌈个人主页：是店小二呀 🌈C语言笔记专栏：C语言笔记 &#x1…

阅读更多...

论坛实现随机发帖的学习

论坛实现随机发帖的学习

1、badboy操作，录制发帖全过程，录制结果保存，生成为.jmx格式的文件 2、在Jmeter中打开该.jmx文件，重命名，便于了解步骤 3、生成结果树，查看所以步骤是否正确 4、实现随机发帖断言：具有唯一表…

阅读更多...

Java面试八股之什么是分布式垃圾回收

Java面试八股之什么是分布式垃圾回收

什么是分布式垃圾回收分布式垃圾回收（Distributed Garbage Collection, DGC）是Java中一种特殊的垃圾回收机制，主要用于处理跨Java虚拟机（JVM）的远程对象引用时的内存管理问题。在分布式系统中，当一个JVM中…

阅读更多...

yolov10打包为exe

yolov10打包为exe

一、前言本节实验将官方yolov10推理程序打包为exe运行二、代码首先下载官方代码至本机，并使用conda创建虚拟环境，并安装好yolov10所需库 conda create --prefix E:/pyenv/myYolo10 python3.8 pip install -r requirements.txt 下载官方模型权重 …

阅读更多...

【面试干货】Java中的四种引用类型：强引用、软引用、弱引用和虚引用

【面试干货】Java中的四种引用类型：强引用、软引用、弱引用和虚引用

【面试干货】Java中的四种引用类型：强引用、软引用、弱引用和虚引用 1、强引用（Strong Reference）2、软引用（Soft Reference）3、弱引用（Weak Reference）4、虚引用（Phantom Reference…

阅读更多...

在线装修管理系统的设计

在线装修管理系统的设计

管理员账户功能包括：系统首页，个人中心，管理员管理，装修队管理，用户管理，装修管理，基础数据管理，论坛管理前台账户功能包括：系统首页，个人中心，…

阅读更多...

【计算机网络】[第4章网络层][自用]

【计算机网络】[第4章网络层][自用]

1 概述（1）因特网使用的TCP/IP协议体系（四层）的网际层，提供的是无连接、不可靠的数据报服务；（2）ATM、帧中继、X.25的OSI体系（七层）中的网络层，提供的是面向连接的、可靠的虚电路服务。（3）路由选择分两种：一种是由用户or管理员人工进行配置（只适用于规…

阅读更多...

【开发工具】git服务器端安装部署+客户端配置

【开发工具】git服务器端安装部署+客户端配置

自己安装一个轻量级的git服务端，仅仅作为代码维护，尤其适合个人代码管理。毕竟代码的版本管理是很有必要的。这里把git服务端部署在centos系统里，部署完成后可以通过命令行推拉代码，进行版本和用户管理。一、服务端安装配置 …

阅读更多...

爬虫阶段思考

爬虫阶段思考

内容：写这篇文章是因为最近帮同学改了很多的爬虫代码，感触良多。我用豆瓣为例，并不是不会用别的，而是这个我个人感觉最经典。然后还会写我遇到的一些问题以及解决方法。首先，我们得先知道怎样爬取。我用的scrapy框…

阅读更多...

算法基础精选题单动态规划（dp）（递推+线性dp）（个人题解）

算法基础精选题单动态规划（dp）（递推+线性dp）（个人题解）

前言： 一些简单的dp问题。正文： 题单：237题】算法基础精选题单_ACM竞赛_ACM/CSP/ICPC/CCPC/比赛经验/题解/资讯_牛客竞赛OJ_牛客网 (nowcoder.com) 递推： NC235911 走楼梯： #include<bits/stdc.h> using na…

阅读更多...

linux 关闭防火墙

linux 关闭防火墙

文章目录关闭系统防火墙关闭 linux 防火墙关闭系统防火墙 systemctl stop firewalld systemctl disable firewalld // 关闭开机自启动 systemctl status firewalld // 查看防火墙状态关闭 linux 防火墙 setenforce 0 getenforce // 查看状态 vim /etc/sysconfig/selinux //…

阅读更多...

USB2.0学习4--USB包结构和包类型

USB2.0学习4--USB包结构和包类型

目录 1. USB包基本结构 1.1 SOP域（Start Of Packet） 1.2 SYNC域（同步域） 1.3 PID域（标识域） 1.4 地址域（ADDR） 1.5 帧号域（Fram） 1.6 数据域&#xff…

阅读更多...

jeecg 框架的excel导入含图片（嵌入式，浮动式）

jeecg 框架的excel导入含图片（嵌入式，浮动式）

jeecg 框架的excel导入含图片（嵌入式，浮动式） 一、啰嗦二、准备三、代码1、代码（修改覆写的ExcelImportServer）2、代码（修改覆写的PoiPublicUtil）3、代码（新增类SAXParserHandler&…

阅读更多...

根据正则表达式查找字符串中第一次出现的一个或多个连续数字并返回起止位置re.rearch

根据正则表达式查找字符串中第一次出现的一个或多个连续数字并返回起止位置re.rearch

【小白从小学Python、C、Java】【考研初试复试毕业设计】【Python基础AI数据分析】根据正则表达式查找字符串中第一次出现的一个或多个连续数字并返回起止位置 re.rearch [太阳]选择题根据给定的Python代码，哪个选项是正确的？ import re patte…

阅读更多...

基于Java图书馆管理系统详细设计和实现(源码+LW+调试文档+讲解等)

基于Java图书馆管理系统详细设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍：✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者，博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来，…

阅读更多...

“明天下班以后请假了，孩子中考“

“明天下班以后请假了，孩子中考“

「作者简介」：冬奥会网络安全中国代表队，CSDN Top100，就职奇安信多年，以实战工作为基础著作《网络安全自学教程》，适合基础薄弱的同学系统化的学习网络安全，用最短的时间掌握最核心的技术。前几天约服务器…

阅读更多...

让在制品管理更有效

让在制品管理更有效

徐总的工厂生产线非常繁忙，每天都在不停地运转。但在制品的流转和存储也非常混乱，导致了很多问题的出现。一方面，由于缺乏有效的管理，在制品的库存不断增加，占用了大量的资金和空间资源。这些库存不仅增加了库存成本&…

阅读更多...

几何内核开发-实现自己的NURBS曲线生成API

几何内核开发-实现自己的NURBS曲线生成API

我去年有一篇帖子，介绍了NURBS曲线生成与显示的实现代码。 https://blog.csdn.net/stonewu/article/details/133387469?spm1001.2014.3001.5501文章浏览阅读323次，点赞4次，收藏2次。搞3D几何内核算法研究，必须学习NURBS样条曲线…

阅读更多...

最新文章

推荐文章