深入探究理解大型语言模型参数和内存需求

深入探究理解大型语言模型参数和内存需求

news/2024/12/23 15:17:52/文章来源:https://blog.csdn.net/matt45m/article/details/140546021

概述

大型语言模型取得了显著进步。GPT-4、谷歌的 Gemini 和 Claude 3 等模型在功能和应用方面树立了新标准。这些模型不仅增强了文本生成和翻译，还在多模态处理方面开辟了新天地，将文本、图像、音频和视频输入结合起来，提供更全面的 AI 解决方案。

例如，OpenAI 的 GPT-4 在理解和生成类似人类的文本方面表现出了显著的进步，而谷歌的 Gemini 模型则擅长处理各种数据类型，包括文本、图像和音频，从而实现更无缝和上下文相关的交互。同样，Anthropic 的 Claude 3 模型以其多语言能力和在 AI 任务中的增强性能而闻名。

随着 LLM 的发展不断加速，了解这些模型的复杂性（尤其是它们的参数和内存要求）变得至关重要。本指南旨在揭开这些方面的神秘面纱，提供详细且易于理解的解释。
原文地址：https://www.unite.ai/understanding-large-language-model-parameters-and-memory-requirements-a-deep-dive/

大型语言模型的基础知识

什么是大型语言模型？

大型语言模型是使用海量数据集训练的神经网络，用于理解和生成人类语言。它们依赖于 Transformers 之类的架构，这些架构使用自注意力等机制来处理和生成文本。

LLM 中参数的重要性

参数是这些模型的核心组成部分。它们包括权重和偏差，模型会在训练期间调整这些参数，以尽量减少预测误差。参数的数量通常与模型的容量和性能相关，但也会影响其计算和内存需求。

了解 Transformer 架构

在这里插入图片描述

概述

Vaswani 等人在 2017 年发表的论文《Attention Is All You Need》中引入的 Transformer 架构已成为许多 LLM 的基础。它由一个编码器和一个解码器组成，每个编码器和解码器都由多个相同的层组成。

编码器和解码器组件

Encoder 编码器：处理输入序列并创建上下文感知表示。
解码功能：使用编码器的表示和先前生成的标记生成输出序列。

关键构建模块

多头注意力：使模型能够同时关注输入序列的不同部分。
前馈神经网络：给模型增加了非线性和复杂性。
层标准化：通过规范中间输出来稳定和加速训练。

计算参数数量

在这里插入图片描述

计算基于 Transformer 的 LLM 中的参数

让我们分解一下基于 Transformer 的 LLM 的每个组件的参数计算。我们将使用原始论文中的符号，其中 d_model 表示模型隐藏状态的维度。

嵌入层:
- Parameters = vocab_size * d_model
多头注意力:
- For h heads, with d_k = d_v = d_model / h:
- Parameters = 4 * d_model^2 (for Q, K, V, and output projections)
前馈网络:
- Parameters = 2 * d_model * d_ff + d_model + d_ff
- Where d_ff is typically 4 * d_model
层标准化:
- Parameters = 2 * d_model (for scale and bias)

一个Transformer层的总参数：

Parameters_layer = Parameters_attention + Parameters_ffn + 2 * Parameters_layernorm

对于具有 N 层数：

Total Parameters = N * Parameters_layer + Parameters_embedding + Parameters_output

示例计算

让我们考虑具有以下规格的模型：

d_model = 768
h (number of attention heads) = 12
N (number of layers) = 12
vocab_size = 50,000

嵌入层:
- 50,000 * 768 = 38,400,000
多头注意力:
- 4 * 768^2 = 2,359,296
前馈网络:
- 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616
层标准化:
- 2 * 768 = 1,536

每层总参数：

2,359,296 + 4,719,616 + (2 * 1,536) = 7,081,984

12层的总参数：

12 * 7,081,984 = 84,983,808

模型参数总计：

84,983,808 + 38,400,000 123,383,808

该模型大约有 123 亿个参数。

内存使用类型

使用 LLM 时，我们需要考虑两种主要类型的内存使用情况：

模型内存：存储模型参数所需的内存。
工作内存：推理或训练期间所需的内存，用于存储中间激活、梯度和优化器状态。

计算模型内存

模型内存与参数数量直接相关。每个参数通常存储为 32 位浮点数，尽管有些模型使用 16 位浮点数进行混合精度训练。

模型内存（字节）= 参数数量 * 每个参数的字节数

对于具有 123 亿个参数的示例模型：

型号内存（32 位）= 123,383,808 * 4 字节 = 493,535,232 字节 ≈ 494 MB
型号内存（16 位）= 123,383,808 * 2 字节 = 246,767,616 字节 ≈ 247 MB

评估工作内存

根据具体任务、批次大小和序列长度，工作内存要求可能会有很大差异。推理过程中的工作内存粗略估计为：

工作内存 ≈ 2 * 模型内存

这用于存储模型参数和中间激活。在训练期间，由于需要存储梯度和优化器状态，内存要求可能更高：

训练内存 ≈ 4 * 模型内存

对于我们的示例模型：

推理工作内存 ≈ 2 * 494 MB = 988 MB ≈ 1 GB
训练内存 ≈ 4 * 494 MB = 1,976 MB ≈ 2 GB

稳定状态内存使用情况和峰值内存使用情况

在基于 Transformer 架构训练大型语言模型时，了解内存使用情况对于高效分配资源至关重要。让我们将内存需求分为两大类：稳定状态内存使用情况和峰值内存使用情况。

稳定状态内存使用情况

稳定状态内存使用情况包括以下部分：

型号重量：FP32 模型参数的副本，需要 4N 字节，其中 N 是参数的数量。
优化器状态：对于 Adam 优化器，这需要 8N 字节（每个参数 2 个状态）。
渐变：渐变的FP32副本，需要4N字节。
输入数据：假设输入为 int64，这需要 8BD 字节，其中 B 是批量大小，D 是输入维度。

总的稳定状态内存使用量可以近似为：

M_steady = 16N + 8BD 字节

峰值内存使用率

在反向传递期间，当激活被存储用于梯度计算时，内存使用量达到峰值。造成内存峰值的主要因素有：

层标准化：每层标准需要 4E 字节，其中 E = BSH（B：批量大小，S：序列长度，H：隐藏大小）。
注意力障碍:
- QKV计算：2E字节
- 注意力矩阵：4BSS 字节（S：序列长度）
- 注意输出：2E字节
前馈模块:
- 第一线性层：2E 字节
- GELU 激活：8E 字节
- 第二线性层：2E 字节
交叉熵损失:
- Logits：6BSV 字节（V：词汇量）

总激活内存可以估算为：

M_act = L * (14E + 4BSS) + 6BSV 字节

其中 L 是 Transformer 层的数量。

总峰值内存使用量

训练期间的峰值内存使用量可以通过结合稳态内存和激活内存来近似：

M_peak = M_steady + M_act + 4BSV 字节

额外的 4BSV 项解释了在后向传递开始时的额外分配。

通过了解这些组件，我们可以优化训练和推理期间的内存使用情况，确保高效的资源分配并提高大型语言模型的性能。

缩放定律和效率考虑

LLM 的缩放定律

研究表明，随着参数数量的增加，LLM 的性能趋向于遵循某些缩放规律。Kaplan 等人 (2020) 观察到，模型性能随着参数数量、计算预算和数据集大小的幂律而提高。

模型性能和参数数量之间的关系可以近似为：

绩效∝N^α

其中 N 是参数的数量，α 是缩放指数，对于语言建模任务通常约为 0.07。

这意味着为了实现 10% 的性能提升，我们需要将参数数量增加 10^(1/α) ≈ 3.7 倍。

效率技巧

随着LLM课程的不断发展，研究人员和实践者已经开发出各种技术来提高效率：

a) 混合精度训练：对某些操作使用 16 位甚至 8 位浮点数，以减少内存使用和计算要求。

b) 模型并行：将模型分布在多个 GPU 或 TPU 上，以处理超出单个设备容量的更大模型。

c) 梯度检查点：通过在反向传递过程中重新计算某些激活而不是存储它们来用计算换取内存。

d) 修剪和量化：删除不太重要的权重或降低其训练后的精度，以创建更小、更高效的模型。

e) 蒸馏：训练较小的模型来模仿较大模型的行为，有可能用更少的参数保留大部分性能。

实例和计算

GPT-3 是最大的语言模型之一，拥有 175 亿个参数。它使用了 Transformer 架构的解码器部分。为了了解它的规模，让我们用假设值来分解参数数量：

d_model = 12288
d_ff = 4 * 12288 = 49152
层数 = 96

对于一个解码器层：

总参数 = 8 * 12288^2 + 8 * 12288 * 49152 + 2 * 12288 ≈ 1.1 亿

共计 96 层：

1.1亿*96=105.6亿

其余参数来自嵌入和其他组件。

结论

了解大型语言模型的参数和内存需求对于有效设计、训练和部署这些强大的工具至关重要。通过分解 Transformer 架构的组件并研究 GPT 等实际示例，我们可以更深入地了解这些模型的复杂性和规模。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/380093.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

人工智能大模型发展的新形势及其省思

人工智能大模型发展的新形势及其省思

作者简介肖仰华，复旦大学计算机科学技术学院教授、博导，上海市数据科学重点实验室主任。研究方向为知识图谱、知识工程、大数据管理与挖掘。主要著作有《图对称性理论及其在数据管理中的应用》、《知识图谱：概念与技术》（合著&a…

阅读更多...

微服务实战系列之玩转Docker（二）

微服务实战系列之玩转Docker（二）

前言上一篇，博主对Docker的背景、理念和实现路径进行了简单的阐述。作为云原生技术的核心之一，轻量级的容器Docker，受到业界追捧。因为它抛弃了笨重的OS，也不带Data，可以说，能够留下来的都是打仗的“精锐…

阅读更多...

Python游戏开发之制作捕鱼达人游戏-附源码

Python游戏开发之制作捕鱼达人游戏-附源码

制作一个简单的“捕鱼达人”游戏可以使用Python结合图形界面库，比如Pygame。Pygame是一个流行的Python库，用于创建视频游戏，它提供了图形、声音等多媒体的支持。以下是一个基础的“捕鱼达人”游戏框架，包括玩家控制一个炮台来射击…

阅读更多...

Java性能优化-书写高质量SQL的建议(如何做Mysql优化)

Java性能优化-书写高质量SQL的建议(如何做Mysql优化)

场景 Mysql中varchar类型数字排序不对踩坑记录： Mysql中varchar类型数字排序不对踩坑记录_mysql vachar排序有问题-CSDN博客为避免开发过程中针对mysql语句的写法再次踩坑，总结开发过程中常用书写高质量sql的一些建议。注： 博客&#…

阅读更多...

特征工程方法总结

特征工程方法总结

方法有以下这些首先看数据有没有重复值、缺失值情况离散：独热连续变量：离散化（也成为分箱） 作用：1.消除异常值影响 2.引入非线性因素，提升模型表现能力 3.缺点是会损失一些信息怎么分：…

阅读更多...

【C++】—— 从 C 到 C++ （下）

【C++】—— 从 C 到 C++ （下）

【C】—— 从 C 到 C （下） 六、引用6.1、什么是引用6.2、引用在传参的使用6.2.1、例一6.2.2、例二 6.3、引用在做返回值的使用6.4、引用的特性6.5、引用的使用总结6.6、 c o n s t const const 引用6.6.1、 c o n s t const const 引用的规则6.6.2、 c o…

阅读更多...

福派斯三文鱼猫粮，养猫新手的福音，让猫咪爱上吃饭！

福派斯三文鱼猫粮，养猫新手的福音，让猫咪爱上吃饭！

猫粮的选择对于猫咪的健康和日常饮食至关重要。福派斯三文鱼猫粮作为一款备受关注的产品，它在市场上表现如何呢？下面我们将从几个关键方面深入探讨如何选择猫粮，并详细分析福派斯三文鱼猫粮的优缺点。一、了解猫咪的独特需求首先&#xff0…

阅读更多...

[Redis]典型应用——分布式锁

[Redis]典型应用——分布式锁

什么是分布式锁？ 在一个分布式系统中，也会涉及到多个节点访问同一个公共资源的情况。此时就需要通过锁来做互斥控制，避免出现类似于"线程安全"的问题举个例子，在平时抢票时，多个用户可能会同时买票&#…

阅读更多...

ubuntu源码安装Odoo

ubuntu源码安装Odoo

序言:时间是我们最宝贵的财富,珍惜手上的每个时分 Odoo具有非常多的安装方式，除了我最爱用的 apt-get install，我们还可以使用git拉取Odoo源码进行安装。本次示例于ubuntu20.04 Desktop上进行操作，理论上在ubuntu14.04之后都可以用此操作。 …

阅读更多...

第1关 -- Linux 基础知识

第1关 -- Linux 基础知识

闯关任务完成SSH连接与端口映射并运行hello_world.py ssh -p 37367 rootssh.intern-ai.org.cn -CNg -L 7860:127.0.0.1:7860 -o StrictHostKeyCheckingno可选任务 1 将Linux基础命令在开发机上完成一遍可选任务 2 使用 VSCODE 远程连接开发机并创建一个conda环境 …

阅读更多...

关于c#的简单应用三题

关于c#的简单应用三题

#region 找出100以内与7有关的数并打印： public static void Print() { int sum 0; Console.WriteLine("100以内与7有关的数有："); for (int i 1; i < 100; i) { if (i % 7 0) { sum; …

阅读更多...

【AI教程-吴恩达讲解Prompts】第1篇 - 课程简介

【AI教程-吴恩达讲解Prompts】第1篇 - 课程简介

文章目录简介Prompt学习相关资源两类大模型原则与技巧简介欢迎来到面向开发者的提示工程部分，本部分内容基于吴恩达老师的《Prompt Engineering for Developer》课程进行编写。《Prompt Engineering for Developer》课程是由吴恩达老师与 OpenAI 技术团队成员 I…

阅读更多...

Flink HA

Flink HA

目录 Flink HA集群规划环境变量配置 masters配置 flink-conf.yaml配置测试 Flink HA集群规划 FLink HA集群规划如下： IP地址主机名称Flink角色ZooKeeper角色192.168.128.111bigdata111masterQuorumPeerMain192.168.128.112bigdata112worker、masterQuorumPee…

阅读更多...

js 实现扫雷游戏，源码开放，支持npm引入使用

js 实现扫雷游戏，源码开放，支持npm引入使用

本人开发的js版本扫雷游戏体验地址 | Github Minesweeper game Sponsors Install and use npm i minesweeper-gameimport {Map} from minesweeper-game;const map new Map();Reset Map map.reset();TS Statement interface IMapOptions {width?: number; // Map sizeh…

阅读更多...

JMeter：BeanShell向JSR223迁移过程遭遇的java标准库不可用问题-如何切换JDK版本

JMeter：BeanShell向JSR223迁移过程遭遇的java标准库不可用问题-如何切换JDK版本

前言看过我前面文章的人想必记得我因使用BeanShell，遭遇过JMeter OOM的问题。所以想起官网频频提示的，性能测试中建议使用JSR223groovy来代替BeanShell。于是，开启BeanShell脚本向JSR223迁移之旅。什么是JSR223 JSR223全称为Java Specif…

阅读更多...

Python爬虫（1） --基础知识

Python爬虫（1） --基础知识

爬虫爬虫是什么？ spider 是一种模仿浏览器上网过程的一种程序，可以获取一些网页的数据基础知识 URL 统一资源定位符 uniform resource locator http: 超文本传输协议 HyperText Transfer Protocol 默认端口 80 https: 安全的超文本传输协议 security…

阅读更多...

jenkins+gitlab+harbor+maven自动化容器部署

jenkins+gitlab+harbor+maven自动化容器部署

一、gitlab安装配置 1.1、安装由于比较懒啊！这里就直接使用docker安装了啊！ 没事先更新一个yum源：yum update -y 整一个gitlab镜像：docker pull gitlab/gitlab-ce 运行一个gitlab容器：docker run -d -p 8443:443 -p…

阅读更多...

十七、【机器学习】【非监督学习】- K-均值 (K-Means)

十七、【机器学习】【非监督学习】- K-均值 (K-Means)

系列文章目录第一章【机器学习】初识机器学习第二章【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression) 第三章【机器学习】【监督学习】- 支持向量机 (SVM) 第四章【机器学习】【监督学习】- K-近邻算法 (K-NN) 第五章【机器学习】【监督学习】- 决策树…

阅读更多...

[论文笔记] pai-megatron-patch Qwen2-CT 长文本rope改yarn

[论文笔记] pai-megatron-patch Qwen2-CT 长文本rope改yarn

更改： # Copyright (c) 2024 Alibaba PAI and Nvidia Megatron-LM Team. # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. # You may obtain a copy of the License a…

阅读更多...

MongoDB常用命令大全，概述、备份恢复

MongoDB常用命令大全，概述、备份恢复

文章目录一、MongoDB简介二、服务启动停止、连接三、数据库相关四、集合操作五、文档操作六、数据备份与恢复/导入导出数据6.1 mongodump备份数据库6.2 mongorestore还原数据库6.3 mongoexport导出表或表中部分字段6.4 mongoimport导入表或表中部分字段七、其他常用命令八…

阅读更多...

最新文章

推荐文章