[笔记.AI]大模型的蒸馏、剪枝、量化 | 模型压缩 | 作用与意义

[笔记.AI]大模型的蒸馏、剪枝、量化 | 模型压缩 | 作用与意义

news/2025/3/23 16:43:41/文章来源:https://blog.csdn.net/debug_fan/article/details/145706908

上周简单整理了《deepseek-r1的不同版本（满血版、蒸馏版、量化）》，这次继续完善对其的认知——补充“剪枝”，并进一步整理蒸馏、剪枝、量化的作用与意义。

以下摘自与DeepSeek-R1在线联网版的对话

蒸馏、剪枝、量化是当前主流的三大模型压缩技术124。其核心作用与特点如下：

1. 核心地位与作用

技术	核心作用	典型应用场景
剪枝	通过移除冗余参数或结构降低模型复杂度	移动端推理、实时影像分析
量化	将高精度参数转为低精度表示，减少存储和计算需求	边缘设备部署、大规模服务化
蒸馏	将大模型知识迁移到小模型，保留核心推理能力	医疗诊断助手、复杂逻辑系统

2. 技术特性对比

维度	剪枝	量化	蒸馏
操作对象	权重/神经元/层4	权重/激活值5	模型整体知识3
压缩效果	参数量减少30-90%6	模型体积缩小至1/4-1/85	模型规模压缩至1/102
硬件适配	需支持稀疏计算（如NVIDIA A100）4	适配低精度芯片（如ARM Cortex-M）1	通用性强，依赖教师模型质量3

3. 作用与意义

蒸馏（Knowledge Distillation）

作用：将大型教师模型的知识迁移到小型学生模型中，通过软标签（概率分布）传递隐含知识13。
意义：
- 降低部署成本：小模型可在移动端、嵌入式设备中高效运行1；
- 保留核心能力：学生模型能继承教师模型的逻辑推理、上下文学习等涌现能力3。

剪枝（Pruning）

作用：移除模型中不重要的权重或神经元，减少参数规模14。
意义：
- 提升效率：模型计算复杂度降低，推理速度加快2；
- 适配资源受限场景：适用于手机、IoT设备等内存和算力有限的终端4。

量化（Quantization）

作用：将模型权重从高精度（如32位浮点）转为低精度（如8位整数），减少存储和计算开销15。
意义：
- 加速推理：硬件计算效率提升3-5倍1；
- 扩展应用场景：支持低功耗芯片部署（如医疗设备、边缘计算节点）5。

4. 核心差异与协同

蒸馏侧重能力迁移：适合需保留复杂推理但受硬件限制的场景（如医疗诊断助手）3；
剪枝侧重结构简化：适合实时性要求高的任务（如影像分析）4；
量化侧重计算优化：适合大规模部署场景（如语音交互系统）5。
协同效应：三者常结合使用（如先蒸馏压缩结构，再量化降低精度），实现“双压缩”15。

5. 协同应用趋势

三种技术常组合使用以实现更高压缩效率：

剪枝+量化：先剪枝去除冗余结构，再量化降低计算精度6
（例如：将ResNet-50压缩至原体积的1/104）
蒸馏+剪枝：先蒸馏获得轻量学生模型，再剪枝优化结构2
（典型场景：医疗影像分析中的分级诊断系统）
三阶段压缩：先剪枝→再量化→最后蒸馏，实现多维度优化3

6. 其他补充技术

虽然三者是主流，但实际工业部署中常结合：

参数共享：通过聚类复用相似权重4
轻量网络设计：如MobileNet的深度可分离卷积6
低秩分解：将大矩阵拆解为小矩阵组合1

根据实际测试，14B参数模型经过三阶段压缩后，可在RTX 4090上实现5倍推理加速，同时保持95%以上原始精度25。

整理成表就是：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/20227.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Java 反射机制深度解析：类信息的来源、declared 的区别、赋值操作及暴力反射

Java 反射机制深度解析：类信息的来源、declared 的区别、赋值操作及暴力反射

在 Java 开发中，反射机制是一个强大且灵活的工具，它允许程序在运行时动态地获取类的信息、创建对象、调用方法和访问字段等。本文将结合代码示例和图示，深入探讨以下四个问题： 类信息来自哪里？ 获取类信息时加不加 de…

阅读更多...

Transformer 模型介绍（四）——编码器 Encoder 和解码器 Decoder

Transformer 模型介绍（四）——编码器 Encoder 和解码器 Decoder

上篇中讲完了自注意力机制 Self-Attention 和多头注意力机制 Multi-Head Attention，这是 Transformer 核心组成部分之一，在此基础上，进一步展开讲一下编码器-解码器结构（Encoder-Decoder Architecture） Transformer 模…

阅读更多...

电脑系统损坏，备份文件

电脑系统损坏，备份文件

一、工具准备 1.U盘：8G以上就够用，注意会格式化U盘，提前备份U盘内容 2.电脑：下载Windows系统并进行启动盘制作二、Windows启动盘制作 1.微软官网下载启动盘制作工具微软官网下载启动盘制作工具https://www.microsoft.com/zh-c…

阅读更多...

Linux下Ollama下载安装速度过慢的解决方法

Linux下Ollama下载安装速度过慢的解决方法

问题描述：在Linux下使用默认安装指令安装Ollama，下载安装速度过慢，进度条进度缓慢，一直处于Downloading Linux amd64 bundle中，具体如下图所示： 其中，默认的Ollama Linux端安装指令如下&#xf…

阅读更多...

uniapp中@input输入事件在修改值只有第一次有效的问题解决

uniapp中@input输入事件在修改值只有第一次有效的问题解决

在uniapp中使用输入框，要求输入不超过7个字，所以需要监听输入事件，当每次输入文字的时候，就把输入的值截断，取前7个值。但是在input事件中，重新赋值的值发生了变化，但是页面上的还是没有变&…

阅读更多...

DeepSeek 助力 Vue 开发：打造丝滑的范围选择器（Range Picker）

DeepSeek 助力 Vue 开发：打造丝滑的范围选择器（Range Picker）

前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏关注哦 💕 目录 Deep…

阅读更多...

VMware按照的MacOS升级后无法联网

VMware按照的MacOS升级后无法联网

背景 3年前公司使用Flutter开发了一款app，现在app有微小改动需要重新发布到AppStore 问题问题是原来的Vmware搭建的开发环境发布App失败了提示：App需要使用xcode15IOS 17 SDK重新构建，这样的话MacOS至少需要升级到13.5 Xcode - 支持 - Ap…

阅读更多...

Day01 【苍穹外卖】环境搭建与前后端联调

Day01 【苍穹外卖】环境搭建与前后端联调

一、环境搭建 1.JDK安装与IDEA安装： JDK安装与IDEA安装：【JAVA基础】01、JAVA环境配置----JDK与 IDEA集成开发环境的安装（2025最新版本）_配置jdk-CSDN博客注意，这里要下载JDK1.8版本的，不然会报错&…

阅读更多...

STM32 HAL库USART串口中断编程：环形缓冲区防止数据丢失

STM32 HAL库USART串口中断编程：环形缓冲区防止数据丢失

HAL_UART_Receive接收最容易丢数据了,可以考虑用中断来实现,但是HAL_UART_Receive_IT还不能直接用,容易数据丢失,实际工作中不会这样用,STM32 HAL库USART串口中断编程：演示数据丢失,需要在此基础优化一下. 本文介绍STM32F103 HAL库USART串口中断,利用环形缓冲区来防…

阅读更多...

Vulnhub：DC-1靶机渗透

Vulnhub：DC-1靶机渗透

渗透过程一，信息收集 1，探测目标IP地址探测目标IP地址，探测主机的工具有很多，常见的有arp-scan、nmap还有netdiscover，这里使用arp-scan arp-scan -l确定了DC-1主机的IP地址为 192.168.126.1452，探测…

阅读更多...

MySQL 之存储引擎（MySQL Storage Engine）

MySQL 之存储引擎（MySQL Storage Engine）

MySQL 之存储引擎常见存储引擎及其特点 ‌InnoDB‌： ‌特点‌：支持事务处理、行级锁定、外键约束，使用聚簇索引，适合高并发读写和事务处理的场景‌。‌适用场景‌：需要高可靠性、高并发读写和事务处理的场景‌。 ‌M…

阅读更多...

EasyX安装及使用

EasyX安装及使用

安装链接：EasyX Graphics Library for C 安装完成包含头文件graphics.h即可使用 RGB合成颜色（红色部分，绿色部分，蓝色部分） 每种颜色的值都是（0~255） 坐标默认的原点在窗口的左上角&#xf…

阅读更多...

20.【线性代数】——坐标系中，平行四边形面积=矩阵的行列式

20.【线性代数】——坐标系中，平行四边形面积=矩阵的行列式

三坐标系中，平行四边形面积矩阵的行列式定理验证定理在坐标系中，由向量（a,b）和向量(c,d)组成平行四边形的面积矩阵 [ a b c d ] \begin{bmatrix} a&b\\ c&d \end{bmatrix} [acbd]的行列式，即&#x…

阅读更多...

Grafana——Rocky9安装Grafana相关步骤记录

Grafana——Rocky9安装Grafana相关步骤记录

安装Grafana 安装直接进下面这个页面，可以看到这边可以选择版本以及操作系统并且如果是Linux平台的，下面会给出不同平台的命令，直接复制粘贴执行一下就可以了! 验证运行命令 ## 运行service systemctl start grafana-server## 自启…

阅读更多...

Mathtype安装入门指南

Mathtype安装入门指南

Mathtype安装入门指南 1 mathtype安装及补丁2 mathtype在word中加载3 常见的mathtype快捷命令4 实列测试 1 mathtype安装及补丁下载相应的Mathtype7.4软件安装包，百度网盘链接为： 百度网盘链接下载完成后，有三个软件，如下图所示…

阅读更多...

ConcurrentHashMap 在Jdk 17 不同版本中的优化和改进

ConcurrentHashMap 在Jdk 17 不同版本中的优化和改进

ConcurrentHashMap 是 Java 中的一个高性能线程安全的哈希表实现，随着 JDK 版本的迭代，其内部实现也经历了多次优化和改进。每个版本的改动针对不同的场景和需求进行了性能提升和问题修复。以下分别描述了 JDK 7、JDK 8 和 JDK 17 的主要设计和区别&…

阅读更多...

普通报表入门

普通报表入门

1. 概述报表设计主要可以分为新建报表、数据准备、报表主体设计、报表预览几大部分。其中报表主体可以分为大标题、小标题、表格数据、结尾几大部分，本文主要以普通报表为例，讲述如何按照报表设计流程快速设计一张报表。FineReport 版本为11.0 1.1 预期…

阅读更多...

用deepseek学大模型08-cnn残差网络

用deepseek学大模型08-cnn残差网络

残差网络参考：https://blog.csdn.net/2301_80750681/article/details/142882802 以下是使用PyTorch实现的三层残差网络示例，包含三个残差块和完整的网络结构： import torch import torch.nn as nnclass BasicBlock(nn.Module):expansion…

阅读更多...

AIGC（生成式AI）试用 21 -- Python调用deepseek API

AIGC（生成式AI）试用 21 -- Python调用deepseek API

1. 安装openai pip3 install openai########################## Collecting openaiUsing cached openai-1.61.1-py3-none-any.whl.metadata (27 kB) Collecting anyio<5,>3.5.0 (from openai)Using cached anyio-4.8.0-py3-none-any.whl.metadata (4.6 kB) Collecting d…

阅读更多...

分享一款AI绘画图片展示和分享的小程序

分享一款AI绘画图片展示和分享的小程序

🎨奇绘图册【开源】一款帮AI绘画爱好者维护绘图作品的小程序查看Demo 反馈 github 文章目录前言一、奇绘图册是什么？二、项目全景三、预览体验3.1 截图示例3.2 在线体验四、功能介绍4.1 小程序4.2 服务端五、安装部署5.1 快速开始~~5.2 手动部…

阅读更多...

最新文章

推荐文章