文章目录
- 解码效率分析
- 大模型训练后量化方法
- 经验性分析与相关结论
由于大模型的参数量巨大,在解码阶段需要占用大量的显存资源,因而在实际应用中的部署代价非常高。在本文中,我们将介绍一种常用的模型压缩方法,即模型量化(ModelQuantization),来减少大模型的显存占用,从而使得能够在资源有限的环境下使用大模型
解码效率分析
在神经网络压缩中,量化通常是指从浮点数到整数的映射过程,目前比较常用的是8比特整数量化,即INT8量化。针对神经网络模型,通常有两种类型的数据需要进行量化,分别为权重量化(也称为模型参数量化)和激活(值)量化,它们都以浮点数形式进行表示与存储。量化的数学表述量化的过程可以表示为一个函数,该函数将连续的输入映射到离散的输出集合。一般来说,这个过程涉及到四舍五入或截断等近似操作。下面介绍一个一般形式的量化函数:通过上述数学变换,量化算法将浮点数向量𝒙转化为量化值𝒙𝒒。其中,𝑆表示缩放因子,用于确定裁剪范围,𝑍表示零点因子,用于确定对称或非对称量化,