【调研】生成式PLM模型(偏LLM)压缩

研究背景

常用的生成模型

下表总结了现在常用的生成模型的架构、参数量、尺寸和开源地址。其中参数量基本为亿万级别,以decoder的架构为主,模型尺寸在500MB以上。

模型名称架构尺寸层数参数量(Billion)开源地址备注
GPT-2decoder548 MB481.5Bhttps://huggingface.co/gpt2/tree/main相对较小的生成模型
GPT-Neo-2.7Bdecoder10.7 GB322.7Bhttps://huggingface.co/EleutherAI/gpt-neo-2.7B/tree/main
pythia-160Mdecoder375 MB12160Millionhttps://huggingface.co/EleutherAI/pythia-160m/tree/main等价于GPT-Neo 125M, OPT-125M
Pythia-12Bdecoder23.85 GB3612Bhttps://huggingface.co/EleutherAI/pythia-12b/tree/main256 40G A100
OPT-1.3Bdecoder2.63 GB241.3Bhttps://huggingface.co/facebook/opt-1.3b
OPT-66Bdecoder$\sim$150 GB6466Bhttps://huggingface.co/facebook/opt-66b/tree/main
BLOOM-560Mdecoder1.12 GB24560Millionhttps://huggingface.co/bigscience/bloom-560m
BART-baseencoder-decoder558 MB6-https://huggingface.co/facebook/bart-base/tree/main
BART-largeencoder-decoder1.02 GB12-https://huggingface.co/facebook/bart-large/tree/main
Flan-T5-baseencoder-decoder990 MB12250Millionhttps://huggingface.co/google/flan-t5-base/tree/main

选取了在huggingface上下载最多的

CHATGPT 宕机

ChatGPT自发布以来受到了广大用户的好评,认为该模型已能够帮助自己工作。但是,作为一个巨大参数量的模型,多用户同时使用往往无法及时响应,网络错误是时常发生的。近期chatgpt已出现宕机的行为:

  1. 时常宕机:从 1 月 9 号到 10 号的这两天就有 5 次,停机时间最短几十分钟,最长 14 个小时。
    在这里插入图片描述

  2. 大规模宕机:在2023年3月20号ChatGPT大规模宕机,12小时后OpenAI才修复。后续很长一段时间也只恢复了部分功能。

  3. ChatGPT Plus停售:2023/4/15,OpenAI宣布因无法满足高需求,ChatGPT PLUS付费版本暂停。
    在这里插入图片描述

归根结底是ChatGPT的运作需要大量的算力支撑,即使微软提供了上万张英伟达A100组成的专用超算,也无法满足多用户使用带来的高计算需求。现在除了CahtGPT,也涌现了其他的生成模型(如上表所示)。

面临的挑战

内存消耗过大

亿万级别的参数量显然需要高显存量的设备支持,1块NVIDIA A100 80GB显卡算是比较少的要求。例如,GPT-3模型包含 175B 参数,消耗至少 350GB 的内存来存储和运行在 FP16 中,需要 8×48GB A6000 GPU 或 5×80GB A100 GPU 仅用于推理。

Ref:
[1] G. Xiao, J. Lin, M. Seznec, H. Wu, J. Demouth, and S. Han, “SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models.” arXiv, Feb. 14, 2023. doi: 10.48550/arXiv.2211.10438.
[2]https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf

已经有过许多针对encoder的模型压缩研究,比如BERT模型,常用方法有量化、剪枝、知识蒸馏、低秩分解和参数共享等。随着生成式预训练模型的兴起,这些方法在生成模型也有应用的趋势:

以往模型压缩方法应用的困难

首先需要明确BERT和GPT的架构最大的不同之处为:BERT模型采用双向Transformer,GPT系列模型为单向。
在这里插入图片描述

Ref: [1] C. Zhou et al., “A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT.” arXiv, Mar. 30, 2023. doi: 10.48550/arXiv.2302.09419.

以往的模型压缩方法主要针对于双向BERT模型,其直接应用于GPT系列生成模型会产生一些问题。

  • 量化的主要面临问题为:1)量化导致的词嵌入层分布集中;2)不同层的权重分布不一,且存在异常值干扰;3)激活值量化的异常值更加突出,不够平滑,更加难以量化。

  • 剪枝面临的问题主要是:现有的剪枝方法通常需要对模型进行大量重新训练以恢复准确性,对于大模型来说重复训练过于昂贵。
    下面展示这些问题的细节研究:

  1. 量化导致的词嵌入层分布集中

生成式模型的词嵌入层同质化程度低,token之间的高度依赖,模型的嵌入层向量分散且可区分。经典量化方法使用后导致模型的嵌入层向量分布集中,如下图:
在这里插入图片描述

为什么这些量化方法在BERT中使用没有问题?
BERT是token同时建模,但是GPT等是单向建模,单向的建模会导致误差的累计。
Ref: [1] C. Tao et al., “Compression of Generative Pre-trained Language Models via Quantization.” arXiv, Jul. 16, 2022. doi: 10.48550/arXiv.2203.10705.

  1. 动态的激活值范围

下图绘制了 GPT-3350M 不同Transformer层每次激活值的token(即每个token的隐藏状态)范围。可以看出,不同的token具有截然不同的激活值范围。例如,最后一层的最大范围约为 35,但最小范围接近 8。
在这里插入图片描述

激活值范围内的这种较大方差使得很难对所有token使用固定的量化范围(通常是最大值)来保持预测精度,因为小范围token的有限表示能力会损害准确性性能。

Ref: [1] Z. Yao, R. Y. Aminabadi, M. Zhang, X. Wu, C. Li, and Y. He, “ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers.” arXiv, Jun. 03, 2022. doi: 10.48550/arXiv.2206.01861.

  1. 权重中的神经元范围不同

下图中绘制了 GPT-3350M 的注意力输出矩阵 (Wo) 的逐行(即输出维度)权重范围。不同行的最大量级之间存在 10 倍的差异,这导致 INT8 权重 PTQ 的生成性能较差。这也使得在应用 INT4 量化时非常具有挑战性,因为 INT4 只有 16 个数字,而 10 倍的小范围会导致这些较小范围行的表示 2(或 3)个数字。

在这里插入图片描述

Ref: [1] Z. Yao, R. Y. Aminabadi, M. Zhang, X. Wu, C. Li, and Y. He, “ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers.” arXiv, Jun. 03, 2022. doi: 10.48550/arXiv.2206.01861.

因为同层不同模块的权重分布不一,所以难以使用固定的缩放函数。下图显示12 层全精度 GPT-2 的权重分布与异常值高度偏斜。

在这里插入图片描述

Ref: [1] C. Tao et al., “Compression of Generative Pre-trained Language Models via Quantization.” arXiv, Jul. 16, 2022. doi: 10.48550/arXiv.2203.10705.

  1. 训练成本巨大

现有的剪枝方法通常需要对模型进行大量重新训练以恢复准确性,对于大模型来说重复训练过于昂贵。

Ref: [1] E. Frantar and D. Alistarh, “SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot.” arXiv, Mar. 22, 2023. doi: 10.48550/arXiv.2301.00774.

近期工作

针对生成式模型压缩与加速的工作如下表所示:目前主要在研究量化和剪枝的可用性。

此外,还有对推理期间效率提升的研究,例如FlexGen,通过卸载推理的token到cpu和SSD中缓解GPU显存压力。还有一些针对训练加速的方法,例如DeepSpeedZero通过数据并行加速大模型训练。还有参数微调的方法(PEFT),只需要微调插入的外部参数,而不是整个训练模型,就能获得不错的性能。

方法代表工作简介conference开源工作
量化SmoothQuant往往activation的outlier比较突出,难以量化。而weight分布比较平均,很容易量化。SmoothQuant转移部分activation量化压力到Weight,以减少activation量化难度。实现 W8A8 的量化,减小的模型大小使用一半的 GPU(16 到 8 个)就有相似性能,500B的模型可以在单个节点 (8×A100 80GB GPU)运行使用。https://github.com/mit-han-lab/smoothquant
GPTQGPTQ,一种基于近似二阶信息的新型单次权重量化方法。具体来说,GPTQ 可以在大约4个 GPU 小时内量化 1750 亿个参数的GPT 模型,将位宽减少到每个权重 3 或 4 位。
量化+蒸馏Compression of Generative Pre-trained Language Models via Quantization量化在生成式模型出现因词嵌入层聚集而丢失信息的现象以及权重分布不同的问题。本文利用1)对比学习进行token级别的蒸馏,2)设计模块级的动态缩放方法。实现了14x的压缩率,相当的模型性能.ACL2022暂无
ZeroQuan提出了一种PTQ量化方法来压缩基于Transformer 的大模型,具有三个主要组件:(1) 用于权重和激活的细粒度硬件友好量化方案; (2) 一种新颖的负担得起的逐层知识蒸馏算法 (LKD),可以在无法访问原始训练数据情况下使用; (3) 高度优化的量化系统后端支持,以消除量化/反量化开销。
剪枝+量化SparseGPT性能最佳的剪枝方法需要对模型进行大量重新训练以恢复准确性。对于 GPT 规模的模型来说是极其昂贵的。虽然存在一些准确的一次性修剪方法(不重新训练的情况下压缩模型),但是应用于具有数十亿个参数的模型时,也会变得非常昂贵。
提高吞吐量FlexGen通过卸载计算到CPU内存、SSD,实现延迟-吞吐量平衡。利用块block调度来重用权重并将I/O与计算重叠。https://github.com/FMInference/FlexGen

FUTURE

  1. 缺少细粒度的量化方法的实现。
  2. 如何有效地实现奇比特精度也具有挑战性。有研究证明了通过将所有 3 位数字打包在连续内存空间中,在生成阶段实现更好的吞吐量。但是,此方法不是最佳的,因为反量化步骤需要连接来自不同字节的位。实现奇数位(例如 5 位)的一种可能方法是使用带有 INT4 和 INT1 的两个整数矩阵。在去量化阶段,我们将两个矩阵耦合在一起。
  3. 如何将 PTQ 与其他轻量级压缩技术(例如训练后修剪)相结合,是进一步降低内存消耗和计算成本的方向。

Ref 1-3: [1] Z. Yao, C. Li, X. Wu, S. Youn, and Y. He, “A Comprehensive Study on Post-Training Quantization for Large Language Models.” arXiv, Mar. 16, 2023. doi: 10.48550/arXiv.2303.08302.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11749.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

哈哥的博客阅读指南,一文对接全链路导引 --- 未完待续~

文章目录 ⭐️ 一、关于 "易编程社区"🌟 社区及星球诞生的初衷🌟 加入社区和星球可以收获什么?🌟 来自哈哥的公开承诺🌟 哈哥的简介 ⭐️ 二、星荐官计划奖金池⭐️ 三、专栏解读🌟 专栏 - 编程初…

一句话让ChatGPT 支持图片回复!

ChatGPT 很智能,很聪明。但是它被困在了互联网里,只能通过网页上的文字,和我们交流。 就像历史上的一个个有趣的灵魂,我们只能通过书中的文字和故事,才能领会到他们的千古风流。 纯文字的方式,还是太单调…

outlook 回复邮件的邮件头使用RE而不是回复

在outlook的"工具" -> "选项" : 点击 “选项" -> "邮件格式" -> "国际选项" : 这里勾选上“常规设置”的选项即可。

科大讯飞版ChatGPT开放内测(文末附内测地址,亲测一秒通过审核)

本周讯飞骤然向开发者提供了内测通道,取名为讯飞星火认知大模型(以下亲切地叫它阿讯)对外开启内测。 国内大模型关注度陡增后,科大讯飞率先给出了deadline:5月6日上线产品。没想到,他们毫无征兆地开启了内…

体验讯飞星火认知大模型,据说中文能力超越ChatGPT

📋 个人简介 💖 作者简介:大家好,我是阿牛,全栈领域优质创作者。😜📝 个人主页:馆主阿牛🔥🎉 支持我:点赞👍收藏⭐️留言&#x1f4d…

超越ChatGPT?新发布:“讯飞星火认知大模”到底行不行?

国内又一巨头发布 大语言模型,是 PPT 融资还是真材实料 ? 作为程序员,到底面对这一趋势,我们何去何从 ? 目录 讯飞星火,5月6日如约而至 一、你真的了解科大讯飞吗? 二、讯飞星火大模型将超越…

科大讯飞版ChatGPT开始内测《讯飞星火》

科大讯飞版ChatGPT产品,提前交卷了! 就在昨夜,讯飞骤然向开发者提供了内测通道,取名为讯飞星火认知大模型对外开启内测。 还有个神奇的英文名字Spark Desk,据说有“火花桌面智能助手”的意思。 申请的过程很简单。用…

科大讯飞股价迅飞 大模型逊色

5月8日,科大讯飞的股价开盘后放量涨停,报63.86元。5月6日,这家公司赶在A股周末休市前一天发布了自家的自然语言大模型“讯飞星火认知大模型”(以下简称“星火”)。 自OpenAI发布GPT-4后,国内的百度、华为、…

中国版ChatGPT「狂飙」,科大讯飞冲刺入局!

视学算法报道 编辑:Aeneas 好困 【导读】ChatGPT,在中国创投圈烧起了一把火。在技术、产业上都积累了数十年的科大讯飞,也是目前国内最被寄予厚望的玩家之一。 ChatGPT,已经炸醒了国内创投圈。去年圈内躺平一整年,今…

最好用的GPT网站,支持盈利模式

搭建商业版ChatGPT网站 拥有独立后台管理–版本可后台一键更新升级 主要功能:登陆注册、商品管理、订单管理、卡密管理(二级分销)、用户管理、支持微信支付宝官方支付、易支付、对接Midjourney绘画、支持用户付费套餐设置、支持GPT3.5和4.0(接口可选官方…

后端服务架构高性能设计之道

“N 高 N 可”,高性能、高并发、高可用、高可靠、可扩展、可维护、可用性等是后台开发耳熟能详的词了,它们中有些词在大部分情况下表达相近意思。本序列文章旨在探讨和总结后台架构设计中常用的技术和方法,并归纳成一套方法论。 前言 本文主…

报名截止,最后十天!AI GPT 应用创新Hackathon,赢$26000奖金

点击蓝字 关注我们 01 引言 AI & GPT 黑客松活动 融合人工智能与Web3:构建下一代去中心化应用 GPT作为人工智能AI的先锋之一,以其惊人的自然语言处理和创作能力闻名。而Web3则代表着区块链和去中心化应用的浪潮,将信任、安全和隐私保护推…

利器在手,华为要让合作伙伴IT建设和运维不再是难事

华为针对商业市场和分销市场伙伴需要,发布了全新平台工具——华为蓝鲸应用商城和DME IQ,以构建一种全新的IT基础设施建设和运维模式,帮助伙伴用好超融合。 出品 | 常言道 作者 | 丁常彦 近半年来,ChatGPT火爆全球,让人…

文心一言绘图无需代码连接飞书即时消息的方法

1 使用场景 随着chatgpt的大火,带来了一波人工客服智能机器人的热潮,除自动聊天外,又增加了AI生成图像的功能,也有越来越多企业关注到了AI绘画的热度,并选择在这一领域加速布局。 文心一言作为国内代表,自然…

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

击上方“机器学习与AI生成创作”,关注星标 获取有趣、好玩的前沿干货! 【AI生成创作与计算机视觉】知识星球 2022、2023年开始,基于扩散模型的AI绘画、ChatGPT系列大模型主导的AIGC狂潮已来!大模型下的科研、工业应用方向&#xf…

程序员怎么就不能去外包公司

前言 程序员怎么就不能去外包公司,我真的很奇怪,为什么总有人劝不要去外包公司。 都是听人劝,吃饱饭。但是听这样的话真的能吃饱饭吗? 今天就来聊聊程序员到底能不能去外包公司。 软件外包公司是做什么的? 软件外…

手游NPC开始用AI对话/ 腾讯回应XR部门全线解散/ 邓明扬获美国数学竞赛第一... 今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 今天又到“疯四”,可惜日报君已经憋不出什么段子…… 不如去问问聪明的ChatGPT——刚好现在连游戏用上了。 除了它,今天还有不少有意思的科技新闻,一起来看~ 腾讯回应XR团队全线解散 据36氪消息&am…

到底什么是“5G新通话”?

今天这篇文章,我们来聊聊今年很热门的一个概念——“5G新通话”。 小枣君当年第一次听说“5G新通话”的时候,还以为是VoNR的“新马甲”。 后来,仔细研究了一下,我才知道,原来“5G新通话”并不是VoNR,而是Vo…

出资3亿,原美团联合创始人欲打造中国版OpenAI;数仓巨头Teradata将退出中国;谷歌企业文化遭前员工痛批 | EA周报...

EA周报 2023年2月17日 每个星期1分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事、掌握IT核心技术。 周报看点 1、谷歌企业文化遭前员工痛批:没有使命感 官僚主义严重 2、热度消退,去年元宇宙搜索流量下降约 80% 3、再度突破&#…

吴恩达与 OpenAI 联手打造《ChatGPT 提示工程》中文版教程,开启智能对话新篇章!

ChatGPT 的使用技巧 ChatGPT 上线至今,已经快5个月了,但是不少人还没真正掌握它的使用技巧。 其实,ChatGPT 的难点,在于 Prompt(提示词)的编写,OpenAI 创始人在今年2月时,在Twitter…