Meta Llama 3 使用 Hugging Face 和 PyTorch 优化 CPU 推理

原文地址:meta-llama-3-optimized-cpu-inference-with-hugging-face-and-pytorch

了解在 CPU 上部署 Meta* Llama 3 时如何减少模型延迟

2024 年 4 月 19 日

万众期待的 Meta 第三代 Llama 发布了,我想确保你知道如何以最佳方式部署这个最先进的(SoTA)LLM。在本文中,我们将重点讨论如何执行只权重量化(WOQ)来压缩 8B 参数模型并改善推理延迟,但首先,让我们讨论一下 Meta Llama 3。

Llama 3

迄今为止,Llama 3 系列包括 8B 到 70B 参数的模型,未来还会有更多版本。这些模型都附带有允许使用的 Meta Llama 3 许可证,请在接受使用这些模型所需的条款之前仔细阅读。这标志着 Llama 模型系列和开源人工智能进入了激动人心的新篇章。

结构

Llama 3 是一种基于纯解码器transformer的自动回归 LLM。与 Llama 2 相比,Meta 团队做出了以下显著改进:

  • 采用分组查询关注 (GQA),提高了推理效率。
  • 优化了标记符号生成器,其词汇量为 128K 标记,旨在更高效地编码语言。
  • 在 15 万亿个 token 数据集上进行了训练,比 Llama 2 的训练数据集大 7 倍,包含的代码多 4 倍。

下图是 print(model) 的结果,其中 model 为 meta-llama/Meta-Llama-3-8B-Instruct。从图中我们可以看到,该模型由 32 个 LlamaDecoderLayers 组成,这些 LlamaDecoderLayers 由 Llama Attention 自我注意组件构成。此外,它还有 LlamaMLP、LlamaRMSNorm 和一个线性头。

29

语言建模性能

该模型在各种行业标准语言建模基准(如 MMLU、GPQA、HumanEval、GSM-8K、MATH 等)上进行了评估。在本文中,我们将回顾 "指令调整模型 "的性能。这些数据中最引人注目的是 Llama 3 8B 参数模型在所报告的基准测试中的性能比 Llama 2 70B 高出 62% 到 143%,而模型体积却小了 88%!

30

最新一代 Llama 提升了语言建模性能、许可权限和架构效率,标志着生成式人工智能领域翻开了激动人心的篇章。让我们来探讨如何优化 CPU 上的推理,以实现 Llama 3 的可扩展、低延迟部署。

使用 PyTorch 优化 Llama 3 推断

在本文中,我们将重点介绍如何在 meta-llama/Meta-Llama-3-8B-Instruct 中应用仅权重量化(WOQ)。WOQ 在性能、延迟和准确性之间取得了平衡,可选择量化到 int4 或 int8。WOQ 的一个关键部分是去量化步骤,它在计算前将 int4/in8 权重转换回 bf16。

31

环境设置

在 Llama-3-8B-Instruct 上执行 WOQ 需要大约 60GB 内存。其中约 30GB 用于加载完整模型,约 30GB 用于量化期间的峰值内存。WOQ Llama 3 只消耗约 10GB 内存,这意味着我们可以通过从内存中释放完整模型来释放约 50GB 内存。

如果在自己的集成开发环境中运行,你可能需要解决其他依赖性问题,如安装 Jupyter 和/或配置 conda/python 环境。在开始之前,请确保已安装以下依赖项。

intel-extension-for-pytorch==2.2
transformers==4.35.2
torch==2.2.0
huggingface_hub

访问和配置 Llama 3

访问 Llama 3 的模型和令牌生成器需要一个 Hugging Face* 账户。

为此,请从设置菜单中选择 "访问令牌"(图 4)并创建一个令牌。

32

运行以下代码后,复制访问令牌并将其粘贴到 Jupyter 单元格中生成的 "令牌 "字段。

from huggingface_hub import notebook_login, Repository
# Login to Hugging Face
notebook_login()

使用 WOQ 量化 Llama-3-8B-Instruct

我们将利用 PyTorch 的英特尔® 扩展* 将 WOQ 应用于 Llama 3。该扩展包含针对英特尔硬件的最新 PyTorch 优化。请按照以下步骤对 Llama 3 模型进行量化并执行推理:

1. Llama 3 模型和标记器: 导入所需的软件包,并使用 AutoModelForCausalLM.from_pretrained() 和 AutoTokenizer.from_pretrained() 方法加载 Llama-3-8B-Instruct 特定的权重和标记符。

import torch
import intel_extension_for_pytorch as ipex
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
Model = 'meta-llama/Meta-Llama-3-8B-Instruct'
model = AutoModelForCausalLM.from_pretrained(Model)
tokenizer = AutoTokenizer.from_pretrained(Model)

2. 量化配方配置(Quantization Recipe Config): 配置 WOQ 量化配方。我们可以将 weight_dtype 变量设置为所需的内存数据类型,分别从 torch.quint4x2 或 torch.qint8 中选择 int4 和 in8。此外,我们还可以使用 lowp_model 来定义去量化精度。目前,我们将保持 ipex.quantization.WoqLowpMode.None 作为默认的 bf16 计算精度。

qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(weight_dtype=torch.quint4x2, # or torch.qint8lowp_mode=ipex.quantization.WoqLowpMode.NONE, # or FP16, BF16, INT8
)
checkpoint = None # optionally load int4 or int8 checkpoint
# PART 3: Model optimization and quantization
model_ipex = ipex.llm.optimize(model, quantization_config=qconfig, low_precision_checkpoint=checkpoint)
del model 

我们使用 ipex.llm.optimize() 应用 WOQ,然后使用 del model 从内存中删除完整模型,释放出 ~30GB 内存。

3. 提示 Llama 3:与 LLama 2 一样,Llama 3 也为其指令调整模型预设了提示模板。使用该模板,开发人员可以定义特定的模型行为指令,并提供用户提示和对话历史记录。

system= """\n\n You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. If you don't know the answer to a question, please don't share false information."""
user= "\n\n You are an expert in astronomy. Can you tell me 5 fun facts about the universe?"
model_answer_1 = 'None'
llama_prompt_tempate = f"""
<|begin_of_text|>\n<|start_header_id|>system<|end_header_id|>{system}
<|eot_id|>\n<|start_header_id|>user<|end_header_id|>{user}
<|eot_id|>\n<|start_header_id|>assistant<|end_header_id|>{model_answer_1}<|eot_id|>
"""
inputs = tokenizer(llama_prompt_tempate, return_tensors="pt").input_ids

我们提供所需的字段,然后使用标记器将整个模板转换成模型的标记。

4. Llama 3 推论: 在文本生成方面,我们利用 TextStreamer 生成实时推理流,而不是一次性打印整个输出。这将为读者带来更自然的文本生成体验。我们为 model_ipex.generate() 和其他文本生成参数提供了配置好的流。

with torch.inference_mode():tokens = model_ipex.generate(inputs,streamer=streamer,pad_token_id=128001,eos_token_id=128001,max_new_tokens=300,repetition_penalty=1.5,
)

运行此代码后,模型将开始生成输出。请记住,这些都是未经过滤的非保护输出。对于真实世界的使用案例,你将需要进行额外的后处理考虑。

33

就是这样。只需不到 20 行代码,你就能在生态系统中拥有最新 SoTA LLM 的低延迟 CPU 优化版本。

总结

与前几代产品相比,Meta 的 Llama 3 LLM 系列有了显著的改进,并提供了多种配置(更多配置即将推出)。在本文中,我们探讨了利用仅权重量化(WOQ)增强 CPU 推理能力的问题,这种技术可以减少延迟,同时对准确性的影响最小。

通过将新一代面向性能的 Llama 3 LLM 与 WOQ 等优化技术相结合,开发人员可以为 GenAI 应用开启新的可能性。这种组合简化了硬件要求,使集成到新系统和现有系统中的 LLM 能够实现高保真、低延迟的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/319545.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

堆栈打印跟踪Activity的启动过程(基于Android10.0.0-r41),framework修改,去除第三方app的倒计时页面

文章目录 堆栈打印跟踪Activity的启动过程(基于Android10.0.0-r41)&#xff0c;framework修改&#xff0c;去除第三方app的倒计时页面1.打印异常堆栈2.去除第三方app的倒计时页面3.模拟点击事件跳过首页进入主页 堆栈打印跟踪Activity的启动过程(基于Android10.0.0-r41)&#x…

UNI-APP_拨打电话权限如何去掉,访问文件权限关闭

uniapp上架过程中一直提示&#xff1a;允许“app名”拨打电话和管理通话吗&#xff1f; uniapp配置文件&#xff1a;manifest.json “permissionPhoneState” : {“request” : “none”//拨打电话权限关闭 }, “permissionExternalStorage” : {“request” : “none”//访…

深度解析Java 9核心新特性

码到三十五 &#xff1a; 个人主页 < 免责声明 > 避免对文章进行过度解读&#xff0c;因为每个人的知识结构和认知背景都不同&#xff0c;没有一种通用的解决方案。对于文章观点&#xff0c;不必急于评判。融入其中&#xff0c;审视自我&#xff0c;尝试从旁观者角度认清…

ruoyi漏洞总结

若依识别 黑若依 :icon hash"-1231872293 绿若依 :icon hash"706913071” body" 请通过前端地址访 " body" 认证失败&#xff0c;无法访问系统资源 " 如果页面访问显示不正常&#xff0c;可添加默认访问路径尝试是否显示正常 /login?redi…

.net6 webapi 部署到IIS

一、发布.net6 webapi 项目 1.1 visual studio 2022右键发布到文件夹。 二、增加IIS容器 2.1 控制面板 2.2 启用或关闭Windows功能 3.3 勾选Internet Information Services,点击确定进行安装 三、部署webapi到IIS 3.1 安装 dotnet-hosting-6.0.29-win.exe 3.2 创建应用…

基于高德 API 的自动获取气候数据的 Python 脚本

文章目录 高德申请 Key脚本介绍运行结果示例 源代码&#xff1a; https://github.com/ma0513207162/PyPrecip。pyprecip\reading\read_api.py 路径下。 项目介绍&#xff1a;PyPrecip 是一个专注于气候数据处理的 Python 库&#xff0c;旨在为用户提供方便、高效的气候数据处理…

思考题 —— Windows 登录密码

1.windows登录的明文密码&#xff0c;存储过程是怎么样的&#xff1f;密文存放在哪个文件下&#xff1f;该文件是否可以打开&#xff0c;并且查看到密文&#xff1f; 系统通过保存密码的哈希值来确保安全性&#xff0c;进行加密存储的方法通常为NTLM或Kerberos身份认证协议。该…

2024年第七届大数据技术国际会议(ICBDT 2024)即将召开!

2024年第七届大数据技术国际会议&#xff08;ICBDT 2024&#xff09;将于2024年9月20-22日在中国杭州的浙江工商大学举行。数据驱动未来&#xff0c;技术引领潮流。从数据挖掘算法的优化&#xff0c;到数据处理速度的提升&#xff0c;再到数据安全与隐私保护的进步&#xff0c;…

配电室智能巡检机器人

近年来&#xff0c;生产过程高度自动化&#xff0c;各工矿企业关键场所需定期巡检维护。但目前巡检主要靠人工&#xff0c;既耗时费力效率又低&#xff0c;且受环境等因素影响&#xff0c;巡检难以全面规范&#xff0c;隐患或问题易被忽视。在此情况下&#xff0c;如何利用现有…

redis 高可用 Sentinel 详解

写在前面 redis 在我们日常的业务开发中是十分常见的&#xff0c;而redis的可用性就必须要有很高的要求&#xff0c;那么 redis集群的高可用由有一个或者多个 Sentinel(哨兵) 实例组成的 哨兵系统来保证的。 哨兵 由一个或者多个 Sentinel 实例组成的 Sentinel 系统可以监控任…

如何配置X86应用程序启用大地址模式(将用户态虚拟内存从2GB扩充到3GB),以解决用户态虚拟内存不够用问题?(项目实战案例解析)

目录 1、概述 2、为什么不直接将程序做成64位的&#xff1f; 3、进程内存不足导致程序发生闪退的案例分析 3.1、问题说明 3.2、将Windbg附加到程序进程上进行动态调试 3.3、动态调试的Windbg感知到了中断&#xff0c;中断在DebugBreak函数调用上 3.4、malloc或new失败的…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-6.5--I.MX6U启动方式

前言&#xff1a; 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM&#xff08;MX6U&#xff09;裸机篇”视频的学习笔记&#xff0c;在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

Unity开发微信小游戏(2)分享

目录 1.概述 2.代码 3.示例 4.个人作品 1.概述 这里我们能做有两件事&#xff1a; 1&#xff09;主动发起分享 2&#xff09;监听右上角分享&#xff08;...按钮&#xff0c;发朋友圈也在这里&#xff09; API&#xff1a;官方文档 2.代码 1&#xff09;主动发起分享&…

【Linux】进程程序替换

思维导图 学习目标 学习进程替换的原理&#xff0c;掌握一些exec*函数的用法。 一、进程的程序替换的原理 用fork创建子进程后&#xff0c;子进程执行的是和父进程相同的程序&#xff08;但有可能执行不同的代码分支&#xff09;&#xff0c;若想让子进程执行另一个程序&#…

Liunx发布tomcat项目

Liunx在Tomcat发布JavaWeb项目 1.问题2.下载JDK3.下载Tomcat4.Tomcat本地JavaWeb项目打war包、解压、发布5.重启Tomcat,查看项目 1.问题 1.JDK 与 Tomcat 版本需匹配&#xff0c;否则页面不能正确显示 报错相关&#xff1a;Caused by: java.lang.ClassNotFoundException: java…

贪吃蛇(上)Win32API

感谢大佬的光临各位&#xff0c;希望和大家一起进步&#xff0c;望得到你的三连&#xff0c;互三支持&#xff0c;一起进步 个人主页&#xff1a;LaNzikinh-CSDN博客 文章目录 前言一、Win32 API二、地图的绘制和初始化总结 前言 贪吃蛇&#xff08;也叫做贪食蛇&#xff09;游…

深入学习Redis(1):Redis内存模型

Redis的五个对象类型 字符串&#xff0c;哈希&#xff0c;列表&#xff0c;集合&#xff0c;有序集合 本节有关redis的内存模型 1.估算redis的内存使用情况 目前内存的价格比较的高&#xff0c;如果对于redis的内存使用情况能够进行计算&#xff0c;就可以选用合适的设备进…

基于MSOGI的交叉对消谐波信号提取网络MATLAB仿真

微❤关注“电气仔推送”获得资料&#xff08;专享优惠&#xff09; 模型简介&#xff1a; 此模型利用二阶广义积分器&#xff08;SOGI&#xff09;对基波电流和相应次的谐波电流进行取 &#xff0c;具体是通过多个基于二阶广义积分器的正交信号发生器 &#xff08; S&#xf…

JavaScript入门:用JS点亮你的第 1 个网页圣诞树!

你好&#xff0c;我是云桃桃。 一个希望帮助更多朋友快速入门 WEB 前端的程序媛。 云桃桃-大专生&#xff0c;一枚程序媛&#xff0c;感谢关注。回复 “前端基础题”&#xff0c;可免费获得前端基础 100 题汇总&#xff0c;回复 “前端工具”&#xff0c;可获取 Web 开发工具合…

JVM笔记1--Java内存区域

1、运行时数据区域 从上图可以看出来&#xff0c;Java虚拟机运行时数据区域整体上可以分成5大块&#xff1a; 1.1、程序计数器 程序计数器是一块较小的内存空间。它可以看做当前线程所执行的字节码的行号指示器。在Java虚拟机的概念模型里&#xff0c;字节码解释器工作时就是…