基于 MUSA 的大语言模型推理和服务框架vLLM

1. 引言​

vLLM是一个高性能且内存高效的大语言模型推理和服务框架,也是当前业界使用范围最广的大模型推理框架,截至目前github star数28.4k。该框架性能优秀,而且部署容易,使用CUDA/ROCm提供GPU加速能力。但vLLM目前不支持使用摩尔线程GPU进行加速,应广大摩尔线程客户及MUSA开发者的呼声,我们对该框架进行了适配。

2. vLLM与MUSA​

摩尔线程致力于构建完善好用的国产GPU应用生态,自主研发了MUSA架构及软件平台。现有的vLLM代码不支持摩尔线程GPU作为后端,因此我们新增了MUSA设备后端,从而让vLLM在摩尔线程GPU上流畅运行。

另外MUSA的一大优势是CUDA兼容,通过musify工具,我们可以快速将官方代码移植至MUSA软件栈,用户可以根据文档自行升级vLLM版本并适配MUSA软件栈。接下来我们将一步步介绍如何快速将vLLM适配到MUSA软件栈。

3. 软硬件依赖​

以下是MUSA开发人员适配时所使用的环境,作为参考:

  • ubuntu20.04
  • vLLM: v0.4.2
  • MUSA SDK: rc3.0.1
  • pytorch: v2.2.0
  • torch_musa: v1.3.0
  • GPU: 摩尔线程S4000
  • 模型: meta-llama/Llama-2-7b-hf

4. MUSA适配​

4.1 MUSA移植​

通过使用musify工具,用户可以快速将原有的CUDA代码无缝迁移到MUSA软件栈,大大提升了用户在MUSA软件栈上开发的效率。musify工具是一个文本替换工具,用于将用户代码中CUDA相关的接口转换为MUSA的对应接口,然后使用MUSA软件栈下的mcc编译器编译成为摩尔线程GPU的可执行文件。

目前用户有两种途径使用musify工具: 一种是通过MUSA SDK中自带的工具: /usr/local/musa/tools/musify-text; 另一种是通过torch_musa中的torch_musa.utils.simple_porting模块; 这两种方式都是musify工具的入口,用户可按需使用。
musify工具提供了常见的接口转换的映射关系,用户一般只需要运行:

# pip install ahocorapy
/usr/local/musa/tools/musify-text <source files/dir to be transformed>

由于用户代码的多样性,有时可能需要用户补充一些映射关系,这里展示了用户自定义映射关系转换的方式:

from torch_musa.utils.simple_porting import SimplePortingSimplePorting(cuda_dir_path="./csrc", mapping_rule={"#include <ATen/cuda/CUDAContext.h>": "#include \"torch_musa/csrc/aten/musa/MUSAContext.h\"","#include <c10/cuda/CUDAGuard.h>": "#include \"torch_musa/csrc/core/MUSAGuard.h\"","#include <ATen/cuda/Exceptions.h>": "#include \"torch_musa/csrc/core/MUSAException.h\"","#include <c10/cuda/CUDAStream.h>": "#include \"torch_musa/csrc/core/MUSAStream.h\"","at::kCUDA": "at::musa::kMUSA","at::cuda::getCurrentCUDAStream()": "at::musa::getCurrentMUSAStream()","__nv_bfloat16": "__mt_bfloat16",}).run()

限于篇幅,这里只展示了部分vLLM框架进行MUSA移植的映射关系,详情见: musa_porting.py

另外需要注意的是:CMakeLists.txt文件中有时会将源文件一个个添加进去,所以也需要修改其中的文件名及后缀(或者使用musify工具)。

4.2 添加MUSA后端​

该部分需要仿照代码中的CUDA后端,新增一个MUSA后端。该部分需要改动python层的代码,这里选取几个典型改动作为示例。

4.2.1 setup.py

首先需要导入torch_musa库,同时使用torch_musa中的MUSAExtension将源文件添加到mcc的编译列表里,如下:

import torch_musa
from torch_musa.utils.musa_extension import BuildExtension, MUSAExtensionext_modules = []
ext_modules.append(MUSAExtension(name="vllm_C",sources=["csrc_musa/cache_kernels.mu","csrc_musa/attention/attention_kernels.mu","csrc_musa/pos_encoding_kernels.mu","csrc_musa/activation_kernels.mu","csrc_musa/layernorm_kernels.mu","csrc_musa/musa_utils_kernels.mu","csrc_musa/moe_align_block_size_kernels.mu","csrc_musa/pybind.cpp","csrc_musa/custom_all_reduce.mu",],extra_compile_args= {"cxx": ['-O3','-std=c++17'],}))

同时修改或新增一些后端的判断逻辑,让vLLM可以识别MUSA后端。
如在vllm/engine/arg_utils.py中修改为:

parser.add_argument("--device",type=str,default=EngineArgs.device,choices=["auto", "cuda", "neuron", "cpu", "musa"],help='Device type for vLLM execution.')

4.2.2 torch.musa

vLLM框架中默认使用CUDA作为后端,因此在代码中直接调用了大量torch.cuda相关的接口,对应的需要修改成torch.musa相应的接口。或者添加判断条件,当后端设置为MUSA时,调用torch.musa相应的接口。如:

# 官方代码:
# device_name = torch.cuda.get_device_name().replace(" ", "_")
# 修改为MUSA接口:
device_name = torch.musa.get_device_name().replace(" ", "_")

4.2.3 FlashAttention​

摩尔线程 S4000(对应计算能力为mp_22)及之后的显卡均支持FlashAttention,对于pytorch框架我们需要使用scaled_dot_product_attention接口。因此我们需要在vllm/attention/backends/flash_attn.py文件中做如下修改:

import torch_musa
from torch.nn.functional import scaled_dot_product_attention# enable musa flash attention
torch.backends.cuda.enable_flash_sdp(True)
torch.backends.cuda.enable_math_sdp(False)
torch.backends.cuda.enable_mem_efficient_sdp(True)attn_output = scaled_dot_product_attention(query.contiguous(),key.contiguous(),value.contiguous(),attn_mask=att_mask.contiguous(),dropout_p=0.0,is_causal=False,)

这样我们就可以体验到MUSA软件栈的深度学习加速库:muDNN,带来的FlashAttention加速,充分释放硬件的计算能力。

4.2.4 分布式​

CUDA架构使用NCCL作为分布式加速库,对应地,MUSA架构使用MCCL作为分布式加速库。我们需要在vllm/distributed/device_communicators/目录下,仿照官方的pynccl.pypynccl_utils.py创建相应的通信库组件,然后将其中cudanccl字样分别替换为musamccl即可,然后在vllm/distributed/parallel_state.py中调用pymccl_utils模块,在摩尔线程GPU上使用MCCL进行分布式加速。

5. 示例​

接下来,我们通过一个简单的示例,展示下如何使用vLLM-MUSA进行大语言模型推理:

import torch
import torch_musa
from vllm import LLM, SamplingParams# modify to your model path
model_path = "/workspace/models/Llama-2-7b-chat-hf/"# prompts example
prompts = ["Hello, my name is","The capital of France is",
]# init vllm
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model=model_path, trust_remote_code=True, device="musa")# generate result
outputs = llm.generate(prompts, sampling_params)# Print the outputs.
for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

可以看到相对于原生仓库,我们仅需要导入torch_musa并将后端设置为musa
至此,我们成功完成了vLLM在MUSA平台的适配工作。

6. 寄语​

vLLM-MUSA已经可在github获取: vllm_musa。

vLLM在MUSA平台快速便捷的适配过程,彰显了MUSA对CUDA的优良兼容性,助力用户业务实现快速高效迁移。我们期待更多的开发者,与我们一起,共同丰富完善MUSA开源社区,让MUSA变得越来越好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/476789.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android Surfaceflinger显示图层合成方式

Android SurfaceFlinger是Android系统中负责窗口管理和图像合成的核心组件。它接收来自不同应用的图层数据&#xff0c;并将这些图层合并成一个单一的图像&#xff0c;然后输出到显示设备上。SurfaceFlinger的合成方式主要涉及两种&#xff1a;Client合成和Device合成。 adb s…

wsl安装

一. wsl简介 1. wsl和wsl2的区别 wsl需要把linux命令翻译为windows命令&#xff0c;性能差一些。 wsl2直接使用linux内核&#xff0c;不需要翻译&#xff0c;性能好&#xff0c;但开销相对大一点&#xff0c;因为需要多运行一个hyper-v虚拟机 (并非完整的虚拟机&#xff0c;是…

任务通知的本质(任务通知车辆运行) 软件定时器的本质(增加游戏音效)

任务通知的本质 没有任务通知 所谓"任务通知"&#xff0c;你可以反过来读"通知任务"。 我们使用队列、信号量、事件组等等方法时&#xff0c;并不知道对方是谁。使用任务通知时&#xff0c;可 以明确指定&#xff1a;通知哪个任务。 使用队列、信号量、…

Kubernetes的pod控制器

文章目录 一&#xff0c;什么是pod控制器二&#xff0c;pod控制器类型&#xff08;重点&#xff09;1.ReplicaSet2.Deployment3.DaemonSet4.StatefulSet5.Job6.Cronjob 三&#xff0c;pod与控制器的关系1.Deployment2.SatefulSet2.1StatefulSet组成2.2headless的由来2.3有状态服…

【单元测试】【Android】JUnit 4 和 JUnit 5 的差异记录

背景 Jetbrain IDE 支持生成 Test 类&#xff0c;其中选择JUnit5 和 JUnit&#xff0c;但是感觉这不是标准的单元测试&#xff0c;因为接口命名吧。 差异对比 两者生成的单测API名称同原API&#xff0c;没加test前缀的。使用差异主要表现在&#xff1a; setUp &#xff06; …

知识中台在多语言客户中的应用

在全球化的商业环境中&#xff0c;企业面临着多语言客户服务的挑战。HelpLook知识中台作为一种智能化解决方案&#xff0c;为企业提供了一个强大的工具&#xff0c;以实现多语言客户服务的自动化和优化。 一、多语言客户服务的重要性 多语言客户服务对于跨国企业至关重要&…

使用 Elastic AI Assistant for Search 和 Azure OpenAI 实现从 0 到 60 的转变

作者&#xff1a;来自 Elastic Greg Crist Elasticsearch 推出了一项新功能&#xff1a;Elastic AI Assistant for Search。你可以将其视为 Elasticsearch 和 Kibana 开发人员的内置指南&#xff0c;旨在回答问题、引导你了解功能并让你的生活更轻松。在 Microsoft AI Services…

【K8S问题系列 |18 】如何解决 imagePullSecrets配置正确,但docker pull仍然失败问题

如果 imagePullSecrets 配置正确&#xff0c;但在执行 docker pull 命令时仍然失败&#xff0c;可能存在以下几种原因。以下是详细的排查步骤和解决方案。 1. 检查 Docker 登录凭证 确保你使用的是与 imagePullSecrets 中相同的凭证进行 Docker 登录&#xff1a; 1.1 直接登录…

Redis的特性ubuntu进行安装

文章目录 1.六大特性1.1内存存储数据1.2可编程1.3可扩展1.4持久化1.5集群1.6高可用1.7速度快 2.具体应用场景&#xff08;了解&#xff09;3.Ubuntu安装Redis3.1安装指令3.2查看状态3.3查找配置文件3.4修改文件内容3.5重启服务器生效3.6安装客户端并进行检查 4.Redis客户端介绍…

【ASE】第八课_冰(ice)的效果

今天我们一起来学习ASE插件&#xff0c;希望各位点个关注&#xff0c;一起跟随我的步伐 今天我们来学习一个简单的冰的效果&#xff0c;这个是根据油管上的视频制作的 可在我的资源里下载模型&#xff0c;贴图&#xff0c;材质 思路 1.物体表面结冰的效果&#xff0c;也就是…

回溯法基础入门解析

回溯法 前 言 回溯法也可以叫做回溯搜索法&#xff0c;它是一种搜索的方式。回溯是递归的副产品&#xff0c;只要有递归就会有回溯。回溯法&#xff0c;一般可以解决如下几种问题&#xff1a; 组合问题&#xff1a;N个数里面按一定规则找出k个数的集合切割问题&#xff1a;一…

Redis原理及应用

Redis简介 Redis是开源的&#xff08;BSD许可&#xff09;&#xff0c;数据结构存储于内存中&#xff0c;被用来作为数据库&#xff0c;缓存和消息代理。它支持多种数据结构&#xff0c;例如&#xff1a;字符串&#xff08;string&#xff09;&#xff0c;哈希&#xff08;hash…

Ubuntu ESP32开发环境搭建

文章目录 ESP32开发环境搭建安装ESP-IDF搭建一个最小工程现象 ESP32开发环境搭建 最近有个小项目需要用到能够联网的mcu驱动&#xff0c;准备玩玩esp的芯片&#xff0c;记录下ESP32开发环境搭建的过程。 ESP-IDF 是乐鑫科技为其 ESP32 系列芯片提供的官方开发框架。这个框架主…

【C#设计模式(14)——责任链模式( Chain-of-responsibility Pattern)】

前言 责任链模式通过将请求和处理者解耦&#xff0c;关联多个处理者形成一个链条&#xff0c;使每个处理者都有机会处理请求&#xff0c;避免了将所有处理逻辑集中在一个对象中的复杂性。 代码 //请求者 public class Requestor {private string content;public string Cont…

用python将一个扫描pdf文件改成二值图片组成的pdf文件

使用墨水屏读书现在似乎越来越流行&#xff0c;这确实有一定的好处&#xff0c;例如基本不发热&#xff0c;电池续航时间超长&#xff0c;基本不能游戏所以有利于沉浸式阅读&#xff0c;还有不知道是不是真的有用的所谓防蓝光伤害。但是&#xff0c;如果阅读的书籍是扫描图片组…

vue3封装Element Plus table表格组件

支持绝大部分Element Plus原有设置属性&#xff0c;支持分页&#xff0c;支持动态适配高度 效果展示 组件代码&#xff1a; <template><div class"table-wrap" ref"tableWrap"><el-tableclass"w100 h100":data"tableInfo.…

IText创建加盖公章的pdf文件并生成压缩文件

第一、前言 此前已在文章&#xff1a;Java使用IText根据pdf模板创建pdf文件介绍了Itex的基本使用技巧&#xff0c;本篇以一个案例为基础&#xff0c;主要介绍IText根据pdf模板填充生成pdf文件&#xff0c;并生成压缩文件。 第二、案例 以下面pdf模板为例&#xff0c;生成一个p…

组会 | 大语言模型 + LoRA

目录 1 大语言模型概述1.1 模型的架构1.2 模型的细节&#xff1a;标记化和嵌入化1.3 模型的核心 2 多头注意力机制3 LoRA 概述3.1 冻结部分模型参数3.2 低秩适配&#xff08;LoRA&#xff09;3.2.1 核心工作原理&#xff1a;冻结模型参数3.2.2 核心工作原理&#xff…

对象:是什么,使用,遍历对象,内置对象

对象使用&#xff1a; 对象访问&#xff1a;&#xff08;对象每个属性之间用逗号隔开&#xff09; 补充&#xff1a;也可以通过 对象名[‘属性名’] 对象方法&#xff1a; 方法名:匿名函数 调用方法不需要控制台打印&#xff0c;只要调用就自动输出值 遍历对象&#xff1a; …

小程序24-滚动效果:scroll-view组件详解

在微信小程序中如果想实现内容滚动&#xff0c;需要使用 scroll-view 组件 scroll-view&#xff1a;可滚动视图区域&#xff0c;适用于需要滚动展示内容的场景&#xff0c;用户可以通过手指滑动或者点击滚动条滚动内容。 scroll-x允许横向滚动scroll-y允许纵向滚动 实现横向…