vLLM私有化部署大语言模型LLM

一、vLLM介绍

二、安装vLLM

1、安装环境

2、安装步骤

三、运行vLLM

1、运行方式

2、切换模型下载源

3、运行本地已下载模型

四、通过http访问vLLM

一、vLLM介绍

vLLM（官方网址：https://www.vllm.ai）是一种用于大规模语言模型（LLM）推理的框架，旨在提高模型的吞吐量和降低延迟。vLLM通过优化内存管理和调度策略，显著提升了模型在高并发场景下的性能。

vLLM利用了一种名为PagedAttention的注意力机制，该机制借鉴了虚拟内存和分页技术，以减少缓存内存（KV Cache）的浪费，并允许在请求之间灵活共享KV缓存。这种设计使得vLLM在保持与现有系统相同延迟水平的情况下，能够将吞吐量提高2到4倍。

vLLM在DB-GPT中被用作默认推理框架，用于数据库交互，其性能提升表现在显著增加吞吐量和减少第一令牌延迟及整体推理延迟。随着并发用户数量的增加，vLLM带来的性能改进尤为明显。

vLLM在QUICK量化间插和无冲突内核的帮助下，实现了高效的LLM推理。实验表明，vLLM在不同模型规模下均表现出较高的吞吐量，例如在Vicuna-13B和Llama-2-70B模型上分别实现了27-29%和33%的吞吐量提升。

vLLM通过创新的内存管理策略和高效的调度机制，在大规模语言模型推理中实现了显著的性能提升，特别是在高并发和资源受限的环境中。

vLLM对外提供的HTTP接口与OpenAI是兼容的。

二、安装vLLM

1、安装环境

硬件CPU：12 vCPU Intel(R) Xeon
内存MEM：48GB
显卡：RTX 3080x2(共20GB)
操作系统：Ubuntu 22.04.1 LTS
CUDA版本：cuda_11.8.r11.8（通过nvcc --version查看结果）
已安装：miniconda3版本：conda 22.11.1

2、安装步骤

根据vLLM官网的安装说明（网址：https://docs.vllm.ai/en/latest/getting_started/installation/ ），分为三大类：GPU、CPU、其他。每类中根据具体的安排硬件平台不同还进行不同的细分。

由于本文所用硬件环境是带CUDA的GPU，因此选择GPU-CUDA方式进行安装。

步骤如下：

1）前置准备：对git增加LFS能力。Git LFS是一个扩展，允许将大文件（如音频、视频、数据集等）存储在Git仓库中，而不会显著增加仓库的大小或影响性能。通过安装Git LFS钩子（hooks），Git LFS能够自动处理这些大文件的上传和下载，确保它们以优化的方式存储在远程仓库中，并在需要时检索到本地。

#若Linux中未安装Git LFS（Large File Storage），则先安装
sudo apt-get install git-lfs#初始化，用于在本地Git仓库中安装Git Large File Storage（LFS）的钩子（hooks）。
git lfs install

2）通过miniconda创建虚拟环境，名为env-vllm

#通过conda创建一个新虚拟环境，指定虚拟环境中包括python3.12的packages
conda create -n env-vllm python=3.12 -y#激活使用该虚拟环境
conda activate env-vllm

3）在虚拟环境中，通过pip自动下载并安装vllm，过程可能需要几十分钟。注意需根据CUDA版本选择安装（由于低版本vLLM存在bug #8443导致VLLM_USE_MODELSCOPE环境变量不生效。在v0.6.3版本修复了该bug，所以直接下载适配CUDA 11.8的新版vllm）

#截止2025年初，默认安装vLLM’s binaries are compiled with CUDA 12.1 and public PyTorch release versions
pip install vllm#根据自身环境，若希望安装vLLM binaries compiled with CUDA 11.8 and public PyTorch release versions，则：
export VLLM_VERSION=0.6.1.post2
export PYTHON_VERSION=312
pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118#由于低版本vLLM存在bug #8443导致VLLM_USE_MODELSCOPE环境变量不生效。在v0.6.3版本修复了该bug，所以直接下载适配CUDA 11.8的新版vllm
pip install https://github.com/vllm-project/vllm/releases/download/v0.6.6.post1/vllm-0.6.6.post1+cu118-cp38-abi3-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

4）在虚拟环境中，可以使用pip show vllm对查看安装结果：

三、运行vLLM

1、运行方式

通过以下可运行vllm，根据模型名称默认自动从 HuggingFace 下载并运行：

# 启动vllm，根据模型名称默认自动从 HuggingFace 下载并运行
vllm serve "模型名称"# 也可以通过以下执行python代码方式启动vllm
python -m vllm.entrypoints.openai.api_server --model="模型名称" --trust-remote-code --port 8000

注：vllm启动有许多选项，可以通过vllm serve --help查看各个选项用途。或者查看官网文档：https://docs.vllm.ai/en/latest/serving/openai_compatible_server.html#command-line-arguments-for-the-server

2、切换模型下载源

vLLM的模型下载默认来源为 HuggingFace 。在国内访问很可能不畅，为此改从国内的魔搭社区下载模型。既在运行前先设置VLLM_USE_MODELSCOPE=True既可切换下载源为魔搭社区。（注意：在HuggingFace与魔塔社区上模型名称可能略有不同）。

# 使用魔塔社区，需要先安装package
pip install modelscope

# 设置环境变量VLLM_USE_MODELSCOPE=True切换下载源为：魔搭社区
# 注意：低版本vLLM存在bug #8443导致该环境变量不生效。在v0.6.3版本修复了该bug
export VLLM_USE_MODELSCOPE=True# 启动vllm，由于设置了环境变量，根据模型名称默认自动从 魔搭社区 下载并运行
vllm serve "Qwen/Qwen2.5-0.5B-Instruct"
# 也可以通过以下执行python代码方式启动vllm
python -m vllm.entrypoints.openai.api_server --model="Qwen/Qwen2.5-0.5B-Instruct" --trust-remote-code --port 8000

3、运行本地已下载模型

除了以上自动下载的方式，还可以通过指定模型目录方式启动（需要先下载准备好），这样有几个好处：一是模型来源可以丰富多样，不仅仅局限以上两个平台；二是运行vLLM时无需再联网下载，比较适合内网服务器。

下面以模型“Yi-1.5-6B-Chat”为例，提前通过git下载模型（需要确保lfs已经安装且初始化，具体见前文）。

cd /root/autodl-tmp/my_models
# 提前通过git下载模型（需要确保lfs已经安装且初始化，具体见前文）
git clone https://www.modelscope.cn/01ai/Yi-1.5-6B-Chat.git

通过指定本地模型所在目录运行vLLM：

# 启动vllm，指定本地模型所在目录
vllm serve "/root/autodl-tmp/my_models/Yi-1.5-6B-Chat"
# 也可以通过以下执行python代码方式启动vllm
python -m vllm.entrypoints.openai.api_server --model="/root/autodl-tmp/my_models/Yi-1.5-6B-Chat" --trust-remote-code --port 8000

注：此例中，指定本地模型所在目录运行vLLM的模型名为：/root/autodl-tmp/my_models/Yi-1.5-6B-Chat

四、通过http访问vLLM

vLLM提供了http接口。下面通过curl验证效果。

# Call the vllm server using curl:
curl -X POST http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \--data '{"model": "Qwen/Qwen2.5-0.5B-Instruct","messages": [{"role": "user","content": "What is the capital of China?"}]}'

chat返回结果（已经格式化排版）如下

{"id": "chatcmpl-f0cbdea8e1fb41528d1ec2cb0e198498","object": "chat.completion","created": 1736836496,"model": "Qwen/Qwen2.5-0.5B-Instruct","choices": [{"index": 0,"message": {"role": "assistant","content": "The capital of China is Beijing.","tool_calls": []},"logprobs": null,"finish_reason": "stop","stop_reason": null}],"usage": {"prompt_tokens": 36,"total_tokens": 44,"completion_tokens": 8,"prompt_tokens_details": null},"prompt_logprobs": null
}

vLLM还暴露了许多metrics，供检测vllm的运行状态：