ChatGLM-4-9b-chat本地化|天翼云GPU上vLLM本地部署开源模型完整攻略

 拥有一个私有化的领先国产开源大模型?本文详细介绍了如何在天翼云GPU上使用vLLM部署ChatGLM-4-9b-chat本地化模型的完整攻略,助您快速上手。

9e029b29b6f88e1c783b481f79692f89.png

01

vLLM

本来打算用ollama在GPU服务器上部署开源模型GLM4,在之前文章有部署教程:《普通电脑也能跑大模型,三步搞定私人AI助手 | LLaMA-3本地部署小白攻略》。后来朋友推荐使用vLLM部署服务来运行GLM4。

vLLM是一个高效大语言模型(LLM)推理部署服务框架:‍‍

  • 高效内存管理:通过 PagedAttention 算法,vLLM 减少了内存浪费,优化了模型的运行效率。

  • 高吞吐量:支持异步处理和连续批处理请求,显著提高了模型推理的吞吐量,加速了文本生成和处理速度。

  • 易用性:与 HuggingFace 模型无缝集成,支持多种流行的大型语言模型,简化了模型部署和推理的过程。

  • 提供兼容ChatGPT接口服务。

  • 分布式推理:支持在多 GPU 环境中进行分布式推理,通过模型并行策略和高效的数据通信,提升了处理大型模型的能力。

  • 开源:开源社区支持,能不断改进,适配新模型。

02

安装准备

服务器配置:pi7.4xlarge.4 | 16核 | 64G,GPU: NVIDIA A10*1 (24GB)。

鉴于直接装(“pip install vllm”,还会附带安装 CUDA 12.1 版本。)可能会遇到一些意想不到的坑,毕竟安装步骤看着就几行,实际在服务器上操作可能会遇到一坑又一坑,考虑采用 Docker 方式部署。‍‍‍‍‍‍‍‍‍‍‍

开始选择的镜像: nvcr.io/nvidia/tritonserver:24.07-vllm-python-py3,试了很久,无法正常拉取。

经过不懈的寻找,找到一个国内阿里云的镜像:egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.4.0.post1-pytorch2.1.2-cuda12.1.1-cudnn8-ubuntu22.04。来源《使用vLLM容器镜像快速构建大语言模型的推理环境》:https://help.aliyun.com/zh/egs/use-cases/use-a-vllm-container-image-to-run-inference-tasks-on-a-gpu-accelerated-instance。‍‍‍‍‍‍‍

下载完成后,启动镜像。

docker run -d -t --rm --net=host --gpus all \--privileged \--ipc=host \--name vllm \egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.4.0.post1-pytorch2.1.2-cuda12.1.1-cudnn8-ubuntu22.04

更新vLLM版本。-i 参数指定国内镜像主机。‍‍‍

pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu121 -U
pip install vllm -U -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install jsonschema==3.1000 -U -i https://pypi.tuna.tsinghua.edu.cn/simple

从魔搭社区下载GLM4模型。‍‍‍‍‍‍‍‍‍

pip install modelscope
modelscope download --model ZhipuAI/glm-4-9b-chat

c523a573698ad69ab08f3044992e5c42.png

vLLM在容器内拉起模型时,默认会去huggingface拉取模型文件,有参数可以指定去modelscope魔搭社区下载。因为现在使用容器方式启动,拉取的模型文件会在容器重启后丢失,导致每次启动都会拉取模型文件。所以咱们采用映射方式,将提前下载好的模型映射到容器内。

03‍

启动‍

映射模型文件方式启动容器,模型文件存放位置: /home/GLM-4 。‍‍‍‍‍‍‍

docker run -d -t --rm --net=host --gpus all \--privileged \--ipc=host \--name vllm \-v /home/GLM-4:/home/GLM-4 \egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.4.0.post1-pytorch2.1.2-cuda12.1.1-cudnn8-ubuntu22.04

进入容器。

docker exec -it vllm /bin/bash


‍‍

创建兼容 OpenAI API 接口的推理模型服务。‍‍‍‍‍‍‍‍

python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8005  \--block-size 16 \--model /home/GLM-4 \--dtype float16 \--trust-remote-code \--served-model-name chatglm4-9b \--api-key 1234567 \--disable-log-requests \--enable-prefix-caching \--max_model_len 8192 \--enforce-eager

默认 http://localhost:8000 启动服务器。一次托管一个模型,实现了列表模型、completions 和 chat completions 端口。

创建服务器时,参数含义:

  • –host 和 --port 参数指定地址。

  • –model 参数指定模型名称。

  • –served-model-name 指定服务模型的名称。

  • –max-model-len 指定模型的最大长度。

block-size 大小和模型吞吐相关,保持默认16即可。

glm4最大支持1M上下文,实际一般服务器没有足够内存支持。

实践中指定长度为8192,消耗了大约18G内存。‍‍‍‍‍‍‍‍‍‍

882fc5bed4255aac641ca53261027afa.png

测试服务文本生成接口。‍‍‍

curl --location 'http://localhost:8005/v1/chat/completions' \--header 'Authorization: Bearer 1234567'                        \--header 'Content-Type: application/json'                      \--data '{"model" : "chatglm4-9b","messages" : [{"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Hello!"}]}'

得到返回如下:‍

{"id":"chat-736aa029f23b495782b832df6359feb1","object":"chat.completion","created":1723716800,"model":"chatglm4-9b","choices":[{"index":0,"message":{"role":"assistant","content":"\nHello! How can I assist you today?","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":151336}],"usage":{"prompt_tokens":15,"total_tokens":26,"completion_tokens":11}}

至此,我们得到了一个本地部署国内领先的开源大模型GLM4。后续可以基于这个大模型,继续搭建我们上层的应用,各种对话应用、助手、智能体等等。‍‍‍‍‍‍

例如,采用吴恩达公布的三次模型翻译法,实现了可媲美专业翻译的水平。


相关文章推荐:

在 RAGFlow 中实践 GraphRAG

普通电脑也能跑大模型,三步搞定私人AI助手 | LLaMA-3本地部署小白攻略

Llama 3.1论文精读:为什么模型参数是4050亿?

Agent Hospital | 对话数据合成:清华利用多Agent合成大量医疗对话数据显著提升LLM在医疗场景效果

Vector | Graph:蚂蚁首个开源Graph RAG框架设计解读

拥抱未来,学习 AI !‍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/405770.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

刷题篇 - 03

题目一: 203. 移除链表元素 - 力扣(LeetCode) public ListNode removeElements(ListNode head, int val) {//1. 如果链表为null,直接返回headif (head null) {return head;}//2. 定义快慢指针ListNode pre head;ListNode del …

Tomcat:Web 领域的闪耀明珠,魅力何在?

一、Web技术 HTTP 协议(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最为广泛的一种网络协议。它的主要作用是在客户端和服务器之间传输超文本数据,如网页、图片、视频等。 HTTP 协议的特点 无状态性 HTTP 协议是…

STM32H7双路CAN踩坑记录

STM32H7双路CAN踩坑记录 目录 STM32H7双路CAN踩坑记录1 问题描述2 原因分析3 解决办法4 CAN配置参考代码 1 问题描述 STM32的CAN1和CAN2无法同时使用。 注:MCU使用的是STM32H743,其他型号不确定是否一样,本文只以STM32H743举例说明。 2 原因…

了解同步带选择同步带

同步带和轮选型 同步带传动属于皮带传动,但是改进了传统皮带传动无法保持严格的传动比的打滑问题,传统皮带传动依靠皮带和皮带轮张紧时产生的摩擦力传输动力,但是从动轮遇到障碍或超载荷时,皮带会在皮带轮产生滑动。 解决打滑问题…

项目1 物流仓库管理系统

一、项目概述 本项目旨在开发一个功能全面的物流仓库管理系统,以数字化手段优化仓库作业流程,提高管理效率。系统集成了前端用户交互界面与后端数据处理逻辑,涵盖了从用户注册登录、订单管理、货单跟踪到用户信息维护等多个核心业务模块。通…

前端3d动画-----平移 transform: translate3d()

必须加这个属性&#xff1a;transform-style: preserve-3d; perspective: 900px; 设置了景深才能感到近大远小的感觉 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible&q…

分享一个基于python爬虫的“今日头条”新闻数据分析可视化系统(源码、调试、LW、开题、PPT)

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人 八年开发经验&#xff0c;擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等&#xff0c;大家有这一块的问题可以一起交流&…

AI赋能软件测试:从自动化到智能化,让测试工作事半功倍

引言 在当今这个日新月异的数字时代&#xff0c;人工智能&#xff08;AI&#xff09;正以不可阻挡之势渗透并重塑着各行各业&#xff0c;其中&#xff0c;软件开发与测试领域更是迎来了前所未有的变革。随着软件系统的复杂性日益增加&#xff0c;用户对软件质量、性能及安全性的…

Nginx笔记(高级)

扩容 通过扩容提升整体吞吐量 单机垂直扩容&#xff1a;硬件资源增加 云服务资源增加 整机&#xff1a;IBM、浪潮、DELL、HP等CPU/主板&#xff1a;更新到主流网卡&#xff1a;10G/40G网卡磁盘&#xff1a;SAS(SCSI) HDD&#xff08;机械&#xff09;、HHD&#xff08;混合&…

android13布局查看工具 无源码查看布局 在线查找ui布局id

总纲 android13 rom 开发总纲说明 目录 1.前言 2.工具介绍 2.1工具1 2.2工具2 2.3工具3 2.4工具4 3.彩蛋 1.前言 Android 13提供了一些工具来帮助开发人员查看和优化应用的布局。方便的让我们找到具体应用的布局文件等信息。 2.工具介绍 2.1工具1 老版本DDMS&#x…

封装通用第三方平台用户表(微信开放平台)

文章目录 一. 注册微信开放平台1.1 开发者资质认证1.2 应用申请1.3 配置应用 二.通用数据库表设计三.入库实体类四. 对接第三方平台4.1 微信开放平台VO对象4.2 通用方法 我们的系统可能要对接很多第三方系统&#xff0c;为了便利用户授权使用和对多平台账户的管理。有必要设计通…

ant design pro 技巧之实现列表页多标签

ant design pro 如何去保存颜色ant design pro v6 如何做好角色管理ant design 的 tree 如何作为角色中的权限选择之一ant design 的 tree 如何作为角色中的权限选择之二ant design pro access.ts 是如何控制多角色的权限的ant design pro 中用户的表单如何控制多个角色ant des…

影响五金精密零件加工价格的因素

在制造业中&#xff0c;五金精密零件的加工价格受到多种因素的影响。了解这些因素&#xff0c;对于企业合理控制成本、选择合适的加工供应商至关重要。 首先&#xff0c;零件的设计复杂度是一个重要因素。复杂的设计通常需要更先进的加工技术和更多的加工工序。例如&#xff0c…

Unity编辑器扩展:创建一个欢迎窗口,在启动Editor的时候显示自定义窗口。

Unity编辑器扩展&#xff1a;创建一个欢迎窗口&#xff0c;在启动Editor的时候显示自定义窗口。 在Unity开发过程中&#xff0c;经常会遇到需要向其他人展示重要信息的情况&#xff0c;比如项目文档、脚本说明、插件介绍等。这个窗口不仅能够展示必要的文档信息&#xff0c;还…

用手机写一本电子书

第1步、进入Andi.cn网站 第2步、点击登录&#xff0c;注册用户 第3步、点击去创作&#xff0c;进入创作页面 第4步、点击右下角的小笔&#xff0c;写一篇文章 第5步、下翻&#xff0c;点击提交按钮 第6步、再写一篇文章 第7步、点击栏目设计 第8步、进入栏目设计&#xff0c;点…

FFmpeg的入门实践系列三(基础知识)

欢迎诸位来阅读在下的博文~ 在这里&#xff0c;在下会不定期发表一些浅薄的知识和经验&#xff0c;望诸位能与在下多多交流&#xff0c;共同努力 文章目录 前期博客一、音视频常用术语二、FFmpeg库的结构介绍三、FFmpeg的常用函数初始化封装格式编解码器相关 四、FFmpeg常用的数…

安装搭建MongoDB及配置副本集

目录 一、什么是MongoDB的副本集 简介 &#xff08;1&#xff09;冗余和数据可用性 &#xff08;2&#xff09;MongoDB中的复制 &#xff08;3&#xff09;主从复制和副本集区别 二、副本集的架构 三、副本集的成员 四、部署副本集 1、节点划分 2、安装MongoDB 2.1、…

Jetpack 各种框架简介

Jetpack是Google推出的一套为Android开发提供极大便利的组件、工具和指导集&#xff0c;旨在帮助开发者快速构建高质量的应用&#xff0c;并遵循最佳实践。 Jetpack不仅是一个提高开发效率的工具集&#xff0c;还是Android开发的未来方向。它通过整合各种组件和工具&#xff0…

VAuditDemo审计之二次注入漏洞

目录 VAuditDemo二次注入漏洞 搜索危险函数&#xff0c;用户可控点 regCheck.php messageSub.php message.php 漏洞调用链 漏洞错误利用过程 注册用户 xxxx, 发表payload留言 漏洞正确利用过程 注册用户 wwww\ 退出用户 wwww\\ 使用 wwww\ 登录 发表留言 替换dat…