【工程记录】QwQ-32b 8bit量化部署教程(vLLM | 缓解复读)

文章目录

  • 写在前面
  • 1. 环境配置
  • 2. 下载QwQ-32b 8bit量化模型
  • 3. 使用vLLM本地推理

写在前面

仅作个人学习记录用。本文记录QwQ-32b 8bit量化模型的部署的详细方法。

1. 环境配置

以下环境经测试无bug(Deepseek R1用这个环境也能直接跑):

gpu: V100(32GB) * 2
python 3.12
cuda 12.1
pytorch==2.5.1
modelscope==1.22.3
tqdm==4.67.1
transformers==4.48.2
vllm==0.7.1

注意,如果安装vllm时发生报错:

.......
Failed to build xformers
ERROR: Failed to build installable wheels for some pyproject.toml based projects (xformers)

这是由于xformers与pytorch版本不符导致的,如果使用本文环境,对应的xformers版本为v0.0.28.post3.。尽量通过下载whl文件(链接)的方式来安装xformers。

2. 下载QwQ-32b 8bit量化模型

不少人(包括我)在QwQ-32B模型的使用过程中遇到了无限生成、重复内容过多的问题。也有人反馈deepseek-r1-distill-qwen-32b和Qwen2.5-Max推理模式也会出现类似问题。

为避免这些问题,可以考虑部署Unsloth 团队修复了上述错误的模型。
在这里插入图片描述

从 ModelScope 下载模型

如果从你从 HuggingFace 下载比较慢,也可以从ModelScope【链接】中下载。

从ModelScope下载8bit量化的gguf文件可以通过命令行,代码如下:

modelscope download --model unsloth/QwQ-32B-GGUF QwQ-32B.Q8_0.gguf --local_dir ./dir

vLLM支持gguf 格式,但是在运行时仍然需要指定tokenizer,因此除了下载模型权重之外,还需要下载QwQ-32B的Tokenizer。tokenizer相关文件如下:

config.json
tokenizer_config.json
tokenizer.json

自行下载:https://huggingface.co/Qwen/QwQ-32B/tree/main

全部下载完成后,将MODEL_PATH统一改成你下载的模型所在的文件夹位置。

3. 使用vLLM本地推理

ChatGLM3-6b部署完毕,接下来可以运行Demo来验证是否部署成功。
本地调用代码如下:

from vllm import LLM, SamplingParamsif __name__ == '__main__':MODEL_PATH = "XXXX/QwQ-32B-unsloth/QwQ-32B.Q8_0.gguf"llm = LLM(model=MODEL_PATH,tokenizer= "XXXX/QwQ-32B-unsloth",tensor_parallel_size=4,  # 多GPU并行数(单GPU设为1)trust_remote_code=True,  # 允许自定义代码gpu_memory_utilization=0.7,  # GPU显存利用率dtype="float16",  # 量化精度(可选:float16/auto)max_model_len=10240)# 配置生成参数sampling_params = SamplingParams(temperature=0.6,top_p=0.9,repetition_penalty=1.1,max_tokens=2048)messages = ['xxxx']outputs = llm.generate(messages, sampling_params)# 输出结果for output in outputs:print(f"Response: {output.outputs[0].text}\n")

正常运行:
在这里插入图片描述

(其实还是会复读)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40069.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch 入门

Elasticsearch 入门 1. 认识 Elasticsearch 1.1 现有查询数据存在的问题 查询效率较低 由于数据库模糊查询不走索引,在数据量较大的时候,查询性能很差。 功能单一 数据库的模糊搜索功能单一,匹配条件非常苛刻,必须恰好包含用户…

Docker镜像相关命令(Day2)

文章目录 前言一、问题描述二、相关命令1.查看镜像2.搜索镜像3.拉取镜像4.删除镜像5.镜像的详细信息6.标记镜像 三、验证与总结 前言 Docker 是一个开源的容器化平台,它让开发者能够将应用及其依赖打包到一个标准化的单元(容器)中运行。在 D…

网站服务器常见的CC攻击防御秘籍!

CC攻击对网站的运营是非常不利的,因此我们必须积极防范这种攻击,但有些站长在防范这种攻击时可能会陷入误区。让我们先了解下CC攻击! CC攻击是什么 CC是DDoS攻击的一种,CC攻击是借助代理服务器生成指向受害主机的合法请求&#x…

【PICO】开发环境配置准备

Unity编辑器配置 安装Unity编辑器 安装UnityHub 安装Unity2021.3.34f1c1 添加安卓平台模块 Pico软件资源准备 资源准备地址:Pico Developer PICO SDK PICO Unity Integration SDK PICO Unity Integration SDK 为 PICO 基于 Unity 引擎研发的软件开发工具…

传输层安全协议 SSL/TLS 详细介绍

传输层安全性协议TLS及其前身安全套接层SSL是一种安全传输协议,目前TLS协议已成为互联网上保密通信的工业标准,在浏览器、邮箱、即时通信、VoIP等应用程序中得到广泛的应用。本文对SSL和TLS协议进行一个详细的介绍,以便于大家更直观的理解和认…

一文解读DeepSeek在工业制造领域的应用

引言 在当今数字化浪潮席卷全球的背景下,各个行业都在积极寻求创新与变革,工业制造领域也不例外。然而,传统工业制造在生产效率、质量控制、成本管理等方面面临着诸多挑战。在这一关键时期,人工智能技术的兴起为工业制造带来了新的…

3.Excel:快速分析

补充:快捷键:CTRLQ 一 格式化 1.数据条 2.色阶 3.开始菜单栏里面选择更多 补充:想知道代表什么意思:管理规则-编辑规则 二 表格 点击后会变成超级表,之前是普通表。 三 迷你图 图放在单元格里面。 补充:除了…

区间端点(java)(贪心问题————区间问题)

deepseek给了一种超级简单的做法 我是真的想不到 贪心的思路是 局部最优——>全局最优 这种我是真的没有想到,这样的好处就是后面便利的时候可以通过foreach循环直接便利qu的子元素也就是对应的某一个区间, 将一个二维数组变成一维数组,每一个一维…

STM32蜂鸣器播放音乐

STM32蜂鸣器播放音乐 STM32蜂鸣器播放音乐 Do, Re, Mi, Fa, 1. 功能概述 本系统基于STM32F7系列微控制器,实现了以下功能: 通过7个按键控制蜂鸣器发声,按键对应不同的音符。每个按键对应一个音符(Do, Re, Mi, Fa, Sol, La, Si&a…

基于docker-compose 部署可道云资源管理器

容器编排Explorer 容器化部署MariaDB容器化部署Redis容器化部署PHP容器化部署Nginx编排部署compose服务 var code “9861ce02-1202-405b-b419-4dddd337aaa7” GitHub官网 KodExplorer 是一款网页文件管理器。它也是一个网页代码编辑器,可让你直接在网页浏览器中开…

【Git】--- Git远程操作 标签管理

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: Git 前面我们学习的操作都是在本地仓库进行了,如果团队内多人协作都在本地仓库操作是不行的,此时需要新的解决方案 --- 远程仓库。…

Deepseek API+Python 测试用例一键生成与导出 V1.0.3

** 功能详解** 随着软件测试复杂度的不断提升,测试工程师需要更高效的方法来设计高覆盖率的测试用例。Deepseek API+Python 测试用例生成工具在 V1.0.3 版本中,新增了多个功能点,优化了提示词模板,并增强了对文档和接口测试用例的支持,极大提升了测试用例设计的智能化和易…

Axure RP9.0 教程:左侧菜单列表导航 ( 点击父级菜单,子菜单自动收缩或展开)【响应式的菜单导航】

文章目录 引言I 实现步骤添加商品管理菜单组推拉效果引言 应用场景:PC端管理后台页面,左侧菜单列表导航。 思路: 用到了动态面板的两个交互效果来实现:隐藏/显示切换、展开/收起元件向下I 实现步骤 添加商品管理菜单组 在左侧画布区域添加一个菜单栏矩形框;再添加一个商…

详细比较StringRedisTemplate和RedisTemplate的区别及使用方法,及解决融合使用方法

前言 感觉StringRedisTemplate和RedisTemplate非常的相识,到底有什么区别和联系呢?点开idea,打开其依赖关系,可以看出只需使用maven依赖包spring-boot-starter-data-redis,然后在service中注入StringRedisTemplate或者…

SpringSecurity——前后端分离登录认证

SpringSecurity——前后端分离登录认证的整个过程 前端&#xff1a; 使用Axios向后端发送请求 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>登录</title><script src"https://cdn…

如何用腾讯云建站做好一个多语言的建筑工程网站?海外用户访问量提升3倍!分享我的经验

作为新疆地区领先的工程建筑企业&#xff0c;我们深知在数字化浪潮中&#xff0c;一个专业、高效且具备国际视野的官方网站是企业形象与业务拓展的“门面担当”。然而&#xff0c;传统的建站流程复杂、技术门槛高、多语言适配难等问题&#xff0c;曾让我们在数字化转型中举步维…

遥控器钥匙学习---通过uds指令

1、实际报文 2、硬件配置信息 使用原gateway硬件&#xff0c;软件基于sbcm-main工程新建的一个分支。主要用于钥匙学习的指令发送。 3、后续更改 这里需要细化一下&#xff0c;为了后续方便测试 4、钥匙学习策略 可以学习2把钥匙 一次可以学习把钥匙&#xff0c;uds命令&…

QinQ项展 VLAN 空间

随着以太网技术在网络中的大量部署&#xff0c;利用 VLAN 对用户进行隔离和标识受到很大限制。因为 IEEE802.1Q 中定义的 VLAN Tag 域只有 12 个比特&#xff0c;仅能表示 4096 个 VLAN&#xff0c;无法满足城域以太网中标识大量用户的需求&#xff0c;于是 QinQ 技术应运而生。…

给Web开发者的HarmonyOS指南02-布局样式

给Web开发者的HarmonyOS指南02-布局样式 本系列教程适合鸿蒙 HarmonyOS 初学者&#xff0c;为那些熟悉用 HTML 与 CSS 语法的 Web 前端开发者准备的。 本系列教程会将 HTML/CSS 代码片段替换为等价的 HarmonyOS/ArkUI 代码。 布局基础对比 在Web开发中&#xff0c;我们使用CS…

mapbox进阶,添加鹰眼图控件

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️mapboxgl-minimap 鹰眼控件二、🍀添加…