LLM大模型推理加速 vLLM

LLM大模型推理加速 vLLM

news/2025/1/8 4:53:46/文章来源:https://blog.csdn.net/weixin_42357472/article/details/132664224

参考：
https://github.com/vllm-project/vllm
https://zhuanlan.zhihu.com/p/645732302

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文档

在这里插入图片描述

加速原理：
PagedAttention，主要是利用kv缓存
在这里插入图片描述

使用：

##启动正常api服务
python -m vllm.entrypoints.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 192.168.19.14 --port 10860 --max-num-seqs 
256 --trust-remote-code --tensor-parallel-size 2  ##启动openai形式  api服务
python -m vllm.entrypoints.openai.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 192.168.19.14 --port 10860 --max-nu
m-seqs 256 --trust-remote-code --tensor-parallel-size 2

在这里插入图片描述

api访问：

import requests
import jsonheaders = {"User-Agent": "Test Client"}
pload = {"prompt": "你能做什么","n": 2,"use_beam_search": True,"temperature": 0.0,"max_tokens": 16,"stream": False,}
response = requests.post("http://192.168.19.14:10860/generate", headers=headers, json=pload, stream=True)
print(response)
print(json.loads(response.content)["text"])

问题

现在中文qwen模型运行返回的基本都是乱码，不知道是不是vLLM支持的问题？

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/120245.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

springboot整合elasticsearch

springboot整合elasticsearch

matchAllQuery查询 BeforeEachvoid setUp() {this.client new RestHighLevelClient(RestClient.builder(HttpHost.create("http://43.139.59.28:9200")));}AfterEachvoid tearDown() throws IOException {this.client.close();} Testvoid testMatchAll() throws IOE…

阅读更多...

【Yolov5+Deepsort】训练自己的数据集（3）| 目标检测追踪 | 轨迹绘制 | 报错分析解决

【Yolov5+Deepsort】训练自己的数据集（3）| 目标检测追踪 | 轨迹绘制 | 报错分析解决

📢前言：本篇是关于如何使用YoloV5Deepsort训练自己的数据集，从而实现目标检测与目标追踪，并绘制出物体的运动轨迹。本章讲解的为第三部分内容：数据集的制作、Deepsort模型的训练以及动物运动轨迹的绘制。本文中用到的数…

阅读更多...

解决微信小程序recycle-view使用百分比单位控制宽高时出现的内容溢出问题

解决微信小程序recycle-view使用百分比单位控制宽高时出现的内容溢出问题

recycle-view是微信小程序官方推出的一个经过优化的长列表组件，但是在使用百分比单位控制高宽时有个内容溢出问题，虽然它提供了height和width的参数可以设置宽高，但每次写列表都需要去js里获取宽高并设置是较为麻烦的，所以现在来着…

阅读更多...

WordPress Page Builder KingComposer 2.9.6 Open Redirection

WordPress Page Builder KingComposer 2.9.6 Open Redirection

WordPress Page Builder KingComposer 2.9.6 Open Redirection WordPress 插件 KingComposer 版本2.9.6 以及以前版本受到开放重定向漏洞的影响。该漏洞在packetstorm网站披露于2023年7月24日，除了该漏洞，该版本的插件还存在XSS攻击的漏洞风险图1.来自…

阅读更多...

LeetCode(力扣)77. 组合Python

LeetCode(力扣)77. 组合Python

LeetCode77. 组合题目链接代码题目链接 https://leetcode.cn/problems/combinations/description/ 代码 class Solution:def combine(self, n: int, k: int) -> List[List[int]]:result []return self.backtracking(n, k, 1, [], result)def backtracking(self, n, k…

阅读更多...

Java Web3J ：使用web3j监听、查询、订阅智能合约的事件

Java Web3J ：使用web3j监听、查询、订阅智能合约的事件

前面有文章写如何使用Docker-compose方式部署blockscout浏览器+charts图表，区块链浏览器已经部署成功了，同时我们在链上增加了治理投票流程，如何实时的把治理事件快速同步到浏览器呢？这时就想到了Web3J来监听智能合约的事件，来达到同步事件的效果目录 Web3J简介功能简介m…

阅读更多...

用迅为RK3568开发板使用OpenCV处理图像颜色通道提取ROI

用迅为RK3568开发板使用OpenCV处理图像颜色通道提取ROI

本小节代码在配套资料“iTOP-3568 开发板\03_【iTOP-RK3568 开发板】指南教程 \04_OpenCV 开发配套资料\07”目录下，如下图所示： 在计算机的色彩图像中存有三个通道，即 BGR 通道，根据三个颜色通道的亮度值来显示出不同的颜色&…

阅读更多...

更健康舒适更科技的照明体验！书客SKY护眼台灯SUKER L1上手体验

更健康舒适更科技的照明体验！书客SKY护眼台灯SUKER L1上手体验

低价又好用的护眼台灯是多数人的需求，很多人只追求功能性护眼台灯，显色高、无频闪、无蓝光等基础需求。但是在较低价格中很难面面俱到，然而刚发布的SUKER书客L1护眼台灯却是一款不可多得的性价比护眼台灯，拥有高品质光源&#xff…

阅读更多...

MavenCentral库发布记录

MavenCentral库发布记录

最近发布了 Android 路由库 URouter，支持 AGP8、ActivityResult启动等特性。把提交到 Maven Central 过程记录一下。一、注册 Sonatype 账号，新建项目注册 https://issues.sonatype.org 登录后，新建项目： 相关选项&…

阅读更多...

[学习笔记] fhq Treap 平衡树

[学习笔记] fhq Treap 平衡树

fhq Treap 也叫无旋Treap （好像？我也不知道） 反正我带旋 Treap 是不会滴，其他的平衡树也不会（但是会平板电视） fhq Treap 好写，码量小，缺点是常数比较大定义二叉搜索树二叉搜…

阅读更多...

使用QT操作Excel 表格的常用方法

使用QT操作Excel 表格的常用方法

VBA 简介 Microsoft Office软件通常使用VBA来扩展Windows的应用程序功能，Visual Basic for Applications（VBA）是一种Visual Basic的一种宏语言。在VBA的参考手册中就可以看到具体函数、属性的用法，Qt操作Excel主要通过 QAxObj…

阅读更多...

培训机构如何利用小程序提升服务质量

培训机构如何利用小程序提升服务质量

近年来，小程序成为了许多企业和机构进行线上业务拓展的新方式。对于培训机构来说，构建一个具有吸引力的小程序可以帮助他们更好地与学员进行互动和沟通，并提供更便捷的学习服务。那么，如何使用第三方制作平台来构建一个具有吸引力…

阅读更多...

vscode新建vue3文件模板

vscode新建vue3文件模板

输入快捷新建的名字 enter 确认后在文件中输入以下内容 {// Place your snippets for vue here. Each snippet is defined under a snippet name and has a prefix, body and// description. The prefix is what is used to trigger the snippet and the body will be expand…

阅读更多...

32 实验三十二、OCL电路的研究

32 实验三十二、OCL电路的研究

一、题目仿真电路如图1所示。利用 Multisim 研究下列问题： （1）负载 R 6 R_6 R6 上能获得的最大输出功率； （2）电容 C 1 C_1 C1、 C 2 C_2 C2 的作用； （3）当输入…

阅读更多...

31 WEB漏洞-文件操作之文件包含漏洞全解

31 WEB漏洞-文件操作之文件包含漏洞全解

目录文件包含漏洞原理检测类型利用修复本地包含-无限制，有限制远程包含-无限制，有限制各种协议流玩法文章介绍读取文件源码用法执行php代码用法写入一句话木马用法每个脚本支持的协议玩法演示案例某CMS程序文件包含利用-黑盒CTF-南邮大，i春…

阅读更多...

春秋云镜 CVE-2018-12530

春秋云镜 CVE-2018-12530

春秋云镜 CVE-2018-12530 Metinfo 6.0.0任意文件删除靶标介绍 Metinfo 6.0.0任意文件删除。后台密码：f2xWcke5KN6pfebu 启动场景漏洞利用 /admin进入管理后台，admin/f2xWcke5KN6pfebu /admin/app/batch/csvup.php?fileFieldtest-1&fliename…

阅读更多...

手机无人直播软件在苹果iOS系统中能使用吗？

手机无人直播软件在苹果iOS系统中能使用吗？

在现代社交媒体的时代，直播带货已经成为了一种热门的销售途径。通过直播，人们可以远程分享自己的商品，与观众进行互动，增强沟通和参与感。而如今，手机无人直播软件更是成为了直播带货领域的一项火爆的技术。那么&#…

阅读更多...

参编三大金融国标，奇富科技以技术促行业规范化演进

参编三大金融国标，奇富科技以技术促行业规范化演进

近期，由中国互联网金融协会领导制定的《互联网金融智能风险防控技术要求》《互联网金融个人网络消费信贷信息披露》《互联网金融个人身份识别技术要求》三项国家标准颁布，由国家市场监督管理总局、国家标准化管理委员会发布，奇富科技作为核心…

阅读更多...

机械零件保养3d模拟演示打消客户购买顾虑

机械零件保养3d模拟演示打消客户购买顾虑

复杂机械的工作运转是复杂的，想要对机械有深度的理解和迭代，必须了解它的运转原理及参数，复杂机械运行原因教学存在着不可视、系统庞杂及知识点多等弊病，3D虚拟展示是基于web3d网页运行的三维页面，可以将复杂机械运行过…

阅读更多...

2023年全国职业院校技能大赛信息安全管理与评估网络安全渗透任务书

2023年全国职业院校技能大赛信息安全管理与评估网络安全渗透任务书

全国职业院校技能大赛高等职业教育组信息安全管理与评估任务书模块三网络安全渗透、理论技能与职业素养比赛时间及注意事项本阶段比赛时长为180分钟，时间为9:00-12:00。【注意事项】 （1）通过找到正确的flag值来获取得分，f…

阅读更多...

最新文章

推荐文章