阿里云人工智能平台PAI论文入选OSDI ‘24

近日,阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。

Llumnix是业界首个能灵活在不同模型实例间重新分配请求的框架;并且,实验表明,与最先进的LLM服务系统相比,Llumnix请求尾延迟时间剧减超过10倍,将高优先级请求的速度提高了1.5倍,并在实现类似尾部延迟的同时,成本降低为原先的64%

OSDI是操作系统及分布式系统领域的旗舰级会议,OSDI与其姊妹会议SOSP长期以来对系统领域发展起着深刻的推动作用,在学术和工业界均有巨大影响力。OSDI/SOSP上曾诞生了许多影响深远的论文和系统,如GFS、MapReduce、BigTable等经典的分布式系统,以及如TensorFlow、TVM、vLLM等在人工智能领域产生深远影响的系统。

此次入选意味着阿里云人工智能平台PAI在大模型推理持续引领业界方向,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。

自ChatGPT这一颠覆性产品问世以来,生成式大语言模型(LLM)技术迎来了堪称日新月异的发展,短短一到两年时间我们已经见证了一系列大模型及产品的诞生和应用。LLM推理服务也因此成为LLM不断产品化进程中的关键技术支撑。然而LLM推理的请求及其执行呈现高度的差异性、动态性和不可预测性,这些特性给现今的推理服务系统带来了一系列挑战,大大限制了LLM推理服务的效率。

Llumnix是阿里云PAI团队研发的LLM推理动态调度框架,旨在利用调度的动态性来化解由请求的动态性带来的种种挑战。Llumnix是一个支持在多个模型实例之间对请求进行运行时重调度的框架,这一重调度能力使得Llumnix可以根据请求状态的动态变化对调度决策进行适应性调整,并以此实现了如负载均衡、碎片整理、请求优先级等一系列调度特性和优化(如下图)。通过在LLaMA系列模型上的实验,初步展示了动态调度的潜力,如大幅降低延迟,加速高优先级请求,以及降低服务成本等。

阿里云人工智能平台PAI团队对Llumnix进行了产品化研发,并已开源(Github地址:GitHub - AlibabaPAI/llumnix)。当前版本的Llumnix支持vLLM为后端推理引擎,可自动化拉起多实例vLLM服务,并在多实例之间进行请求调度及重调度。Llumnix保持了与vLLM非常相似的用户接口,从而以尽可能平滑和透明的方式加持在已部署的vLLM服务之上。目前,开源版本的Llumnix处于alpha状态,仍在积极研发和迭代中。欢迎您的试用和反馈!

后续Llumnix将与阿里云人工智能平台PAI自研的BladeLLM推理引擎PAI-EAS模型在线服务等产品深度结合,形成一体化的高性能LLM推理套件,并集成进入PAI灵骏智算服务产品,助力企业和个人开发者完成云上大语言模型服务的创新。

论文信息

论文标题:Llumnix: Dynamic Scheduling for Large Language Model Serving

作者:孙彪,黄梓铭,赵汉宇,肖文聪,张欣怡,李永,林伟

论文地址:Llumnix: Dynamic Scheduling for Large Language Model Serving | USENIX

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/375552.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

顺序表算法题 -- 力扣

一、移除元素 移除元素 这个题让我们移除数组nums中值为val的元素,最后返回k(不是val的元素个数) 这样显然我们就不能再创建一个数组来解决这个问题了,只能另辟蹊径 思路:双指针 这里定义两个指针(l1&…

Centos7安装Glibc 2.32版本(超详细)

✨1.问题: 某些工具在Centos7上低版本的GCC和Glibc运行都会报错,只有升级GCC和Glibc才行 手动编译和安装 如果软件包管理器不提供您需要的版本,另一个选择是手动编译和安装。 🌟问题1:执行最后面的glibc的make报如下…

Windows下编译OpenSSL静态库

目录 1. 版本与下载地址 2. 下载与安装VS2015 3. 下载与安装Perl 4. 测试ActivePerl是否安装正确 5. 下载OpenSSL 6. 编译32位OpenSSL静态库 6.1 解压openssl-1.0.2l.tar.gz 6.2 打开VS2015 x86本机工具命令提示符 6.3 输入命令进入到openssl的目录中 6.4 执行配置命…

45、tomcat+课后实验

tomcat 1、tomcat tomcat和php一样,都是用来处理动态页面的。 tomcat也可以作为web应用服务器,开源的。 php .php tomcat .jsp nginx .html tomcat 是用Java代码写的程序,运行的是Java的web应用程序。 tomcat的特点和功能&#xff1a…

运维系列.Nginx中使用HTTP压缩功能

运维专题 Nginx中使用HTTP压缩功能 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28550…

鸿蒙系统:未来智能生态的引领者

在当今这个日新月异的互联网领域,操作系统作为连接硬件与软件的桥梁,其重要性不言而喻。随着华为鸿蒙系统(HarmonyOS)的崛起,一场关于操作系统未来的讨论再次被推向高潮。 鸿蒙OS,华为的全新力作&#xff…

注册自定义总线

1、在/sys/bus下注册一个自定义总线 #include<linux/module.h> #include<linux/init.h> #include<linux/kernel.h> #include<linux/kobject.h> #include<linux/slab.h> #include<linux/sysfs.h> #include<linux/device.h> #include…

静态路由配置注意事项及黑洞路由的使用

静态路由 1 . 定义 从管理员处学习到的数据转发路径&#xff0c;就称为静态路由。 2 . 路由表 Proto &#xff1a;协议&#xff08; Protocol &#xff09; Direct — 直连链路Static — 静态路由RIP 、OSPF 等 — 动态路由 Pre : 优先级&#xff08; Preference &#x…

Threejs环境、透视相机、坐标系、光源

文章目录 如何引入threejsnpm方式script方式script module方式 基本流程与坐标摄像机Geometry(几何体)和Material(材质)光源 如何引入threejs 对于很多刚刚上手threejs的朋友&#xff0c;可能第一步引入threejs就出问题了&#xff0c; 明明已经导入了&#xff0c;就是这样问题…

测试状态缩略语

术语和缩写解释Pass当测试用例执行完成后&#xff0c;测试结果符合预期结果的情况下&#xff0c;则该测试用例判断为测试通过Fail当测试用例执行完成后&#xff0c;测试结果与预期不符的情况下&#xff0c;则该测试用例判断为测试不通过。NA表示测试结果为"不适用"或…

dataX入门

下载dataX https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202308/datax.tar.gz 然后 下载后解压至本地某个目录&#xff0c;进入bin目录&#xff0c;即可运行同步作业&#xff1a; $ cd {YOUR_DATAX_HOME}/bin $ python datax.py {YOUR_JOB.json} 要求你有python…

[Vulnhub] Stapler wp-videos+ftp+smb+bash_history权限提升+SUID权限提升+Kernel权限提升

信息收集 IP AddressOpening Ports192.168.8.106TCP:21,22,53,80,123,137,138,139,666,3306, Using Nmap for scanning: $ nmap -p- 192.168.8.106 --min-rate 1000 -sC -sV The results are as follows: PORT STATE SERVICE VERSION 20/tcp closed ftp-data…

Tomcat的安全配置

1、生产环境优化 2、部分漏洞修复 转载自风险评估&#xff1a;Tomcat的安全配置&#xff0c;Tomcat安全基线检查加固-CSDN博客

【排序算法】归并排序

目录 一.基本思想 二.递归版本 三.非递归版本 四.特性总结 1.时间复杂度&#xff1a;O(N*logN) 2.空间复杂度&#xff1a;O(N) 3.稳定性&#xff1a;稳定 一.基本思想 归并排序是采用分治法的一个非常典型的应用。它将已经有序的序列合并为完全有序的序列&#xff0c;即…

算法学习day10(贪心算法)

贪心算法&#xff1a;由局部最优->全局最优 贪心算法一般分为如下四步&#xff1a; 将问题分解为若干个子问题找出适合的贪心策略求解每一个子问题的最优解将局部最优解堆叠成全局最优解 一、摆动序列&#xff08;理解难&#xff09; 连续数字之间的差有正负的交替&…

如何将libwebsockets库编译为x86架构

在之前的文章中&#xff0c;我们已经详细介绍了如何交叉编译libwebsockets并将其部署到ELF 1开发板上。然而在调试阶段&#xff0c;发现将libwebsockets在Ubuntu环境下编译为x86架构可能更为方便和高效。 通过在主机环境中编译运用x86架构下的libwebsockets库&#xff0c;可以…

2024年,搞AI就别卷模型了

你好&#xff0c;我是三桥君 2022年11月30日&#xff0c;OpenAI发布了一款全新的对话式通用人工智能工具——ChatGPT。 该工具发布后&#xff0c;仅用5天时间就吸引了100万活跃用户&#xff0c;而在短短2个月内&#xff0c;其活跃用户数更是飙升至1亿&#xff0c;成为历史上增…

github的使用

1.如何将代码会滚到某个提交之前 在GitHub上将代码回滚到之前的版本&#xff0c;可以通过Git命令行实现。以下是几种常用的方法来实现回滚&#xff1a; 方法一&#xff1a;使用 git revert git revert 会生成一个新的提交&#xff0c;这个提交会撤销之前的某个提交的更改。这…

【ARMv8/v9 GIC 系列 1.7 -- GIC PPI | SPI | SGI | LPI 中断使能配置概述】

请阅读【ARM GICv3/v4 实战学习 】 文章目录 GIC 各种中断使能配置PPIs(每个处理器私有中断)SPIs(共享外设中断)SGIs(软件生成的中断)LPIs(局部中断)GIC 各种中断使能配置 在ARM GICv3和GICv4架构中,不同类型的中断(如PPIs、SPIs、SGIs和LPIs)可以通过不同的方式进…

allWebPlugin中间件实现ActiveX插件在谷歌、火狐、Edge浏览器使用

下载并安装allWebPlugin中间件 1、请从下面地址下载allWebPlugin中间件产品&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1xUyQDzOabh7mU7J7TYhtig?pwdz3q0 提取码&#xff1a;z3q0 如下图所示&#xff0c;下载最新allWebPlugin_x86_v2.0.0.14_stable_20240707…