盘活存量GPU资源 破局高校算力不足窘境

“凭啥做大模型的优先分配算力?人家1个人4块A800,我们10个人用2块3090!这日子没法过了!”听着团队成员们的吐槽,某国内顶尖高校非大模型团队带队的博士老W也颇为无奈:“我们虽然不是做大模型的,但也不代表我们做数据科学的不需要算力啊?”如果不做大模型,就无法获得足够的算力。这就是ChatGPT爆火后中国高校AI实验室中的残酷现实。

老W亲身经历证实了这一现象,他所在的高校AI实验室中,他的团队只有2块3090显卡可用,而大模型小组则有4个人可以使用16块A800显卡。这是因为巨大规模算力以月为单位的租用成本对研究团队来说是一笔不小的开支,而大模型研究正当其道,因此学界研究大模型的实验室或团队拥有算力资源的优先分配权。

图片

这个想法刚一冒头,随即就被老W自己否决了。如今,在众人争先恐后扑向GPT等大模型的当下,非大模型团队已经很难获得外部企业算力支持了,校企合作也更倾向于大模型。自从ChatGPT发布后,与非大模型团队合作的企业急剧减少,最近前来找他们的企业也都问同一个问题:你们在做大模型吗?如果做,就能得到高校和企业的全力支持;如果不做,就只能眼睁睁看着算力被其他人占用。即使有高性能GPU对非大模型研究团队开放申请,也不见得能分配到一张卡给你。

此外,实验室需要运转和维护的经费也是一大问题。为了获得拨款,申请国家项目是一种形式,但必要步骤是提供论文成果。因此,为了获得更多的资源,一些非大模型实验室甚至额外成立研究大模型的团队。

拥抱主流趋势是一重原因,同时大模型研究相对容易出成果,因此不得不优先分配有限的算力资源给这些热门研究。然而,训练一个大模型需要大量的数据、算力和资金,这对学界来说都是一个挑战。

图片

本就稀缺的算力,在学界又有成为追逐热点砝码的倾向,“做大模型,意味着放弃现有研究成果,同时要面临同类团队无尽的内卷;不做?对不起,没算力给你,现在的研究一样进行困难!”

老W此刻叹了口气,“哎,太难了,咋办?

“老W,您还在为算力发愁呢?最少现在咱还有2块3090可用,这已经算不错了。”见老W一脸愁容,邻座的组员小A赶紧过来安慰。

其实大家都知道GPU的重要性,现在算力严重不足,又没有富裕的高性能GPU可用。是不是要几个人换班用?一想到这里,小A不禁想起了过去穷人家全家只有一身衣裳,谁出门办事谁就穿上,其他人,对不起只能在家光着。

GPU虚拟化

接下来的几天,实验室中总是有一种压抑的氛围,老W也变得越来越烦躁。他希望能给自己的团队找到更好的算力资源,甚至希望能够把一块卡劈成两半用,至少能解决目前GPU算力不足的问题。

直到小A问了一个直戳灵魂的问题:

图片

“怎么可能,你想多了?” 老W笑着。事实上,无论是人体还是机器,都不太可能24小时不间断运行。写程序、改BUG、调试等工作都需要大量的时间,而GPU最重要的是后期的数据处理。从这一点来说,GPU完成了最关键的、最具压力的部分,但并不代表它必须贯穿应用的始终。

趋动科技的GPU池化技术

GPU虚拟化技术已经快速迭代,通过池化技术实现CPU与GPU的协同应用,统一管理可以实现按需调度和动态伸缩。随着GPU从虚拟化到池化的转变,现在的技术已经可以实现AI应用与物理GPU服务器分离部署,实现GPU池化层面的软件定义。用户可以更轻松地远程调用和统一管理GPU资源,真正实现了云端的按需分配和弹性扩展。

图片

经过用户测试,使用OrionX进行资源池化后,可以将GPU卡节约60%以上,同时系统可以实现真正24小时不间断,整体的运行效率提升了4倍。

老W自言自语道:“看来咱们不足的算力能找回来了。”

除了性能提升之外,GPU池化的优势还在于资源管理。OrionX提供了清晰明了的GUI图形界面,让运维人员可以清楚地看到资源池的节点情况,包括哪些资源忙碌、哪些资源闲置都是一目了然。这些优势让组织管理者对于业务更专注,是趋动科技相比同类企业的核心竞争力。

图片

特别是对于老W所在的非大模型团队来说,2024年充满了挑战和未知,而灵活、高效的系统也让科研教学充满了活力和优势,更容易在竞争中抢占先机。

“好小子!有你的!趋动科技这套解决方案简直是为咱们量身定制的!快把这些资料发我邮箱,我这就去跟院长汇报。” 老W刚要转身。

先别着急去,小A拦下老W,您还漏看了一点:“如今低碳节能是大趋势,咱们实验室要是用了趋动科技OrionX解决方案,光采购费、电费就能省下大几十万,还能提升400%的GPU综合利用率,减少碳排放上万千克。”

“好嘞,有了这个事情指定办成!晚上叫上所有人,撸串!我请客!”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/235548.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

竞赛保研 基于深度学习的行人重识别(person reid)

文章目录 0 前言1 技术背景2 技术介绍3 重识别技术实现3.1 数据集3.2 Person REID3.2.1 算法原理3.2.2 算法流程图 4 实现效果5 部分代码6 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学习的行人重识别 该项目较为新颖,适合…

Unity报错:[SteamVR] Not Initialized (109)的解决方法

问题描述 使用HTC vive 头像进行SteamVR插件的示例场景进行测试,发现头显场景无法跳转到运行场景(Unity 项目可以运行,仅出现警告)。 具体如下: [SteamVR] Not Initialized (109) [SteamVR] Initialization failed…

STL源码阅读总结从小白到大神:vector

一、vector概述 vector的数据格式与array非常相似,两者的差别在于空间的灵活运用,array是静态空间,一旦配置内存空间就不容易更改原来的空间大小。而vector是动态空间,随着元素的加入,它的内部机制就会自动扩容以容纳…

【算法】基础算法001之双指针

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言 1.数组分块&#xf…

NACHI机器人模拟示教器如何切换中文

前言 现在开始学习机器人的编程语言,那么要学习会用首先得用模拟示教器来学习,但是全是英文确实比较难受一些些,没有中文来的直观。所以摸透一下如何给示教器更换语言。 具体步骤 步骤一:将中文的汉化包下载下来。具体的下载链…

JMeter 批量接口测试

一、背景 最近在进行某中台的接口测试准备,发现接口数量非常多,有6、70个,而且每个接口都有大量的参数并且需要进行各种参数验证来测试接口是否能够正确返回响应值。想了几种方案后,决定尝试使用JMeter的csv读取来实现批量的接口…

Window Docker安装

1.下载安装Docker 在Windows上安装Docker桌面_Docker中文网 (dockerdocs.cn)https://dockerdocs.cn/docker-for-windows/install/index.html2.安装完,修改镜像 Docker——Windows版本Docker安装_docker windows-CSDN博客https://blog.csdn.net/weixin_51351637/ar…

【软考中级-软件设计师】day7:图

概述 1-2道选择 图的存储 图的遍历 图的最小生成树 prim算法 kruscal算法 2135476 选7不选6是因为4的先删除(vi必须在vj之前)跟4有关的删了以后,入度为0的结点只剩下7,所以选7再6

13.若依代码自动生成功能详解

文章目录 1.代码自动生成功能2.功能的使用3. 代码的导出和使用 1.代码自动生成功能 基于若依的目录结构,若依本身提供了代码生成功能,可以根据数据库表的内容,生成一些基本的CRUD的前后端的功能。本文将生成过程中的一些注意事项&#xff0c…

【APACHE】的认识和基础配置参数

#主页传送:江南的江 #每日鸡汤:人生没有如果和假设,只有后果和结果。生活有进有退,输什么也不能输心情。生活简单就是迷人的,学会简单其实就是不简单。要学会平静地接受现实,学会对自己说声顺其自然,学会坦…

如何在OpenWRT部署uhttpd搭建服务器实现远程访问本地web站点

文章目录 前言1. 检查uhttpd安装2. 部署web站点3. 安装cpolar内网穿透4. 配置远程访问地址5. 配置固定远程地址 前言 uhttpd 是 OpenWrt/LuCI 开发者从零开始编写的 Web 服务器,目的是成为优秀稳定的、适合嵌入式设备的轻量级任务的 HTTP 服务器,并且和…

版本控制背景知识

版本控制背景知识 本文是关于 Git 系列文章的导读,我们先介绍一下版本控制的背景知识。 什么是版本控制 版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。它将什么时候、什么人更改了文件的什么内容等信息如实记录下来…

【2023 - 探索】博0到博1,游戏新地图的探索日志

【2023 - 探索】博0到博1,游戏新地图的探索日志 写在最前面CSDN探索日志2023的探险 探索日志年终回顾探索 冒险回顾实习6月开始跟着老师做科研年中的一些其他事情9月开始上课开学后11月,读者互动 新年展望新年祝福 写在最前面 2023,我解锁了新…

JVM:从零到入门

JVM,就是Java虚拟机。 JVM是一个巨大的话题,我们本文主要简单介绍一些围绕JVM相关的基础知识。 目录 JVM内存区域划分 本地方法栈 虚拟机栈 堆 程序计数器 方法区/ 元数据区 类加载 1.加载 2.验证 3.准备 4.解析 5.初始化 双亲委派模型 …

Kafka消息存储

一、层次结构 具体到某个broker上则是, 数据目录/分区名/日志相关文件集合。其中日志文件集合内包括.log文件, index索引文件和.timeindex时间戳索引文件。 二、.log 结构 .log中记录具体的消息。一般消息由header和body组成, 这点儿在Kafka消息中也同样适用。 message MES…

NSSCTF Interesting_include

开启环境: 通过审计,我们可知: flag在flag.php中,可以利用php中伪协议 payload:?filterphp://filter/readconvert.base64-encode/resourceflag.php 将其base64解码就是flag. NSSCTF{3dc54721-be9e-444c-8228-7133fba76ad4}

【设计模式-02】Strategy策略模式及应用场景

一、参考资料 Java 官方文档 Overview (Java SE 18 & JDK 18)module indexhttps://docs.oracle.com/en/java/javase/18/docs/api/index.html Java中使用到的策略模式 Comparator、comparable Comparator (Java SE 18 & JDK 18)declaration: module: java.base, pa…

RHCE9学习指南 第20章 计划任务

有时需要在某个指定的时间执行一个操作,此时就要使用计划任务了。计划任务有两种:一个是at计划任务,另一个是crontab计划任务。 下面我们分别来看这两种计划任务的使用。 20.1 at at计划任务是一次性的,到了指定的时间点时就开始…

关于jointjs的详细介绍

1. 介绍 1.1 JointJS简介 JointJS是一个专注于图形可视化的js库,用于创建交互式的图形和图表。它基于HTML、SVG(可缩放矢量图形)和CSS(层叠样式表)技术,主要用于在Web应用程序中实现可视化图形编辑器或图表…

USB-XM2403 USB接口的温度数据采集卡

USB2.0总线24位测温卡,支持1路热电阻模式、6路热电偶模式,无需外接调理。同时支持多量程电压测量。16路双向IO,2路计数/测频,3路PWM输出。 功能简介 USB-XM2403是一款USB接口的温度数据采集卡。USB-XM2403具有7路模拟输入&#xf…