趋动科技 OrionX on VMware 打造 AI 就绪平台

着科技进步和产业变革的加速演进,人工智能(AI)已经成为兵家必争之地。今年以来伴随着ChatGPT带来的鲶鱼效应,人工智能成为科技产业创新的焦点,其应用范围越来越广泛,并将持续发展。科技产业龙头正加大在人工智能领域的军备竞赛。算法、数据、算力作为人工智能领域的三要素,也同时受到了业内关注。在政府、学术机构、企业等各个层面,AI都受到高度重视,其在学术研究、技术创新、人才教育等方面的发展都呈现全新发展态势。作为AI市场中的重要组成,以GPU技术为主的AI加速市场也得到了快速的发展,与此同时,由于GPU硬件价格昂贵,传统使用GPU算力的独占式使用方式缺乏灵活性和经济性,云原生技术的发展又催生了快速交付细粒度切分GPU算力的需求,所以市场上急需经济高效GPU算力池化方案。


VMware作为虚拟化与云原生技术的领导者,针对不同使用场景有对应的GPU资源技术方案。

趋动科技作为GPU池化技术领导者,自主研发的OrionX AI算力资源池化软件可以为企业用户构建数据中心级AI算力资源池和AI开发平台。OrionX将AI应用与物理算力资源解耦,并通过高效的通讯机制,使得AI应用、CUDA应用可以运行在云或者数据中心内任何一个物理机、Container或者VM内而无需挂载物理GPU。OrionX GPU池化软件的收益多多:

  • 兼容已有的AI应用和CUDA应用,使其仍然具有使用GPU加速的性能。
  • 为AI应用和CUDA应用在云和数据中心的部署提供了很大的灵活度,无需受GPU服务器位置、资源型号和数量的约束。
  • OrionX vGPU资源随AI应用和CUDA应用启动时分配,随应用程序退出时自动释放,减少GPU空闲时间,提高GPU的利用率。
  • 通过对GPU资源池的管理和优化,提高整个云和数据中心GPU的利用率和吞吐率。
  • 通过统一管理GPU,减轻GPU的管理复杂度和运维成本。

VMware此次联合趋动科技验证了在VMware Cloud Foundation(后面缩写为VCF)平台上提供GPU池化算力方案的能力,目的是更加灵活地为AI训练提供GPU算力,助力AI场景快速落地。

本次经过联合方案验证,主要是将OrionX与VMware VCF with Tanzu 结合部署,主要架构如下:

在整个方案验证中,VMware Tanzu Kubernetes Grid(后面缩写为 Tanzu TKG)提供了Kubernetes 运行环境,VMware Cloud Foundation 为Tanzu TKG 提供了底层IaaS平台,其中vSphere自动化置备Tanzu TKG节点虚拟机, vSAN为Kubernetes提供持久化存储服务, NSX为提供云内网络连接,NSX Advanced Load Balancer为Kubernetes提供负载均衡和应用发布服务。Harbor为整个台提供镜像仓储管理服务。OrionX提供GPU池化能力。Nvidia GPU通过直通模式透传给Tanzu TKG 的工作节点。

在本次方案验证中,我们主要涉及到以下场景:

  • GPU资源按需分配功能
  • GPU资源远程调用功能
  • 多用户GPU资源切分功能
  • 多用户GPU资源动态分配功能
  • 用户GPU资源独享功能
  • GPU加速任务等待功能
  • GPU加速任务优先级功能
  • GPU资源池切换功能
  • 本地和远程调用性能对比

方案验证中一些关键截图

Tanzu TKG 工作节点直通Nvidia T4 GPU卡:

Tanzu TKG 部署OrionX 运行截图:

OrionX 管理界面:

GPU分配及队列管理:

GPU 资源预留:

AI任务优先级排列:

OrionX 可灵活切换GPU卡是否打开虚拟化,而无需重启设备:

经过本地调用与远程调用性能对比,性能损耗约3%左右,损耗极低

经过本次的方案验证,得到如下一些结论

  • OrionX AI算力池化方案可以在VCF with Tanzu平台上正常稳定运行。
  • OrionX 对GPU池化能力灵活,可以灵活切分、预留、排队、控制任务优先级。
  • 本次VCF测试环境基于25G网络,在本地和远程调用,性能差异小,结果符合预期。

OrionX+ VCF with Tanzu为用户在AI学习场景提供了更加全面的解决方案,让企业内的 AI 用户共享数据中心内所有服务器上的 GPU 算力。AI 开发人员不必再关心底层资源状况,专注于更有价值的业务层面,让AI 开发变得更加高效和便捷。

更灵活:从基础计算、存储、网络、Kubernetes集群到GPU资源,都可以灵活置备,支持不同AI场景。

更高效:全面提升基础架构和GPU资源利用率,发挥最大效能。

更安全:细粒度用户管理,实现资源隔离,安全微分段,保障数据安全。

更便捷:熟悉的基础架构管理,图形化UI,AI任务管理更简单。

VMware vSphere with Tanzu及VCF with Tanzu等产品与趋动OrionX产品的兼容和适配,将更好地支撑企业级客户AI应用的快速发展。

原文作者:卢洋、刘博
文章来源:趋动科技 OrionX on VMware 打造 AI 就绪平台 - VMware 中文博客 https://blogs.vmware.com/china/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/409675.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis入门指南

Redis(Remote Dictionary Server)是一个开源的高性能键值对存储系统,它支持多种数据结构,如字符串、哈希、列表、集合、有序集合等。Redis因其快速的读写能力、丰富的数据类型和灵活的操作而广泛应用于缓存、消息队列、实时分析等…

链接 -- 动静态链接 --特点、区别、静态库安装下载

1.链接是什么? 我们的程序,和 库(语言一定会有自己的标准库) 结合的过程就叫做链接。 2.为什么有链接? 让开发站在巨人的肩膀,提高开发效率。 c语言库: ls /user/include/ 动静态库的特点与区别…

力扣面试经典算法150题:O(1) 时间插入、删除和获取随机元素

O(1) 时间插入、删除和获取随机元素 今天的题目是力扣面试经典150题中的数组的中等难度题: O(1) 时间插入、删除和获取随机元素。 题目链接:https://leetcode.cn/problems/insert-delete-getrandom-o1/description/?envTypestudy-plan-v2&envIdtop…

Oracle问题笔记

ORA-28040 没有匹配的验证协议 问题出现场景oracle数据库为12c,应用使用的jdbc或客户端工具是11g版本一下,连接12c数据库时会报ora-28040错误。解决办法在Oracle服务端的$ORACLE_HOME/network/admin/sqlnet.ora文件中添加: SQLNET.ALLOWED_LOGON_VERSI…

第4章 汇编语言和汇编软件

第4章 汇编语言和汇编软件 该章主要介绍了汇编语言和汇编语言编译器的安装和使用。 汇编语言程序 该小节主要介绍了为什么要有汇编语言和汇编语言程序的一些基础写法。 书中有提到CPU有不同的架构,汇编语言有不同的风格,那么不同的CPU架构和不同的汇…

日常维护交换机,看看这些老网工怎么说

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部 晚上好,我的网工朋友。 交换机作为连接各个节点的核心设备,其稳定性和可靠性直接关系到整个网络系统的健康运行。 路由器…

vue开发区分开发环境和生产环境,以及预发布环境

vue开发区分开发环境和生产环境,以及预发布环境 在根目录创建 .env[mode] 文件,在项目执行 npm run dev 的时候vite会自动去读取.env.development文件里面的配置,执行npm runbuild进行打包之后也会自动将.env.production的内容打包进去&…

Kafka日志及常见问题

目录 1.Topic下的消息是如何存储的 1.1log文件追加记录所有消息 1.2index和timeindex加速读取日志信息 2.文件清理机制 2.1如何判断哪些日志文件过期了 2.2日志清理策略 3.Kafka的文件高效读写机制 3.1Kafka的文件结构 3.2顺序写磁盘 3.3零拷贝 3.3.1传统IO 3.3.2m…

【硬件操作入门】2--GPIO与门电路、二极管三极管、LED电路与操作

【硬件操作入门】2–GPIO与门电路(二极管&三极管)、LED电路与操作 文章目录 【硬件操作入门】2--GPIO与门电路(二极管&三极管)、LED电路与操作一、GPIO与门电路1.1、GPIO的应用1.2、GPIO引脚操作1.2.1 设置引脚为GPIO功能…

加速网络体验,Squid缓存代理:让浏览如飞,畅享无限网络速度!

作者简介:我是团团儿,是一名专注于云计算领域的专业创作者,感谢大家的关注 座右铭: 云端筑梦,数据为翼,探索无限可能,引领云计算新纪元 个人主页:团儿.-CSDN博客 目录 前言: squ…

[数据集][目标检测]建筑工地楼层空洞检测数据集VOC+YOLO格式2588张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2588 标注数量(xml文件个数):2588 标注数量(txt文件个数):2588 标注…

springboot项目读取 resources 目录下的文件的9种方式

1. 使用 ClassLoader.getResourceAsStream() 方法 InputStream inputStream getClass().getClassLoader().getResourceAsStream("file.txt"); 2. 使用 Class.getResourceAsStream() 方法 InputStream inputStream getClass().getResourceAsStream("/file.txt&…

JAVA-封装

目录 一、封装的概念 二、封装扩展之包 1. 包的概念 2.导入包中的类 3.自定义包 4.常见的包 三、访问限定符 在同一包中: 在不同包中:​编辑 一、封装的概念 面向对象程序三大特性:封装、继承、多态。而类和对象阶段,主…

网络安全——基础知识记忆梳理

1. SQL注入攻击 SQL注入攻击是一种常见的网络安全威胁,它利用Web应用程序中对用户输入的数据的不正确处理,攻击者可以在SQL查询中注入恶意代码,从而执行非授权的数据库操作。这种攻击方式可以导致数据泄漏、数据篡改、绕过认证等多种安全问题…

什么样的条件才会造就这样疯狂的末日期权?

今天带你了解什么样的条件才会造就这样疯狂的末日期权?末日期权一般是指期权合约快到期的一周或者最后三天,当然最后一天就是末日期权的疯狂。 末日期权是指那些接近到期日的期权。 由于剩余时间较短,这些期权的时间价值通常非常低&#xf…

MFC工控项目实例之七点击下拉菜单弹出对话框

承接专栏《MFC工控项目实例之六CFile添加菜单栏》 1、在SEAL_PRESSUREDlg.h文件中添加代码 class CSEAL_PRESSUREDlg : public CDialog { ...afx_msg void OnTypeManage(); ... } 2、在SEAL_PRESSUREDlg.cpp文件中添加代码 BEGIN_MESSAGE_MAP(CSEAL_PRESSUREDlg, CDialog)//…

快速排序与其例题

一、快速排序 1、简单介绍:快速排序(Quick Sort)是一种高效的排序算法,由计算机科学家Tony Hoare在1960年提出。它是基于分治法的排序算法,其基本思想和步骤如下: 基本概念 快速排序的核心思想是将待排序…

Debezium2.7 数据同步 MySQL/Oracle -- AI生成

Debezium是Red Hat开源的一个工具,用于实时捕获多种数据源(包括MySQL、PostgreSQL、SQL Server、Oracle等)的变更数据,并将这些数据作为事件流输出到Kafka等消息中间件中。通过Debezium,可以实现数据的实时同步和变更数…

【Qt】常用控件QCalendarWidget

常用控件QCalendarWidget的使用 QCalendarWidget表示一个日历 核心属性 属性说明 selectDate 当前选中的⽇期 minimumDate 最⼩⽇期 maximumDate 最⼤⽇期 firstDayOfWeek 每周的第⼀天(也就是⽇历的第⼀列) 是周⼏. gridVisible 是否显⽰表格的边框 selectionMode…

何为MethodHandles?

最近在梳理ThreadPoolExecutor,无意间看到其内部类Worker实现了一个名字叫做AbstractQueuedSynchronizer的抽象类。看到它,我便想起当年为了面试而疯狂学习这个知识点的场景。不过这种临时抱佛脚的行为,并未给我带来即时的收益。也是这次的疯…