01 背景介绍
国内某研究院为实现石油勘探开发专业软件资源的统一管理、统一监控、统一共享和统一计量,自主研发了勘探云管理平台(EPCP)和科研工作业务协同平台。该研究院通过两个平台实现了数十种专业勘探开发软件的共享,种类包括地震资料处理和解释,地质建模,油藏数模,动态分析,采油工程,钻录测试等。
随着科研装备建设项目的完成,新的科研装备正式投产使用,为满足科研人员对地质建模和油藏数值模拟大网格数项目作业的需求,研究院搭建了数值模拟集群,集成了当下主流数值模拟软件包括Petrel RE、Eclipse、Intersect及t-Navigator。新的集群搭建对该院目前现有的GPU集群作业要求大大提高。同时结合以往地震处理软件调用的GPU集群运行结果来看,还存在以下问题:
- 传统服务器及主机的CPU处理器与GPU卡的强耦合导致地震处理软件及数值模拟软件运行中出现GPU卡资源被闲置。
- 较为大型的地震处理作业在调用GPU集群资源的过程中会出现服务器GPU资源利用率较低的情况。
- 大规模的GPU集群设备缺少监控手段,难以统计整个GPU设备集群、单个GPU设备的利用率的情况。
02 原理解释
针对目前某研究院主流的地震处理及油藏数值模拟软件,如何实现算力的按需调度是核心。虽然目前研究院服务器集群中CPU与GPU搭配的计算组合已实现高性能并行计算,但针对对GPU卡运行要求高的Omega及t-Navigator等软件,均是通过物理形式直接调用GPU,GPU并没有像云场景中计算、存储、网络虚拟化一样实现资源池化,GPU的利用率相比于CPU较低。
趋动科技OrionX AI算力池化方案的出现,允许研究院以现有GPU集群为基础建设GPU算力池,从而实现集群内GPU资源的高效灵活调度、减少未来硬件采购成本、节约能耗支出、提升人效物效,且能帮助人工智能技术在石油勘探开发领域的应用落地。
趋动科技OrionX GPU池化方案,通过在物理服务器集群上部署OrionX软件,实现GPU资源池化,可以在个人电脑上通过图形化管理界面或者命令行方式统一灵活调度整个数据中心中的GPU资源。方案具体功能包括:
- GPU资源池建设,将业务与GPU服务器解耦,统一管理调度不同型号的GPU卡,形成企业级GPU资源池。
- CPU和GPU解耦,实现通过CPU服务器调用GPU资源池内的GPU资源运行地震处理或数值模拟软件实现“隔空取物”。
- 动态挂载/释放GPU资源,针对已入池的GPU卡,可以实现业务在运行时从GPU池中动态调用GPU卡资源,业务结束运行后,GPU资源动态释放到GPU资源池。
- GUI监控界面,通过已高度开发的网页版调度管理器界面进行统一控制,或根据业务特点在服务器节点上通过命令行进行控制。
03 池化方案在石油石化行业的初步应用
依托某研究院科研中心机房较为先进的叶脊架构网络,团队搭建的计算集群实现了GPU池化方案在石油石化行业的初次落地应用。
某研究院机房叶脊网络架构示意图
GPU资源池化方案落地应用集群构成
趋动科技OrionX允许不同品牌、不同操作系统、不同GPU型号参数的低软硬件限制要求,选取m台无GPU卡的超聚变服务器、n台含英伟达A100显卡的浪潮GPU服务器、n台含英伟达V100的联想GPU服务器、以及n台含英伟达K80的曙光GPU服务器搭建集群。在某研究院科研中心叶脊架构网络的支持下,集群内单服务器之间已实现25Gbe网络互通,延迟率非常低。
以某研究院主流的勘探开发业务为目标,分别选取t-Navigator油藏数值模拟软件,Omega2019地震处理软件为运行主体。
· t-Navigator数值模拟
采用某油田demo数模工区内的地质模型,在命令行界面直接启动软件并调用GPU池内的资源。
通过无GPU显卡的服务器,成功调用两块英伟达V100S显卡资源。
· Omega2019时间偏移
使用demo工区内的测试数据体,进行叠前时间偏移作业。
使用一台超聚变服务器,调用两台含有英伟达K80显卡的曙光GPU服务器进行Omega作业。
通过对某研究院主流业务运行的Omega地震资料处理软件,t-Navigator油藏数值模拟软件在部署OrionX的服务器上调用OrionX vGPU资源,成功验证了OrionX池化方案在石油石化行业勘探开发高性能计算的落地应用可行性。
04 解决的问题
在某研究院已有的CPU+GPU服务器计算集群的基础上,将GPU资源池化共享与院方针对勘探开发专业软件的共享方案不谋而合。OrionX的落地应用成功,意味着科研人员无需再对服务器按有无显卡进行区分,大大降低了申请服务器集群资源的门槛,使更多的勘探开发软件有使用集群算力的可能,有助于某研究院有高算力需求科研生产项目的快速实施。
· 通过GPU池的建设来提升GPU资源的综合利用率
GPU卡作为一个附加在计算机当中的设备,本应就是按需调用,动态挂载的形式,用多少挂载多少,不用时释放。但是目前的GPU使用形式多为独占式使用模式,一个业务或者应用会长时间独占一个或多个物理GPU卡,缺乏动态释放机制,缺乏粒度分配能力,致使GPU资源使用率很低,通过OrionX池化后的GPU资源利用率将极大地提升。
· 通过GPU池的建设实现用户GPU业务与GPU物理服务器的解耦
对于一些时间偏移、地质建模、油藏数值模拟等勘探开发专业软件作业运行任务,需要采用多CPU+GPU的方式进行,CPU做大量数据预处理,GPU做并行计算加速。而通常的服务器都是两颗CPU配置一至多块GPU卡,CPU很容易被占满,占满后成为瓶颈,GPU业务往往只能使用多卡中的1到2块,剩余GPU全部闲置,并且业务在调用单块GPU的过程中也是短暂调用,不会长时间利用卡资源。因此,CPU与GPU也应该要解耦,GPU作为一个高速运行的设备,应该拥有更弹性更广阔的调度空间,以便能够在整个数据中心范围内支撑更多的CPU节点。
· 通过GPU池的建设来探索数据中心异构算力资源的管理、调度新模式
石油行业作为国家重点行业,时刻面临着高端芯片“卡脖子”风险,虽然目前英伟达显卡的市场占有率比较高,各种勘探开发专业软件运行也依托于英伟达显卡,国内外大部分生产测试环境中都是不同类型的英伟达显卡。但是随着国产算力芯片厂家的持续发展,可选择的芯片厂商不再局限于英伟达、AMD、英特尔等国外品牌,国产厂家芯片譬如寒武纪MLU、海光DCU均成为可选项。因此,进行基于多种基础架构环境、多种GPU卡类型、多种操作系统的异构环境下GPU池化的探索,实现算力中心复杂的异构环境下的GPU算力的管理、调度新模式,为业务运行带来新的价值。
05 结 论
趋动科技OrionX是具有部署方便,兼容性强,可统一调度的优秀GPU池化方案。在油气勘探开发领域可以支撑包括但不限于地震资料处理、地质建模、油藏模拟专业软件高效运行。在英伟达显卡受外国政策限制价格飞涨,库存量急剧下降后,可大幅度提升某研究院现有的显卡资源的使用率和利用率,为研究院未来服务器相关科研装备国产化做出铺垫,节约未来GPU显卡的投资预算。无论是生产效果还是经济规划,在石油石化行业内都将示范和引领作用。