中共中央、国务院印发的《数字中国建设整体布局规划》指出,要夯实数字中国建设基础,其中重要的一方面,就是系统优化算力基础设施布局,引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局,加强传统基础设施数字化、智能化改造。
随着数字经济的蓬勃发展,特别是人工智能应用快速普及产生的强大算力需求,智算中心已经从最初的一个概念逐渐发展成为数智时代最具代表性的新型公共算力基础设施。
作为智算中心的先行者,百度智算中心聚焦人工智能应用场景,为政府和行业客户提供包括普惠算力、算法模型和数据服务在内的人工智能基础设施,夯实数字经济创新发展的数智底座。
算是目的 智是手段
进入2023年,ChatGPT的火爆掀起了人工智能的又一轮热潮。“目前,国内人工智能的发展主要受限于算力和数据。”百度云途腾总裁刘江涛一针见血地指出。
百度云途腾总裁刘江涛
仅就算力而言,OpenAI为了训练ChatGPT,构建了由近3万张英伟达V100显卡组成的庞大算力集群。如果按半精度FP16计算,这是一个将近4000P的算力集群。而目前国内500P以上的智算中心凤毛麟角。有消息称,GPT-4达到了100万亿的参数规模,其对应的算力需求同比大幅增加,未来可能E级规模的算力集群才能满足不断增加的训练所需。今天,投身大模型的公司如雨后春笋般涌现,仅国内就有20多家,如果再算上围绕大模型的人工智能生态和由此产生的用于推理的算力需求,未来的算力缺口将更加惊人。
巨大的算力缺口激发了智算中心的建设热潮。据不完全统计,目前国内有超过30个城市正在建设或提出建设智算中心。无疑,智算中心将为人工智能夯实“算力底座”。
相比人们熟知的传统数据中心或云数据中心,以及超算中心,智算中心究竟有哪些不同呢?
在高性能计算领域,我国已处于国际领先水平,曾先后十次排名世界第一,并三获“戈登·贝尔奖”。但是客观地来看,我们的算力主要还是集中在超算,也就是科学计算方面,在智算层面,我们与国际相比确实还存在一定的差距。这也正是需要我们在未来实现赶超的地方。
智算中心与超算中心无所谓孰优孰劣,两者各有侧重。刘江涛从企业和工程的角度对两者进行了对比,其区别主要表现在以下三个方面:
首先,在技术架构层面,超算中心的核心计算能力依赖于高性能CPU,强调双精度的通用计算能力,追求数值计算的精确。CPU之所以被称为中央处理器,是因为它的设计初衷,就是用来做整体控制的,除计算之外,还负责任务管理和调度,角色类似于企业的CEO。而智算中心的核心计算能力更多依赖于GPU,注重单精度、半精度等多样化计算能力。GPU的设计初衷是做大量的重复计算,是计算专家,类似于企业的CTO。
其次,在服务对象层面,超算更多服务于科研类的国家重点大工程和大体系项目,而科学类的项目是必须严格把控精度的,但实际上很多民用的工程类项目是不需要太高精度的。因此,智算的服务对象更为宽泛,除了服务于科研和高校之外,还更多地服务于数字政府和产业数字化。从助力产业发展角度来看,智算服务的性价比更高,研发周期更短。
最后,在应用场景层面,超算广泛应用于新材料、新能源、生物制药、高端装备制造、航空航天飞行器设计等领域的研究。而智算更多地应用于自动驾驶、智慧医院、智慧城市、智能制造等人工智能和产业融合创新的领域与场景。
从传统的数据中心和云数据中心来看,它们更偏向于混合算力,以CPU为主,含部分GPU算力。云数据中心是传统数据中心的子集,在传统数据中心的基础之上,用云计算进行升级改造,提升了传统数据中心的运营效率和使用的便利性。而智算中心又是云数据中心的子集,在云数据中心的基础上,在硬件层面进一步增加GPU的占比,在软件层面强化对各类GPU的兼容性以及管理和调度能力,比如GPU切片和虚拟化,同时提升云数据中心在AI方面的PaaS能力。
刘江涛表示:“算是目的,智是手段。用‘智’来算,就是以GPU作为‘算’的运算载体,以AI PaaS作为‘算’的工具,最终完成数学求解。”
现有的数据中心与智算中心定位不同、功用不同,且各有所长。很多业务放在传统数据中心就可以轻松解决,其实没有必要都放到智算中心完成。
理性看待智算中心发展
迈好第一步
近两三年,智算中心的建设如火如荼。“东数西算”工程的启动,能够将东部算力需求有序引导到西部,从而优化数据中心建设布局,促进东西部协同联动。那么,“东数西算”对于智算中心的建设与发展会带来什么影响呢?
刘江涛分析指出,“东数”之所以能够“西算”,除宏观政策上的“双碳”目标实现和微观经营上的成本因素外,最需要考虑的还是场景,不是所有“东数”都适合“西算”。按数据处理的延迟划分,计算其实可以分为“实时计算”和“离线计算”。对于离线计算,也就是对于延迟和时效要求并不是太敏感的业务,“东数西算”是划算的。但是对于实时计算,比如智能驾驶、工业机器人、辅助医疗等对于延迟要求较高的行业,延迟需求是毫秒级甚至微秒级的,“西算”并不现实。
智算中心本身包含了训练和推理,其中有一部分训练任务确实可以“西算”,但推理通常还是要放在本地进行,同时还要考虑到数据安全性的问题。大模型或者称之为通用人工智能,主要是使用大量互联网数据(或者称之为开放数据)进行训练,但大模型并不是人工智能的全部。随着人工智能逐渐深入产业应用,企业需要用很多“私域”数据或者行业数据去训练模型。这些数据大多比较敏感,很多时候是需要留在本地进行训练的,不能传输或存储到第三方平台上。所以,东部的政府和行业在本地规划建设自己的智算中心,无可厚非。
无论政府还是企业,应理智看待智算中心的建设与应用,不能盲目跟风,过犹不及。
参照云数据中心的发展范式和IT行业的商业规律,刘江涛认为,智算中心的发展会经历三个阶段:第一个阶段是“产品阶段”,会出现众多围绕智算需求的新型云计算平台产品,且需求旺盛,呈现出明显的卖方市场特征;第二个阶段是“服务阶段”,即围绕产品提供配套的衍生服务,就像当年的云管平台和MSP服务之于云计算一样,逐步从通用化管理向精细化治理转变,进一步提升管理效率和服务体验,同时降低使用成本;第三个阶段是“生态阶段”,即围绕智算中心构建上下游的产业生态。在这个阶段,智算中心会进一步标准化,这也意味着同质化将加剧,智算中心的市场份额开始呈现“马太效应”,生态完整性成为比拼的焦点,而依托于智算中心开发的“AI原生”的垂类应用,甚至是在大模型基础上的各类小模型将大量涌现。
就目前情况而言,智算中心还处于发展的第一个阶段,市场上可以选择的成熟产品并不多,也市场成熟度不高,数字政府、公安、医疗、交通、金融、生物制药、科研等是智算中心主要的应用场景。
顺势而为
以差异化抢占智算先机
国家工业信息安全发展研究中心发布的《智能计算中心2.0时代展望报告》指出,智算中心作为主要的新型算力基础设施,正在从以“建”为主的1.0时代,走进以“用”为主的2.0时代,智算中心被赋予了“算力多元化、服务一体化、产业协同化、能耗低碳化、价格普惠化”等新内涵。
刘江涛十分赞同上述观点,并以百度智能云的实践为例进行了详细介绍:算力多元化,就是百度智能云一直在做的一云多芯和异构计算,以实现对各类CPU和GPU的兼容,包括基于此的穿透和虚拟化能力;而服务一体化,其实就是算力资源的统一管理,也就是百度智能云不遗余力投入打造的基于IaaS之上的AI PaaS和AI工具;产业协同化,与百度智能云一贯秉承的“云智一体,深入产业”策略有异曲同工之妙,人工智能只有服务于产业,才能产生更大的价值,科技与产业的跨界融合至少是未来十年的趋势;在能耗低碳化方面,基于数据中心方面的专利和技术,百度能够将智算中心的PUE做到1.08,达到国际领先水平;从价格普惠化来看,现阶段受客观条件所限,比较难实现,而且需要整个产业各方的协作。从百度来看,它拥有自己的GPU芯片公司,推出了“昆仑芯”,并陆续实现了对“昆仑芯”各种型号的支持,此外还通过与兄弟公司的合作,一直朝着价格普惠的方向努力。
随着进入智算中心市场的厂商越来越多,既有算力厂商,也有云厂商,还有大量基础设施厂商。百度云途腾在智算领域如何定位?又如何脱颖而出呢?
刘江涛表示:“云途腾是一家技术型的公司,提倡工程师文化。作为云计算赛道的老牌厂商,我们从2018年就参与了国家重点研发专项,作为工业机器人云平台的课题负责人,研究的就是与人工智能相关的国产替代。在被百度并购之后,我们作为百度智能云体系的重要组成部分,长期践行‘云智一体’的理念,依托百度在人工智能方面的强大实力,不断提升云平台的AI能力,并在GPU的支持和AI PaaS方面进行了重点的研发投入,实现了技术的升级迭代和产品的功能演进。在这个基础之上,我们提出了打造国内首家AI型私有云企业的战略目标。”
百度是人工智能的国家队,而百度云途腾是隶属于百度旗下的智能云板块,在国内市场上具有明显的技术优势。在业务层面,近几年,百度云途腾除了继续夯实和扩大交通、能源、党政、金融、工业五大优势行业的市场占有率外,还提前布局“区域下沉”,取得了较为理想的突破。
未来,百度云途腾将会逐步加大在南方市场的投入,通过“行业+区域”的双重业务布局,推动“双轮驱动、区域统筹、行业深化”,从以行业为主转变成以区域为主,进一步优化业务结构,更好地服务区域经济发展。刘江涛表示,区域产业的多样性和特殊性也决定了,百度云途腾在智算中心场景的落地和服务的配套方面必须走差异化的发展路线,只有这样才能充分发挥自身的优势,服务于产业数字化,加速推动企业的数智化转型。