2022年12月,AI创业公司OpenAI推出了聊天机器人ChatGPT。作为生成式AI在文本领域的实际应用之一,ChatGPT的问世距今不过百天而已,却已经火爆了全球。
一时间,大量的企业投入到生成式AI领域,大有“任彼桑田变沧海,一丸丹药定千春”的架势。有人问,创意创作已经无法阻挡人工智能,以后岂不是万千行业都要被彻底颠覆与重构?愿望很美好,现实很骨感。很可惜,归根到底还是那句话:没有强大和经济的算力,一切无从谈起。
正如亚马逊云科技首席执行官Adam Selipsky所言:“生成式AI有可能会改变整个产业,但是它所需的成本和专业知识,使得除了少数几家公司之外,几乎所有公司都无法使用这项技术。”
始于毫末的伟大突破
以ChatGPT等AI大模型的发展为例,其算力需求大致是每两个月就会增加一倍。这样的增长要求,即便是实现了翻倍的摩尔定律也难以企及,更不消说巨大的成本需求。
显然,如此高昂的成本对任何一家企业来说,基本上都是无法接受的,即便是家里有矿也经不起这样折腾。在这种情况下,想要成百上千倍地提升算力,必然需要全新的算力平台。
2月28日,市场调研机构Counterpoint公布了最新的服务器CPU调查报告。该报告的一大亮点,就是在传统的两家芯片厂商之外,亚马逊云科技的排名来到了第三,3.16%的市场份额较2021年提升了近一倍。
需要指出的是,从第一代Amazon Graviton开始,亚马逊云科技就不对外销售,而是将其完全用于对外提供云服务。这也就是说,通过Graviton,在传统的算力之外,亚马逊云科技为广大客户带来了全新且更为普惠的算力。
在去年底举行的亚马逊云科技2022 re:Invent全球大会上,亚马逊云科技自研的基于Arm架构CPU芯片Graviton发布了增强的第三代版本Graviton3E,并将之用于更多的计算实例。
Graviton不仅用于大名鼎鼎的EC2(Amazon Elastic Compute Cloud),当前亚马逊云科技更多的托管服务,譬如最新的容器等都是基于Graviton打造。事实上,很多客户在使用这些服务的时候,已经明显感受到Graviton带来的性价比提升。人工智能的落地关键毫无疑问,机器学习正在深刻影响,并且推动着关乎我们工作和生活方方面面的突破。从传统企业到创新企业,每一家公司都在使用机器学习技术解决生存与发展的相关命题。
“不管是智能语音、自动驾驶,抑或是最近火热的AI绘画,所有的AI发展都使得机器学习模型变得越来越复杂。”在日前的一场交流中,亚马逊云科技的技术专家这样表示。
诚然如此。过去几年里,模型的规模不断扩充,参数更是从数亿增加到上千亿个之多,训练和部署这些日益复杂的机器学习模型的高成本,正在将很多企业,尤其是小型创新公司拒之门外。
据介绍,从2017年起,亚马逊云科技的工程师团队就注意到这样的趋势。在他们看来,如果不去尽快满足客户的需求,那么机器学习带来的高昂成本,很快就会成为客户不能承受之重。
为此,亚马逊云科技在2019年设计和推出了Amazon Inferentia,来为机器学习应用程序提供高性能,让广大客户在尽享AI红利的同时,同样能够负担得起。
在芯片的设计和构建方面,亚马逊云科技拥有业界顶尖的团队,在十多年的发展中已经开发出众多优秀的产品,譬如我们前文提到的Graviton系列、Inferentia,以及Amazon Nitro系统等。
作为一种专门用于机器学习推理及驱动的服务器芯片,Inferentia与同类基于GPU的服务器相比,提供了更好的性价比、更高的吞吐量和更低的延迟。
同样是在2022 re:Invent全球大会上,亚马逊云科技推出了Inferentia2芯片和Inf2实例。与前代相比,新的Inf2实例的每瓦性能提升45%,吞吐量提升4倍,延时只有1/10,能够支持多达1750亿个参数的超大型复杂深度学习模型。
虽然机器学习的芯片性能进步很大,但是仍然难以跟上训练复杂度的提升程度,可行的解决方案就是利用分布式多处理器,通过网络进行协同计算、协同训练。
为此,亚马逊云科技还专门构建了用于机器学习的Amazon Trainum芯片,在搭载了16颗Trainum、512GB加速器内存和800GBps的网络带宽之后,Trn1实例充分诠释了它的强大:
与基于GPU的类似实例相比,训练成本降低了50%。以一个具备万亿级参数的大模型进行两周训练为例,GPU服务器P3dn需要600个实例,最新一代GPU实例P4d需要128个实例,但Trn1只需要用96个实例,经济性由此也可见一斑。
在去年底的大会上,亚马逊云科技还推出了基于Trn1的网络优化型实例Trn1n,将网络带宽从800GBps擢升到1600GBps,能够将超过1万个Trainium芯片构建在一个超大规模集群里……
通过以亲民的成本提供强大的性能,亚马逊云科技为客户的创新开辟出全新的途径。