2022年6月 Frontier 获得性能第一的论文翻译

为百万兆级加速架构做高性能 Linpack 优化

摘要

我们详细叙述了在 rocHPL 中做的性能优化，rocHPL 是 AMD 对 HPL 基准的开源实现，主要是针对节点进行优化的架构，是为百万兆级系统而设计的，比如：Frontier suppercomputer。
这个实现充分利用了节点上的使用高吞吐量的 GPU 加速器的高度优化的线性代数库，同时也使用了全部的CPU槽，执行延时敏感的分解阶段。
我们详述了难能可贵的性能挺高，例如一个多线程的方法在CPU 上计算 panel 的分解阶段，再例如，多个阶段之间分享节点上的 CPU 核的时间，再例如有几个优化用来隐藏 MPI 通信的时间。
我们展示了这个 HPL 基准的实现的性能结果，既在橡树岭国家实验室的Frontier 抢先体验版集群的单节点上进行了测试，也扩展到多节点上进行了测试。

1，简介

在2022年6月，坐落在橡树岭国家实验室的 Frontier 超级计算机，首次亮相在超级计算机 Top500 名单榜，并且以HPL 基准 1.1EFLOPS的成绩位居榜首。分数是上一届榜首的两倍多，Frontier 是第一个在 HPL 基准分数上超过 1 EFLOPS 的超级计算机，这使得它成为第一个百万兆计算机。不久之后，AMD就将 rocHPL 开源了，大家都可以自由获得。
rocHPL 的一个变体，优化了通信性能，由 HPE 提供，在 Frontier 上面获得了超过 1EFLOPS 的分数。
在这篇论文中，我们详述这些性能优化的大部分，来帮助达到这个分数，我们希望这些优化能够提供有用的信息来帮助用户在异构系统上优化 HPL。

HPL是众多基准测试中的一个，用来衡量计算机系统某些方面的性能。