大模型应用场景日趋多样,需求也随着增加,进而倒逼着多元算力方面的创新,为满足AI工作负载的需求,采用GPU、FPGA、ASIC等加速卡的服务器越来越多。
根据IDC数据统计,2022年,中国加速服务器市场相比2019年增长44.0亿美元,服务器市场增量的一半更是来自加速服务器。
这意味着未来算力一定是多元化的。
高性能、高弹性与高稳定的算力,对于网络速度与稳定性要求也非常高,在训练集群中,一旦网络有波动,训练的速度就会大受影响,只要一台服务器过热、宕机,整个集群都可能要停下来,然后训练的任务要重启,这些事件会使得训练的时间大大增加,所以投入在大模型的成本也会变大。
另外,GPU服务器运营与分层次的排查也会更频琐,整体运维的难度与工作量也会高很多。
因此,云所提供的稳定计算、高速网络与专业的运维,可以为算法工程师大大减轻基础设施的压力,让他们把精力放在模型的构建与算法的优化上。
腾讯云打造的面向模型训练的新一代HCC高性能计算集群,搭载最新代次的GPU,结合多重加速的高性能存储系统,加上3.2T超高互联带宽、低延时的网络传输,整体性能比过去提升了三倍。