因为ChatGPT(GPT-3.5)未正式公布参数量,暂时按照1750亿参数计算。
后续其他模型公布参数量后,可按参数量线性比例估算相关数值。
以下数值仅为理论估算,可能和实际数值相差很大,敬请谅解。
一、GPT-3.5磁盘占用估算
不同模型之间,磁盘、参数量可以按线性关系粗略估算;
yolov5x:参数量87.6M,磁盘占用166M
175B/87.6M = 1751024/87.6 = 2046
GPT-3.5磁盘占用估算:1662046/1024 = 332G
所以GPT-3.5模型大小约为332G。GPT-3.5参数量是YOLOV5X参数量的2046倍。
二、GPT-3.5用于推理时显存占用估算
显存占用估算方法参考:https://blog.csdn.net/weixin_49305813/article/details/119179849
显存占用=模型显存(参数)+batch_size×每个样本显存(输出和梯度动量)
GPT-3显存占用:17510244 /1024 = 700G (参数为32float,占4个字节)
需要A100数量:700G/80G = 9块A100
所以,GPT-3.5仅做推理时,空转显存占用约700G,需要大约9块A100(80G)显卡。
考虑用户访问模型:
国信证券测算称,训练阶段每个Token的训练成本约为6N(推理成本为2N)。
根据Similarweb的数据,23年1月份当前ChatGPT日活约1300万人,每人平均1000字左右的问题,因此合计产生约130亿字(173.3亿个token)。假设24小时平均分配任务,需要的算力为
173.3亿21750亿/(51%24小时3600秒)=173000000002175000000000/24/3600/0.51/1000000000000000
=137 PetaFLOP/S
由于访问流量存在峰值,假定访问峰值是一天均值的5倍, NVIDIA 80GB A100 GPU理论算力是 0.312 PFLOPS。
需要A100显卡数量 137*5/0.312 = 2195块
所以,大约需要2195块A100可以满足日活约1300万人访问需求。
三、GPT-3.5训练使用的显卡数量估计
据OpenAI团队发表于2020年的论文《Language Models are Few-Shot Learners》,训练一次1746亿参数的 GPT-3模型需要的算力约为3640 PF-days。
如果是 NVIDIA 80GB A100 GPU, 理论算力是 312 TFLOPS,Megatron 利用 tensor parallel 和 pipeline parallel 并行技术能达到 51.4% 的利用率,也即是每秒能完成 0.160 PFLOPS。
一张A100卡需要跑3640/0.16 = 22750(天)
按照1个月的训练时间计算,需要A100卡数量估计 = 22750/30 = 758 (块)
据悉,训练Meta AI的OPT-175B使用了992张80GB的A100 GPU,每个GPU的算力达到了147 TFLOP/s。
所以,综合以上信息估计完成一次训练,A100卡的用量需求大约为1000块。
四、租赁价格估计
显卡(NVIDIA 80GB A100 GPU)的租赁价格为 1.5 刀每小时
综合上面的访问和训练用A100数量:2195+1000=3195;
还需要考虑并行训练、测试等用卡量,总体按10000块A100估计。
10000块A100一天的租赁费用:10000 * 24 * 1.5 = 360000刀 = 36万刀
注:以上未考虑英伟达对OpenAI的优惠价格。
五、其他机构预测(感觉比较离谱)
3月7日消息,市场调查机构TrendForce公布的最新报告指出,如果以英伟达A100显卡的处理能力计算,运行ChatGPT将需要使用到30000块英伟达GPU。
调查机构TrendForce在报告中指出,预估ChatGPT需要20000块显卡来处理训练数据。随着OpenAI继续在商业上部署ChatGPT和该公司的生成式GPT模型,可能需要超过30000块显卡。
目前英伟达 A100 显卡的售价在10000-15000美元之间,该售价取决于OpenAI需要多少显卡,以及英伟达是否会为AI公司提供订单折扣。TrendForce预估英伟达可以赚取超过3亿美元(IT之家备注:当前约 20.82 亿元人民币)收入。
ChatGPT训练阶段总算力消耗约为3640 PF-days(即1PetaFLOP/s效率跑3640天)。据普超资本微信公众号,GPT-3训练成本预计在500万美元/次。
六、参考
以GPT-3 175B为例,说明PF-days和flops的等量关系;
3.64E+03 PF-days=3640 * 1000 * 1000* 100010001000243600 = 3.14E+23 次浮点运算
NVIDIA 80GB A100 GPU 理论算力参考:
Megatron 利用率 参考:
GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale
显卡租赁价格参考: