一、启动报 [hccl_runner.cpp:141] AllGatherHcclRunner:0 HcclCommInitRootInfo fa il, error:2, rank:0, rankSize:2
背景:运行DeepSeek-R1-Distill-Qwen-14B模型,在2张300 P卡可以运行,单独一张启动报以上错误。
问题分析:hccl在创建通信域时,相应的卡需要分配大约300M的device内存,因此每张卡所在的通信域的数量越多,则额外需要的内存越多,因此会有内存不足的问题。
参考链接:
分布式并行快问快答来咯!|昇思MindSpore分布式并行FAQ_hccl function error: hcclcomminitrootinfo(numranks-CSDN博客