目录
NVMe(Non-Volatile Memory Express)非易失性存储器访问和传输协议
Zero、Zero-Offload、Zero-Infinity是什么
Zero
Zero-Offload
Zero-Infinity
FP32、FP16是什么
FP32和FP16
Zero:Zero Redundancy Optimizer零冗余优化器
考虑到Transformer架构固有的内存密集型特性,高效的 显存管理仍然是LLM分布式推理中面临的首要挑战。ZeROOffload[8] 和 ZeRO-Infinity [9] 支持内存卸载,将 GPU 的显存压 力分担到 CPU 甚至 NVMe 内存上,从而打破 GPU 的显存限制。但 此类方法需要所有计算卡间拥有高速连接 ,因此使用 场景将会受到很大的限制
NVMe(Non-Volatile Memory Express)非易失性存储器访问和传输协议
Zero、Zero-Offload、Zero-Infinity是什么
即Zero、Zero-Offload、Zero