LLM 训练显存计算器

config.json 到 per-GPU 训练显存。基于 LLM 系统分析方法论(五) 的完整公式体系。
模型预设
模型参数(自动填充,可手动调整)
B
MoE 配置
启用专家并行 EP
训练配置
32
2
8K
bytes/param = master(FP32) + 一阶动量 + 二阶动量
移除 attention score 平方项
激活存储字节减半(Transformer Engine,910C 不支持)
LoRA / QLoRA 微调(CH 9)
冻结 base model,仅训练低秩适配器
并行策略
4
4
4
8
1
ZeRO Stage
TP 附属,省 ~12% 激活
验证案例一键载入
Per-GPU 训练显存
0GB
Per-GPU 参数:0 B · 总 GPU 数:0 · 激活系数 C = 34
权重
0 GB
优化器
0 GB
梯度
0 GB
激活
0 GB
grad_accum
显存组分分解 单位 GB
组分 公式 值 (GB) 占比