LLM 系统分析方法论(四):M3 实战推演与 Roofline 模型

MiniMax M3 完整推演:从 config.json 到参数量、FLOPs、KV Cache、推理显存的全链路计算。Roofline 模型分析推理延迟,理解 FP8/INT4 量化的性能收益。

June 22, 2026 · 22 min · 4534 words · Me