Kv-Cache

LLM 系统分析方法论（四）：M3 实战推演与 Roofline 模型

MiniMax M3 完整推演：从 config.json 到参数量、FLOPs、KV Cache、推理显存的全链路计算。Roofline 模型分析推理延迟，理解 FP8/INT4 量化的性能收益。

KV Cache 原理与公式推导，覆盖 GQA / MLA / MSA / Mamba-2 四种架构的缓存策略；推理显存完整拆解，包括权重、KV Cache、激活值的显存占用计算。