LLM 系统分析方法论(四):M3 实战推演与 Roofline 模型
MiniMax M3 完整推演:从 config.json 到参数量、FLOPs、KV Cache、推理显存的全链路计算。Roofline 模型分析推理延迟,理解 FP8/INT4 量化的性能收益。
MiniMax M3 完整推演:从 config.json 到参数量、FLOPs、KV Cache、推理显存的全链路计算。Roofline 模型分析推理延迟,理解 FP8/INT4 量化的性能收益。
KV Cache 原理与公式推导,覆盖 GQA / MLA / MSA / Mamba-2 四种架构的缓存策略;推理显存完整拆解,包括权重、KV Cache、激活值的显存占用计算。
FLOPs 完整估算:从矩阵乘法到 Attention 到 FFN,覆盖 Full Attention / MSA / MLA / Mamba-2 / GDN 六种注意力架构。
基于 GLM-5.2 主报告的配套 QA(27 问)。覆盖 GLM-5.1 → 5.2 演进、IndexShare 核心创新、MTP 四重改进、1M 上下文工程、训练与性能。
GLM-5.2 是智谱 AI 2026 年 6 月发布的旗舰 Agent 模型。核心创新为 IndexShare(1 full + 3 shared DSA Indexer 复用,降低 75% Indexer 计算量)、MTP 四重改进(KVShare + Stride + EMA + Score Boost)、1M 可用上下文、Agentic RL 升级。