LLM 系统分析方法论(四):M3 实战推演与 Roofline 模型

MiniMax M3 完整推演:从 config.json 到参数量、FLOPs、KV Cache、推理显存的全链路计算。Roofline 模型分析推理延迟,理解 FP8/INT4 量化的性能收益。

June 22, 2026 · 22 min · 4534 words · Me

LLM 系统分析方法论(三):KV Cache 与推理显存

KV Cache 原理与公式推导,覆盖 GQA / MLA / MSA / Mamba-2 四种架构的缓存策略;推理显存完整拆解,包括权重、KV Cache、激活值的显存占用计算。

June 22, 2026 · 20 min · 4211 words · Me

LLM 系统分析方法论(二):FLOPs 估算

FLOPs 完整估算:从矩阵乘法到 Attention 到 FFN,覆盖 Full Attention / MSA / MLA / Mamba-2 / GDN 六种注意力架构。

June 22, 2026 · 27 min · 5671 words · Me

GLM-5.2 架构 QA

基于 GLM-5.2 主报告的配套 QA(27 问)。覆盖 GLM-5.1 → 5.2 演进、IndexShare 核心创新、MTP 四重改进、1M 上下文工程、训练与性能。

June 17, 2026 · 20 min · 4233 words · Me

GLM-5.2 架构深度拆解

GLM-5.2 是智谱 AI 2026 年 6 月发布的旗舰 Agent 模型。核心创新为 IndexShare(1 full + 3 shared DSA Indexer 复用,降低 75% Indexer 计算量)、MTP 四重改进(KVShare + Stride + EMA + Score Boost)、1M 可用上下文、Agentic RL 升级。

June 17, 2026 · 11 min · 2327 words · Me