config.json 到推理显存 · 8 个开源 SOTA 模型(Nemotron-3-Ultra / MiniMax-M3 / Kimi-K2.5 / DeepSeek-V4-Flash / GLM-5.1 / MiMo-V2-Flash / Qwen3.5-MoE / MiniMax-M2.7)的量化拆解
| Module | Params | % |
|---|
| Component | FLOPs | % |
|---|
公式准确性说明:
L × (d_kv + D_rope) × T × bytes。k_rope 使用 MQA 共享,整层只存一个 64 维向量;c_KV(512 维)同时编码 K_nope 与 V,不乘 2。T × C × H × D,Off-diagonal 2 × (T/C) × H × d_state²,二者均为 O(T),这是 Mamba 的核心优势。61 × (512+64) × 262144 × 2 = 18.4 GB ≈ 17.15 GiB(理论最小值,未含对齐开销)。