LLM Architecture Calculator · 从 config.json 到推理显存

Architecture

Attention Mamba MoE/FFN Dense DeltaNet

Model Info

Vendor / Year

Params (Total / Active)

Context Window

Hidden Dim (d)

Layers (L)

Attention Type

Heads (Q / KV)

MoE Experts

License

Parameter Decomposition

Module	Params	%

Sum

—

FLOPs / Token

Component	FLOPs	%

Total

—

KV Cache

Per-sample KV cache

—

Inference Memory Footprint

Weights —

KV Cache (× Batch) —

Activations —

Total Footprint

—

Minimum Deployment —

训练成本估算

选择模型规模和硬件配置，预估训练时长与成本

Tokens 策略

规模

自定义

GPU 型号

GPU 数量

张

Batch Size

Seq Len

期望 MFU 35%

15%25%35%45%60%

单价 $/h

Gradient Checkpointing

训练 Tokens

—

总训练 FLOPs

—

预估训练时长
—

预估成本

—

公式准确性说明：

MLA KV Cache：L × (d_kv + D_rope) × T × bytes。k_rope 使用 MQA 共享，整层只存一个 64 维向量；c_KV（512 维）同时编码 K_nope 与 V，不乘 2。
SWA Decode：解码阶段 T_new=1，仍 attend 到全部 T 个历史 token（窗口 W 在 W≥T 时不生效），SWA decode FLOPs = Full Attention decode FLOPs。SWA 只在 prefill 阶段省算力。
Mamba-2 SSD：Diagonal T × C × H × D，Off-diagonal 2 × (T/C) × H × d_state²，二者均为 O(T)，这是 Mamba 的核心优势。
Verification：Kimi K2.5 @ T=256K → 61 × (512+64) × 262144 × 2 = 18.4 GB ≈ 17.15 GiB（理论最小值，未含对齐开销）。