Moe | CctoctoFX

DeepSeek-V4-Flash 架构 QA

基于 V4-Flash 主报告的配套 QA。覆盖 V3.2→V4 演进、CSA+HCA 混合注意力、MoE 路由（Aux-Loss-Free/Sinkhorn-Knopp）、mHC 多通道残差、Muon 优化器等核心主题。

基于 GLM-5.1 主报告的配套 QA。覆盖三代演进、DSA 动态稀疏注意力、MLA 潜 KV 压缩、MoE 路由（256+1, k=8, scaling=2.5）、异步 Agent RL 训练体系等核心主题。

基于 Mimo-V2-Flash 主报告的配套 QA。覆盖 Hybrid Dispatch MoE 路由、MTP×2 投机解码、SwiGLU FFN 等核心主题。

Mimo-V2-Flash 是小米 Mimo 团队的开源 MoE 模型。核心创新为 Hybrid Dispatch（Sink+Bias 双机制）MoE 路由、MTP×2 投机解码、SwiGLU FFN 等。本期拆解整体架构、混合路由机制、MTP 设计及与同期模型的对比。

基于 M2.7 主报告的配套 QA。覆盖五代演进、Full Attention 回归、GQA+QK Norm、MoE 路由（sigmoid+routing bias）、MTP×3、训练体系等核心主题。