DeepSeek-V4-Flash 架构深度拆解

V4-Flash(284B 总参 / 13B 激活)是 DeepSeek 2026-04-24 发布的旗舰 MoE 模型。核心创新为 CSA+HCA 混合稀疏注意力(长上下文 1M 支持)、62 层 384 专家 MoE、mHC 多通道残差替代 Pre-Norm、Muon 正交化优化器。本期完整拆解 V3.2→V4 演进、稀疏注意力双引擎、8 类 gating 负载均衡对比、FP4+FP8 混合量化,以及 13 类架构组合的 4D Parallelism 部署策略。

June 10, 2026 · 77 min · 16361 words · Me

GLM-5.1 架构深度拆解

GLM-5.1(744B 总参 / 40B 激活)是智谱 AI 与清华联合发布的旗舰 Agent 大模型。核心创新为 DSA 动态稀疏注意力(top-2048, 节省 72.5% 注意力计算)+ MLA 潜 KV 压缩(理论 ~19 GB)+ 256+1 MoE(routed_scaling_factor=2.5)。本期完整拆解 78 层架构、DSA Indexer 7 步算子、MLA Muon Split、异步 Agent RL 训练体系,并与 M2.7 做全维度对比。

June 10, 2026 · 26 min · 5532 words · Me

MiniMax-M2.7 架构深度拆解

M2.7(229.9B/9.8B 激活)的核心不在规模而在自我进化与训练体系。本期拆解五代演进、62层 Full Attention + 256 MoE 设计空间、单 token 6.1 TFLOPs / 48.8GB KV Cache / ~510GB 推理显存的计算分析,以及 attention + MoE gate 的算子级拆解,另附完整训练体系(29.2T tokens / FP8 / 自进化)。

June 10, 2026 · 14 min · 2947 words · Me

Qwen3.5-MoE 架构深度拆解

Qwen3.5-MoE(255B 总参 / 30B 激活)是阿里 Qwen 团队的 MoE 旗舰模型。核心创新为 Gated DeltaNet(GDN)线性注意力与传统 Full Attention 的混合架构(Hybrid-Attn)、2048 专家细粒度 MoE(k=8 激活 + 1 共享)、FW4a 量化部署。本期拆解 GDN chunkwise-parallel 递归机制、混合注意力层分布策略、MoE 拓扑及与 M2.7/GLM-5.1/V4-Flash 的对比。

June 10, 2026 · 22 min · 4538 words · Me

[vLLM-Ascend] MC2技术深度解析:从MoE架构到通信融合优化

源码分析依赖vllm-ascend在2025/9/20号的main分支,阅读请注意时效性。 阅读建议: 了解MoE基本架构和关键推导 初步了解集合通信各原语的含义 对通算掩盖这类性能优化有基础的了解 概述 MC2(Merged Compute and Communication)是vLLM Ascend项目中针对昇腾NPU优化的核心技术,专门解决MoE(Mixture of Experts)模型在专家并行推理中的通信瓶颈问题。本文档从MoE架构基础出发,深入分析MC2的设计原理、技术实现和性能优化。 1. MoE架构基础与挑战 1.1 MoE模型基本原理 1.1.1 什么是MoE? **MoE(Mixture of Experts)**是一种神经网络架构,通过将模型参数分散到多个"专家"网络中,根据输入动态选择部分专家进行计算。这种架构在保持高模型容量的同时,降低了计算复杂度。 1.1.2 MoE的数学表达 给定输入 $\mathbf{x} \in \mathbb{R}^{d}$,MoE层的输出可以表示为: $$ \mathbf{y} = \text{MoE}(\mathbf{x}) = \sum_{i=1}^{N} g_i(\mathbf{x}) \cdot E_i(\mathbf{x}) $$其中: $N$ 是专家总数 $E_i(\cdot)$ 是第 $i$ 个专家网络 $g_i(\mathbf{x})$ 是门控网络对专家 $i$ 的权重 1.1.3 稀疏激活机制 为了提高效率,MoE通常采用稀疏激活机制,只选择 Top-K 个专家: $$ \mathbf{y} = \sum_{i \in \text{Top-K}(\mathbf{x})} \frac{g_i(\mathbf{x})}{\sum_{j \in \text{Top-K}(\mathbf{x})} g_j(\mathbf{x})} \cdot E_i(\mathbf{x}) $$详见附录A.1 MoE输出公式推导 其中 $\text{Top-K}(\mathbf{x})$ 表示根据门控权重选择的 Top-K 个专家索引。 ...

September 20, 2025 · 20 min · 4183 words · Me