[vLLM-Ascend] MC2技术深度解析：从MoE架构到通信融合优化

Sat, 20 Sep 2025 11:30:12 +0800

源码分析依赖vllm-ascend在2025/9/20号的main分支，阅读请注意时效性。
阅读建议:

了解MoE基本架构和关键推导

初步了解集合通信各原语的含义

对通算掩盖这类性能优化有基础的了解

概述

MC2（Merged Compute and Communication）是vLLM Ascend项目中针对昇腾NPU优化的核心技术，专门解决MoE（Mixture of Experts）模型在专家并行推理中的通信瓶颈问题。本文档从MoE架构基础出发，深入分析MC2的设计原理、技术实现和性能优化。

1. MoE架构基础与挑战

1.1 MoE模型基本原理

1.1.1 什么是MoE？

**MoE(Mixture of Experts)**是一种神经网络架构，通过将模型参数分散到多个"专家"网络中，根据输入动态选择部分专家进行计算。这种架构在保持高模型容量的同时，降低了计算复杂度。

1.1.2 MoE的数学表达

给定输入 $\mathbf{x} \in \mathbb{R}^{d}$，MoE层的输出可以表示为：

$$ \mathbf{y} = \text{MoE}(\mathbf{x}) = \sum_{i=1}^{N} g_i(\mathbf{x}) \cdot E_i(\mathbf{x}) $$

其中：

$N$ 是专家总数
$E_i(\cdot)$ 是第 $i$ 个专家网络
$g_i(\mathbf{x})$ 是门控网络对专家 $i$ 的权重

1.1.3 稀疏激活机制

为了提高效率，MoE通常采用稀疏激活机制，只选择 Top-K 个专家：

$$ \mathbf{y} = \sum_{i \in \text{Top-K}(\mathbf{x})} \frac{g_i(\mathbf{x})}{\sum_{j \in \text{Top-K}(\mathbf{x})} g_j(\mathbf{x})} \cdot E_i(\mathbf{x}) $$

详见附录A.1 MoE输出公式推导

其中 $\text{Top-K}(\mathbf{x})$ 表示根据门控权重选择的 Top-K 个专家索引。