CctoctoFX

置顶

LLM 系统分析方法论（一）：预备知识与参数分解

从 config.json 到参数量、FLOPs、KV Cache、推理显存的完整计算推导。覆盖 Full Attention / MSA / MLA / Mamba-2 / SWA / GDN 六种注意力架构。第一篇：矩阵乘法基础与参数分解。

aiinfra

昇腾 950 NPU 架构深度解析

基于华为《昇腾950 NPU 架构白皮书》的深度技术解读。第三代 DaVinci 架构核心变化：Cube/Vector 核分离 + 全精度体系（MXFP4/HiF8/FP8/BF16/TF32），灵衢 2.0 统一互联协议，8192 卡超节点。

AIAgent

从 Pocock Skills 到昇腾诊断：Skill 与 Knowledge 体系设计草案

以昇腾训练和推理支持场景为背景，综合 Pocock skills 的设计思想，提出一套三层知识架构的 Skill 加 Knowledge 体系设计草案。经过两轮自我审视：第一轮收紧了 skill 与 harness 的边界（skill 拆解、Tier 3 退回关键词、诚实标注路径 A/B 能力不对称、重算上下文预算）；第二轮补齐了执行过程可观测性、学出的置信度、分布式参数化、结构化语义校验，并把摄入回路升级为"agent 自起草 + 人验证"。

AIAgent

拆解 Matt Pocock 的 Agent Skills：设计哲学、工程流与失效模式

深入拆解 mattpocock/skills（16 万 star）的体系：skill 组织架构、main flow 工作流、Wayfinder 多 session 编排、CONTEXT.md 共享语言、四个 agent 失效模式，以及三个能直接用起来的工作流模板。

qa

Meituan LongCat-2.0 架构 QA

美团 LongCat-2.0 架构 QA，覆盖 1.6T 参数分解、Dual-Sublayer 设计、Shortcut MoE、LSA 稀疏注意力三件套、N-gram Embedding、6D 并行训练。

architecture

Meituan LongCat-2.0 架构深度拆解

美团 LongCat-2.0 是总参 1.6T、激活 48B（3.0%）的超大 MoE，原生 1M 上下文。三大创新：Dual-Sublayer + Shortcut MoE（每逻辑层=2 Attention 子层 + 2 Dense MLP + 1 Shortcut MoE）、LongCat Sparse Attention（LSA = SI/CLI/HI 三件套）、N-gram Embedding（独立于 MoE 的稀疏维度，135B 参数）。本期完整拆解 1.6T 配置、38 逻辑层 × 76 物理子层、768E + 128 zero experts、FLOPs/KV Cache、MLA+LSA、训练与推理体系。