Ascend

昇腾 950 NPU 架构深度解析

基于华为《昇腾950 NPU 架构白皮书》的深度技术解读。第三代 DaVinci 架构核心变化：Cube/Vector 核分离 + 全精度体系（MXFP4/HiF8/FP8/BF16/TF32），灵衢 2.0 统一互联协议，8192 卡超节点。

AIAgent

从 Pocock Skills 到昇腾诊断：Skill 与 Knowledge 体系设计草案

以昇腾训练和推理支持场景为背景，综合 Pocock skills 的设计思想，提出一套三层知识架构的 Skill 加 Knowledge 体系设计草案。经过两轮自我审视：第一轮收紧了 skill 与 harness 的边界（skill 拆解、Tier 3 退回关键词、诚实标注路径 A/B 能力不对称、重算上下文预算）；第二轮补齐了执行过程可观测性、学出的置信度、分布式参数化、结构化语义校验，并把摄入回路升级为"agent 自起草 + 人验证"。

aiinfra

LLM 系统分析方法论（六）：训练通信与掩盖分析

训练通信完整分析：从物理原理到框架实现，覆盖 TP/PP/DP/EP/CP/FSDP2 六种并行维度的通信模式、时间线建模和掩盖策略。含 M3 完整 step time 推演和 Dense 70B/M3 MoE 多场景实战。跨 NVIDIA + Ascend 双平台。

Skills

Ascend Profiling Analysis Skill 设计深度解析

Ascend Profiling Analysis Skill 设计深度解析本文深度解析一个用于分析 Ascend NPU torch profiler 产出的 skill，涵盖其设计哲学、Pipeline 架构、昇腾核心知识体系和先验知识体系。一、背景与动机为什么需要 profiling 分析？在昇腾 NPU 上运行 LLM 推理时，的性能调优需要回答几个关键问题： Step 时间去哪了？ attention/FFN/MoE 各占多少？瓶颈在哪？ Cube 计算还是 Vector 内存搬运？ EP/TP 负载均衡吗？有没有 rank 掉队？通信是否拖后腿？ HCCL collective 是否慢于预期？传统的分析手段面临几个问题：工具问题 CANN Studio Timeline 只能看时序，无法聚合统计 trace_view.json 数据稀疏，难以关联到 kernel 语义 kernel_details.csv 数据量级 GB，需要专门解析逻辑设计目标这个 skill 的核心目标：从原始 profiling 数据出发，产出带证据链的可追溯报告。每一条诊断结论都必须能追溯到原始 CSV 的行号支持跨 rank 对齐和异常检测输出 Markdown / Excel / HTML 三种格式二、设计哲学：证据链优先核心理念每个 claim 必须能追溯到原始 row。 ...