Switch Transformers 论文详解 【2025-06-24】讲解了 All-to-All 通信概念、MoE 专家并行原理、 DeepSpeed MoE 并行策略,并解析了 Switch-Transformers 在 MoE 上的并行优化策略。
CUDA stream 和 event 模块详解 【2025-03-21】CUDA stream 和 event 模块的理解、管理 API 介绍,以及如何使用 stream 和 event 去完成相应功能。
DeepseekV3 论文解读 【2025-02-08】DeepSeek-V3,是一个强大的混合专家(MoE)语言模型,总参数量达 6710 亿(`671B`),每个 token 激活 370 亿(`37B`)参数。为实现高效推理和经济高效的训练,和 V2 一样,DeepSeek-V3 也采用了多头潜在注意力(`MLA`)和 `DeepSeekMoE` 架构。