Switch Transformers 论文详解

【2025-06-24】讲解了 All-to-All 通信概念、MoE 专家并行原理、 DeepSpeed MoE 并行策略，并解析了 Switch-Transformers 在 MoE 上的并行优化策略。

张量并行技术详解

【2025-04-10】讲解了张量并行的原理，以及在 embedding、线性层中的应用和通讯量分析。

Pytorch c10 模块详解

【2025-04-02】Pytorch c10 模块详解，内容持续更新中。

Pytorch 架构概览

【2025-04-01】Pytorch 架构概览，内容持续更新中。

Pytorch 编译流程解析

【2025-03-30】Pytorch 编译流程解析，内容持续更新中。

Pytorch 张量实现分析

【2025-03-29】pytorch 张量的属性、底层实现分析以及应用，内容持续更新中。

Pytorch 代码库结构拆解

【2025-03-28】pytorch 代码库结构拆解，以及核心目录的功能概述。

CUDA stream 和 event 模块详解

【2025-03-21】CUDA stream 和 event 模块的理解、管理 API 介绍，以及如何使用 stream 和 event 去完成相应功能。

MLA 结构代码实现及优化

【2025-02-10】MLA 结构代码实现及优化, 不吸收和吸收矩阵版本代码实现。

DeepseekV3 论文解读

【2025-02-08】DeepSeek-V3，是一个强大的混合专家（MoE）语言模型，总参数量达 6710 亿（`671B`），每个 token 激活 370 亿（`37B`）参数。为实现高效推理和经济高效的训练，和 V2 一样，DeepSeek-V3 也采用了多头潜在注意力（`MLA`）和 `DeepSeekMoE` 架构。