• Zhang
  • 🇬🇧 EN
  • Weekly
  • About
  • Categories
Be yourself and don't go with the flow.

Switch Transformers 论文详解

【2025-06-24】讲解了 All-to-All 通信概念、MoE 专家并行原理、 DeepSpeed MoE 并行策略,并解析了 Switch-Transformers 在 MoE 上的并行优化策略。

张量并行技术详解

【2025-04-10】讲解了张量并行的原理,以及在 embedding、线性层中的应用和通讯量分析。

Pytorch c10 模块详解

【2025-04-02】Pytorch c10 模块详解,内容持续更新中。

Pytorch 架构概览

【2025-04-01】Pytorch 架构概览,内容持续更新中。

Pytorch 编译流程解析

【2025-03-30】Pytorch 编译流程解析,内容持续更新中。

Pytorch 张量实现分析

【2025-03-29】pytorch 张量的属性、底层实现分析以及应用,内容持续更新中。

Pytorch 代码库结构拆解

【2025-03-28】pytorch 代码库结构拆解,以及核心目录的功能概述。

CUDA stream 和 event 模块详解

【2025-03-21】CUDA stream 和 event 模块的理解、管理 API 介绍,以及如何使用 stream 和 event 去完成相应功能。

MLA 结构代码实现及优化

【2025-02-10】MLA 结构代码实现及优化, 不吸收和吸收矩阵版本代码实现。

DeepseekV3 论文解读

【2025-02-08】DeepSeek-V3,是一个强大的混合专家(MoE)语言模型,总参数量达 6710 亿(`671B`),每个 token 激活 370 亿(`37B`)参数。为实现高效推理和经济高效的训练,和 V2 一样,DeepSeek-V3 也采用了多头潜在注意力(`MLA`)和 `DeepSeekMoE` 架构。
  • 1
  • 2
  • 3
  • …
  • 12
  • >
github Twitter RSS github 2015~2025