DeepseekV3 论文解读

【2025-02-08】DeepSeek-V3，是一个强大的混合专家（MoE）语言模型，总参数量达 6710 亿（`671B`），每个 token 激活 370 亿（`37B`）参数。为实现高效推理和经济高效的训练，和 V2 一样，DeepSeek-V3 也采用了多头潜在注意力（`MLA`）和 `DeepSeekMoE` 架构。

DeepSeekV2 论文解读

【2025-02-07】DeepSeekv2 模型结构的详细解读，以及代码实现分析并拆解。

triton 内核编译流程解析

【2025-01-25】Triton 内核编译函数入口代码分析，并全面总结内核的编译流程。

vllm 优化之 PagedAttention 源码解读

【2024-12-06】总结了 vllm 的 pagedattention 内核设计和动态分配、管理 kv cache 内存的模块流程，难点主要有三个：一个是 block_tables 的创建和管理，以及 gpu 设备在指定模型上的可分配的内存 blocks 的计算，最后就是 pagedattention 内核代码中相关线程索引和偏移的计算怎么改成基于 block_tables 的形式，这都需要反复阅读理解代码才能得到清晰的理解。

vllm 优化之 cuda_graph 详解

【2024-12-05】cuda graph 解决了可能存在的所有 CPU 开销的来源：如用户编写的逻辑、PyTorch 调度逻辑、内存分配开销以及 GPU 驱动/内核开销（静态图优势）。

vllm 推理流程剖析

【2024-12-03】总结了 vllm 的推理架构和流程。

vllm优化技术速览

【2024-12-01】vllm优化技术速览，介绍 PagedAttention、连续批处理技术方案。

LLaVA 系列模型结构详解

【2024-11-28】多模态大模型 MLLM 架构通常都是 LLM + 视觉编码器 + 映射层的组合。本文详细总结了 LLaVA 系列多模态模型的模型结构，以及视觉编码器如何支持高分辨率输入图像。

masked-attention 算法详解

【2024-11-10】Casual Mask 机制的本质是为了构建下三角的注意力分数矩阵，从而实现因果模型只关注当前 token 与之前 token 的注意力关系，而不理会它与后续 token 的关系，即只"看"当前及前面的 tokens。

Pytorch 性能分析器使用探究

【2024-11-09】Pytorch 性能分析器使用探究。