理解 triton 内核教程 4

【2024-09-24】flashattention 算子 triton 编程总结

理解 triton 内核教程 3

【2024-09-24】layernorm 算子 triton 编程总结

理解 triton 内核教程 2

【2024-09-22】matmul 算子 triton 编程总结

llm 推理 latency 分析

【2024-09-21】考虑基于 roofline 模型和的 llm decode 阶段的 latency 分析，对于小 batch 的模型推理，单个 token 的推理 latency 可能受限于 gpu 的内存带宽，即内存读取时间 > 计算时间；对于大 batch，单个 token 的推理 latency 受限于 gpu 的算力，即内存读取时间 > 计算时间。

理解 triton 内核教程 1

【2024-09-20】softmas 算子 triton 编程总结

llm 参数量-计算量-显存占用分析

【2024-09-20】本文分析的是采用 decoder-only 框架的 llm（类 gpt 的大语言模型）的参数量 params、计算量 FLOPs、理论所需 CPU 内存和 GPU 显存。

深入理解 roofline 模型

【2024-09-15】Roofline 性能分析模型是一种用于衡量和分析计算性能的工具，通过将应用程序的计算性能与硬件的理论峰值性能进行对比，以揭示应用是受到计算性能的限制还是受到内存带宽的限制。

Roofline 论文解读

【2024-09-14】翻译 roofline 性能分析模型论文。

llm 综合分析论文翻译

【2024-09-12】翻译 llm 综合分析论文。

llm 推理揭秘论文翻译

【2024-09-11】翻译 llm 推理揭秘论文。