• Zhang
  • 🇬🇧 EN
  • Weekly
  • About
  • Categories
Be yourself and don't go with the flow.

理解 triton 之基础知识

【2024-09-26】triton 内核编程的背景知识总结

cuda 教程推荐

【2024-09-26】推荐一些不错的 cuda 编程教程。

理解 triton 内核教程 4

【2024-09-24】flashattention 算子 triton 编程总结

理解 triton 内核教程 3

【2024-09-24】layernorm 算子 triton 编程总结

理解 triton 内核教程 2

【2024-09-22】matmul 算子 triton 编程总结

llm 推理 latency 分析

【2024-09-21】考虑基于 roofline 模型和的 llm decode 阶段的 latency 分析,对于小 batch 的模型推理,单个 token 的推理 latency 可能受限于 gpu 的内存带宽,即内存读取时间 > 计算时间;对于大 batch,单个 token 的推理 latency 受限于 gpu 的算力,即内存读取时间 > 计算时间。

理解 triton 内核教程 1

【2024-09-20】softmas 算子 triton 编程总结

llm 参数量-计算量-显存占用分析

【2024-09-20】本文分析的是采用 decoder-only 框架的 llm(类 gpt 的大语言模型)的参数量 params、计算量 FLOPs、理论所需 CPU 内存和 GPU 显存。

深入理解 roofline 模型

【2024-09-15】Roofline 性能分析模型是一种用于衡量和分析计算性能的工具,通过将应用程序的计算性能与硬件的理论峰值性能进行对比,以揭示应用是受到计算性能的限制还是受到内存带宽的限制。

Roofline 论文解读

【2024-09-14】翻译 roofline 性能分析模型论文。
  • <
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • …
  • 12
  • >
github Twitter RSS github 2015~2025