internlm2-20b 在 910b 适配记录

【2023-12-26】华为 910b 适配 InternLM2-20b 模型记录。

lightllm 性能瓶颈分析

【2023-11-01】LightLLM 推理框架静态性能测试及分析

【2023-10-26】TGI 动态性能测试实验分析

【2023-09-20】TGI 框架的主要功能，以及主要模块的简单介绍。

【2023-09-01】介绍 Volta、Turing、Ampera、Hopper 架构特性和硬件基本结构。

【2023-08-20】本文主要介绍了 GPU 结构、操作的执行方式以及深度学习操作的常见限制，目的是为了更好的理解 GPU 的基本运行原理以及神经网络或特定网络层如何高效利用给定 GPU。

【2023-08-10】单机多卡内存和 GPU、GPU 和 GPU 之间互联可通过 PCIE、NVLink、NVSwitch；多机多卡 GPU 之间（不同主机）、CPU 与 GPU 之间互联可通过 GPUDirect RDMA、IB/万兆以太网 + TCP/IP。

【2023-07-03】DeepSpeed 支持 chatglm-6b 到 GPT-3 175B 等规模大模型,其用于优化推理成本和延迟的新技术主要包括：推理自适应并行性、针对推理优化的 CUDA 内核和有效的量化感知训练。

【2023-07-01】DS 是 deepspeed 框架的缩写，本文分别评测了 DeepSpeed、transformers、FasterTransformer 三个框架。

【2023-06-01】LLM benchmark 评测实验方案以及测试案例