deepspeed 推理和训练优化方案概述 【2023-07-03】DeepSpeed 支持 chatglm-6b 到 GPT-3 175B 等规模大模型,其用于优化推理成本和延迟的新技术主要包括:推理自适应并行性、针对推理优化的 CUDA 内核和有效的量化感知训练。
deepspeed 框架 benchamrk 评测总结 【2023-07-01】DS 是 deepspeed 框架的缩写,本文分别评测了 DeepSpeed、transformers、FasterTransformer 三个框架。
基于 pytorch 实现模型剪枝 【2023-03-12】所谓模型剪枝,其实是一种从神经网络中移除"不必要"权重或偏差(weigths/bias)的模型压缩技术。关于什么参数才是“不必要的”,这是一个目前依然在研究的领域。
深度学习模型压缩方法概述 【2023-03-01】工业界主流的模型压缩方法有:知识蒸馏(Knowledge Distillation,KD)轻量化模型架构(也叫紧凑的模型设计)、剪枝(Pruning)、量化(Quantization)。