随着模型在各种场景中的落地实践,模型的推理加速早已成为 AI 工程化的重要内容。而近年基于 Transformer 架构的大模型继而成为主流,在各项任务中取得 SoTA 成绩,它们在训练和推理中的昂贵成本使得其在合理的成本下的部署实践显得愈加重要。

新闻来源:模型量化与量化在 LLM 中的应用