低延迟、高吞吐,LLM优化与高效推理引擎综述


低延迟、高吞吐,LLM优化与高效推理引擎综述

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

LLM每次回答都要进行复杂的计算,尤其是需要多次调用模型的场景(比如连续推理、多轮对话),成本高得离谱。
关键矛盾:用户希望响应快(低延迟),企业想省钱(高吞吐)。
典型场景:
思维链推理(Chain-of-Thought):模型需要反复自我验证才能给出答案
AI助理(如AutoGPT):自动规划任务流程时频繁调用模型

工程师们开发了各种优化技术,核心目标是「用更少的资源,做更多的事」:
原理:把多个用户的请求像拼车一样合并处理
效果:GPU利用率提升30%+
代表作:vLLM的「连续批处理」技术
痛点:每次生成新token都要重复计算之前的上下文
解决方案:把中间结果(K和V矩阵)存起来复用
进阶玩法:
分页缓存(PagedAttention):像内存管理一样避免碎片化
量化缓存:用4比特存储代替16比特,内存占用直降75%
核心思想:把模型参数从「高精度浮点数」转为「低精度整数」
公式示例:量化公式:反量化:其中是缩放因子,是零点偏移
实战效果:4比特量化让70B模型能在单张显卡运行
论文对比了开源和商业引擎的六大维度:通用性、易部署性、速度优化等:
vLLM:谷歌TPU/英伟达GPU通吃,吞吐量王者
llama.cpp:纯CPU也能跑,MacBook本地部署神器
TensorRT-LLM:英伟达亲儿子,核弹级CUDA优化
GroqCloud:自研LPU芯片,延迟低至毫秒级
FireworksAI:支持AMD显卡,性价比杀手
现状:现有引擎主要优化文本,处理图像/视频力不从心
突破点:开发跨模态的注意力机制(如M-RoPE)
挑战:如何在内存有限的手机运行百亿参数模型?
前沿方案:
PowerInfer:按需激活神经元,iPhone也能跑大模型
MLCLLM:用编译器自动适配不同硬件
Mamba:抛弃传统Transformer,用状态空间模型实现线性复杂度
Jamba:混合Mamba+Transformer,兼顾效率和性能
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录