一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型


一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心报道
机器之心编辑部
谷歌Gemma3上线刚刚过去一个月,现在又出新版本了。
该版本经过量化感知训练(Quantization-AwareTraining,QAT)优化,能在保持高质量的同时显著降低内存需求。
比如经过QAT优化后,Gemma327B的VRAM占用量可以从54GB大幅降至14.1GB,使其完全可以在NVIDIARTX3090等消费级GPU上本地运行!
ChatbotArenaElo得分:更高的分数(最上面的数字)表明更大的用户偏好。点表示模型使用BF16数据类型运行时所需的NVIDIAH100GPU预估数量。
机器之心在一台配备了RTX3070的电脑上简单测试了其中的12B版本,可以看到虽然Gemma3的token输出速度不够快,但整体来说还算可以接受。
基于量化感知训练的Gemma3
在AI模型中,研究者可以使用更少的位数例如8位(int8)甚至4位(int4)进行数据存储。
采用int4量化意味着每个数值仅用4bit表示——相比BF16格式,数据大小缩减至1/4。
但是,这种量化方式通常会导致模型性能下降。
那谷歌是如何保持模型质量的?答案是采用QAT。
与传统在模型训练完成后才进行量化的方式不同,QAT将量化过程直接融入训练阶段——通过在训练中模拟低精度运算,使模型在后续被量化为更小、更快的版本时,仍能保持准确率损失最小化。
具体实现上,谷歌基于未量化的checkpoint概率分布作为目标,进行了约5,000步的QAT训练。当量化至Q4_0(一种常见的量化格式)时,困惑度下降了54%。
这样带来的好处之一是加载模型权重所需的VRAM大幅减少:
Gemma327B:从54GB(BF16)降至仅14.1GB(int4)
Gemma312B:从24GB(BF16)缩减至仅6.6GB(int4)
Gemma34B:从8GB(BF16)精简至2.6GB(int4)
Gemma31B:从2GB(BF16)降至仅0.5GB(int4)
此图仅表示加载模型权重所需的VRAM。运行该模型还需要额外的VRAM用于KV缓存,该缓存存储有关正在进行的对话的信息,并取决于上下文长度。
现在看来,用户在消费级设备上就能运行更大、更强的Gemma3模型,其中:
Gemma327B(int4):现在可以轻松安装在单张NVIDIARTX3090(24GBVRAM)或类似显卡上,本地就能运行最大的Gemma3版本;
Gemma312B(int4):可在NVIDIARTX4060GPU(8GBVRAM)等笔记本电脑GPU上高效运行,为便携式设备带来强大的AI功能;
更小的型号(4B、1B):为资源较为有限的系统(包括手机和烤面包机)提供更强大的可访问性。
来自TwoMinutePapers频道的玩笑
官方int4和Q4_0非量化QAT模型已在HuggingFace和Kaggle上线。谷歌还与众多热门开发者工具合作,让用户无缝体验基于QAT的量化checkpoint:
Ollama:从今天起,只需一个简单命令即可原生支持Gemma3QAT模型。
LMStudio:通过用户友好界面,轻松下载并在桌面上运行Gemma3QAT模型。
MLX:利用MLX在苹果芯片上对Gemma3QAT模型进行高效推理。
Gemma.cpp:使用专用的C++实现,直接在CPU上进行高效推理。
llama.cpp:得益于对GGUF格式QAT模型的原生支持,可轻松集成到现有工作流程中。
激动的网友已经无法抑制内心的喜悦:「我的4070就能运行Gemma312B,这次谷歌终于为即将破产的开发者做了一些事情。」
「希望谷歌朝着1bit量化使使劲。」
这个可以本地运行的Gemma3你用了吗,效果如何,欢迎大家评论区留言。

©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录