2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
整理|褚杏娟
当地时间6月26日,在上个月的GoogleI/O上首次亮相预览后,谷歌如今正式发布了Gemma3n完整版,可以直接在本地硬件上运行。
“迫不及待地想看看这些Android的性能!”正式发布后有开发者说道。
Gemma系列是谷歌推出的一组开源大模型。与Gemini不同:Gemma面向开发者,可供下载和修改,而Gemini是谷歌的封闭专有模型,更注重性能与商业化。
据悉,此次正是发布的Gemma3n现已具备输入图像、音频和视频的能力,支持文本输出,还能在最低2GB内存的设备上运行,在编程与推理等任务上据称表现更佳。具体看,主要更新亮点包括:
天生多模态设计:原生支持图像、音频、视频和文本的输入,以及文本输出。
端侧优化设计:Gemma3n着眼于运行效率,提供两种基于“有效参数”的尺寸:E2B和E4B。虽然其原始参数量分别为5B和8B,但通过架构创新,它们运行时的内存占用量仅相当于传统的2B和4B参数模型,并且最低仅需2GB(E2B)和3GB(E4B)内存即可运行。
至于基准测试,Gemma3n的E4B模型成为首个在参数规模低于10B的前提下,LMArena测评得分突破1300的模型,表现优于Llama4Maverick17B、GPT4. 1-nano、Phi-4。
效果好不好?
Willison在Mac笔记本电脑上分别运行了两个版本。在Ollama上,4B型号的7. 5GB版本模型画了这样一幅画:
然后,他使用15. 74GB的bfloat16版本模型得到了下面的一幅图:
“7. 5GB和15GB模型量化之间存在如此显著的视觉差异。”Willison说道。他还指出,Ollama版本似乎尚不支持图像或音频输入,但是mlx-vlm版本可以。
但当让模型描述上述图片时,模型误认成了一张化学图:“该图为卡通风格的插图,描绘了浅蓝色背景下的分子结构。该结构由多个不同颜色和形状的元素组成,并通过弯曲的黑线连接起来。”
此外,网友pilooch称赞道,该模型完全兼容此前基于Gemma3的所有操作。“我将其接入视觉语言模型微调脚本后,程序顺利启动(使用HFTransformer代码)。在单GPU运行LoRa微调时,E4B模型在批量大小为1的情况下仅占用18GBVRAM,而Gemma-4B需要21GB。DeepMind推出的Gemma3系列真不错,稳居开源视觉语言模型榜首。”
也有开发者表示,“我一直在AIStudio里试用E4B,效果非常好,比8B型号的预期要好得多。我正在考虑把它安装在VPS上,这样就有了其他选择,不用再使用那些昂贵的API了。”
在开发者RedditPolluter的测试中,E2B-it能够使用HuggingFaceMCP,但其不得不将上下文长度限制从默认的“~4000”增加到“超过”,防止模型陷入无限的搜索循环。它能够使用搜索功能获取一些较新型号的信息。
当然,还是比较怀疑小模型的实际用处。“我做过很多实验,任何小于27B的模型基本上都用不了,除非当玩具用。对于小模型,我只能说它们有时能给出不错的答案,但这还不够。”
对此,有网友表示,“我发现微型模型(<5B参数)的最佳用例是作为没有WiFi时的参考工具。我在飞机上写代码时,一直在MacBookAir上使用Qwen来代替谷歌搜索,它在询问有关语法和文档的基本问题时非常有效。”‘
核心技术能力有哪些?
MatFormer架构是核心
谷歌特别指出,其高效能的核心就在于全新的MatFormer(MatryoshkaTransformer)架构,这是一种为弹性推理而设计的嵌套式Transformer。它类似“俄罗斯套娃”:一个较大的模型内部嵌套着一个较小但完整的子模型。这种设计允许一个模型在不同任务中以不同“尺寸”运行,实现性能与资源使用的动态平衡。
这种设计将“套娃式表示学习”(MatryoshkaRepresentationLearning)的理念,从嵌入层扩展到了整个Transformer架构的各个组件,大幅提升了模型在不同资源环境下的灵活性与适应性。
在对4B有效参数(E4B)模型进行MatFormer架构训练的过程中,系统会同时在其中优化一个2B有效参数(E2B)子模型,如上图所示。
这项架构设计同时为开发者带来了两大关键能力:
预提取模型,开箱即用。开发者可根据应用场景自由选择完整的E4B主模型获得更强性能,也可以直接使用已经预提取好的E2B子模型。在保证准确率的前提下,E2B实现了高达2倍的推理速度,尤其适合边缘设备或算力受限场景。
Mix-n-Match定制模型。针对不同硬件资源的限制,开发者可以通过Mix-n-Match方法,在E2B与E4B之间自由定制模型大小。该方法通过灵活调整每层前馈网络的隐藏维度(如从8192调整到16384),并选择性跳过部分层,从而构建出多种不同规模的模型。
与此同时,谷歌还推出了辅助工具MatFormerLab,方便开发者基于多个基准测试结果(如MMLU)快速挑选并提取出性能最优的模型配置。
谷歌表示,MatFormer架构还为“弹性推理”奠定了基础。尽管这一能力尚未在本次发布的实现中正式上线,但它的设计理念已初步成型:单个部署的E4B模型,未来将能在运行时动态切换E4B与E2B的推理路径,根据当前任务类型和设备负载,实时优化性能表现与内存占用。
大幅提升内存效率的关键
在最新的Gemma3n模型中,谷歌引入了名为Per-LayerEmbeddings(逐层嵌入,简称PLE)的创新机制。该机制专为端侧部署而设计优化,可显著提高模型质量,同时不会增加设备加速器(如GPU/TPU)所需的高速内存占用。
这样一来,尽管E2B和E4B模型的总参数数量分别为5B和8B,但PLE允许很大一部分参数(即分布在各层的嵌入参数)在CPU上高效加载和计算。这意味着只有核心Transformer权重(E2B约为2B,E4B约为4B)需要存储在通常较为受限的加速器内存(VRAM)中。
大幅提升长上下文处理速度
在许多先进的端侧多模态应用中,处理长序列输入(如音频、视频流所生成的内容)已成为核心需求。为此,Gemma3n引入了KVCacheSharing(键值缓存共享)机制,加快了长文本推理中“首个Token”的生成速度,尤其适用于流式响应场景。
具体而言,KVCacheSharing对模型的Prefill阶段进行了优化:中间层中,来自局部与全局注意力机制的中间层Key与Value会直接共享给所有上层结构。与Gemma34B相比,这使Prefill性能获得高达2倍的提升。
全新视觉编码器,提升多模态任务表现
Gemma3n推出了全新高效的视觉编码器:MobileNet-V5-300M,来提升边缘设备上的多模态任务表现。
MobileNet-V5支持多种分辨率(256×256、512×512、768×768),方便开发者根据需求平衡性能与画质。它在大规模多模态数据上进行训练,擅长处理多种图像和视频理解任务。吞吐率方面,其在GooglePixel设备上可实现每秒最高60帧的实时处理速度。
这一性能突破得益于多项架构创新,包括基于MobileNet-V4的先进模块、能高大10倍扩的深度金字塔架构,以及多尺度融合视觉语言模型适配器等。相较于Gemma3中未蒸馏的SoViT,MobileNet-V5-300M在GooglePixelEdgeTPU上实现了最高13倍速度提升(量化后),参数减少46%,内存占用缩小4倍,同时准确率大幅提升。
支持语音识别与语音翻译
音频处理方面,Gemma3n搭载了基于UniversalSpeechModel(USM)的先进音频编码器,可对每160毫秒的语音生成一个token(约每秒6个token),并将其作为输入集成至语言模型中,从而提供更加细致的语音上下文表示,这为端侧应用解锁了语音识别和语音翻译功能。
据悉,Gemma3n在英语与西班牙语、法语、意大利语、葡萄牙语之间的转换效果尤为出色。同时,在进行语音翻译任务时,结合“思维链式提示”策略,可进一步提升翻译质量与稳定性。
参考链接:
https ://developers. googleblog.com/en/introducing-gemma-3n-developer-guide/
https ://simonwillison. net/2025/Jun/26/gemma-3n/
声明:本文为AI前线整理,不代表平台观点,未经许可禁止转载。
InfoQ老友!请留步!极客邦1号客服上线工作啦!
后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅
欢迎扫码关注我的微信视频号~
今日荐文
一天15k星,代码生成碾压Claude,连Cursor都慌了?谷歌GeminiCLI杀疯了
成立5年最高估值超百亿,摩尔线程之后,又一家AI芯片独角兽争当“国产GPU第一股”
谷歌将A2A捐赠给Linux基金会,但代码实现还得靠开发者自己?!
印裔1号位删Karpathy团队90%代码、算力暴涨50倍!马斯克Robotaxi10年终上线,30元乘车体验刷屏
字节张一鸣重回一线?消息人士:不存在;MiniMax被曝将赴港IPO;Ilya拒绝扎克伯格公司收购后其CEO被挖走|AI周报
你也「在看」吗?👇