谷歌开源 Gemma 3n:2G 内存就能跑,100 亿参数内最强多模态模型
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
转自|机器之心
端侧设备迎来了新架构的AI模型。
本周五凌晨,谷歌正式发布、开源了全新端侧多模态大模型Gemma3n。
模型、权重:https ://huggingface. co/collections/google/gemma-3n-685065323f5984ef315c93f4
文档:https ://ai. google.dev/gemma/docs/gemma-3n
博客:https ://developers. googleblog.com/en/introducing-gemma-3n-developer-guide/
谷歌表示,Gemma3n代表了设备端AI的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能,其性能去年还只能在云端先进模型上才能体验。
Gemma3n的特性包含如下几个方面:
多模态设计:Gemma3n原生支持图像、音频、视频和文本输入和文本输出。
专为设备端优化:Gemma3n型号以效率为设计重点,提供两种基于有效参数尺寸:E2B和E4B。虽然它们的原始参数数量分别为5B和8B,但架构创新使其运行内存占用与传统的2B和4B型号相当,仅需2GB(E2B)和3GB(E4B)内存即可运行。
架构突破:Gemma3n的核心是全新组件,例如用于计算灵活性的MatFormer架构、用于提高内存效率的每层嵌入(PLE)以及针对设备用例优化的新型音频和基于MobileNet-v5的视觉编码器。
质量提升:Gemma3n在多语言(支持140种文本语言和35种语言的多模态理解)、数学、编码和推理方面均实现了质量提升。E4B版本的LMArena得分超过1300,使其成为首个达到此基准的100亿参数以下模型。
谷歌表示,要想实现设备性能的飞跃需要彻底重新思考模型。Gemma3n独特的移动优先架构是其基础,而这一切都始于MatFormer。
MatFormer:一种型号,多种尺寸
Gemma3n的核心是MatFormer(MatryoshkaTransformer)架构,这是一种专为弹性推理而构建的新型嵌套Transformer。你可以将其想象成俄罗斯套娃:一个较大的模型包含其自身更小、功能齐全的版本。这种方法将俄罗斯套娃表征学习的概念从单纯的嵌入扩展到所有Transformer组件。
因此,MatFormer在训练4B有效参数(E4B)模型时,会同时优化2B有效参数(E2B)子模型,如上图所示。这为开发者提供了两项强大的功能和用例:
预提取模型:开发者可以直接下载并使用E4B模型以获得更高性能,或者使用已提取的独立E2B子模型,提供两倍更快的推理速度。
使用Mix-n-Match自定义尺寸:为了根据特定硬件限制进行更精细的控制,你可以使用谷歌称之为Mix-n-Match的方法,在E2B和E4B之间创建一系列自定义尺寸的模型。这项技术允许人们精确地对E4B模型的参数进行切片,主要通过调整每层的前馈网络隐藏层维度(从8192到16384)并选择性地跳过某些层来实现。谷歌还将发布MatFormerLab,以展示如何检索这些最佳模型,这些模型是通过在MMLU等基准测试中评估各种设置而确定的。
不同模型大小的预训练Gemma3n的MMLU分数(使用Mix-n-Match)。
展望未来,MatFormer架构也为弹性执行铺平了道路。虽然此功能不属于今天发布的实现,但它允许单个部署的E4B模型在E4B和E2B推理路径之间动态切换,从而根据当前任务和设备负载实时优化性能和内存使用情况。
每层嵌入(PLE):释放更多内存效率
Gemma3n模型采用了逐层嵌入(PLE)技术。这项创新专为设备部署而设计,可大幅提高模型质量,同时不会增加设备加速器(GPU/TPU)所需的高速内存占用。
虽然Gemma3nE2B和E4B模型的总参数数量分别为5B和8B,但PLE允许很大一部分参数(与每层相关的嵌入)在CPU上加载并高效计算。这意味着只有核心Transformer权重(E2B约为2B,E4B约为4B)需要存储在通常较为受限的加速器内存(VRAM)中。
通过每层嵌入,你可以使用Gemma3nE2B,同时仅在AI加速器中加载约2B个参数。
KVCache共享:更快的长上下文处理
处理长内容输入(例如来自音频和视频流的序列)对于许多先进的设备端多模态应用至关重要。Gemma3n引入了键值缓存共享(KVCacheSharing),旨在加快流式响应应用的首个token获取时间(Time-to-first-token)。
KVCacheSharing优化了模型处理初始输入处理阶段(通常称为「预填充」阶段)的方式。来自局部和全局注意力机制的中间层的键和值将直接与所有顶层共享,与Gemma34B相比,预填充性能显著提升了两倍。这意味着模型能够比以往更快地提取和理解较长的提示序列。
音频理解:将语音引入文本并进行翻译
在语音方面,Gemma3n采用基于通用语音模型(USM)的高级音频编码器。该编码器每160毫秒的音频生成一个token(约每秒6个token),然后将其作为语言模型的输入进行集成,从而提供声音上下文的精细表示。
这种集成音频功能为设备开发解锁了关键功能,包括:
自动语音识别(ASR):直接在设备上实现高质量的语音到文本的转录。
自动语音翻译(AST):将口语翻译成另一种语言的文本。
经过实践可知,Gemma3n在英语与西班牙语、法语、意大利语、葡萄牙语之间的翻译AST效果尤为出色。对于语音翻译等任务,利用「思维链」提示可以显著提升翻译效果。以下是示例:
userTranscribethefollowingspeechsegmentinSpanish,thentranslateitintoEnglish:model
Gemma3n编码器在发布时已可以处理长达30秒的音频片段,但这并非极限。底层音频编码器是一个流式编码器,能够通过额外的长音频训练处理任意长度的音频。后续的实现将解锁低延迟、长流式传输应用程序。
MobileNet-V5:最先进的视觉编码器
除了集成的音频功能外,Gemma3n还配备了全新的高效视觉编码器MobileNet-V5-300M,为边缘设备上的多模态任务提供最先进的性能。
MobileNet-V5专为在受限硬件上实现灵活性和强大功能而设计,可为开发人员提供:
多种输入分辨率:本机支持256×256、512×512和768×768像素的分辨率,让开发者能够平衡特定应用的性能和细节。
通用的视觉理解:在广泛的多模式数据集上进行了联合训练,在各种图像和视频理解任务中表现出色。
高吞吐量:在GooglePixel上每秒处理高达60帧,实现实时设备视频分析和交互式体验。
这一性能水平是通过多种架构创新实现的,其中包括:
MobileNet-V4模块的高级基础(包括UniversalInvertedBottlenecks和MobileMQA)。
显著扩大的架构,采用混合深度金字塔模型,比最大的MobileNet-V4变体大10倍。
一种新的多尺度融合VLM适配器,可提高token质量,从而提高准确性和效率。
得益于新架构设计和先进蒸馏技术,MobileNet-V5-300M在Gemma3中的表现显著优于基线SoViT(使用SigLip训练,未进行蒸馏)。在GooglePixelEdgeTPU上,它在量化的情况下实现了13倍的加速(不使用量化的情况下为6. 5倍),所需参数减少了46%,内存占用减少了4倍,同时在视觉语言任务上实现了更高的准确率。
谷歌表示,更多细节会在即将发布的MobileNet-V5技术报告中展示。
5月20日,谷歌DeepMind在I/O大会上宣布了Gemma-3n,其小体量、高性能和低内存占用的特性让人印象深刻。
谷歌的首个Gemma模型于去年年初发布,目前该系列的累计下载量已经超过了1. 6亿次。
购买半年多送1个月(7个月)
包年多送3个月(15个月)
购买方法:加我微信【hsst1901】,备注:gpt,我会立马通过微信好友请求。
备注:gpt加我微信咨询
购买这个账号,一直有售后,不用担心中途封号或者用不了,非常省心!