仅2G内存可跑，刚刚，谷歌开源Gemma 3n，端侧原生多模态！

发布日期: 2025-06-27

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

谷歌全面发布Gemma3n，将强大的多模态AI功能带入边缘设备。
已在huggingface上开源：
多模态是其设计初衷：Gemma3n原生支持图像、音频、视频和文本输入以及文本输出。
针对设备端进行了优化：以效率为重点进行设计，Gemma3n模型有基于有效参数的两种尺寸：E2B和E4B。尽管它们的原始参数数量分别为5B和8B，但架构创新使它们能够以与传统2B和4B模型相当的内存占用运行，仅需2GB（E2B）和3GB（E4B）的内存即可运行。
开创性的架构：在其核心部分，Gemma3n采用了诸如MatFormer架构（用于计算灵活性）、逐层嵌入（PLE，用于内存效率）、LAuReL和AltUp（用于架构效率）等新组件，以及针对设备端使用场景优化的新的音频和基于MobileNet-v5的视觉编码器。
Gemma系列模型也不断突破质量界限。支持140多种语言的文本，支持35种语言的多模态理解，在数学、编码和推理方面均有显著提升。E4B版本是首个参数少于10B、突破1300的模型。

推荐阅读
•动手设计AIAgents：（编排、记忆、插件、workflow、协作）
•DeepSeekR1+Agent的下半场
•单智能体（Agent）：企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1. 2万字，20+文献，27张图）
欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。

ZejunCao

https://zejuncao.github.io/2025/06/27/2247495340-2247495340-1-1751008709/