仅2G内存可跑,刚刚,谷歌开源Gemma 3n,端侧原生多模态!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
谷歌全面发布Gemma3n,将强大的多模态AI功能带入边缘设备。
已在huggingface上开源:
多模态是其设计初衷:Gemma3n原生支持图像、音频、视频和文本输入以及文本输出。
针对设备端进行了优化:以效率为重点进行设计,Gemma3n模型有基于有效参数的两种尺寸:E2B和E4B。尽管它们的原始参数数量分别为5B和8B,但架构创新使它们能够以与传统2B和4B模型相当的内存占用运行,仅需2GB(E2B)和3GB(E4B)的内存即可运行。
开创性的架构:在其核心部分,Gemma3n采用了诸如MatFormer架构(用于计算灵活性)、逐层嵌入(PLE,用于内存效率)、LAuReL和AltUp(用于架构效率)等新组件,以及针对设备端使用场景优化的新的音频和基于MobileNet-v5的视觉编码器。
Gemma系列模型也不断突破质量界限。支持140多种语言的文本,支持35种语言的多模态理解,在数学、编码和推理方面均有显著提升。E4B版本是首个参数少于10B、突破1300的模型。
推荐阅读
•动手设计AIAgents:(编排、记忆、插件、workflow、协作)
•DeepSeekR1+Agent的下半场
•单智能体(Agent):企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1. 2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。