全新大模型开源,腾讯(int4能打DeepSeek) Vs 谷歌(2GB运行多模态)
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大家好,我是Ai学习的老章
最近除了阿里Qwen3模型更新了图片生成和处理能力,大家都可以玩转吉卜力风格
还有几个最近发布的大模型值得关注
1是腾讯开源了80B混元A13B模型,亮点是精度无损的int4很能打
2是谷歌开源的小参数Gemma3n多模态大模型,亮点是可以在手机端运行
3是我刚刚发现的一个小参数超长上下文大模型Jan-nano-128k,亮点是只有2. 5GB的Q4_K_M版即可拥有128K超长上下文
官方技术博客介绍的足够详细了,感兴趣大家可以细看[ 1]
试用地址:https ://hunyuan. tencent.com/?model=hunyuan-a13b
核心特性与优势
小参数量,高性能:仅激活130亿参数(总参数量800亿),即可在多样化基准任务中媲美更大规模模型的竞争力表现
混合推理支持:同时支持快思考和慢思考两种模式,支持用户灵活选择,模型的默认输出是慢思考模式,若想让模型进行快思考,可在query前附加上\“/no_think\“
超长上下文理解:原生支持256K上下文窗口,在长文本任务中保持稳定性能
增强Agent能力:优化Agent能力,在BFCL-v3、τ-Bench、C3-Bench等智能体基准测试中领先
高效推理:采用分组查询注意力(GQA)策略,支持多量化格式,实现高效推理
我是看的modelscope上的中文总结版技术博客[ 2],感觉有几个方面值得关注
1是腾讯开源了两个新数据集:ArtifactsBench旨在弥合代码评估中的视觉与交互鸿沟[ 3],而C3-Bench则是专为智能体设计的评估数据集,用于揭示模型弱点并推动性能可解释性研究[ 4]
2是A13B在数学、科学、agent等领域可以和OpenAI-o1-1217、DeepSeekR1、Qwen3-A22B掰手腕。Agent
3是Hunyuan-A13B-Instruct-GPTQ-Int4量化模型与Instruct差别极小,几乎是精度无损!
Bench
Hunyuan-A13B-Instruct
Hunyuan-A13B-Instruct-GPTQ-Int4
OlympiadBench
82. 7
84. 0
AIME2024
87. 3
86. 7
Gsm8k
94. 39
94. 24
BBH
89. 1
87. 91
DROP
91. 1
91. 05
这样的话,本地部署,完全可以直接使用int4版本了
完整版本模型文件160GB,int只有不到44GB,我感觉4张4090就可以跑起来了
int4版部署
DeepSeek-R1运行成本还是太高了,44GB的Hunyuan-A13B-Instruct-GPTQ-Int4在数学、推理、Agent方面值得深入测试一下。
谷歌Gemma又填新成员,往端侧运行发展的小模型-3n
多模态原生设计:Gemma3n天然支持图像、音频、视频和文本输入,并输出文本结果。
为端侧优化而生:Gemma3n以效率为核心设计理念,提供E2B和E4B两种有效参数规模的版本。虽然原始参数分别为50亿和80亿,但架构创新使其运行时内存占用仅相当于传统的20亿和40亿参数模型,最低仅需2GB(E2B)和3GB(E4B)内存即可运行。
突破性架构:Gemma3n的核心创新包括MatFormer架构(实现计算灵活性)、逐层嵌入技术PLE(提升内存效率)、LAuReL与AltUp(优化架构效率),以及专为端侧场景优化的新型音频编码器和基于MobileNet-v5的视觉编码器。
卓越性能:Gemma3n在多语言支持(覆盖140种文本语言和35种多模态语言理解)、数学运算、代码生成及逻辑推理方面实现全面升级。其E4B版本LMArena得分突破1300分,成为首个参数量低于100亿却达到该基准的模型。
只值得期待的就是:如此之低的成本即可拥有端侧运行的多模态大模型
我看外面网友的实测,Gemma3n的语音转文字与翻译功能是不错的。
不过这个模最该关注的还是其在端侧运行的情况
谷歌已经将这些模型上架安卓端的EdgeGallery应用,考虑到该应用支持GPU卸载功能,这应该是最佳使用方式。
但是有网友测试在高通骁龙6代4处理器(仅CPU)上每秒生成4-5个token,太慢了,几乎不可用。
目前还是保持关注吧,更多资源大家自行探索:
HuggingFacehttps ://huggingface. co/collections/google/gemma-3n-685065323f5984ef315c93f4
Unslothhttps ://unsloth. ai/blog/gemma-3n
HF博客https ://huggingface. co/blog/gemma3n
LMStudiohttps ://lmstudio. ai/models/google/gemma-3n-e4b
Ollamahttps ://ollama. com/library/gemma3n
AIStudiohttp ://ai. dev
Kagglehttps ://www. kaggle.com/models/google/gemma-3n
MLXhttps ://huggingface. co/collections/mlx-community/gemma-3n-685d6c8d02d7486c7e77a7dc
ONNX/transformers. jshttps ://huggingface. co/onnx-community/gemma-3n-E2B-it-ONNX
Vertexhttps ://console. cloud.google. com/vertex-ai/publishers/google/model-garden/gemma3n
GGUF模型发布地址https ://huggingface. co/collections/ggml-org/gemma-3n-685d6fc0843071be9e77b6f7
这个就比较小众了,稍微有点名气是Jan
Jan是一款可完全离线运行在桌面端且即将支持移动端的类ChatGPT工具,旨在让任何人,无论是否具备编程技能,都能在充分掌控和保障隐私的前提下下载和使用AI模型。
这个ChatBot还是不错的,支持本地、API接入大模型![https ://jan. ai/download
还支持MCP和自定义助手指令
Jan-Nano-128k是MenloResearch推出的增强版紧凑型语言模型,专为研究应用设计。它的主要特点和优势包括:
原生128k上下文窗口:可高效处理长达128ktokens的文本,如完整论文、长文档和复杂多轮对话,且不会像传统扩展方法那样性能下降。
性能提升:在长上下文任务中表现优于前代模型,适合深度文档分析、多文档综合和复杂推理。
兼容性:完全兼容ModelContextProtocol(MCP)服务器,便于集成到现有研究工作流。
推荐采样参数:Temperature0. 7,Top-p0. 8,Top-k20,Min-p0. 0。
模型架构:基于Qwen3架构,参数量为4. 02B,支持多种量化格式(3-bit到8-bit),适配不同硬件需求。
Jan-Nano-128k已通过基于MCP的方法在SimpleQA基准测试中完成严格评估,其表现显著优于前代模型:
部署:
本地运行成本极低,完整版本模型文件也就8GB左右
unsloth还放出了不同量化版本,Q4_K_M版,只有2. 5GB
我还没有测试,感觉资源有限情况下,在需要处理超长文本、深度分析和多文档推理的研究任务中,这个模型还是值得期待一下其表现的。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料
ArtifactsBench旨在弥合代码评估中的视觉与交互鸿沟:https ://github. com/Tencent-Hunyuan/ArtifactsBenchmark
C3-Bench则是专为智能体设计的评估数据集,用于揭示模型弱点并推动性能可解释性研究:https ://github. com/Tencent-Hunyuan/C3-Benchmark