近期代表性开源大模型梳理:Decoder转Encoder-Decoder、多模型组合新趋势


近期代表性开源大模型梳理:Decoder转Encoder-Decoder、多模型组合新趋势

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

今天是2025年7月10日,星期四,北京,雨过天晴。

尤其是,其中用到的模型合并方案,看来已经是广泛采用了。
为什么这流行,是因为其可以在无需集成计算开销或额外训练的情况下,结合不同模型的优势,在开源工具方面,比较流行的是MergeKit库(https ://github. com/arcee-ai/mergekit),来执行模型合并,其包含了多种合并方法,包括线性和非线性合并,可关注。
我们梳理这两个话题。
这些模型发布出来都有自己的特点,所以,可以看看他们各自的方案,都很有趣。
1、SmolLM3小模型
HuggingFace开源3B参数模型SmolLM3,在评测上,性能超越Llama-3. 2-3B和Qwen2. 5-3B【学术评测不具有一般性】。
架构方面,仅使用解码器的Transformer,使用了GQA和NoPE(比例为3:1),并在11. 2T的token上进行了预训练,其内容包括网络、代码、数学和推理数据等分阶段课程学习;
后期训练包括使用140B推理token进行中期训练,然后通过锚定偏好优化(APO)进行监督微调和对齐。
特点方面,支持128K上下文窗口及6种语言;模型采用双模式系统,用户可通过标志在深度思考和非思考模式间灵活切换;
采用三阶段混合训练策略,在11. 2万亿tokens上训练,并开放架构细节、数据混合方式等全部技术细节,细节地址在:https ://huggingface. co/blog/smollm3
然后,在模型合并方面,取每个APO检查点并创建一个模型“混合体”,将模型混合体与具有强大长内容性能的中期训练检查点相结合。对于APO模型混合体和中期训练检查点,分别使用0. 9和0.1的权重进行线性合并,取得了最佳性能。

2、T5Gemma模型
Google发布T5Gemma,新的编码器-解码器(encoder-decoder)架构的大模型,有32个衍生版本。
从实现上,通过将预训练的纯解码器模型改编为编码器-解码器,这种改编使T5Gemma能够继承纯解码器模型的基础功能,同时提供更优的质量效率权衡,其关键特性之一是可以灵活地将不同大小的编码器和解码器配对(例如,9B编码器与2B解码器),适合各种生成性任务,包括问答、摘要和推理。
包括两个系列:
Gemma2系列,直接改编自官方Gemma22B和9B检查点的模型,包括2B-2B、9B-9B和9B-2B变体
T5系列,使用Gemma2从头开始预训练的模型,但其架构和参数数量与传统T5模型(小型、基础、大型、超大)保持一致。T5Gemma模型
模型地址在https ://huggingface. co/collections/google/t5gemma-686ba262fe290b881d21ec86;
技术报告在:https ://developers. googleblog.com/en/t5gemma/
3、NextCoder-32B模型
微软发布的一个32B模型,在Qwen2. 5-CoderInstruct基础上修改,其中提到了一种新型选择性知识迁移(SelectiveKnowledgeTransfer)微调方法。

地址在:https ://huggingface. co/microsoft/NextCoder-32B。
4、DeepSeek-TNG-R1T2-Chimera专家组合模型

具体的地址在:https ://huggingface. co/tngtech/DeepSeek-TNG-R1T2-Chimera,
模型合并可以在无需集成计算开销或额外训练的情况下,结合不同模型的优势,开源工具方面,比较流行的是MergeKit库(https ://github. com/arcee-ai/mergekit/blob/main/README. md),来执行模型合并,其包含了多种合并方法,包括线性和非线性合并。
至于有什么优势,怎么做,在其readme中也有描述,可以直接跟进。
1、https ://github. com/arcee-ai/mergekit/blob/main/README. md
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录