DeepSeek-R1+V3左脚踩右脚=又快又好的DeepSeek-R1T-Chimera
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
2025年4月27日,TNGTechnologyConsultingGmbH(以下简称TNGTech)通过其官方X账号发布了一则重磅消息:全新开源模型DeepSeek-R1T-Chimera正式发布。
这一模型通过创新的构建方法,将DeepSeekAI的R1模型的推理能力与V3-0324模型的高效性能相结合,展现了令人瞩目的表现。发布帖子迅速引发了技术社区的广泛关注和热烈讨论。
大家都在等DeepSeek-R2,有没有想过把DeepSeek-V3-0324变成推理模型?
来看这个新模型DeepSeek-R1T-Chimera,它基于DeepSeek-R1构建,并使用DeepSeek-V3-0324数据进行微调。
模型作者的测试结果是水平与DeepSeek-R1一样好,但是思考时间显著变短了,可以当作DeepSeek-R1加强版使用。
DeepSeekR1和V3-0324两个模型“混合产物”,通过一种新颖的构建方法(而非传统的微调或知识蒸馏)构造。Chimera模型利用了V3-0324的共享专家层,并结合了R1和V3-0324的路由专家层的定制融合,形成了独特的混合架构。
在性能测试中,DeepSeek-R1T-Chimera展现了与R1相当的智能水平,但推理速度更快,输出所需的token数量减少了40%。TNGTech在帖子中分享了一张对比图,清晰展示了Chimera在智能分数(AIME&MT-Bench)和推理成本(以R1输出token的百分比为基准)上的表现。图表中,Chimera位于R1和V3-0324之间,沿“更智能”和“更快”的方向显著优于两者,显示出其在智能与效率之间的平衡优势。
值得注意的是,TNGTech提到,他们未在这一混合模型中发现明显的缺陷。相比R1模型有时冗长且发散的推理过程,Chimera的推理和思维过程更加紧凑和有序。这种改进让技术社区对模型的潜力充满期待。
模型的权重已在HuggingFace平台上开源(尽管因故未能赶上ICLR2025的提交期限)。https ://huggingface.co/tngtech/DeepSeek-R1T-Chimera
V3-0324模型自2025年3月发布以来,因其在高性能消费硬件上的出色表现而备受关注。而R1模型则以其强大的推理能力著称。TNGTech通过创新的构建方法,将两者的优势结合,创造了一个在智能和效率上均表现优异的新模型。这种“模块化”构建方式(直接从两个父模型的神经网络组件中构造)为未来的模型开发提供了新的思路。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等