不微调、不蒸馏、不掉分解决R1思维链过长

发布日期: 2025-04-27

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

cot太长广为诟病，虽然有推理结果的提升，但影响各种体验指标。
国外有一家做部署的小厂，叫tngtech，用简单的模型融合就能搞定。
先放开源权重：https ://huggingface.co/tngtech/DeepSeek-R1T-Chimera
这个融合是真融合。不微调，不蒸馏，不写prompt。
最终的结果，这个模型和R1一样智能，但速度更快，cot更短，输出token减少了40%。
DeepSeek-R1T-Chimera模型怎么做的呢？
他简单的结合了R1推理和V3-0324，不用训，不用蒸馏。使用了V3的shared专家，并融合了R1和V3的routed专家。
你可以认为在V3的基础上，把V3的shareexpert替换为对应位置的(R1+V3)/2。也就是V3-0324中部分参数部分用模型融合的参数替换掉，具体配比还不太确定，正在分析中…
特别搞，混合后的模型并没有崩了，反而推理过程更紧凑有序，不像R1有时啰里八嗦。
一图胜千言，这AIME24和MT-bench直接平移到更快的速度上了，更短的cot，分数不掉。
那岂不是能武当纵云梯了？在这个更短更快的模型上继续做inference的扩展法则，直接原地把评测水位线再抬升一下。
有posttraining的大佬，可以试试这个思路，有用的话记得留言。
推荐阅读
LLM行业科普和择业建议：选基座or应用？
R1的一些认知：4个经典误区
用极小模型复现R1思维链的失败感悟
全景解读LLMPosting-Train（后训练）技术
结合代码聊聊FlashAttentionV3前向过程的原理
7B小模型用规则奖励RL学会玩数独!
尝试基于0.5B小模型复现DeepSeek-R1的思维链
关于Deepseek采用EP推理方式的一些思考
吃瓜DeepSeek推理成本需要的相关概念：Throughput、TPOT、TTFT
关于DeepSeekV3/R1Decoding吞吐极限的估计
从DeepSeekR1论文深入理解推理型大模型
复现DeepSeekZero的RL调参经验
DeepseekR1Zero复现全过程记录
开源社区DeepSeekR1最新复现进展汇总
从DeepSeekV3看FP8训练的挑战
进入大模型技术群，备注：进群。