不微调、不蒸馏、不掉分解决R1思维链过长（细节版）

发布日期: 2025-04-28

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

昨天发了一篇文章不微调、不蒸馏、不掉分解决R1思维链过长讲一个奇技淫巧融合R1和V3达到下面这样一个效果：
思维链又短又好
权重地址：https ://huggingface.co/tngtech/DeepSeek-R1T-Chimera
这个模型和R1一样智能，但速度更快，输出token减少了40%。
DeepSeek-R1T-Chimera模型怎么做的呢？
官推原文是：他简单的结合了R1推理和V3-0324，不用训，不用蒸馏。使用了V3的共享专家，并融合了R1和V3的路由专家。
我原本打算自己回归测下系数，在V3的基础上，把V3的shareexpert替换为对应位置的R1x+V3y，算出x和y的具体值。
结果在我没发出几分钟，手快的俊达就跟我说搞定了。
甩给我一段代码和结论：
R1T从DeepSeek-V3-0324和DeepSeek-R1融合而来
embedding复用V3模型
前三层denseblock完全复用V3模型
MoEBlocks的attention部分，全部复用V3模型
专家参数方面：
SharedExpert直接复用V3的共享专家
RoutedExperts——复用的全是R1的路由专家
也就是下面图中蓝色的部分用R1模型替换到V3模型的权重，其他都不变。
由于这个东西没有完整论文，建议还是大家多测测。
比如moe的router用的是都是v3的门控，这能行吗？（官方原对不上的推文已经删了）
有posttraining的大佬，可以试试这个思路，检验下这个工作，有用的话记得留言。
推荐阅读
LLM行业科普和择业建议：选基座or应用？
R1的一些认知：4个经典误区
用极小模型复现R1思维链的失败感悟
全景解读LLMPosting-Train（后训练）技术
结合代码聊聊FlashAttentionV3前向过程的原理
7B小模型用规则奖励RL学会玩数独!
尝试基于0.5B小模型复现DeepSeek-R1的思维链
关于Deepseek采用EP推理方式的一些思考
吃瓜DeepSeek推理成本需要的相关概念：Throughput、TPOT、TTFT
关于DeepSeekV3/R1Decoding吞吐极限的估计
从DeepSeekR1论文深入理解推理型大模型
复现DeepSeekZero的RL调参经验
DeepseekR1Zero复现全过程记录
开源社区DeepSeekR1最新复现进展汇总
从DeepSeekV3看FP8训练的挑战
进入大模型技术群，备注：进群。