不微调、不蒸馏、不掉分解决R1思维链过长(细节版)


不微调、不蒸馏、不掉分解决R1思维链过长(细节版)

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

昨天发了一篇文章不微调、不蒸馏、不掉分解决R1思维链过长讲一个奇技淫巧融合R1和V3达到下面这样一个效果:
思维链又短又好
权重地址:https ://huggingface.co/tngtech/DeepSeek-R1T-Chimera
这个模型和R1一样智能,但速度更快,输出token减少了40%。
DeepSeek-R1T-Chimera模型怎么做的呢?
官推原文是:他简单的结合了R1推理和V3-0324,不用训,不用蒸馏。使用了V3的共享专家,并融合了R1和V3的路由专家。
我原本打算自己回归测下系数,在V3的基础上,把V3的shareexpert替换为对应位置的R1x+V3y,算出x和y的具体值。
结果在我没发出几分钟,手快的俊达就跟我说搞定了。
甩给我一段代码和结论:
R1T从DeepSeek-V3-0324和DeepSeek-R1融合而来
embedding复用V3模型
前三层denseblock完全复用V3模型
MoEBlocks的attention部分,全部复用V3模型
专家参数方面:
SharedExpert直接复用V3的共享专家
RoutedExperts——复用的全是R1的路由专家
也就是下面图中蓝色的部分用R1模型替换到V3模型的权重,其他都不变。
由于这个东西没有完整论文,建议还是大家多测测。
比如moe的router用的是都是v3的门控,这能行吗?(官方原对不上的推文已经删了)
有posttraining的大佬,可以试试这个思路,检验下这个工作,有用的话记得留言。
推荐阅读
LLM行业科普和择业建议:选基座or应用?
R1的一些认知:4个经典误区
用极小模型复现R1思维链的失败感悟
全景解读LLMPosting-Train(后训练)技术
结合代码聊聊FlashAttentionV3前向过程的原理
7B小模型用规则奖励RL学会玩数独!
尝试基于0.5B小模型复现DeepSeek-R1的思维链
关于Deepseek采用EP推理方式的一些思考
吃瓜DeepSeek推理成本需要的相关概念:Throughput、TPOT、TTFT
关于DeepSeekV3/R1Decoding吞吐极限的估计
从DeepSeekR1论文深入理解推理型大模型
复现DeepSeekZero的RL调参经验
DeepseekR1Zero复现全过程记录
开源社区DeepSeekR1最新复现进展汇总
从DeepSeekV3看FP8训练的挑战
进入大模型技术群,备注:进群。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录