不微调、不蒸馏、不掉分解决R1思维链过长


不微调、不蒸馏、不掉分解决R1思维链过长

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

cot太长广为诟病,虽然有推理结果的提升,但影响各种体验指标。
国外有一家做部署的小厂,叫tngtech,用简单的模型融合就能搞定。
先放开源权重:https ://huggingface.co/tngtech/DeepSeek-R1T-Chimera
这个融合是真融合。不微调,不蒸馏,不写prompt。
最终的结果,这个模型和R1一样智能,但速度更快,cot更短,输出token减少了40%。
DeepSeek-R1T-Chimera模型怎么做的呢?
他简单的结合了R1推理和V3-0324,不用训,不用蒸馏。使用了V3的shared专家,并融合了R1和V3的routed专家。
你可以认为在V3的基础上,把V3的shareexpert替换为对应位置的(R1+V3)/2。也就是V3-0324中部分参数部分用模型融合的参数替换掉,具体配比还不太确定,正在分析中…
特别搞,混合后的模型并没有崩了,反而推理过程更紧凑有序,不像R1有时啰里八嗦。
一图胜千言,这AIME24和MT-bench直接平移到更快的速度上了,更短的cot,分数不掉。
那岂不是能武当纵云梯了?在这个更短更快的模型上继续做inference的扩展法则,直接原地把评测水位线再抬升一下。
有posttraining的大佬,可以试试这个思路,有用的话记得留言。
推荐阅读
LLM行业科普和择业建议:选基座or应用?
R1的一些认知:4个经典误区
用极小模型复现R1思维链的失败感悟
全景解读LLMPosting-Train(后训练)技术
结合代码聊聊FlashAttentionV3前向过程的原理
7B小模型用规则奖励RL学会玩数独!
尝试基于0.5B小模型复现DeepSeek-R1的思维链
关于Deepseek采用EP推理方式的一些思考
吃瓜DeepSeek推理成本需要的相关概念:Throughput、TPOT、TTFT
关于DeepSeekV3/R1Decoding吞吐极限的估计
从DeepSeekR1论文深入理解推理型大模型
复现DeepSeekZero的RL调参经验
DeepseekR1Zero复现全过程记录
开源社区DeepSeekR1最新复现进展汇总
从DeepSeekV3看FP8训练的挑战
进入大模型技术群,备注:进群。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录