阿里最新推理模型,效果媲美满血R1!


阿里最新推理模型,效果媲美满血R1!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

↑↑↑关注后”星标”kaggle竞赛宝典
kaggle竞赛宝典
作者:无言
阿里最新推理模型,效果媲美满血R1!
QwQ-32B是Qwen系列的推理模型,与传统的指令调优模型相比,它具有思考和推理能力,在下游任务尤其是困难问题上表现优异。

核心点
QwQ-32B是一个因果语言模型(CausalLanguageModel),经历了预训练和后训练(监督微调和强化学习)阶段。
模型架构采用transformers,具有64层,Q有40个注意力头,KV有8个注意力头(GQA结构)。
推荐使用Temperature=0.6和TopP=0.95的采样参数,而不是贪婪解码,以避免无尽重复。
在多轮对话中,历史模型输出应仅包含最终输出部分,不需要包含思考内容。
对于数学问题和多项选择题,建议使用特定提示来标准化模型输出格式。
对于超过32,768个token的长输入,建议启用YaRN技术来提高模型捕获长序列信息的能力。
部署时推荐使用vLLM,但请注意vLLM目前仅支持静态YARN,这可能会影响短文本的性能。
比较
QwQ-32B与其他大型语言模型在推理能力上有以下具体差异:
设计理念的不同:QwQ-32B专门设计为推理模型,与传统的指令调优模型不同。它特别强调”思考和推理”的能力,而不仅仅是按指令生成内容。
竞争性能:作为32.5B参数的中型模型,QwQ-32B能够达到与最先进的推理专用模型(如DeepSeek-R1和o1-mini)相当的性能水平。
难题表现优势:QwQ-32B在困难问题上表现尤为突出,文档特别强调其在下游任务,尤其是复杂问题上能够”achievesignificantlyenhancedperformance”。
显式思考过程:QwQ模型具有明确的思考机制,建议确保输出以”\n”开始,这表明其推理过程是系统化和结构化的。
特定任务优化:针对数学问题和多项选择题,QwQ-32B有特定的输出格式建议,说明其在这些需要严谨推理的任务上有特殊设计。
长上下文处理:QwQ-32B配备131,072个token的全长上下文窗口,并推荐对超过32,768token的输入启用YaRN技术,表明其在长文本推理中具有额外优势。
参考文献:
1.https ://huggingface.co/Qwen/QwQ-32B


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录