浙大+阿里提出快慢思考新方法:在多模态Reasoning上准确率涨10%,长度砍半
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
为什么大模型会“想太多”?
当你被问到“1+1等于几”时,如果非要先写一篇《论加法本源》再回答“2”,这就是典型的“过度思考”。当前的大型视觉语言模型(LVLM)也面临同样问题:无论问题难易,它们都会生成冗长的推理过程,导致效率低下,甚至因“话多必失”降低准确率。
论文:Fast-SlowThinkingforLargeVision-LanguageModelReasoning链接:https ://arxiv.org/pdf/2504.18458
如下表中简单题反被长答案拖累:
论文将这种现象称为“overthinking”,并指出其核心矛盾:
简单问题:长答案浪费算力,还可能引入错误细节
复杂问题:短答案无法覆盖关键推理步骤
FAST的核心是动态调节推理深度,其秘诀在于三个创新设计:
难度分:通过模型多次尝试的正确率计算(公式:),实时判断题目难度。
复杂度分:结合图像纹理(GLCM熵)和语义(ViT分类熵),量化问题是否需要详细推理(公式:)。
准确奖:答案正确+1分
格式奖:按要求用标签包裹答案+0.5分
思维奖:简单题答得短/难题答得长+0.5分(公式:动态调节长度奖励,见下表对比)
通过KL散度系数控制模型“放飞自我”的程度:
难题(如微积分):松开刹车(β趋近0.001),鼓励探索
简单题(如识图):踩紧刹车(β趋近0.03),避免跑偏
论文在7个多模态推理基准测试中验证FAST:
准确率:相比基础模型平均提升超10%,在MathVista等复杂任务中超越GPT-4o
效率:推理长度比传统“慢思考”方法减少32.7%-67.3%(如下表中R1-OneVision长度692vs.FAST仅204)
智能平衡:对难题自动延长推理(如几何题硬核模式长度+60%),简单题则“秒答”
FAST最精妙的设计在于动态性:
数据筛选:训练前期专攻难题(“慢思考”),后期专练速答(“快思考”)
奖励机制:不是一刀切鼓励长或短,而是根据题目类型“按需分配”
正则化调节:KL系数随难度浮动,如同开车时自动切换经济/运动模式
这种设计让AI像人类一样具备元认知能力——知道何时该深思熟虑,何时该果断决策。
最后,论文也指出待解难题:如何让模型自主判断“未知问题”该快该慢?这可能成为下一阶段的研究重点。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦