直播预约 | Test time scaling 综述! 从what, how, where 和how well帮你系统解构!


直播预约 | Test time scaling 综述! 从what, how, where 和how well帮你系统解构!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

Testtimescaling综述!从what,how,where和howwell帮你系统解构!
2025.5.310:30北京时间

当大模型的训练成本飙升、优质数据趋于枯竭,我们是否还有新的路径激发大模型的潜能?💡OpenAIo1和DeepSeekR1的爆火让推理阶段扩展Test-TimeScaling(TTS)迅速成为后预训练时代的研究热点。TTS不再“堆数据、堆参数”,而是在推理阶段动态加算力,让模型临场更聪明、更高效。
它不仅在数学、编程等“硬核任务”中表现亮眼,在开放问答、多模态理解甚至复杂规划等任务中,也展现出巨大潜力。而截止到现在,推理扩展的探索已经有一段时间,已有大量工作开始探索CoT、Self-Consistency、Search、Verification等策略,但现阶段依然缺乏一套系统性的综述来统一这些方法的研究视角与评估框架。
🔍论文亮点概览:本篇Survey首次提出了一个覆盖全面、多层次、可扩展的四维正交分析框架
Whattoscale:扩什么?CoT长度、样本数、路径深度还是内在状态?
Howtoscale:怎么扩?Prompt、Search、RL,还是Mixture-of-Models?
Wheretoscale:在哪扩?数学、代码、开放问答、多模态……
Howwelltoscale:扩得怎样?准确率、效率、控制性、可扩展性……
在这个框架下,作者系统梳理了当前的主流TTS技术路线,包括:
并行策略(Self-Consistency/Best-of-N)
逐步演化(STaR/Self-Refine)
搜索推理(Tree-of-Thought/MCTS)
内在优化(DeepSeek-R1/OpenAI-o1)
在此基础上,作者展示了如何借助该框架对已有文献进行快速结构化解析,从而帮助我们清晰地理解、定位它们的贡献;由此,作者从中提炼出推理阶段扩展的主要发展路径。值得一提的是,这篇调研更强调在实践性上对研究者的帮助,因此,将不断总结针对不同场景的操作指南。最后,作者也给出了他们对于推理阶段扩展未来发展的思考和预测。
张启源,香港城市大学计算机科学专业的博士三年级研究生,研究兴趣主要为大语言模型的评测方法(LLM-as-a-Judge,GenerativeRewardModel)与推理阶段能力激发(Test-timeScaling),在众多会议中发表相关论文,包括ICLR,ACL,EMNLP。他曾在华为诺亚实验室(香港研究所)实习。近期主导完成了首篇专注于Test-TimeScaling领域的系统性综述论文。他对大语言模型中有关于推理和优化有广泛兴趣,欢迎讨论和合作。

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录