仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
来源:全球技术地图
2025年3月,兰德公司(RAND)发布《当人工智能需要时间思考时:浅谈“测试时计算”的含义》(WhenAITakesTimetoThink:ImplicationsofTest-TimeCompute),文章介绍了“测试时计算”(Test-TimeCompute,TTC)在推理型人工智能模型中的兴起及其深远影响。启元洞见编译文章主要内容,旨在为读者了解“测试时计算”带来的结构性变革提供参考。
随着OpenAI的o1、o3和DeepSeek的R1等推理型模型的出现,人工智能开发体系中增添了一项重要能力:“测试时计算”(Test-TimeCompute,TTC),这项能力在推理过程中显著提升了模型性能。不同于传统模型直接输出答案的方式,推理模型采用显式的分步思考流程,即通过“边思考边表达”的方式,尝试多种解题路径、生成中间推理步骤,并对可能的解答进行比较评估,最终凝练出更可靠的输出结果。
在一些情况下,人们甚至可以允许模型“思考”数分钟生成几十页文本,然后模型将这段详尽推理压缩为用户看到的一句简洁回答。尽管这并非颠覆性的技术革命,但它是人工智能技术发展演进的一部分,已经在政策、产业格局与安全等领域引发连锁反应。如同其他技术进步一样,其影响不会立竿见影,但从长远来看,其累积效应可能深远且不可忽视。
一
计算能力如何影响人工智能的生命周期
在探讨“测试时计算”的影响之前,应先理解计算能力在人工智能开发与部署过程中的作用。过去,训练阶段计算量的持续提升一直是推动人工智能进步的主要动力,它使得人们能够训练出越来越强大的拥有更多参数、使用更多数据的模型。而如今,测试时计算能力作为一个新增变量,进入了这套机制。人工智能发展的路径曾被简单理解为“扩大预训练计算规模”,但实际上远比这复杂。随着推理阶段计算量的引入,这个路径进一步变得多元复杂,从原先调控一个变量,转变为同时优化多个变量的系统工程。
简言之,计算能力通过以下四个关键阶段推动模型能力的提升。
(一)实验阶段
在这个阶段,研究人员测试各种架构设计(例如超参数、学习率及其他变量),寻找最优方案,作为后续大规模训练的基础。
(二)预训练阶段
在这个阶段,研究人员通过在互联网庞大的数据集上对模型进行大规模训练,为模型建立基础能力。
(三)后训练阶段
在这个阶段,研究人员通过强化学习、指令微调等方法,让模型在某些特定任务中表现优异或者更像一个聊天机器人。近年来,还新增了通过强化学习来教会模型“逐步推理”能力的功能。
(四)部署阶段
部署阶段包括部署能力与部署规模。关于部署能力,指模型在响应用户提问时“思考”的时间,即测试时计算能力。关于部署规模,指系统的用户规模或人工智能体的部署数量,当数以百万计用户同时发出请求时,这就成为影响性能的关键因素。
当前的变化,不在于计算能力是否仍然重要,而在于计算能力在哪些阶段、以何种方式发挥作用。一个常见的误解是,由于推理模型变得更高效,计算能力的重要性下降。事实恰恰相反,这些所谓的高效新进展,仍然是建立在大规模预训练基础模型之上的,而训练这些模型需要动用数千块加速芯片和数百万美元的资源投入。
当模型完成初步训练后,人们会发现两个新的“可扩展杠杆”出现了:一个是后训练阶段,在此阶段可以通过强化学习进一步塑造模型的推理能力;另一个是推理阶段,这个阶段与过去主要依赖训练数据规模和模型体量来提升能力不同,推理型模型通过在此阶段投入更多计算时间,也能够显著增强其解决问题的能力,尽管这种能力仍然建立在预训练打下的基础和后续训练形成的推理机制之上。
如今“测试时计算”为推动人工智能能力增长开辟了新的路径。尽管当前这一变化看似缓慢演进,但未来可能对人工智能的技术生态与相关政策体系带来深远影响。
二
测试时计算的六大影响
(一)创新周期正在加速
随着已经投身推理研究的团队(如OpenAI、DeepSeek等)以及更多新入局者的不断探索,人工智能的性能提升将加速发展。在这一新兴研究领域中,迭代速度更快,只需通过强化学习或增加推理时间即可提升性能,无需耗资数百万美元进行一次全新的预训练,这使得更新成本更低。
此外,这种相对低门槛的性能提升方式吸引了更多开发者参与人工智能研究,尤其是学术界的研究者,他们更倾向于分享发现,从而加速行业进步。这也将推动技术的共享,已有前沿模型拥有者与相对弱势竞争者之间的差距可能会比预训练主导时代更快缩小。但与此同时,预训练方面的进展仍在持续,每一代重大跃升仍可能带来新的能力鸿沟。
性能提升最快的领域,预计将是那些具备清晰反馈机制、结果易于验证的领域,尤其是数学和软件工程领域。这一点具有重要意义,因为许多模型开发者本身就是软件工程师,这将形成一个正向反馈循环:工程师利用模型提升工作效率,带来更多使用与创新,从而催生更优秀的下一代模型。但这种推理能力是否能顺利迁移到其他领域仍需时间验证。
(二)技术共享加速,同时维持领先优势
测试时计算同时服务于领先企业与中小开发者,先进模型可借此获得更强推理能力,较小规模的系统也可实现过去需要大规模预训练才能达到的性能。但这并不意味着计算门槛的降低或消失,而是人工智能演进中算法效率提升的又一次飞跃,即在既定性能水平下所需的计算成本变得更低。但要推进最前沿的能力,仍需巨大的资源投入。
领先企业通过在其最新、最大模型中集成推理技术来维持优势。而中小开发者则能以更有限的资源达成过去的顶尖表现,虽然差距缩小,但尚未完全弥合。
(三)分级使用推理模型
测试时计算促进了人工智能能力的灵活性,同一个模型,依据任务中分配的计算资源不同,可以展现出不同的“智能水平”。这一问题目前就已显现:是否必须订阅高级版本才能使用最先进的能力?对于简单查询,可能并无必要,但许多用户为了在特定任务中获得更优表现,仍会选择付费升级。展望未来,用户不仅要挑选合适的模型,还可能需要决定让模型“思考”多长时间,以平衡效率与性能。
(四)部署能力:从“部署规模”到“部署规模与智能水平的协同提升”
部署时的计算资源一直是决定人工智能影响力的关键,它决定了可以服务多少用户,进而影响人工智能在不同行业、领域的渗透程度。而如今,测试时计算的引入加剧了计算资源与模型智能之间的耦合关系,同一模型在被分配不同的推理时间后会表现出不同“智商”。
这一变化带来了重要的地缘政治与经济影响。在地缘政治方面,计算资源充足的国家可以通过补贴人工智能服务的方式在国际上扩大软实力。在经济方面,拥有推理计算资源的国家,拥有着将先进人工智能批量部署并盈利的能力,这可能形成“部署成功-赚取利润-继续升级”的正反馈机制。
(五)合成数据推动能力飞轮
推理能力的进一步提升可能依赖于“合成推理数据”的生成,即由人工智能自行产出的推理样本,这类数据将成为越来越有价值的战略资源。每一代模型都借助上一代生成的推理样式来进行强化,从而进一步增强下一代模型的推理能力,形成加速能力进化的闭环。
同时,这一机制也可能加剧数据安全风险,使“推理数据窃取”成为新隐患。但从长期看,保护此类合成数据可能并不现实,数据获取途径可能会迅速扩散。例如DeepSeekR1所共享的链式思维推理方式,已经惠及其他团队。这种推理数据的广泛传播,也可能进一步缩小前沿技术拥有者与相对弱势竞争者之间的差距。
(六)政策制定面临信息不对称挑战
随着人工智能能力的不断跃升,从外部视角做出明智的政策决策正变得越来越困难。推理模型的技术细节及其发展路径常被公司作为商业秘密加以保护,这造成了开发者与政策制定者之间日益扩大的信息鸿沟。若不正视并弥补这些信息不对称,政策制定者可能将越来越难以跟上人工智能演化的脚步。
三
结语
测试时计算并非颠覆性地改写了人工智能发展的全部逻辑,但它无疑引入了一个重要的新变量,值得政策制定者高度重视。这是人工智能发展中的一次结构性演进,新增的变量正在重新塑造政策应对的重点和边界。
事实表明,人工智能的发展并不是沿着一条单一、持续上升的曲线前行。如今,这一进程更像是多条曲线并行推进(包括预训练、强化学习和测试时计算等)。然而,政策体系往往滞后于技术发展,常常在新变量已经深刻影响产业发展和社会走向后,政策制定者才意识到其带来的挑战。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https ://wx. zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx. zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
壳牌:2025能源安全远景报告:能源与人工智能(57页)
盖洛普&牛津幸福研究中心:2025年世界幸福报告(260页)
Schwab:2025未来共生:以集体社会创新破解重大社会挑战研究报告(36页)
IMD:2024年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214页)
DS系列专题:DeepSeek技术溯源及前沿探索,50页ppt
联合国人居署:2024全球城市负责任人工智能评估报告:利用AI构建以人为本的智慧城市(86页)
TechUK:2025全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52页)
NAVEXGlobal:2024年十大风险与合规趋势报告(42页)
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma:2024年全球生物制药行业展望报告:增长驱动力分析(29页)
【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
Tracxn:2025全球飞行汽车行业市场研究报告(45页)
谷歌:2024人工智能短跑选手(AISprinters):捕捉新兴市场AI经济机遇报告(39页)
【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心:2025CSET对美国人工智能行动计划的建议(18页)
罗兰贝格:2024人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11页)
兰德公司:2025从研究到现实:NHS的研究和创新是实现十年计划的关键报告(209页)
康桥汇世(CambridgeAssociates):2025年全球经济展望报告(44页)
国际能源署:2025迈向核能新时代
麦肯锡:人工智能现状,组织如何重塑自身以获取价值
威立(Wiley):2025全球科研人员人工智能研究报告(38页)
牛津经济研究院:2025TikTok对美国就业的量化影响研究报告:470万岗位(14页)
国际能源署(IEA):能效2024研究报告(127页)
Workday:2025发挥人类潜能:人工智能(AI)技能革命研究报告(20页)
CertiK:Hack3D:2024年Web3. 0安全报告(28页)
世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
迈向推理时代:大型语言模型的长链推理研究综述
波士顿咨询:2025亚太地区生成式AI的崛起研究报告:从技术追赶者到全球领导者的跨越(15页)
安联(Allianz):2025新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33页)
IMT:2025具身智能(EmbodiedAI)概念、核心要素及未来进展:趋势与挑战研究报告(25页)
IEEE:2025具身智能(EmbodiedAI)综述:从模拟器到研究任务的调查分析报告(15页)
CCAV:2025当AI接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124页)
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
全国机器人标准化技术委员会:人形机器人标准化白皮书(2024版)(96页)
美国国家科学委员会(NSB):2024年研究与发展-美国趋势及国际比较(51页)
艾昆纬(IQVIA):2025骨科手术机器人技术的崛起白皮书:创新及未来方向(17页)
NPL&Beauhurst:2025英国量子产业洞察报告:私人和公共投资的作用(25页)
IEAPVPS:2024光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65页)
AGI智能时代:2025让DeepSeek更有趣更有深度的思考研究分析报告(24页)
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37页)
华为:2025鸿蒙生态应用开发白皮书(133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟(QuIC):2024年全球量子技术专利态势分析白皮书(34页)
美国能源部:2021超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60页)
罗马大学:2025超级高铁(Hyperloop):第五种新型交通方式-技术研发进展、优势及局限性研究报告(72页)
兰德公司:2025灾难性网络风险保险研究报告:市场趋势与政策选择(93页)
GTI:2024先进感知技术白皮书(36页)
AAAI:2025人工智能研究的未来报告:17大关键议题(88页)
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信:2025全球洪水风险研究报告:现状、趋势及应对措施(22页)
兰德公司:迈向人工智能治理研究报告:2024EqualAI峰会洞察及建议(19页)
哈佛商业评论:2025人工智能时代下的现代软件开发实践报告(12页)
德安华:全球航空航天、国防及政府服务研究报告:2024年回顾及2025年展望(27页)
奥雅纳:2024塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28页)
HSOAC:2025美国新兴技术与风险评估报告:太空领域和关键基础设施(24页)
Dealroom:2025欧洲经济与科技创新发展态势、挑战及策略研究报告(76页)
《无人机辅助的天空地一体化网络:学习算法技术综述》
谷歌云(GoogleCloud):2025年AI商业趋势白皮书(49页)
《新兴技术与风险分析:太空领域与关键基础设施》最新报告
150页!《DeepSeek大模型生态报告》
军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态-250309(40页)
真格基金:2024美国独角兽观察报告(56页)
璞跃(PlugandPlay):2025未来商业研究报告:六大趋势分析(67页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界:多模态生成模型的统一综述
中国信息协会低空经济分会:低空经济发展报告(2024-2025)(117页)
浙江大学:2025语言解码双生花:人类经验与AI算法的镜像之旅(42页)
人形机器人行业:由“外”到“内”智能革命-250306(51页)
大成:2025年全球人工智能趋势报告:关键法律问题(28页)
北京大学:2025年DeepSeek原理和落地应用报告(57页)
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
电子行业:从柔性传感到人形机器人触觉革命-250226(35页)
RT轨道交通:2024年中国城市轨道交通市场数据报告(188页)
FastMoss:2024年度TikTok生态发展白皮书(122页)
CheckPoint:2025年网络安全报告-主要威胁、新兴趋势和CISO建议(57页)
【AAAI2025教程】评估大型语言模型:挑战与方法,199页ppt
《21世纪美国的主导地位:核聚变》最新报告
沃尔特基金会(VoltaFoundation):2024年全球电池行业年度报告(518页)
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
国际科学理事会:2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告(英文版)(118页)
光子盒:2025全球量子计算产业发展展望报告(184页)
奥纬论坛:2025塑造未来的城市研究报告:全球1500个城市的商业吸引力指数排名(124页)
FutureMatters:2024新兴技术与经济韧性:日本未来发展路径前瞻报告(17页)
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性:从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心:2024美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28页)
空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理-250224(33页)
Gartner:2025网络安全中的AI:明确战略方向研究报告(16页)
北京大学:2025年DeepSeek系列报告-提示词工程和落地场景(86页)
北京大学:2025年DeepSeek系列报告-DeepSeek与AIGC应用(99页)
CIC工信安全:2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42页)
中科闻歌:2025年人工智能技术发展与应用探索报告(61页)
AGI智能时代:2025年Grok-3大模型:技术突破与未来展望报告(28页)
上下滑动查看更多