综述 | 从“说出来”到“脑中算”:Latent Reasoning的范式跃迁与无限可能
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大型语言模型(LLM)在推理任务上表现惊艳,尤其当它们使用显式思维链(Chain-of-Thought,CoT)时——即像人一样一步步写下中间思考过程。这种“说出来再回答”的方式显著提升了模型的性能和可理解性,成为当前顶尖推理模型(如Qwen3、DeepSeek-R1、Gemini2. 5)的核心策略。然而,CoT存在一个根本性限制:它强迫模型将所有思考都“塞进”有限的自然语言词汇和离散的令牌(Token)中,就像只用文字聊天来解复杂数学题,表达带宽严重受限(见图1,显式CoT传输约15比特/令牌,而潜在CoT传输约4万比特/隐藏状态,相差2700倍!)。这不仅约束了模型的表达能力,还可能引入冗余计算。
潜在思维链(LatentChain-of-Thought,LatentCoT)正是为了突破这一瓶颈而生。它的核心思想直白有力:让模型直接在连续的“脑海”(即隐藏状态)里进行多步推理,完全跳过生成中间文字令牌的步骤。想象一下,解数学题时你不需要把每一步都写在草稿纸上,而是在大脑里默默推演完成,最后直接写出答案。LatentCoT让AI也能这样“默默思考”。这释放了模型的潜力:不受词汇限制,它能探索更高效、甚至无法用语言精确描述的推理路径,有望解锁更高性能和新能力。
论文:ASurveyonLatentReasoning
链接:https ://arxiv. org/pdf/2507. 06203
本综述论文首次系统梳理了这一新兴领域的全貌。它深入探讨了潜在推理的计算基础(神经网络层如何成为推理的“硬件”)、多样化实现方法(如何设计或训练模型进行“脑海推演”)、背后的工作机制(层堆叠如何像隐式CoT),并前瞻性地展望了“无限深度推理”这一激动人心的前沿(让模型想多久就多久)。接下来,我们将跟随论文的脉络,揭开潜在推理的神秘面纱。
要理解五花八门的潜在推理方法,首先需要一个统一的“坐标系”。论文构建了一个通用的数学框架,将Transformer模型在时间步(处理第t个令牌)和层的信息处理形式化:
核心状态变量:
标准Transformer:Key-Value(KV)缓存(),随序列增长而变大。
线性注意力模型:固定大小的状态矩阵。
类RNN模型:单个状态向量,压缩所有过去信息。
:第层、时间步的激活值(当前“想法”的向量表示)。
:隐藏状态,承载历史信息。它的具体形式因架构而异:
在这个框架下,潜在推理的核心操作可分解为两个维度的变换:
空间变换(SpatialTransformation-层间垂直流动):在同一时间步,信息如何从低层流向高层。
:层变换函数(如Transformer块),利用当前层输入和历史上下文计算下一层的激活。它代表模型处理单步信息的“计算单元”。
:历史状态更新函数。它定义了如何结合新输入来更新历史状态(例如,把新信息加入KV缓存,或按规则更新矩阵/向量状态)。的具体实现取决于的形式。
重要性:这个公式描述了模型在“思考”当前令牌时,信息如何在网络深度方向上逐层提炼和抽象。确保了每一层在做计算时,都能“记住”并利用之前处理过的信息。
时间变换(TemporalTransformation-时间步水平流动):在同一层,信息如何从前一个时间步流向当前时间步。这主要体现在的更新上(例如,将新令牌的KV对加入缓存,或按递归规则更新状态矩阵/向量)。
核心方法论分类:基于上述框架,论文将潜在推理技术分为两大范式:
基于激活的方法(VerticalRecurrence):核心是加深计算深度。方法是在同一时间步,让信息反复循环通过同一组或少量层(公式2)。就像对同一个问题反复琢磨好几遍(每次循环相当于增加一层“虚拟深度”),逐步精炼“想法”。目标是让模型“想得更深”。
基于隐藏状态的方法(HorizontalRecurrence):核心是扩展序列容量。方法是让隐藏状态随着时间步推进而演化。像一个不断更新的“记忆本”,汇总了到目前为止的所有关键信息。模型在计算当前步时,可以同时查看这个记忆本里多个时间步或空间位置的信息。目标是让模型“记住更多、联系更广”。
与显式CoT的本质区别:
显式CoT:。模型先计算连续表示,然后必须解码()成离散令牌作为输出。
潜在CoT:。推理过程完全在连续空间中进行,没有解码步骤。就是模型内部的“连续念头”。
关键优势:潜在CoT摆脱了词汇表限制,能探索非语言或更高效的推理路径。
关键挑战:可解释性降低(中间“念头”不直观),训练更复杂。
扩散模型的独特更新:扩散模型(如文本扩散)是潜在推理的重要实现者,但其更新机制与传统Transformer不同:
纯时间更新(传统扩散):只有时间步的迭代(去噪),没有空间层的堆叠。更新要么是局部的(基于掩码,公式6),要么是全局的(统一去噪)。
集成KV缓存的扩散(新进展):将Transformer的空间处理能力引入扩散模型。例如:
在每次去噪迭代中,使用双向Transformer块(τ)基于当前KV缓存()精炼所有令牌表示(空间变换)。
只更新置信度高的令牌的KV缓存,提高效率。
结合空间精炼和选择性时间缓存更新。
核心差异vs. 自回归(AR):AR模型只能向前生成,一旦输出令牌就固定不变,无法全局修正。扩散模型可以并行扫描整个序列,反复精炼任何令牌的表示(借助双向上下文),实现全局一致和可逆的推理过程。
这一部分的核心是:如何让模型在有限的物理层数下,“想”得更深、更久?答案是让信息在层间循环流动,反复加工。
奠基者-通用Transformer(UT):首次在架构层面引入层间循环。同一个Transformer块可以运行多次(动态深度),通过自适应计算时间(ACT)机制决定何时停止循环。核心是把网络深度从固定超参数变成了动态分配的计算资源。
演进趋势-Pre/Loop/Coda结构:后期模型(如RecursiveTransformer,AlgoFormer,Recurrent-Depth)普遍采用模块化设计:
(前奏):初始编码输入。
(循环块):核心推理区,同一组层反复执行多次,迭代精炼表示。
(尾声):输出解码。
优势:结构清晰、模块化、易于注入先验知识(如迭代约束、算法模板)。
输入与状态管理:
*输入()*:不同模型策略不同,可能包含前一层输出、深度嵌入、甚至初始输入。趋势是简化。
*隐藏状态(,通常是KV缓存)*:大多标准展开。创新点如的共享/重填机制和的模复用,通过周期性缓存回收显著提升内存效率。
深度嵌入()的衰落:UT引入的正弦/可学习深度嵌入,在后续模型(Recursive,AlgoFormer)中被完全抛弃,Recurrent-Depth尝试后也放弃。这表明当架构本身通过状态演化编码迭代次数时,显式的深度位置编码变得冗余。
动态停止机制简化:UT复杂的ACT机制(累积概率阈值)让位于更简单的策略:CoTFormer的MoR路由器、RecursiveTransformer基于变化幅度的提前退出(ε)、AlgoFormer的固定迭代、Recurrent-Depth的定点准则。复杂自适应机制的性价比不高,稳定简单的设计更受青睐。
这类模型(Coconut,CoTFormer)在循环时,不仅复用层,还把上一步的最终隐藏状态作为新“输入令牌”插回序列。
Coconut:将上一步解码的最后一层隐藏状态(“连续念头”)作为一个特殊位置插入当前输入序列开头。模型在潜在空间“琢磨”,不产生文本,支持广度优先探索。
CoTFormer:前向传播计算初步嵌入,然后将这些激活交错插回序列,再次执行共享层栈。提前退出的令牌能“看到”自身表示更深层次的精炼。
共同特点与优势:
桥接垂直与水平:显式状态令牌融合了循环和记忆。
零参膨胀:复用相同层,参数恒定,深度动态增长。
内部推理:避免生成显式CoT令牌的延迟。
核心:在共享权重循环的效率下,通过跨循环步传递状态,解锁更强推理。
核心洞见:无需改架构,仅靠特殊训练,也能让标准Transformer学会“在脑子里循环思考”!这极大提升了实用性。
连续循环:
Coconut:将上一步的最终隐藏状态直接作为下一步的输入,形成连续念头循环。在逻辑推理任务上实现潜在空间的广度优先搜索。
CODI:通过自蒸馏对齐循环状态。对齐教师模型(有完整CoT)和学生模型(压缩推理)在最终答案前的隐藏激活,学习激活空间的定点迭代。比Coconut的课程学习更稳定,首次在GSM8K数学题上达到显式CoT水平。
CCOT:训练模型生成变长连续嵌入序列来近似完整推理轨迹。这些嵌入是循环计算步的压缩表示。可选择解码回文本以保持可解释性。
System-1. 5Reasoning:引入“深度”和“步骤”快捷方式,动态分配层深度和推理步骤,在GSM8K上实现20倍以上加速,保持CoT精度,不改Transformer主干。
压缩状态循环:
Suetal.:用VQ-VAE学习离散潜在令牌替代早期CoT片段,形成混合了压缩抽象步骤和详细推理的“拼盘式”推理。创建分层循环,抽象令牌触发后续层的扩展计算。
Zhangetal.:使用GistTokens作为隐藏空间的压缩锚点(本身无语义)。作为循环检查点,模型在此聚合和重分配计算状态。注意力掩码强制后续推理依赖这些压缩状态,形成隐式循环结构。
核心:将水平(序列级)推理转化为垂直(深度级)计算,为每个逻辑步骤提供更多可用的循环深度。
迭代扩展(战略令牌):认识到即使无明确语义的额外令牌,也能为内部计算提供更多“思考步数”。
Pfauetal.:证明无意义的填充令牌(如”……”)通过提供更多注意力步数也能改善推理。
Goyaletal.:使用可学习的令牌明确标记计算步骤,创建可训练的循环点。
更高级:注入结构化令牌组织循环模式。如的规划令牌创建分层循环结构;的和令牌为不同类型认知操作创建专门循环模式。
训练策略:有效训练循环模型需要特殊方法:
架构循环(如LoopTransformer):MIDAS提出渐进堆叠框架:逐步增加模型深度,用前一阶段模型初始化更深模型,稳定训练循环模式。
训练诱导循环:StepwiseInternalization开创课程式压缩:在微调中逐步移除CoT令牌,让模型将推理模式内化到参数中(Coconut也采用)。RELAY通过两步对齐:先用对齐CoT的监督训练循环Transformer(λ),然后在生成的推理链上微调自回归模型。
应用与能力:垂直递归在复杂任务中展现出强大能力:
算法泛化:循环架构能通过在测试时延长循环步数,从小问题实例泛化到极难问题(静态深度Transformer无法做到)。类似地,Coconut的连续念头循环能解决逻辑推理任务,压缩状态方法在数学推理(GSM8K)上匹敌显式CoT。
符号推理与图算法:带图特定注意力头的循环Transformer能在有限内存内模拟经典算法(BFS,DFS,最短路径)。带规划令牌的模型通过创建分层计算结构,在多跳推理上表现更优。分解增强了检索+逻辑推理任务。
优化与元学习:循环模型被证明隐式实现了多步梯度下降,揭示了循环与优化的深层联系。这解释了架构循环和训练诱导连续念头为何收敛到相似计算模式:都在做类似于优化算法的迭代精炼。
这部分解决:如何让模型处理超长序列(百万令牌级),并有效利用其中的信息进行推理?核心是高效管理随序列增长的隐藏状态。
目标:将历史信息压缩到固定大小的矩阵中,类似RNN,避免KV缓存随序列线性膨胀。
代表模型:Mamba-2,GLA,RWKV-6,HGRN2。
●状态更新关联操作外积
记忆读取
:矩阵值隐藏状态。
●:关联操作符(如逐元素乘、矩阵乘),支持高效并行扫描计算(到)。
:当前输入的函数。
优化视角(深刻洞见):状态演化可视为在线优化梯度步!例如DeltaNet的更新规则在数学上等价于对在线回归目标应用一步梯度下降。意义:这统一了隐藏状态模型的“时间”循环与基于激活模型的“深度”循环——两者本质上都是通过迭代处理(如同被在线训练的“快速权重”层)来实现潜在推理。
更激进:将隐藏矩阵视为“快速适应参数”,由可学习的优化器更新!每个新令牌触发一个轻量级梯度下降步,调整以匹配当前键值目标。
代表模型:TTT(类似SGD),Titans(类似Adam),Atlas(类似Muon二阶优化)。
αη
α:控制旧状态保留的门控(类似动量衰减)。
η:学习率。
:损失函数关于状态的梯度。
挑战:梯度依赖于前一步状态,导致严格的序列依赖,难以并行计算。模型块复杂(含LayerNorm,残差连接)也阻碍硬件高效融合。
解决方案-分块并行化(Chunk-wiseParallelization):
块内并行:在固定小分块内,所有令牌相对于同一初始状态(上一分块的最终状态)并行计算梯度。打破块内序列依赖。
块间循环:分块之间按序列顺序传递状态(一分块的最终状态是下一分块的初始状态)。在分块级别保持序列性。
优化视角扩展(SoftReasoning):Zhuetal. 将首个令牌嵌入视为可控隐变量。通过注入噪声和贝叶斯优化最大化期望改进目标,在隐藏空间动态搜索推理轨迹。
核心:如何将训练好的庞大Transformer,高效“转换”成基于隐藏状态(RNN/SSM)的轻量级模型?保持性能,获得恒定内存推理优势。
跨架构蒸馏:
早期T2R:替换Softmax为可学习线性核,但需繁重重训练。
SUPRA:从强LLaMA-2/Mistral检查点出发,将注意力替换为GroupNorm稳定的线性核,在约200亿令牌上微调,仅需从头训练循环模型5%的成本即达竞争性精度。
MCHAWK:三阶段流程(矩阵定向隐状态对齐知识蒸馏),仅用30亿令牌将预训练Transformer转换为Mamba-2状态空间模型(如Phi-Mamba),超越所有同规模开源循环LM。可扩展到10-80亿模型(Llamba)。
低秩线性化(LoLCATs):无需全模型更新。先通过注意力迁移匹配每个注意力头与滑动窗口线性混合器,然后用仅触及0. 2%权重的LoRA适配器恢复残差损失。在80亿模型上MMLU差距≤1%,单日内可扩展到700-4050亿参数。
门控转换(Liger):复用预训练的键矩阵构建逐通道遗忘门,生成门控循环学生模型,仅用原始令牌预算的0. 02%且无LoRA外参数,恢复教师93%性能。
核心问题:神经网络的层堆叠,本身是否构成了一种隐式的思维链(LatentCoT)?论文通过可解释性研究给出了有力证据。
强相关性:多项研究表明模型推理能力严格受限于网络层数()。
对于步推理任务,若,即使中间结果在某些层出现,最终推理结果也可能因层数不足而无法涌现。
形成完整的两步推理链至少需要2-3层。后续层深度不足会阻碍多跳推理。
表征能力:Saunshietal. 证明:任何执行步CoT推理的层Transformer,可通过次迭代前向传递被一个层Transformer模拟。Merrilletal. 证明增加Transformer深度显著增强推理能力(如语言识别、图连通性)。定理支撑:层深是潜在推理能力的首要瓶颈,可达CoT步长与层数线性相关。
层专业化理论:Transformer不同层在推理中扮演专门角色,形成隐式计算管道,类似显式CoT的步骤。
训练效果差、功能有限、表征学习能力下降。
原因:Pre-LN的输出方差指数增长、注意力矩阵退化(常坍缩为近似秩1)。
未来方向:提升深层有效性是增强模型推理能力的关键。
包含专用推理子电路:注意力头与MLP模块协同工作,负责特定推理子任务(如实体追踪、代词消解、数学运算)。这些电路是模型从数据中自发学习到的高效计算模式。
卓越的表征能力:中层嵌入在文本嵌入任务中性能可超过最终层嵌入16%,且在不同架构和规模上表现一致。可能源于预训练目标(自回归)在模型中层形成信息瓶颈,迫使模型提炼最核心信息。
对结果的因果影响:增强中层激活显著提升推理性能,抑制则导致下降。中层表示作为桥接实体,在多步推理结果中起关键因果作用。其正确激活对最终结果至关重要。
浅层()-基础处理器:处理局部信息、句法结构、表面模式、初始数据转换、存储事实知识、桥接实体解析(多跳推理关键)。负责基础信息处理和事实奠基。
中层()-核心引擎:至关重要!
深层()-输出优化器:接收中层信息,执行针对下游任务的语义转换、复杂逻辑整合和最终决策。然而,研究表明深层可能面临:
信息流理论:层间信息流动对推理过程至关重要。
量化研究:Stolfoetal. 量化MLP和注意力模块在算术任务中的间接贡献,突出注意力机制在层间信息流(将早期计算信息传递至最终令牌)中的核心作用。
“泛化电路”:Wangetal. 发现在“顿悟”(grokking)过程中涌现的电路支持跨层信息流:低层提取桥接实体,高层进行推理。
后向注意力:Yuetal. 发现后向注意力机制能有效将高层隐藏信息传回低层,增强模型推理能力。
问题:基于层的潜在推理系统,能否实现通用计算(图灵完备)?
架构证明:
基础:RNN因递归本质早被证明图灵完备。
CoT证明:
Qiuetal. 提出“提示即图灵完备”:一个有限大小的Transformer,只要给予合适构建的提示,就能计算任何可计算函数。
Lietal. 证明:允许进行步CoT推理的固定深度Transformer,可以模拟大小为的布尔电路。
意义:通用性不必内嵌于模型架构中,也可通过固定深度模型+交互范式(CoT)实现。CoT将有限上下文窗口扩展为动态计算纸带。
架构增强:为接近理论极限,研究引入循环机制(见第3章)或外部记忆增强Transformer的表达能力。
统一视角:Transformer的推理可视为思想在两个维度的展开:
水平(序列维度):显式CoT,产生可见推理步骤。
垂直(深度维度):层堆叠即潜在CoT,每层代表一个隐式推理步,逐步优化下一个令牌的预测。两者都是计算扩展的形式,本质区别在于展开的维度(序列vs深度)。
终极目标:赋予模型“想多久就多久”的能力,用无限计算步数精炼解决方案,不受输出长度限制。论文聚焦两大范式:
扩散模型颠覆了传统自回归(AR)生成,通过并行迭代全局精炼整个输出序列实现空间无限推理。它像画家先勾勒全局草图再逐步细化,而非AR一笔一划不可修改。
核心优势:全局规划、跨远距离段落的逻辑一致性、迭代自修正。推理深度(去噪步数)在推断时可调(速度换深度)。
分类:
掩码扩散模型(MDM):
操作:起始于完全掩码或噪声的完整输出草稿。每次迭代基于双向上下文预测所有掩码令牌。
统一更新:纯时间MDM:*(局部令牌更新)。带缓存MDM:τ(空间精炼)+τ(选择性时间缓存更新-置信度阈值)。
基于嵌入的扩散模型(EDM):
操作:先将离散令牌序列映射到连续令牌嵌入空间,添加高斯噪声,然后在此空间进行全局去噪精炼。
统一更新:ε(全局序列嵌入迭代精炼)。
演进:Diffusion-LM(可控生成),CDCD(Seq2Seq),Plaid(推导缩放定律,将算力效率差距缩小至64倍),DoT-Plaid(将CoT引入EDM框架)。
混合自回归-扩散模型:
核心:结合AR的序列连贯性优势和扩散的双向全局优化优势。
统一更新:τ(空间精炼)+τ(缓存更新)+AR前缀缓存(引入已生成文本的前向上下文对齐)。
代表:DiffuLLaMA(将AR模型转为扩散模型),L2D(模块化整合),Dream(AR初始化稳定训练),GeminiDiffusion,Mercury(商业应用,加速代码处理)。
核心洞见:处理更长序列的时间≈运行更深层的优化迭代。当隐藏状态按类梯度规则η更新时,每个额外令牌相当于对某个隐式层多执行了一步(随机)优化。⇒处理更长序列≈更深推理层,且不增加参数!
关键问题:如何实例化一个可训练且高效的“无限深”网络?
实现策略:
无限注意力(Infini-Attention):Munkhdalaietal. 为每个Transformer块附加一个压缩记忆。新片段通过一个线性Delta规则更新该记忆(渐近逼近关联数组的定点),允许模型以内存流式处理无限长输入。优化视角:在线回归步匹配过去键值,门控聚合+局部因果注意力保持短程精度。
测试时训练(TTT)及其演进:Sunetal. 开创在推断时对隐藏状态执行几步SGD。Titans,OmegaNet,Atlas用类Adam/Muon优化器替代一阶更新,引入分块并行化处理百万令牌流。实证:Titans-S(~2. 5亿参数)仅约100万优化步后,在1-shot召回上即匹敌13亿Transformer。证明“通过时间加深”可替代“通过层数加深”。
隐式定点RNN:Schoneetal. 从隐式层视角审视经典RNN。将状态空间块迭代至收敛,产生非线性、非对角转移,恢复通用RNN表达能力,同时保持训练并行性。实践中仅运行少量自适应自迭代(),在精炼无关时停止,提供另一条通往无限深度的路。
统一观点:所有三种策略体现同一原则-深度源于时间上的优化(Depthemergesfromoptimizationovertime)。隐藏状态扮演“快速权重”层,其参数通过显式(TTT,Titans,Atlas)、隐式(定点RNN)或关联缓存(Infini-Attention)方式被精炼。更长序列⇒更深推理。分块扫描和并行定点求解器保持耗时近线性,单GPU即可实验百万令牌上下文。
本综述系统梳理了AI推理的新范式——潜在思维链(LatentCoT)。它直面显式思维链(CoT)的核心局限:依赖自然语言表达中间步骤,严重约束了模型的表达带宽和计算效率。LatentCoT的突破在于将整个推理过程移入模型的连续隐藏状态空间,让模型能“默默思考”,摆脱有限词汇表的桎梏,探索更高效、非语言的推理路径,旨在提升表达力与性能天花板。
核心贡献与见解:
系统化范式:首次全面概述LatentCoT领域,建立统一数学框架,厘清基于激活(垂直递归/加深)和基于隐藏状态(水平递归/扩容)两大核心方法论及其子类(架构驱动、训练诱导)。
揭示机制:通过机制可解释性研究,强有力论证了神经网络层堆叠本身构成了一种隐式思维链(Layer-basedLatentCoT),提出层专业化理论(浅层奠基、中层核心、深层优化)和信息流机制,并探讨了其图灵完备性。
探索前沿:深入剖析“无限深度推理”这一激动人心的方向,重点阐述文本扩散模型(MDM,EDM,Hybrid)如何通过并行全局迭代精炼实现空间无限,以及基于优化的视角(Infini-Attention,TTT,隐式RNN)如何将时间转化为深度。
统一洞见:揭示了计算扩展的统一性——无论是序列维度的显式CoT(水平扩展),还是深度维度的层堆叠/循环(垂直扩展),或是时间维度的长序列处理(优化即深度),本质都是为模型提供更多“思考”资源。扩散模型的时空机制和优化视角进一步弥合了不同范式。
价值与挑战:
价值:突破语言带宽瓶颈,释放模型推理潜力;提供更高效推理的可能路径(如内部循环、状态压缩、扩散并行);深化对LLM内部计算机制的理解;为构建更强大、灵活的AI系统(如能“深思熟虑”的Agent)奠定基础。
挑战:可解释性难题(黑盒“念头”难以追踪和调试);训练复杂性(诱导循环、对齐、蒸馏需精巧设计);深度层功能退化问题;最关键的是标准化评估的缺失——不同模型训练条件迥异(从头预训练vs. 持续预训练适配),且大多与非推理基线比较,缺乏在统一框架下的公平对比(Apples-to-ApplesComparison),难以准确衡量各方法相对优劣。
未来展望:
混合范式:结合架构循环、训练诱导循环、扩散模型和优化视角的优势,设计更强大高效的混合推理引擎。
增强深度层:解决深层网络退化问题,提升其表征和推理能力,释放层堆叠的全部潜力。
统一评估框架:建立涵盖不同推理类型(数学、逻辑、多跳、规划)、复杂度、效率和可解释性的标准基准,推动公平比较与健康发展。
深化理论理解:进一步形式化潜在推理的计算理论、泛化边界和涌现机制。
新型应用探索:在复杂决策、科学发现、编程创新等领域挖掘LatentCoT和无限深度推理的应用潜力。
LatentCoT代表了对LLM认知能力边界的一次重要拓展。它让我们超越“语言即思想”的直观认知,深入探索连续潜空间中更高效、更强大的推理形式。随着可解释性、训练方法和评估体系的不断完善,这一领域有望成为下一代AI推理的核心支柱。