综述 | 从“说出来”到“脑中算”：Latent Reasoning的范式跃迁与无限可能

发布日期: 2025-07-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大型语言模型（LLM）在推理任务上表现惊艳，尤其当它们使用显式思维链（Chain-of-Thought,CoT）时——即像人一样一步步写下中间思考过程。这种“说出来再回答”的方式显著提升了模型的性能和可理解性，成为当前顶尖推理模型（如Qwen3、DeepSeek-R1、Gemini2. 5）的核心策略。然而，CoT存在一个根本性限制：它强迫模型将所有思考都“塞进”有限的自然语言词汇和离散的令牌（Token）中，就像只用文字聊天来解复杂数学题，表达带宽严重受限（见图1，显式CoT传输约15比特/令牌，而潜在CoT传输约4万比特/隐藏状态，相差2700倍！）。这不仅约束了模型的表达能力，还可能引入冗余计算。
潜在思维链（LatentChain-of-Thought,LatentCoT）正是为了突破这一瓶颈而生。它的核心思想直白有力：让模型直接在连续的“脑海”（即隐藏状态）里进行多步推理，完全跳过生成中间文字令牌的步骤。想象一下，解数学题时你不需要把每一步都写在草稿纸上，而是在大脑里默默推演完成，最后直接写出答案。LatentCoT让AI也能这样“默默思考”。这释放了模型的潜力：不受词汇限制，它能探索更高效、甚至无法用语言精确描述的推理路径，有望解锁更高性能和新能力。
论文：ASurveyonLatentReasoning
链接：https ://arxiv. org/pdf/2507. 06203
本综述论文首次系统梳理了这一新兴领域的全貌。它深入探讨了潜在推理的计算基础（神经网络层如何成为推理的“硬件”）、多样化实现方法（如何设计或训练模型进行“脑海推演”）、背后的工作机制（层堆叠如何像隐式CoT），并前瞻性地展望了“无限深度推理”这一激动人心的前沿（让模型想多久就多久）。接下来，我们将跟随论文的脉络，揭开潜在推理的神秘面纱。
要理解五花八门的潜在推理方法，首先需要一个统一的“坐标系”。论文构建了一个通用的数学框架，将Transformer模型在时间步(处理第t个令牌)和层的信息处理形式化：
核心状态变量：
标准Transformer：Key-Value(KV)缓存()，随序列增长而变大。
线性注意力模型：固定大小的状态矩阵。
类RNN模型：单个状态向量，压缩所有过去信息。
：第层、时间步的激活值（当前“想法”的向量表示）。
：隐藏状态，承载历史信息。它的具体形式因架构而异：
在这个框架下，潜在推理的核心操作可分解为两个维度的变换：
空间变换(SpatialTransformation-层间垂直流动)：在同一时间步，信息如何从低层流向高层。
：层变换函数（如Transformer块），利用当前层输入和历史上下文计算下一层的激活。它代表模型处理单步信息的“计算单元”。
：历史状态更新函数。它定义了如何结合新输入来更新历史状态（例如，把新信息加入KV缓存，或按规则更新矩阵/向量状态）。的具体实现取决于的形式。
重要性：这个公式描述了模型在“思考”当前令牌时，信息如何在网络深度方向上逐层提炼和抽象。确保了每一层在做计算时，都能“记住”并利用之前处理过的信息。
时间变换(TemporalTransformation-时间步水平流动)：在同一层，信息如何从前一个时间步流向当前时间步。这主要体现在的更新上（例如，将新令牌的KV对加入缓存，或按递归规则更新状态矩阵/向量）。
核心方法论分类：基于上述框架，论文将潜在推理技术分为两大范式：
基于激活的方法(VerticalRecurrence)：核心是加深计算深度。方法是在同一时间步，让信息反复循环通过同一组或少量层（公式2）。就像对同一个问题反复琢磨好几遍（每次循环相当于增加一层“虚拟深度”），逐步精炼“想法”。目标是让模型“想得更深”。
基于隐藏状态的方法(HorizontalRecurrence)：核心是扩展序列容量。方法是让隐藏状态随着时间步推进而演化。像一个不断更新的“记忆本”，汇总了到目前为止的所有关键信息。模型在计算当前步时，可以同时查看这个记忆本里多个时间步或空间位置的信息。目标是让模型“记住更多、联系更广”。
与显式CoT的本质区别：
显式CoT：。模型先计算连续表示，然后必须解码()成离散令牌作为输出。
潜在CoT：。推理过程完全在连续空间中进行，没有解码步骤。就是模型内部的“连续念头”。
关键优势：潜在CoT摆脱了词汇表限制，能探索非语言或更高效的推理路径。
关键挑战：可解释性降低（中间“念头”不直观），训练更复杂。
扩散模型的独特更新：扩散模型（如文本扩散）是潜在推理的重要实现者，但其更新机制与传统Transformer不同：
纯时间更新(传统扩散)：只有时间步的迭代（去噪），没有空间层的堆叠。更新要么是局部的（基于掩码，公式6），要么是全局的（统一去噪）。
集成KV缓存的扩散(新进展)：将Transformer的空间处理能力引入扩散模型。例如：
在每次去噪迭代中，使用双向Transformer块(τ)基于当前KV缓存()精炼所有令牌表示（空间变换）。
只更新置信度高的令牌的KV缓存，提高效率。
结合空间精炼和选择性时间缓存更新。
核心差异vs. 自回归(AR)：AR模型只能向前生成，一旦输出令牌就固定不变，无法全局修正。扩散模型可以并行扫描整个序列，反复精炼任何令牌的表示（借助双向上下文），实现全局一致和可逆的推理过程。
这一部分的核心是：如何让模型在有限的物理层数下，“想”得更深、更久？答案是让信息在层间循环流动，反复加工。
奠基者-通用Transformer(UT)：首次在架构层面引入层间循环。同一个Transformer块可以运行多次（动态深度），通过自适应计算时间(ACT)机制决定何时停止循环。核心是把网络深度从固定超参数变成了动态分配的计算资源。
演进趋势-Pre/Loop/Coda结构：后期模型（如RecursiveTransformer,AlgoFormer,Recurrent-Depth）普遍采用模块化设计：
(前奏)：初始编码输入。
(循环块)：核心推理区，同一组层反复执行多次，迭代精炼表示。
(尾声)：输出解码。
优势：结构清晰、模块化、易于注入先验知识（如迭代约束、算法模板）。
输入与状态管理：
*输入()*：不同模型策略不同，可能包含前一层输出、深度嵌入、甚至初始输入。趋势是简化。
*隐藏状态(,通常是KV缓存)*：大多标准展开。创新点如的共享/重填机制和的模复用，通过周期性缓存回收显著提升内存效率。
深度嵌入()的衰落：UT引入的正弦/可学习深度嵌入，在后续模型（Recursive,AlgoFormer）中被完全抛弃，Recurrent-Depth尝试后也放弃。这表明当架构本身通过状态演化编码迭代次数时，显式的深度位置编码变得冗余。
动态停止机制简化：UT复杂的ACT机制（累积概率阈值）让位于更简单的策略：CoTFormer的MoR路由器、RecursiveTransformer基于变化幅度的提前退出(ε)、AlgoFormer的固定迭代、Recurrent-Depth的定点准则。复杂自适应机制的性价比不高，稳定简单的设计更受青睐。
这类模型（Coconut,CoTFormer）在循环时，不仅复用层，还把上一步的最终隐藏状态作为新“输入令牌”插回序列。
Coconut：将上一步解码的最后一层隐藏状态（“连续念头”）作为一个特殊位置插入当前输入序列开头。模型在潜在空间“琢磨”，不产生文本，支持广度优先探索。
CoTFormer：前向传播计算初步嵌入，然后将这些激活交错插回序列，再次执行共享层栈。提前退出的令牌能“看到”自身表示更深层次的精炼。
共同特点与优势：
桥接垂直与水平：显式状态令牌融合了循环和记忆。
零参膨胀：复用相同层，参数恒定，深度动态增长。
内部推理：避免生成显式CoT令牌的延迟。
核心：在共享权重循环的效率下，通过跨循环步传递状态，解锁更强推理。
核心洞见：无需改架构，仅靠特殊训练，也能让标准Transformer学会“在脑子里循环思考”！这极大提升了实用性。
连续循环：
Coconut：将上一步的最终隐藏状态直接作为下一步的输入，形成连续念头循环。在逻辑推理任务上实现潜在空间的广度优先搜索。
CODI：通过自蒸馏对齐循环状态。对齐教师模型（有完整CoT）和学生模型（压缩推理）在最终答案前的隐藏激活，学习激活空间的定点迭代。比Coconut的课程学习更稳定，首次在GSM8K数学题上达到显式CoT水平。
CCOT：训练模型生成变长连续嵌入序列来近似完整推理轨迹。这些嵌入是循环计算步的压缩表示。可选择解码回文本以保持可解释性。
System-1. 5Reasoning：引入“深度”和“步骤”快捷方式，动态分配层深度和推理步骤，在GSM8K上实现20倍以上加速，保持CoT精度，不改Transformer主干。
压缩状态循环：
Suetal.：用VQ-VAE学习离散潜在令牌替代早期CoT片段，形成混合了压缩抽象步骤和详细推理的“拼盘式”推理。创建分层循环，抽象令牌触发后续层的扩展计算。
Zhangetal.：使用GistTokens作为隐藏空间的压缩锚点（本身无语义）。作为循环检查点，模型在此聚合和重分配计算状态。注意力掩码强制后续推理依赖这些压缩状态，形成隐式循环结构。
核心：将水平（序列级）推理转化为垂直（深度级）计算，为每个逻辑步骤提供更多可用的循环深度。
迭代扩展（战略令牌）：认识到即使无明确语义的额外令牌，也能为内部计算提供更多“思考步数”。
Pfauetal.：证明无意义的填充令牌(如”……”)通过提供更多注意力步数也能改善推理。
Goyaletal.：使用可学习的令牌明确标记计算步骤，创建可训练的循环点。
更高级：注入结构化令牌组织循环模式。如的规划令牌创建分层循环结构；的和令牌为不同类型认知操作创建专门循环模式。
训练策略：有效训练循环模型需要特殊方法：
架构循环(如LoopTransformer)：MIDAS提出渐进堆叠框架：逐步增加模型深度，用前一阶段模型初始化更深模型，稳定训练循环模式。
训练诱导循环：StepwiseInternalization开创课程式压缩：在微调中逐步移除CoT令牌，让模型将推理模式内化到参数中（Coconut也采用）。RELAY通过两步对齐：先用对齐CoT的监督训练循环Transformer(λ)，然后在生成的推理链上微调自回归模型。
应用与能力：垂直递归在复杂任务中展现出强大能力：
算法泛化：循环架构能通过在测试时延长循环步数，从小问题实例泛化到极难问题（静态深度Transformer无法做到）。类似地，Coconut的连续念头循环能解决逻辑推理任务，压缩状态方法在数学推理(GSM8K)上匹敌显式CoT。
符号推理与图算法：带图特定注意力头的循环Transformer能在有限内存内模拟经典算法(BFS,DFS,最短路径)。带规划令牌的模型通过创建分层计算结构，在多跳推理上表现更优。分解增强了检索+逻辑推理任务。
优化与元学习：循环模型被证明隐式实现了多步梯度下降，揭示了循环与优化的深层联系。这解释了架构循环和训练诱导连续念头为何收敛到相似计算模式：都在做类似于优化算法的迭代精炼。
这部分解决：如何让模型处理超长序列（百万令牌级），并有效利用其中的信息进行推理？核心是高效管理随序列增长的隐藏状态。
目标：将历史信息压缩到固定大小的矩阵中，类似RNN，避免KV缓存随序列线性膨胀。
代表模型：Mamba-2,GLA,RWKV-6,HGRN2。
●状态更新关联操作外积
记忆读取
：矩阵值隐藏状态。
●：关联操作符(如逐元素乘、矩阵乘)，支持高效并行扫描计算(到)。
：当前输入的函数。
优化视角(深刻洞见)：状态演化可视为在线优化梯度步！例如DeltaNet的更新规则在数学上等价于对在线回归目标应用一步梯度下降。意义：这统一了隐藏状态模型的“时间”循环与基于激活模型的“深度”循环——两者本质上都是通过迭代处理(如同被在线训练的“快速权重”层)来实现潜在推理。
更激进：将隐藏矩阵视为“快速适应参数”，由可学习的优化器更新！每个新令牌触发一个轻量级梯度下降步，调整以匹配当前键值目标。
代表模型：TTT(类似SGD),Titans(类似Adam),Atlas(类似Muon二阶优化)。
αη
α：控制旧状态保留的门控（类似动量衰减）。
η：学习率。
：损失函数关于状态的梯度。
挑战：梯度依赖于前一步状态，导致严格的序列依赖，难以并行计算。模型块复杂（含LayerNorm,残差连接）也阻碍硬件高效融合。
解决方案-分块并行化(Chunk-wiseParallelization)：
块内并行：在固定小分块内，所有令牌相对于同一初始状态（上一分块的最终状态）并行计算梯度。打破块内序列依赖。
块间循环：分块之间按序列顺序传递状态（一分块的最终状态是下一分块的初始状态）。在分块级别保持序列性。
优化视角扩展(SoftReasoning)：Zhuetal. 将首个令牌嵌入视为可控隐变量。通过注入噪声和贝叶斯优化最大化期望改进目标，在隐藏空间动态搜索推理轨迹。
核心：如何将训练好的庞大Transformer，高效“转换”成基于隐藏状态（RNN/SSM）的轻量级模型？保持性能，获得恒定内存推理优势。
跨架构蒸馏：
早期T2R：替换Softmax为可学习线性核，但需繁重重训练。
SUPRA：从强LLaMA-2/Mistral检查点出发，将注意力替换为GroupNorm稳定的线性核，在约200亿令牌上微调，仅需从头训练循环模型5%的成本即达竞争性精度。
MCHAWK：三阶段流程（矩阵定向隐状态对齐知识蒸馏），仅用30亿令牌将预训练Transformer转换为Mamba-2状态空间模型（如Phi-Mamba），超越所有同规模开源循环LM。可扩展到10-80亿模型(Llamba)。
低秩线性化(LoLCATs)：无需全模型更新。先通过注意力迁移匹配每个注意力头与滑动窗口线性混合器，然后用仅触及0. 2%权重的LoRA适配器恢复残差损失。在80亿模型上MMLU差距≤1%，单日内可扩展到700-4050亿参数。
门控转换(Liger)：复用预训练的键矩阵构建逐通道遗忘门，生成门控循环学生模型，仅用原始令牌预算的0. 02%且无LoRA外参数，恢复教师93%性能。
核心问题：神经网络的层堆叠，本身是否构成了一种隐式的思维链（LatentCoT）？论文通过可解释性研究给出了有力证据。
强相关性：多项研究表明模型推理能力严格受限于网络层数()。
对于步推理任务，若，即使中间结果在某些层出现，最终推理结果也可能因层数不足而无法涌现。
形成完整的两步推理链至少需要2-3层。后续层深度不足会阻碍多跳推理。
表征能力：Saunshietal. 证明：任何执行步CoT推理的层Transformer，可通过次迭代前向传递被一个层Transformer模拟。Merrilletal. 证明增加Transformer深度显著增强推理能力（如语言识别、图连通性）。定理支撑：层深是潜在推理能力的首要瓶颈，可达CoT步长与层数线性相关。
层专业化理论：Transformer不同层在推理中扮演专门角色，形成隐式计算管道，类似显式CoT的步骤。
训练效果差、功能有限、表征学习能力下降。
原因：Pre-LN的输出方差指数增长、注意力矩阵退化（常坍缩为近似秩1）。
未来方向：提升深层有效性是增强模型推理能力的关键。
包含专用推理子电路：注意力头与MLP模块协同工作，负责特定推理子任务（如实体追踪、代词消解、数学运算）。这些电路是模型从数据中自发学习到的高效计算模式。
卓越的表征能力：中层嵌入在文本嵌入任务中性能可超过最终层嵌入16%，且在不同架构和规模上表现一致。可能源于预训练目标（自回归）在模型中层形成信息瓶颈，迫使模型提炼最核心信息。
对结果的因果影响：增强中层激活显著提升推理性能，抑制则导致下降。中层表示作为桥接实体，在多步推理结果中起关键因果作用。其正确激活对最终结果至关重要。
浅层()-基础处理器：处理局部信息、句法结构、表面模式、初始数据转换、存储事实知识、桥接实体解析（多跳推理关键）。负责基础信息处理和事实奠基。
中层()-核心引擎：至关重要！
深层()-输出优化器：接收中层信息，执行针对下游任务的语义转换、复杂逻辑整合和最终决策。然而，研究表明深层可能面临：
信息流理论：层间信息流动对推理过程至关重要。
量化研究：Stolfoetal. 量化MLP和注意力模块在算术任务中的间接贡献，突出注意力机制在层间信息流（将早期计算信息传递至最终令牌）中的核心作用。
“泛化电路”：Wangetal. 发现在“顿悟”(grokking)过程中涌现的电路支持跨层信息流：低层提取桥接实体，高层进行推理。
后向注意力：Yuetal. 发现后向注意力机制能有效将高层隐藏信息传回低层，增强模型推理能力。
问题：基于层的潜在推理系统，能否实现通用计算（图灵完备）？
架构证明：
基础：RNN因递归本质早被证明图灵完备。

CoT证明：
Qiuetal. 提出“提示即图灵完备”：一个有限大小的Transformer，只要给予合适构建的提示，就能计算任何可计算函数。
Lietal. 证明：允许进行步CoT推理的固定深度Transformer，可以模拟大小为的布尔电路。
意义：通用性不必内嵌于模型架构中，也可通过固定深度模型+交互范式（CoT）实现。CoT将有限上下文窗口扩展为动态计算纸带。
架构增强：为接近理论极限，研究引入循环机制（见第3章）或外部记忆增强Transformer的表达能力。
统一视角：Transformer的推理可视为思想在两个维度的展开：
水平（序列维度）：显式CoT，产生可见推理步骤。
垂直（深度维度）：层堆叠即潜在CoT，每层代表一个隐式推理步，逐步优化下一个令牌的预测。两者都是计算扩展的形式，本质区别在于展开的维度（序列vs深度）。

终极目标：赋予模型“想多久就多久”的能力，用无限计算步数精炼解决方案，不受输出长度限制。论文聚焦两大范式：
扩散模型颠覆了传统自回归(AR)生成，通过并行迭代全局精炼整个输出序列实现空间无限推理。它像画家先勾勒全局草图再逐步细化，而非AR一笔一划不可修改。
核心优势：全局规划、跨远距离段落的逻辑一致性、迭代自修正。推理深度（去噪步数）在推断时可调（速度换深度）。
分类：
掩码扩散模型(MDM)：
操作：起始于完全掩码或噪声的完整输出草稿。每次迭代基于双向上下文预测所有掩码令牌。
统一更新：纯时间MDM：*(局部令牌更新)。带缓存MDM：τ(空间精炼)+τ(选择性时间缓存更新-置信度阈值)。

基于嵌入的扩散模型(EDM)：
操作：先将离散令牌序列映射到连续令牌嵌入空间，添加高斯噪声，然后在此空间进行全局去噪精炼。
统一更新：ε(全局序列嵌入迭代精炼)。
演进：Diffusion-LM(可控生成),CDCD(Seq2Seq),Plaid(推导缩放定律，将算力效率差距缩小至64倍),DoT-Plaid(将CoT引入EDM框架)。
混合自回归-扩散模型：
核心：结合AR的序列连贯性优势和扩散的双向全局优化优势。
统一更新：τ(空间精炼)+τ(缓存更新)+AR前缀缓存(引入已生成文本的前向上下文对齐)。
代表：DiffuLLaMA(将AR模型转为扩散模型),L2D(模块化整合),Dream(AR初始化稳定训练),GeminiDiffusion,Mercury(商业应用，加速代码处理)。
核心洞见：处理更长序列的时间≈运行更深层的优化迭代。当隐藏状态按类梯度规则η更新时，每个额外令牌相当于对某个隐式层多执行了一步（随机）优化。⇒处理更长序列≈更深推理层，且不增加参数！
关键问题：如何实例化一个可训练且高效的“无限深”网络？
实现策略：
无限注意力(Infini-Attention)：Munkhdalaietal. 为每个Transformer块附加一个压缩记忆。新片段通过一个线性Delta规则更新该记忆（渐近逼近关联数组的定点），允许模型以内存流式处理无限长输入。优化视角：在线回归步匹配过去键值，门控聚合+局部因果注意力保持短程精度。
测试时训练(TTT)及其演进：Sunetal. 开创在推断时对隐藏状态执行几步SGD。Titans,OmegaNet,Atlas用类Adam/Muon优化器替代一阶更新，引入分块并行化处理百万令牌流。实证：Titans-S(~2. 5亿参数)仅约100万优化步后，在1-shot召回上即匹敌13亿Transformer。证明“通过时间加深”可替代“通过层数加深”。
隐式定点RNN：Schoneetal. 从隐式层视角审视经典RNN。将状态空间块迭代至收敛，产生非线性、非对角转移，恢复通用RNN表达能力，同时保持训练并行性。实践中仅运行少量自适应自迭代()，在精炼无关时停止，提供另一条通往无限深度的路。
统一观点：所有三种策略体现同一原则-深度源于时间上的优化(Depthemergesfromoptimizationovertime)。隐藏状态扮演“快速权重”层，其参数通过显式(TTT,Titans,Atlas)、隐式(定点RNN)或关联缓存(Infini-Attention)方式被精炼。更长序列⇒更深推理。分块扫描和并行定点求解器保持耗时近线性，单GPU即可实验百万令牌上下文。
本综述系统梳理了AI推理的新范式——潜在思维链（LatentCoT）。它直面显式思维链（CoT）的核心局限：依赖自然语言表达中间步骤，严重约束了模型的表达带宽和计算效率。LatentCoT的突破在于将整个推理过程移入模型的连续隐藏状态空间，让模型能“默默思考”，摆脱有限词汇表的桎梏，探索更高效、非语言的推理路径，旨在提升表达力与性能天花板。
核心贡献与见解：
系统化范式：首次全面概述LatentCoT领域，建立统一数学框架，厘清基于激活（垂直递归/加深）和基于隐藏状态（水平递归/扩容）两大核心方法论及其子类（架构驱动、训练诱导）。
揭示机制：通过机制可解释性研究，强有力论证了神经网络层堆叠本身构成了一种隐式思维链（Layer-basedLatentCoT），提出层专业化理论（浅层奠基、中层核心、深层优化）和信息流机制，并探讨了其图灵完备性。
探索前沿：深入剖析“无限深度推理”这一激动人心的方向，重点阐述文本扩散模型（MDM,EDM,Hybrid）如何通过并行全局迭代精炼实现空间无限，以及基于优化的视角（Infini-Attention,TTT,隐式RNN）如何将时间转化为深度。
统一洞见：揭示了计算扩展的统一性——无论是序列维度的显式CoT（水平扩展），还是深度维度的层堆叠/循环（垂直扩展），或是时间维度的长序列处理（优化即深度），本质都是为模型提供更多“思考”资源。扩散模型的时空机制和优化视角进一步弥合了不同范式。
价值与挑战：
价值：突破语言带宽瓶颈，释放模型推理潜力；提供更高效推理的可能路径（如内部循环、状态压缩、扩散并行）；深化对LLM内部计算机制的理解；为构建更强大、灵活的AI系统（如能“深思熟虑”的Agent）奠定基础。
挑战：可解释性难题（黑盒“念头”难以追踪和调试）；训练复杂性（诱导循环、对齐、蒸馏需精巧设计）；深度层功能退化问题；最关键的是标准化评估的缺失——不同模型训练条件迥异（从头预训练vs. 持续预训练适配），且大多与非推理基线比较，缺乏在统一框架下的公平对比(Apples-to-ApplesComparison)，难以准确衡量各方法相对优劣。
未来展望：
混合范式：结合架构循环、训练诱导循环、扩散模型和优化视角的优势，设计更强大高效的混合推理引擎。
增强深度层：解决深层网络退化问题，提升其表征和推理能力，释放层堆叠的全部潜力。
统一评估框架：建立涵盖不同推理类型（数学、逻辑、多跳、规划）、复杂度、效率和可解释性的标准基准，推动公平比较与健康发展。
深化理论理解：进一步形式化潜在推理的计算理论、泛化边界和涌现机制。
新型应用探索：在复杂决策、科学发现、编程创新等领域挖掘LatentCoT和无限深度推理的应用潜力。
LatentCoT代表了对LLM认知能力边界的一次重要拓展。它让我们超越“语言即思想”的直观认知，深入探索连续潜空间中更高效、更强大的推理形式。随着可解释性、训练方法和评估体系的不断完善，这一领域有望成为下一代AI推理的核心支柱。