仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
作者:小茄墩xiaoqiedun.com/posts/2025-04-10-seed-thinking-v1.5/
我们介绍Seed-Thinking-v1.5,它能够在响应前通过思考进行推理,从而在广泛的基准测试中提高了性能。Seed-Thinking-v1.5在AIME2024上达到86.7分,在Codeforces上达到55.0分,在GPQA上达到77.3分,展示了在STEM和编码方面出色的推理能力。除了推理任务,该方法在不同领域也表现出显著的泛化能力。
例如,在非推理任务上,它在胜率方面超过DeepSeekR18%,表明其更广泛的适用性。与其他最先进的推理模型相比,Seed-Thinking-v1.5是一个专家混合模型(MoE),规模相对较小,具有200亿激活参数和2000亿总参数。作为我们评估泛化推理能力的一部分,我们开发了两个内部基准测试:BeyondAIME和Codeforces,这两个基准测试都将公开发布以支持未来的研究。
在这项工作中,我们提出了一个名为Seed-Thinking-v1.5的新推理模型。该模型在推理任务和非推理任务中均表现出强大的性能。
在数学竞赛方面,Seed-Thinking-v1.5在AIME2024上取得了86.7分,与o3-mini-high的表现持平,并显著优于o1和DeepSeekR1,展现出具有竞争力的实力。由于AIME2024不再能提供足够的区分度,我们构建了一个更具挑战性的评估集,名为BeyondAIME。
BeyondAIME中的所有问题均由人类专家全新策划设计,旨在最大限度地减少通过记忆或猜测解决问题的可能性。虽然Seed-Thinking-v1.5在BeyondAIME上的表现超越了o1和R1,但与o3和Geminipro2.5相比,仍存在性能差距。这也进一步证明了这个新评估集的区分能力。
对于竞赛编程的评估,我们采用Codeforces作为我们的基准。与一些依赖Elo分数的先前工作不同(Elo分数包含估计成分,且无法直接比较),我们采用基于最近12场Codeforces比赛的具体评估协议。
具体来说,我们报告pass@1和pass@@指标,其中pass@k表示模型是否在k次尝试内解决问题,即从e次生成的提交中选择最佳结果。我们选择报告pass@@,因为它能提供更稳定的结果,并且更贴近实际用户的提交模式。Seed-Thinking-v1.5在这两个指标上均优于DeepSeekR1,尽管与o3相比仍存在性能差距。该评估集将在未来的版本中公开发布。
Seed-Thinking-v1.5在GPQA基准测试中获得了77.3分,接近o3级别的性能。重要的是,这一性能提升主要归因于通过数学训练改进了泛化能力,而非增加了特定领域的科学数据。
对于非推理任务,Seed-Thinking-v1.5使用一个旨在模拟真实世界用户需求的测试集进行评估。通过在多样化场景下与DeepSeekR1进行的人工评估,Seed-Thinking-v1.5展示了显著的进步:其用户正面反馈整体提升了80.6%,这突显了它在处理复杂用户场景方面能力的增强。
开发高质量推理模型有三个关键点:训练数据、RL算法和RL基础设施。我们已在这些方面投入了大量精力,并将对其进行详细讨论。
对于SFT训练,与传统的后训练数据不同,推理模型依赖于思维链(chain-of-thought)数据,这种数据明确地勾勒出分步推理过程。我们的初步实验表明,过多的非CoTSFT数据会显著降低模型的探索能力。对于RL训练,我们整合了四类数据:STEM问题、代码相关任务、逻辑推理以及诸如创意写作和对话之类的非推理数据。在这些数据中,逻辑推理数据对ARC-AGI基准测试的性能提升贡献显著。数学数据展现出强大的泛化能力,并能在各种任务中带来广泛的性能提升。
推理模型的RL训练高度不稳定且经常崩溃,特别是对于未经SFT的模型。有时,两次运行之间的得分差异可高达10分。RL系统的稳定训练对于推理模型的成功至关重要。为解决这些长期存在的问题,我们开创了VAPO[5]和DAPO[6]——这分别是为基于价值和无价值RL范式量身定制的两个不同框架。VAPO目前是基于价值方法中的最先进(SOTA)解决方案,而DAPO则为无价值方法确立了新的SOTA结果。通过针对RL训练中的核心不稳定问题,这两种方法均提供了鲁棒且一致的训练轨迹,从而有效地实现了推理模型的可靠优化。
基于大语言模型(LLM)的强化学习系统的复杂性要求强大的基础设施来确保可扩展性、可复现性和计算效率。为了处理异构工作负载,我们解耦了流式rollout架构,该架构通过优先样本池异步处理部分轨迹生成,实现了比同步框架快3倍的迭代周期。该系统还支持混合精度训练和自动故障恢复,这对于在大型强化学习运行期间保持稳定性至关重要。
我们的RL训练数据包含两个主要部分:具有确定答案的可验证问题和没有确定答案的不可验证问题。模型的推理能力主要来自第一部分,并且可以泛化到第二部分。
可验证问题主要包括配有答案的STEM问题、配备单元测试的编码问题以及适合自动验证的逻辑推理。
•STEM学科数据
我们的数据集包含数十万个高质量、竞赛级别的STEM学科问题,涵盖数学、物理和化学,其中数学占绝大多数(超过80%)。这些问题来源于开源数据集、公共存储库(国内和国际)以及专有集合的混合。
对于数据清理,我们首先剔除陈述不完整、符号不一致或要求不明确的问题。对于剩余的问题,我们使用我们的模型(Doubao-Pro1.5)生成多个回答。模型获得woN分数(N个中最差)为1的问题被认为过于简单而被移除。最后,一些问题可能有不准确的参考答案。我们使用最先进的推理模型为每个问题生成多个候选回答。如果模型的答案与参考答案不一致,但模型的输出显示出高度的内部一致性,或者只涉及非常少量的推理Token,我们认为参考答案不正确。然后,人类专家对这些问题进行手动验证,以确保参考答案是正确的。我们还应用数据增强,使数据更适合学习和评估。具体来说,我们将多项选择题转换为填空题或简答题格式,以消除猜测的可能性,并更好地评估推理能力。我们还修改了某些数学问题,以确保答案尽可能为整数。
经过数据清理和增强后,我们最终获得了10万个STEM学科问题的训练集。在训练过程中,我们使用基于模型的Seed-Verifier来评估回答的正确性,这在3.1节中介绍。
•代码数据
对于编码问题,我们优先选用高质量且富有挑战性的算法任务来源,主要源自备受推崇的竞技编程比赛。
我们筛选数据以确保每个问题都包含全面的规范说明:清晰的问题描述、一组单元测试以及一个检查脚本。单元测试用于验证解决方案的功能正确性,而检查脚本则强制施加额外的约束,例如输出格式和边缘情况的处理。我们还进行难度筛选,确保问题具有适当的复杂程度以及对现实世界算法推理的适用性。
对于评估,最准确的方式是将生成的代码提交至官方平台。然而,在强化学习期间,实时提交并不可行。因此,我们开发了一套离线评估集,用于进行高效的本地验证。我们的观察表明,离线评估结果与官方指标之间存在强相关性。所有训练和评估问题均集成到内部自研的代码沙盒环境中,以便能够直接执行和评估模型生成的代码。我们确保沙盒环境的稳定性和高吞吐量,从而在强化学习训练过程中提供持续且准确的反馈。
•逻辑谜题数据
对于逻辑推理数据,我们收集了22个常被研究的任务,例如24点、迷宫、数独等。对于每个任务,我们构建了一个数据生成器和一个答案验证器。数据生成器可以自动产生大量的训练和评估数据。此外,对于许多任务,我们可以配置所生成问题的难度。在训练过程中,我们根据模型在特定任务上的表现,逐步调整训练数据的难度。答案验证器严格评估生成结果的正确性,并且可以无缝集成到RL管道中作为奖励函数。我们生成了大约1万个逻辑谜题用于RL训练。
不可验证问题主要涵盖需要基于人类偏好进行质量评估的非推理任务,涉及创意写作、翻译、知识问答、角色扮演等。这些提示词源自Doubao-1.5Pro的强化学习(RL)训练数据。该数据集在不同领域具有足够的覆盖范围。
我们丢弃了样本方差低和难度低的数据。具体来说,我们使用SFT模型为每个提示词生成多个候选答案,然后使用奖励模型对其进行评分。得分方差低的提示词因其采样多样性有限且改进潜力极小而被移除。在Doubao1.5Pro强化学习训练过程中,奖励得分提升超过特定阈值的提示词也被移除。这是因为此类数据可能过于简单,或已在数据集中充分存在。离线实验表明,过度优化此类样本会导致模型探索空间的过早崩溃并降低性能。
对于这些不可验证的数据,我们采用成对奖励方法进行评分和强化学习训练。通过比较两个样本的相对质量,该方法有助于模型更好地理解用户偏好,从而提升生成结果的质量和多样性。关于奖励模型的详细信息将在3.2节介绍。
当前的推理模型通常使用AIME作为评估数学推理能力的首选基准。然而,由于每年仅发布30道题,其有限的规模可能导致评估结果出现高方差,这给有效区分最先进的推理模型带来了挑战。为了更好地评估模型在数学推理方面的能力,我们构建了一个新的基准数据集:BeyondAIME。具体而言,我们与数学专家合作,借鉴既定的竞赛形式来开发原创题目。我们通过结构性修改和情景重构,系统地改编现有的竞赛试题,确保不出现直接重复。此外,我们确保答案绝非平凡值(例如题目描述中明确提及的数字),以降低模型未经恰当推理便猜中正确答案的几率。
通过这一严格的筛选与整理过程,我们最终汇编成一套包含100道题目的测试集,每道题的难度级别等于或高于AIME中最难题目的难度。与AIME类似,所有答案保证为整数(且不受特定数值范围的限制),这简化并稳定了评估过程。
作为强化学习(RL)中的一个关键组成部分,奖励建模定义了策略(policy)试图实现的目标或目的。因此,一个精心设计的奖励机制对于提供精确且可靠的奖励信号至关重要。
基于恰当的原则和思维轨迹,我们利用大语言模型来判断各种场景下广泛的可验证问题。这种方法产生了一种更通用的解决方案,超越了基于规则的奖励系统的局限性。我们设计了两种渐进式的奖励建模解决方案:Seed-Verifier和Seed-Thinking-Verifier:
基于一套由人类精心制定的原则。它利用大语言模型强大的基础能力来评估一个包含问题、参考答案和模型生成答案的三元组。如果参考答案和模型生成的答案在本质上等价,它返回“是”;否则,返回“否”。这里的等价并非字面上的完全匹配,而是一种基于计算规则和数学原则的更深层次评估,用以证明两个答案是否传达了相同的数学意义。这种方法确保奖励信号能准确反映模型的回答在本质上是否正确,即使推理过程有所不同。
灵感来源于人类的判断过程,即通过细致思考和深入分析得出结论性判断。为实现这一点,我们训练了一个能为其评估提供详细推理路径的验证器。具体来说,我们将其视为一个可验证任务,并与其他数学推理任务一同进行优化。该验证器能够剖析参考答案与模型生成答案之间的异同,提供精确且细致入微的判断结果。
Seed-Thinking-Verifier显著缓解了与Seed-Verifier相关的三个主要问题:
缺乏思考过程的模型可能会利用漏洞在未真正理解问题的情况下获得奖励。Seed-Thinking-Verifier中的详细推理过程使得此类投机行为更加困难。
在参考答案和模型生成的答案本质上等价,但格式可能不同的情况下(例如与524288),Seed-Verifier有时可能返回“是”,有时则返回“否”。Seed-Thinking-Verifier通过彻底分析答案背后的推理过程来提供一致的结果。
Seed-Verifier在有效处理某些特定情况时存在困难。Seed-Thinking-Verifier提供详细推理的能力使其能够更好地应对这些复杂场景。
表1展示了上述两种验证器的性能。关于案例研究的更多细节,详见附录A。结果表明,Seed-Verifier在有效处理某些特定案例方面存在困难,而Seed-Thinking-Verifier则展现出提供准确判断的卓越能力。尽管后者的思考过程确实消耗大量GPU资源,但我们认为,其生成的精确且鲁棒的奖励结果对于赋予策略强大的推理能力至关重要。
对于不可验证的问题,我们训练一个奖励模型用于RL训练。奖励模型的训练数据与豆包1.5Pro[7]中使用的人类偏好数据一致,主要涵盖创意写作和摘要等类别。
为了提升奖励模型的有效性,我们采用了文献[9]中提到的配对生成式奖励模型(pairwisegenerativerewardmodel)。该模型通过评估两个回复的优劣,并使用判定为“是”或“否”的概率作为最终的奖励分数。这种方法使得模型在评分时能够直接比较不同回复之间的差异,从而避免了对不相关细节的过度关注。实验结果表明,这种建模方法提高了RL训练的稳定性,尤其是在同时包含不可验证和可验证问题的混合训练场景中,它最小化了两种不同类型奖励建模范式之间的冲突。这种改进可能归因于配对生成式奖励模型相较于传统奖励模型,在缓解异常分数生成方面具有内在优势,因此避免了其分数分布与验证器(verifier)分数分布之间出现显著差异。
我们的训练过程从监督式微调(SFT)开始。SFT阶段为后续的强化学习阶段奠定了坚实的基础。与从基础模型启动RL相比,SFT模型产生的输出可读性更高,出现幻觉的情况更少,并且有害性也降低了。
我们整理了一份包含40万个训练实例的SFT数据,其中包括30万个可验证问题和10万个不可验证问题。可验证的提示词是从RL训练集中随机抽样的。不可验证的数据来源于用于Doubao-Pro1.5[7]的SFT数据,涵盖创意写作、基于知识的问答、安全性和函数调用等领域。
为了生成具有长CoT的高质量响应,我们采用了一个集成了模型合成、人工标注和拒绝采样的迭代工作流。最初,人类专家应用提示词工程技术或与内部模型进行交互式对话,以生成具有各种推理模式的响应。在积累了数十个高质量的冷启动样本后,我们可以训练一个具有长CoT的推理模型,作为能力更强的助手。然后,我们使用Seed-Verifier对这个推理模型执行拒绝采样。
虽然这个工作流主要应用于数学数据,但我们观察到它可以很好地泛化到其他领域,例如编码、逻辑谜题甚至创意写作。因此,对于其他领域,我们也进行冷启动过程,然后进行拒绝采样,以产生详细的推理轨迹。
在训练期间,每个实例都被截断为32,000个Token。我们使用上述数据对基础模型进行两轮次的微调。我们使用余弦衰减学习率调度,峰值学习率为,并逐渐衰减至。
我们开发了一个统一的强化学习框架,该框架能够无缝融合来自广泛领域的数据。这种整合包含了三类数据:
•可验证数据:从验证器获取反馈。这类数据使得可以直接根据已知标准验证模型的输出。
•通用数据:由奖励模型评分。奖励模型根据模型的响应与人类偏好的契合程度进行评分。
•特定类别数据:结合了来自验证器和奖励模型的分数。这种混合数据类型结合了验证评估和奖励评估两者的优势。
在长CoTRLHF的背景下,我们遇到了若干挑战,例如价值模型偏差和奖励信号稀疏性。为应对这些问题,我们借鉴了先前工作[5,6,10]中的关键技术:
我们从一个固定策略(如πstart)中采样响应,并使用蒙特卡洛回报来更新价值模型。此过程确保了初始化的价值模型与我们的策略πstart完全对齐。实践证明,维持这种对齐对于保持模型的CoT模式至关重要,从而使模型能够生成连贯且逻辑性强的CoT。
通过采用不同的广义优势估计(GAE)参数(例如和),我们允许价值模型以无偏的方式进行更新。同时,策略可以独立地平衡其自身的偏差与方差。这种解耦使得模型的训练更加高效和稳定。
我们设定,其中是一个超参数,是响应的长度。这种方法确保了时序差分(TD)误差在短序列和长序列上的分布更为均匀。因此,模型在训练期间能更有效地处理不同长度的序列。
在近端策略优化(PPO)算法中,我们将上、下裁剪边界按如下方式解耦:image-20250411085027243通过增大εhigh的值,我们为低概率Token的增加创造了更多空间。这鼓励模型探索更广泛的可能响应,从而增强其发现新颖且有效解决方案的能力。
我们将策略损失定义在所有Token上,而不是整个响应上。这种方法解决了Token级别对最终损失贡献不均衡的问题,确保每个Token对训练过程的影响都被恰当地计入。
此损失函数旨在提升强化学习(RL)训练过程中正样本的利用效率。我们为正样本添加了一个带有系数的语言模型损失:
这个额外的损失项有助于模型更好地从正样本中学习,从而提高其整体性能。
当合并来自不同领域的数据并整合不同的评分机制时,我们面临着不同数据领域之间相互干扰的挑战。这种干扰可能源于难度水平的差异、奖励操纵(reward-hacking)的风险以及其他潜在因素。这些问题使得在模型的所有能力上实现统一且同步的提升变得极其困难。
为了应对这种情况,我们引入了在线数据分布自适应。该方法将强化学习期间的静态提示词分布转换为一个更能适应模型训练需求的自适应分布。通过这样做,我们最大限度地减少了数据干扰的负面影响,并确保了不同能力之间更均衡的改进。其结果是,模型可以在更广泛的任务中更一致地提升其性能。
训练框架是使用HybridFlow[11]编程抽象构建的。整个训练工作负载运行在一个Ray[12]集群之上。数据加载器和RL算法在一个单进程RayActor(单一控制器)中实现。模型训练和响应生成(rollout)在一个RayWorkerGroup中实现。RayWorkerGroup公开了一组API(例如,generate_response/train_batch等),这些API通过WorkerGroup内部的SPMD(单程序多数据)运行繁重的训练/生成工作负载。单一控制器调用RayWorkerGroup公开的各种API来构建训练流程。HybridFlow编程抽象使得能够快速进行RL算法思想的原型设计,而无需为复杂的分布式系统烦恼。
Seed-Thinking-v1.5是通过混合引擎架构[13]训练的,其中所有模型都共置一处。这可以防止在训练和生成之间切换时GPU出现空闲时间。在长CoT生成期间,我们观察到由不同提示词之间响应长度的巨大差异引起的严重掉队(straggler)现象。这导致生成期间大量的GPU空闲时间。为了缓解长尾响应生成的掉队问题,我们提出了SRS(流式Rollout系统)——一个资源感知的调度框架,它战略性地部署独立的流式计算单元,将系统约束从内存限制(memory-bound)转变为计算限制(compute-bound)。
SRS架构引入了streamingrollout,将模型演进与运行时执行解耦,能够通过参数α动态调整同策略(on-policy)与异策略(off-policy)样本的比例:
•定义完成率(α∈[0,1])为使用最新模型版本、通过同策略生成的样本所占的比例。
•将剩余的未完成部分(1-α)分配给来自版本化模型快照的异策略rollout,这些rollout通过在独立资源上对部分生成内容进行异步续写的方式无缝集成。
此外,我们还在环境交互阶段实现了动态精度调度,通过带有误差补偿范围缩放的训练后量化来部署FP8策略网络。为了解决MoE系统中的Token不平衡问题,我们实现了一个三层并行架构,该架构结合了用于层级计算的TP(张量并行)、带有动态专家分配的EP(专家并行)以及用于上下文分块的SP(序列并行)。我们的核函数自动调优器会根据实时负载监控动态选择最优的CUDA核函数配置。
为了大规模高效地训练Seed-Thinking-v1.5模型,我们设计了一个混合分布式训练框架,该框架集成了先进的并行策略、动态工作负载均衡和内存优化。下面我们详细介绍驱动该系统效率和可扩展性的核心技术创新。
我们将TP(张量并行)/EP(专家并行)/CP(上下文并行)与完全分片数据并行(FSDP)相结合来训练Seed-Thinking-v1.5。具体来说,我们将TP/CP应用于注意力层,将EP应用于MoE层。
有效序列长度在DP秩之间可能不平衡,导致计算工作负载不均衡和训练效率低下。为了应对这一挑战,我们利用KARP[14]算法,该算法重新排列一个小批量(mini-batch)内的输入序列,使它们在微批次(micro-batches)之间保持平衡。
我们采用逐层重计算[15]、激活卸载和优化器卸载来支持训练更大的微批次,以掩盖FSDP引起的通信开销。
为了实现最佳系统性能,我们开发了一个自动调优系统,称为AutoTuner。具体来说,AutoTuner采用基于配置文件的方案[16]对内存使用进行建模。然后,它估计各种配置的性能和内存使用情况,以获得最优配置。
我们采用ByteCheckpoint[17]来支持以最小的开销从不同的分布式配置恢复检查点。这使得用户能够弹性地训练任务,以提高集群效率。
表2展示了涵盖数学、编程、科学和通用知识领域等各种任务的评估结果。对于数学基准测试任务,结果计算为32个模型响应的平均值,而GPQA任务结果则计算为8个响应的平均值。对于Codeforces,我们同时报告了avg@@和pass@@,因为pass@@更符合人类的提交习惯。所有其他任务的结果均计算为1个响应的平均值。
值得注意的是,Seed-Thinking-v1.5在SimpleQA上的结果不甚理想。需要强调的是,这个基准测试主要作为一个以记忆为导向的指标,其上的表现更多地与预训练模型的规模相关,而非真实的推理能力。
为了评估模型在主观任务上的表现——鉴于自动化指标不足以捕捉细微的人类偏好——我们在一系列多样化的非推理场景中进行了人工评估。我们的评估旨在衡量质量的关键维度,例如连贯性、相关性、创造性以及对以人为本偏好的符合程度,由领域专家评估小组根据预定义的评分标准,对模型输出与DeepseekR1进行比较评分。
我们使用一个5分制的序数等级,范围从0(非常差)到4(优秀),并在包含多轮的会话提示上评估两个模型。每个完整的会话…标注了二元的胜/负结果,以捕捉整体用户体验,并且每轮分配一个0-4的单一分数。Seed-Thinking-v1.5在评估的会话中取得了8.0%的总体胜率,表明其在契合以人为本的偏好方面具有优越性。此外,这种胜率在各种场景中都是一致的,从创意写作到人文学科知识阐述。图2显示了每轮级别的分数分布。
拒绝采样。拒绝采样(Rejectionsampling)已被认为是提高模型性能的一种有价值的技术[2]。我们进行了一项消融研究,以检验使用拒绝微调(RFT)模型初始化强化学习(RL)是否会影响结果。我们的结果表明,使用RFT初始化的预训练模型在训练期间饱和得更快,但最终性能低于未使用RFT训练的模型,如表3所示。
不同模型大小下算法排名的一致性。我们观察到,强化学习(RL)算法在不同大小和架构的模型中表现出一致的排名行为。如表4所示,Seed-150B-MoE模型在架构(MoEvs.密集)和大小上都与Qwen-32B不同,但表现出一致的排名。值得注意的是,这种一致性表明Qwen-32B可以有效地作为研究强化学习算法的代理模型。
测试时扩展[4,18–20],例如OpenAI的o1[1]和DeepSeek的R1[2],已经在大语言模型(LLMs)[21,22]中催化了一场深刻的范式转变。通过实现扩展的CoT推理[23]并引发出复杂的推理能力,这些方法使得大语言模型能够在复杂的数学和编码任务中表现出色,包括那些来自AIME和Codeforces等竞赛的任务。
这场转变的核心是大规模强化学习,它促进了复杂推理行为——例如自我验证和迭代改进——的涌现。然而,支撑可扩展强化学习训练的关键方法论和算法在很大程度上仍然模糊不清,常常在现有推理模型[1,2,21–23]的技术文档中被省略。
在本文中,我们介绍了一个达到SOTA水平的模型Seed-Thinking-v1.5,并从数据、强化学习(RL)算法和强化学习(RL)基础设施这三个方面,详细说明了其实现卓越性能的方法。我们推出的Seed-Thinking-v1.5是一款卓越的推理模型,在推理任务和非推理任务上均表现出色。
该模型利用先进的强化学习(RL)技术,稳定且可靠地提升了思维能力,在AIME24测试中取得了86.7%的准确率,在AIME25测试中取得了74.0%的准确率,在Codeforces竞赛中取得了55.0%的成绩。
展望未来,我们计划研究更高效的强化学习(RL)方案,并利用思维模式探索更具挑战性的任务,以进一步拓展模型智能的边界。此外,开发与验证器精度相当的通用奖励模型,也将是一个极具吸引力的研究方向。
推荐阅读
R1的一些认知:4个经典误区
用极小模型复现R1思维链的失败感悟
全景解读LLMPosting-Train(后训练)技术
结合代码聊聊FlashAttentionV3前向过程的原理
7B小模型用规则奖励RL学会玩数独!
尝试基于0.5B小模型复现DeepSeek-R1的思维链
关于Deepseek采用EP推理方式的一些思考
吃瓜DeepSeek推理成本需要的相关概念:Throughput、TPOT、TTFT
关于DeepSeekV3/R1Decoding吞吐极限的估计
从DeepSeekR1论文深入理解推理型大模型
复现DeepSeekZero的RL调参经验
DeepseekR1Zero复现全过程记录
开源社区DeepSeekR1最新复现进展汇总
从DeepSeekV3看FP8训练的挑战
进入大模型技术群,备注:进群。