公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
机器之心报道
编辑:+0、刘欣
在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家AI企业竞相追逐的焦点。
但近年来,推理效率已成为模型部署和性能的关键限制因素。
基于此,英伟达推出了Llama-Nemotron系列模型(基于MetaAI的Llama模型构建)——一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。
该系列包括三个模型规模:Nano(8B)、Super(49B)与Ultra(253B),另有独立变体UltraLong(8B,支持超长上下文)。
论文标题:Llama-Nemotron:EfficientReasoningModels
arXiv地址:https ://arxiv.org/pdf/2505.00949
代码地址:https ://github.com/NVIDIA/NeMo
数据集:https ://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset
这一系列模型可不简单,不仅具备超强的推理能力,还为企业使用提供开放许可。模型权重和部分训练数据在HuggingFace上公开,遵循NVIDIAOpenModelLicense和Llama社区许可,可商业使用。
Llama-Nemotron系列模型是首批支持动态推理切换的开源模型,用户在推理时可在标准聊天模式和推理模式之间自由切换,极大地提升了交互的灵活性。
研究主要是利用推理类和非推理类这两类基准测试对Llama-Nemotron系列模型进行评估,结果发现Llama-Nemotron系列模型在不同规模下都展现出了良好的性能,尤其是LN-Ultra模型与DeepSeek-R1相比,极大地提高了推理吞吐量和部署效率。
Llama-Nemotron通过多阶段后训练流程,强化推理和非推理任务表现。监督微调阶段专注于数学、代码、推理和工具调用任务;强化学习阶段则采用REINFORCE算法(RLOO)及支持在线奖励感知偏好优化的RPO(OnlineReward-awarePreferenceOptimization)方法,优化对话生成与指令跟随等技能。
Qwen与DeepSeek-R1也在Llama-Nemotron的训练中扮演关键角色。Qwen(如Qwen2.5-32B-Instruct)负责数学和科学数据的生成、分类及去污染,构建高质量训练集;DeepSeek-R1作为核心教师模型,生成多步推理和代码解决方案,通过监督微调和强化学习将深度逻辑能力迁移到目标模型中。
想知道英伟达具体是如何构建Llama-Nemotron系列模型的吗?它背后有着怎样独特的训练方法?
接下来让我们深入探究一下其背后的奥秘。
构建面向推理优化的模型
LN-Super和LN-Ultra模型通过Puzzle框架实现高效推理优化。Puzzle是一个神经网络架构搜索(NeuralArchitectureSearch,NAS)框架,能够在真实部署约束条件下,将大型语言模型转化为面向硬件高效的变体,如图3所示。
该方法允许每个替代模块在精度与效率之间进行权衡,即模块库中某些变体具有更高的计算效率,但可能伴随一定的准确性下降,从而形成一种显式的精度–效率权衡(accuracy-efficiencytradeoff)。模块变体主要包括以下几种类型:
移除注意力机制(Attentionremoval):部分模块完全省略注意力机制,从而显著减少计算开销和KV缓存(Key-Valuecache)内存占用。
尽管Puzzle同样支持其他结构替换方式(如多组查询注意力机制(Grouped-QueryAttention,GQA)中不同的键值头数、线性注意力替代方案、以及不执行操作的替换模块),但实际评估结果表明,在优化LN-Super和LN-Ultra两个模型的总体吞吐量与内存节省方面,最有效的技术仍是移除注意力机制与FFN压缩。
在模块库构建完成后,Puzzle通过逐层选取模块的方式组装完整模型。模块选择过程由整数混合规划(Mixed-IntegerProgramming,MIP)求解器控制,该求解器会在给定的约束条件下(如硬件兼容性、最大推理延迟、总内存预算或指定推理吞吐量)确定效率最优的模块配置。
由于每一层支持多个具有不同精确度–效率权衡方案的模块变体,Puzzle允许用户精确定位至任何位于精度-效率帕累托前沿(Paretofrontier)上的模型配置点。例如,Puzzle可生成满足特定智能体系统(agenticsystems)或部署流程所需约束(如内存不可超出上限或端到端响应时间严格受限)的模型。
该方法利用Puzzle移除部分注意力层后的结构特性:在这种结构下,模型中经常会出现连续的FFN模块序列。FFNFusion会识别出这类序列,并将其替换为更少但更宽的FFN层,这些宽层可并行执行,从而减少序列处理步骤的数量,同时保留模型的表达能力。
此外,这种方式显著提升了计算资源的利用率,特别是在多GPU环境中,可以有效降低跨层通信带来的开销。
部署约束与效率目标
LN-Super专为在单块NVIDIAH100GPU上高效运行而设计,采用张量并行系数为1(TensorParallelism1,TP1)的配置。通过Puzzle框架优化后,该模型在批量大小为256、TP1配置下,相较于Llama3.3-70B-Instruct实现了5倍推理吞吐提升。即使在Llama3.3-70B-Instruct使用其最佳配置(张量并行度为4,TP4)的情况下,LN-Super在TP1条件下仍保持≥2.17×的吞吐优势。
LN-Ultra的优化目标为整个H100节点(8张GPU)。在Puzzle结构搜索阶段,模型受到推理延迟需至少比Llama3.1-405B-Instruct缩短1.5倍的约束。应用FFN融合(FFNFusion)后,最终模型在延迟上实现了1.71倍提升。
LN-Ultra同样受缓存Token限制:在FP8精度下支持最多300万个Token,在BF16精度下支持60万个Token,均以整个H100节点为计算基准。
NAS后训练阶段:知识蒸馏与持续预训练
在神经架构搜索(NAS)阶段结束后,为提升模块间兼容性并弥补模块替换带来的质量损失,LN-Super和LN-Ultra均进行了进一步训练。
LN-Super使用Bercovich等人提出的DistillationMix数据集,以知识蒸馏目标函数训练了400亿个Token;
LN-Ultra首先使用相同的蒸馏数据集进行了650亿Token的蒸馏训练,随后在Nemotron-H第四阶段预训练数据集上进行了额外880亿Token的持续预训练。
通过这一最终的预训练阶段,LN-Ultra不仅实现了与基准模型Llama3.1-405B-Instruct相当的性能,还在多个关键基准测试上取得超越,验证了即使进行激进的架构优化,也可通过短周期的蒸馏与预训练恢复并提升模型性能(见表1)。
推理能力强化学习
为了使模型具备在不同任务场景下灵活切换推理深度与回答风格的能力,研究者设计了「detailedthinkingon/off」指令机制,通过在合成数据中显式标记是否需要展开详细推理过程,引导模型在训练中学习何时进行逐步思考、展示推理链条,何时直接给出简明答案。
具体而言,指令为「on」时,模型输出完整的中间推理过程并展示解题思路;指令为「off」时,模型仅呈现最终结果。这一机制提升了模型对用户指令的响应可控性,同时增强了推理行为在不同场景中的适应性,使模型能根据实际需求调整输出风格。
在此基础上,模型通过监督微调(SFT)从教师模型中学习多步推理路径,并有效融合推理与通用任务风格,构建了兼具推理精度与使用灵活性的响应系统。
LN-Ultra在推理类与非推理类基准测试上均达到或超越了现有开源权重模型的水平(如表5所示),证明通过从强大教师模型中蒸馏知识,模型可通过监督微调获得较强能力。
然而,蒸馏在本质上为学生模型设定了性能上限,特别是当学生模型本身能力不超过教师模型时。
例如,通过监督微调,LN-Ultra可逼近DeepSeek-R1的性能,但难以超越。为使学生模型有机会超过教师模型,大规模强化学习(RL)提供了可行路径,因其能持续探索新策略并促进模型自学习。
研究者初步实验表明,在小型模型上应用强化学习的性能通常不及直接蒸馏。考虑到资源限制,研究者仅对LN-Ultra应用推理方向的强化学习,从而获得一个超越其教师模型的最终版本。
训练流程
针对LN-Ultra,研究者通过大规模强化学习提升其科学推理能力,采用GRPO算法。训练中设置每个rollout的提示词长度为72,并为每个提示采样16个响应,采样参数为temperature=1,top_p=1。
全局batchsize设置为576,每个rollout更新两次梯度,训练持续至模型在推理任务上收敛。图5展示了模型在GPQA-Diamond上的准确率随训练进展的变化。借助优化后的训练基础设施,整个训练过程共消耗约14万张H100GPU小时。
本阶段训练使用以下两类奖励信号:
准确率奖励(Accuracyrewards):每个训练样本提供标准答案(数字、句子或段落),研究者使用Llama-3.3-70B-Instruct模型判定策略模型响应是否与标准答案一致。
为增加训练挑战性,研究者对数据进行预处理:由LN-Super为每道题生成8个独立回答,计算通过率(passrate),并过滤通过率≥0.75的样本,提升总体训练数据难度。
除数据筛选外,研究者发现课程化学习(curriculumlearning)策略能显著帮助模型在复杂推理问题上的收敛和泛化。研究者采用渐进式批处理策略(progressivebatching),使用预计算通过率作为样本难度指标,在固定batchsize下,动态计算每个批次的目标难度分布。
该分布以高斯函数建模,从早期批次集中在高通过率(简单样本),逐步过渡至后期批次的低通过率(高难度样本)。每个batch中,样本按目标分布随机分配,并根据不同通过率池中剩余样本量进行容量填充。
这种策略确保样本难度在batch层面逐步递进,同时batch内部保持随机性。图6展示了该课程式学习策略在降低方差、稳定训练过程及提升准确率方面的有效性。
FP8精度生成阶段
研究者识别出生成阶段是推理过程中的主要限制因素。为提升该阶段性能,研究者开发了支持vLLM框架下在线FP8精度生成模式的路径,此模式可在FP8精度下执行全部矩阵乘(GEMM)操作,并结合每token激活缩放因子及每张量权重缩放因子。
为配合训练时输出的BF16权重,研究者开发自定义vLLM权重加载器,可在运行时将BF16权重转换为FP8格式及其缩放参数。由于vLLM当前不支持FP8模式直接初始化模型,研究者实现了元权重张量初始化(meta-weighttensorinitialization),避免载入完整BF16推理引擎导致GPU显存溢出。
在上述优化下,FP8模式下单个GPU每个prompt的生成吞吐量最高可达32token/s,相比BF16提升1.8倍。其中,FP8本身带来1.4倍加速,另外0.4倍收益源自内存占用减少,使研究者能够启用vLLM的cudagraph特性,进一步提升系统性能。
用于偏好优化的强化学习
指令跟随能力优化
在完成科学推理任务的强化学习训练后,研究者对LN-Super和LN-Ultra开展短周期强化学习训练,优化其指令跟随能力。参照Zhou等人提出的验证方案,研究者生成包含1至10条详细指令的合成提示词用于训练。
在该阶段,研究者采用RLOO算法进行不超过120步的强化学习训练,使用自定义指令跟随验证器作为奖励函数,训练批大小为128条提示。结果表明,此类训练不仅提升了模型在传统指令跟随评测中的表现,也对推理类基准任务产生积极影响。
基于人类反馈的强化学习(RLHF)
研究者使用基于人类反馈的强化学习(RLHF)增强模型的通用协助能力(helpfulness)与多轮聊天能力,同时确保其在其他任务上的表现不被削弱。
具体训练参数为:学习率α=4e-7,KL散度惩罚项β=1e-5,奖励缩放因子η=3.0,batchsize为64,训练500步。两轮在线RPO后,ArenaHard分数由69.1提升至88.1。
值得注意的是,该过程在几乎所有基准任务中的表现均有提升,唯独在IFEval上略有下降。由于该数据集与奖励模型未专门针对数学、代码、科学或函数调用场景设计,研究者推测RLHF有助于模型更好地调动已有知识和技能。
针对LN-Ultra,研究者延续上述训练流程,但采用GRPO算法。对每条提示词,生成8个样本响应,并以学习率3e-7、batchsize为288、KL惩罚β=1e-3的配置进行30步训练。
对于小模型LN-Nano,研究者进行了两轮离线RPO,使用策略内数据(on-policydata)训练。第一轮混合使用包含推理和非推理内容的数据,并配合相应系统提示,目的是提升模型的推理控制能力;第二轮聚焦于提升指令跟随表现,训练数据为模型生成的策略内响应。每轮训练最多进行400步,学习率α=7e-7,KL惩罚β=3e-2,batchsize为512。
详细内容请参见原论文。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com