你敢信!LoRA也能训练出强大的推理模型——Tina让小模型“智商爆表“
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
Tina:低成本高效的推理能力小型语言模型
在大模型时代,人们常认为只有参数量庞大的语言模型才能具备强大的推理能力。
然而,一项名为Tina(TinyReasoningModelsviaLoRA)的研究颠覆了这一观念:通过巧妙运用LoRA技术,研究团队用不到10美元的训练成本,让一个仅有1.5B参数的小模型在推理能力上媲美甚至超越了同类全参数训练的最先进模型!
这一惊人成果不禁让人发问:推理能力的提升真的需要消耗大量计算资源吗?
Tina研究选择了DeepSeek-R1-Distill-Qwen-1.5B作为基础模型。这一选择不同于许多聚焦于大模型的研究,而是着眼于一个蒸馏得到的小型模型。这个模型虽然参数量小,但通过特定的系列(DeepSeek/Qwen)和蒸馏过程,具有较强的初始推理能力。
这使得研究人员能够在较低的算力成本下,更严格地评估强化学习带来的推理能力提升。
Tina模型的核心创新在于在强化学习(RL)过程中应用低秩适应(LoRA)技术。LoRA通过训练参数更新的低秩分解,仅需训练少量新参数,从而实现参数高效的后训练。这种方法不仅计算效率高,还具有模块化的优势,可以通过训练低秩分解的参数更新来切换推理行为,而无需维护多个完整的模型副本。
研究团队设计了一个高效的训练流程,使用公开的推理模型数据集和设置进行强化学习。所有Tina模型和基线模型都采用相同的基础模型检查点,并使用默认的开源权重。
训练代码基于OpenR1,这是一个完全开源的DeepSeekR1的复现版本,结合了Accelerate和Trl库以及DeepSpeedZeRO优化。
为了实现低成本,研究限制了硬件使用,仅使用两块NVIDIAL40SGPU。通过在两块GPU上同时运行强化学习训练过程和vLLM(用于更快的样本生成),显著减少了硬件需求。训练预算控制在每个完整实验运行不超过100美元,实际支出远低于这个上限。
为确保公平和可靠的比较,研究者对现有的SOTA推理模型进行了重新评估,使用统一的评估框架和设置。所有基线模型均使用lighteval框架结合vLLM推理引擎进行评估,保持硬件配置和推理参数一致。这为后续Tina模型的评估提供了可靠的参考基准。
在五个不同的数据集上训练了五种Tina模型,并在六个推理任务上评估它们的性能。结果显示,Tina模型在各个任务上的表现与对应的全参数训练的基线模型相比,不仅具有竞争力,而且在某些情况下还超过了基线模型。例如,Tina-Open-RS2模型达到了最高的平均性能50.60%。更令人惊讶的是,最佳Tina模型在AIME24测试集上实现了43.33%的通过率,与仅使用全参数微调的基线模型相比提高了超过20%。
研究通过改变训练数据集、学习率、LoRA秩和强化学习算法等单一因素,探究了影响Tina模型性能和效率的关键设计选择和超参数。
数据集的影响:使用较小但高质量的数据集(如Tina-Open-RS,仅7k样本)训练的模型表现优于使用更大数据集训练的模型。
学习率的敏感性:在Tina-LIMR配置下,学习率为1e-6时,模型表现最佳。
LoRA秩的影响:测试了不同LoRA秩(4、8、16、32、64),发现秩为16时性能最佳。
强化学习算法的比较:比较了GRPO和Dr.GRPO算法,发现Dr.GRPO在训练早期就能达到较好的性能。
分析LoRA基于RL的训练过程,探究其高效性的原因,研究者观察了训练过程中的准确率奖励、格式奖励、完成长度等指标的变化。发现了一个明显的训练阶段转换点,格式奖励和完成长度在这一点附近出现峰值或不稳定,而准确率奖励则没有明显的转折点。
最佳性能检查点通常出现在格式奖励开始下降之前,这表明LoRA在格式适应方面非常高效,但过度优化格式可能会损害推理性能。这一发现支持了研究者提出的”快速格式适应”假设:LoRA的有效性和效率源于其能够快速适应强化学习奖励的推理格式,同时保留基础模型的底层知识。
Tina模型的一个最显著特点是其极高的成本效益。最佳Tina模型的训练成本仅为9美元,相比于传统强化学习方法节省了约260倍的成本。这一惊人的成本降低使得强化学习推理模型的开发更加普及和可访问。
总实验成本为526美元,这包括了所有Tina变体的训练和评估,以及基线模型的重评估。
这意味着即使是资源有限的研究团队或个人开发者,也能参与到高级推理模型的开发中来。
我们看到作者在很多R1复现方案上做了对应训练,并发布了Lora权重
我们看到这种训练成本确实比较低,之前我们也尝过“Lora”或者‘Qlora“的算力甜头,好像基座模型很少采用Lora训练方式去作为基础训练技术,可能作为垂域任务的拟合技术比较合适。针对Tina有一些反思的点是:
规模扩展的不确定性-研究仅验证了1.5B参数模型上的效果,尚不清楚这种方法能否有效扩展到10B或更大参数模型,以及规模增长是否会导致性能与成本效益之间的权衡发生变化。
领域局限性-当前研究主要集中在数学和科学推理任务上,缺乏在更广泛领域如自然语言推理、代码生成、常识推理等方面的验证,模型的通用推理能力仍有待证实。
超参数敏感性-实验表明模型对学习率和LoRA秩等超参数较为敏感,这可能增加在新场景中应用的难度和不确定性。
长期训练效应未明-研究未深入探讨长期训练对性能的影响,特别是”快速格式适应”假设在更长训练周期下是否依然成立,以及是否存在性能饱和或退化点。
添加微信,备注”LLM“进入大模型技术交流群
如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢
/作者:致Great