ToolRL，训练llm更好的使用工具。

发布日期: 2025-04-25

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

论文笔记：标题：ToolRL:RewardisAllToolLearningNeeds
项目开源，https ://github.com/qiancheng0/ToolRL
内容主要研究如何利用强化学习（RL）让大模型更擅长使用工具。
Agent今天爆火。这个工作可能对小伙伴们有些帮助。
以前，大伙喜欢用sft。模型虽然能学会怎么用工具，可一旦遇到没见过的新情况或者需要多步骤调用工具的复杂场景，就容易“蒙圈”，泛化能力不太行。
所以，这个研究的出发点觉着。RL可能是更好的路子。通过奖励信号引导模型自己探索学习，有可能找到更优的工具使用策略，更灵活、更通用。
要怎么设计这个“奖励”才能有效指导模型在复杂的工具使用场景下学习呢？
这套开源框架。在小参数模型上获得了不错的效果提升。对比sft。
任务定义：简单来说，就是给模型一堆工具T和一个用户问题Q。模型需要一步步思考，决定调用哪个工具、怎么调用。每一步k，模型要根据当前掌握的信息sk（之前的思考、工具调用结果等）来决定下一步怎么做rk+1，选哪些工具Tk+1，以及具体参数。目标是让每一步的“即时奖励”尽可能高。论文有写，也会让整体的奖励最高。后半截好像实际没太能体现出来。
在实际运行时，模型会根据prompt（包含可用工具列表和输出格式要求）来生成思考过程和工具调用。输出通常需要遵循特定格式，比如：
系统解析模型输出的部分，执行相应的工具，然后把结果告诉模型，作为它下一步思考的依据。
奖励：
格式奖励
正确性奖励。工具名匹配。参数名匹配。参数值匹配。三部分分数经过归一化处理，最后得到一个范围在[-3,3]之间的Rcorrect分数。
GRPO每一个group，里边都是当前round的resposne，算出来的reward。所以感觉上应该是一个多步骤推理轨迹会被分解成多个单步的实例。
大概就这些内容。不过代码开源。
最后就是还额外做了一个实验，鼓励模型进行更长的推理。L_target设定的512。但是作用不明显，设置有副作用。能观察到推理边长。但是任务效果不会提升。