ToolRL,训练llm更好的使用工具。


ToolRL,训练llm更好的使用工具。

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

论文笔记:标题:ToolRL:RewardisAllToolLearningNeeds
项目开源,https ://github.com/qiancheng0/ToolRL
内容主要研究如何利用强化学习(RL)让大模型更擅长使用工具。
Agent今天爆火。这个工作可能对小伙伴们有些帮助。
以前,大伙喜欢用sft。模型虽然能学会怎么用工具,可一旦遇到没见过的新情况或者需要多步骤调用工具的复杂场景,就容易“蒙圈”,泛化能力不太行。
所以,这个研究的出发点觉着。RL可能是更好的路子。通过奖励信号引导模型自己探索学习,有可能找到更优的工具使用策略,更灵活、更通用。
要怎么设计这个“奖励”才能有效指导模型在复杂的工具使用场景下学习呢?
这套开源框架。在小参数模型上获得了不错的效果提升。对比sft。
任务定义:简单来说,就是给模型一堆工具T和一个用户问题Q。模型需要一步步思考,决定调用哪个工具、怎么调用。每一步k,模型要根据当前掌握的信息sk(之前的思考、工具调用结果等)来决定下一步怎么做rk+1,选哪些工具Tk+1,以及具体参数。目标是让每一步的“即时奖励”尽可能高。论文有写,也会让整体的奖励最高。后半截好像实际没太能体现出来。
在实际运行时,模型会根据prompt(包含可用工具列表和输出格式要求)来生成思考过程和工具调用。输出通常需要遵循特定格式,比如:
系统解析模型输出的部分,执行相应的工具,然后把结果告诉模型,作为它下一步思考的依据。
奖励:
格式奖励
正确性奖励。工具名匹配。参数名匹配。参数值匹配。三部分分数经过归一化处理,最后得到一个范围在[-3,3]之间的Rcorrect分数。
GRPO每一个group,里边都是当前round的resposne,算出来的reward。所以感觉上应该是一个多步骤推理轨迹会被分解成多个单步的实例。
大概就这些内容。不过代码开源。
最后就是还额外做了一个实验,鼓励模型进行更长的推理。L_target设定的512。但是作用不明显,设置有副作用。能观察到推理边长。但是任务效果不会提升。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录