oppo分享了他们做Agents的经验。


oppo分享了他们做Agents的经验。

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

代码开源:Code:https ://github. com/OPPO-PersonalAI/OAgents
论文:OAgents:AnEmpiricalStudyofBuildingEffectiveAgents
做agents,不刷gaia。你怎么好意思对外说呢。所以开篇就亮出了刷榜成绩。
整体模块很多
他们做了些什么不一样的呢?
2个维度来构建智能体系统。
FactualAcquisitionCapacity,FAC事实获取,量化通过各种工具检索、验证和整合外部知识的能力
LogicalReasoningFidelity,LRF通过规划、记忆和推理等协同,提高整体的决策能力。
这里不具体写了。简单放个图
FAC工具包有些啥呢:
LRF工具包有些啥呢:
他们验证了些什么经验呢?
GAIA本身有一些多模态任务,所以添加文本、图片、视频支持,肯定有提升。
使用Jinareader进行结构化文本提取,性能提升蛮多9. 3%。
集成多个搜索引擎(k=5)相较于单一来源(Google),在Level3任务上性能提升了7. 69%
query优化策略在Level1任务上带来了7. 55%的性能提升。
与静态工作流相比,规划最高可以获得14. 54%的性能提升。
跟baseline相比,记忆摘要、记忆检索和长期记忆分别带来了性能提升,其中长期记忆的增益最为显著,将平均准确率从51. 52%提升至55. 76%。
Reflection带来了3. 03%的提升,但在高难度的Level3任务上表现不稳定。
Best-of-N采样表现出更稳定的提升,其中BO4取得了最佳的性能,平均提升了5. 19%。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录