oppo分享了他们做Agents的经验。

发布日期: 2025-06-26

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

代码开源：Code:https ://github. com/OPPO-PersonalAI/OAgents
论文：OAgents:AnEmpiricalStudyofBuildingEffectiveAgents
做agents，不刷gaia。你怎么好意思对外说呢。所以开篇就亮出了刷榜成绩。
整体模块很多
他们做了些什么不一样的呢？
2个维度来构建智能体系统。
FactualAcquisitionCapacity,FAC事实获取，量化通过各种工具检索、验证和整合外部知识的能力
LogicalReasoningFidelity,LRF通过规划、记忆和推理等协同，提高整体的决策能力。
这里不具体写了。简单放个图
FAC工具包有些啥呢：
LRF工具包有些啥呢：
他们验证了些什么经验呢？
GAIA本身有一些多模态任务，所以添加文本、图片、视频支持，肯定有提升。
使用Jinareader进行结构化文本提取，性能提升蛮多9. 3%。
集成多个搜索引擎（k=5）相较于单一来源（Google），在Level3任务上性能提升了7. 69%
query优化策略在Level1任务上带来了7. 55%的性能提升。
与静态工作流相比，规划最高可以获得14. 54%的性能提升。
跟baseline相比，记忆摘要、记忆检索和长期记忆分别带来了性能提升，其中长期记忆的增益最为显著，将平均准确率从51. 52%提升至55. 76%。
Reflection带来了3. 03%的提升，但在高难度的Level3任务上表现不稳定。
Best-of-N采样表现出更稳定的提升，其中BO4取得了最佳的性能，平均提升了5. 19%。