When2Call：哈佛认为LLM也需要“边界感”，要意识到是否何时需要工具调用

发布日期: 2025-04-29

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

AI也需要“边界感”？工具调用背后的新问题
如今的大语言模型（如ChatGPT）越来越擅长调用外部工具，比如查天气、查数据库。但问题来了：如果AI没有对应的工具，或者用户问题信息不全，它会怎么办？
想象一下，你问一个没有天气插件的客服AI：“明天上海会下雨吗？”理想的回答是“我无法回答”，但现实可能是AI瞎编一个天气数据，或者硬说“我查到了明天多云”。这种现象被称为“幻觉回答”，而现有测试只关注“工具调用对不对”，却忽略了“该不该调用工具”。
论文：When2Call:When(not)toCallTools链接：https ://arxiv.org/pdf/2504.18851
本文提出的When2Call基准测试，就是要给AI设立“考场”，专门测试它们何时该调用工具、何时该追问细节、何时该承认“我不会”。
作者设计了一套全新的评估体系，核心是让AI做“选择题”：
选项A：直接编答案（错误）
选项B：调用工具（正确时选）
选项C：追问更多信息（如“您要查哪只股票？”）
选项D：承认无法回答
测试数据通过合成生成，例如：
工具不匹配：给AI一个“查学生成绩”的接口，但用户问“明天气温多少度”。
信息不全：用户问“帮我订机票”，但没说出发地。
无可用工具：用户问题需要实时数据，但AI没有对应接口。
作者测试了Llama、Qwen、GPT-4等主流模型，发现三大问题：
过度自信：即使没有工具，AI也硬要调用（如虚构一个天气接口）。
不敢追问：面对信息不全的问题，AI宁愿瞎猜参数也不问用户。
拒绝困难症：明明无法回答，却硬编一个答案。
有趣发现：模型越大，表现不一定越好！比如Qwen72B在某些指标上反而不如小模型。这说明训练数据的设计比模型规模更重要。
作者提出两阶段训练法：
基础训练：混合工具调用和常规问答数据，让AI保持通用能力。
偏好优化（RPO）：用“选择题”数据训练，强化AI对正确选项的偏好。
结果显示，经过RPO训练的模型在减少幻觉回答的同时，工具调用准确率几乎不下降。
关键比喻：这就像教孩子“不会的题先空着”，而不是乱写答案。
客服场景：AI若虚构售后政策，可能引发用户投诉。
医疗咨询：AI若对无法诊断的症状硬给建议，可能危及健康。
金融分析：缺失参数时追问用户，比瞎猜股票代码更可靠。
本文的测试和训练方法，为安全可靠的AI助手提供了技术基础。
数据质量：合成数据可能存在错误（如部分问题其实能直接回答）。
语言限制：目前仅支持英语，中文场景尚未覆盖。
主观假设：测试默认“直接回答=错误”，但现实中可能存在模糊情况。
备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群
id：DLNLPer，记得备注呦