让GUI智能体不再「过度执行」，上海交大、Meta联合发布OS-Kairos系统

发布日期: 2025-07-02

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本文第一作者是上海交通大学计算机学院三年级博士生程彭洲，研究方向为多模态大模型推理、AIAgent、Agent安全等。通讯作者为张倬胜助理教授和刘功申教授。
一、论文概述
1. 1研究背景
随着多模态大语言模型（MultimodalLargeLanguageModels,MLLMs）的快速发展，越来越多的研究聚焦于构建能够在图形用户界面（GUI）中执行复杂任务的智能体。这些智能体利用视觉感知与语言理解能力，已在移动应用、Web导航及桌面操作等领域显示出巨大潜力。然而，现有系统大多采用“全自动”执行范式，在面对真实场景中的模糊指令、环境干扰或系统异常时，常出现误操作或任务失败等现象。这类“过度执行”（Over-execution）问题，严重限制了GUI智能体在实际应用中的安全性与可靠性。
三种复杂场景
1. 2研究问题
本研究关注一个核心问题：如何赋予GUI智能体自我评估其行为置信度的能力，并基于此实现自主与人工交互间的动态切换，从而在复杂环境中提升任务完成率与交互效率。具体而言，当前GUI智能体在操作中缺乏对“当前步骤是否需要人工指导”的判断能力，一旦模型在某一步操作中产生低置信度的决策，仍可能继续执行错误行为，导致后续任务链条崩溃。论文尝试解决的正是这种因无法判断自身能力边界而导致的系统性失误。
自主智能体易产生“过度执行”，而OS-Kairos会精准的请求人类介入
1. 3主要贡献
本论文提出了OS-Kairos，一种具有自适应交互能力的新型GUI智能体系统，其主要贡献如下：
（i）引入置信度预测机制，让GUI智能体能够在每一步操作中评估自身执行的信心，并据此决定是否调用人类或高级模型介入，实现真正的“可控自主”。
（ii）设计了协同探测框架（CollaborativeProbingFramework），通过GPT-4o与界面解析模型协同，为每一个交互步骤自动打分，生成高质量的含置信度标注的操作轨迹数据集。
（iii）提出置信驱动交互策略（Confidence-drivenInteraction），将置信度评分作为模型训练的一部分，通过监督学习将置信判断能力整合进GUI智能体本身，并通过阈值实现自适应调节。
（iv）OS-Kairos在我们精选的复杂场景数据集和完善的移动基准上都远远优于现有模型，具有有效性、通用性、可扩展性和效率的优点。
论文标题：OS-Kairos:AdaptiveInteractionforMLLM-PoweredGUIAgents
论文链接：https ://arxiv. org/abs/2503. 16465
论文代码：https ://github. com/Wuzheng02/OS-Kairos
二、方法与理论
本研究提出了一种新型的GUI智能体系统OS-Kairos，旨在通过操作置信度的引入与动态人机协作机制，解决现有智能体在复杂任务中“过度执行”的问题。整个系统方法框架由两大核心机制组成：协同探测框架与置信驱动交互策略。
2. 1协同探测框架
协作探测框架
该机制旨在为每个交互步骤生成高质量的置信度标注数据，是OS-Kairos训练和推理能力构建的基础，主要包含以下三个阶段：
1）复杂任务指令收集与扩展
研究团队从公共数据集与人类专家设计中收集典型的复杂指令（如模糊描述、权限缺失、环境劫持等），再利用GPT-4等生成式模型对其扩展，以保证覆盖多语言、多APP、多场景。
2）置信度打分机制设计
核心机制采用“Actor-Critic”协同范式：
ProbingAgent：执行用户指令；
CriticModel：基于GPT-4o和UI结构解析，对每一步操作给予置信度评分（1～5分）；
若评分低于5，裁判将给出正确操作建议并继续测试，直到任务完成。
通过这种协同探测过程，系统能够自动生成含有操作-评分配对的完整GUI轨迹数据。
3)数据清洗与优化
生成的数据进一步经过一致性验证与轨迹修正，以确保每一步操作的执行意图与置信度合理匹配，为后续置信度集成提供高质量训练数据。
2. 2置信驱动交互策略
在获得高质量轨迹数据后，研究者设计了一套结合置信度分数的模型训练与推理策略，使GUI智能体具备“按需请求人类干预”的能力：
1）联合预测训练
在训练阶段，模型基于指令微调在不改变动作预测能力下，植入预测该动作的置信度分值。该训练方式确保模型具备准确行为预测与自信程度评估的双重能力。
2）动态交互控制机制
在部署阶段，系统通过设定一个置信度阈值γ，对每一步操作进行判断：
若置信度≥γ，自动执行；
若置信度<γ，触发人类干预或高级模型辅助。
这一机制类似于大语言模型的温度系数，可以根据应用需求灵活调节，兼顾效率与可靠性。例如：γ=1时，模型完全自动执行；γ=5时，模型步步请求干预；γ=3～4时实现最优的人机协同平衡。
三、实验与结果
3. 1实验设置
为系统评估OS-Kairos的性能，作者在多个层面构建了完整的实验体系，涵盖真实复杂场景、自构建数据集与公开基准，并对比多种类型的现有GUI智能体模型。
3. 1.1数据集
1）复杂场景测试集（自构建）：作者利用真实Android设备、12个常见App（如Amazon、微信、设置等）与12类任务主题（如购物、登录、搜索等）构建了1000条复杂任务指令，涵盖类型包括：
a)任务类型涵盖：模糊指令（如省略主语、目标不明确）
b)环境干扰（如弹窗、网络断连）
c)异常状态（如登录过期、权限不足）
每条任务指令被逐步执行并由GPT-4o辅助评分，生成具有置信度标注的完整GUI轨迹数据。
2）公开基准数据集
a)AITZ（AndroidInTheZoo）：包含复杂链式操作，强调reasoning和actionplanning。
b)Meta-GUI：结合多模态对话和GUI控制，支持任务引导与精细指令执行。
数据集被划分为训练集（80%）和测试集（20%），用于模型训练与评估。
3. 1.2评估指标
为了全面评价GUI智能体的表现，作者采用了以下多个指标：动作类型准确率（Type）、步骤级成功率（SR）、任务完成率（TSR）、人机介入成功率（HSR）、干预精度（IP）等。
3. 1.3比较模型设置
实验的设置分为Fine-tuning和Zero-shot模式，对比的模型涵盖三类：
1)API接口型模型
a)GPT-4o
b)GPT-4V-Plus
c)Qwen-VL-MAX
2)开源多模态模型
a)Qwen2-VL-7B
b)OS-Atlas-Pro-7B
c)Auto-UI
3. 1.4模型与训练设置
为了确保实验的公平性，每个数据集的任务轨迹被随机划分为80%用于训练数据，20%用于测试数据。在Zero-shot中，模型直接通过prompt学习进行评估，不依赖任何额外的微调。在Fine-tuning设置下，模型在对应的数据集上进行8轮训练，学习率为1e-5。在交互模式下，OS-Kairos使用一个默认的置信度阈值γ=4，当当前步骤的置信度低于此阈值时，系统会请求人工干预。在整个过程中，GPT-4o被用作裁判模型对每一步的动作进行评分，确保评估的一致性和可靠性。
3. 2实验结果
3. 2.1主要实验结果
表1:Zero-shot设置下OS-Kairos与基线比较的结果
1）在Zero-shot设置下，OS-Kairos无需改变模型能力，仅通过引入置信度驱动的自适应交互机制，就显著优于多个基线模型。在三个数据集上均表现出色，复杂场景下实现了95. 90%的步骤成功率和88. 20%的任务完成率。相比之下，现有API模型虽具备通用性，但因无法识别关键复杂步骤，易出现过度执行而导致任务失败，凸显了OS-Kairos在可靠性。
表2:Fine-tuning设置下OS-Kairos与基线比较的结果
2）尽管Fine-tuning在一定程度上缓解了GUI智能体的过度执行问题，但是OS-Kairos依然表现出更强的性能，尤其在复杂场景中，其任务完成率（TSR）带来26. 09%到85. 72%的绝对提升。通过识别如SCROLL等关键复杂步骤，OS-Kairos实现了更精准的优化，而传统微调方法则可能引入操作偏差或面临优化瓶颈。
三种数据集下介入精度分析
3）OS-Kairos的置信度评分机制实现了高效的人机交互（HSR）。在复杂场景与Meta-GUI中，其对自主执行步骤的判断高度准确，AP指标分别达到96. 44%和93. 18%，同时在人为干预步骤中保持70%以上的干预精度（IP）。这表明OS-Kairos能有效区分何时应请求帮助、何时应独立执行，避免不必要的干预。研究还指出，结合高质量采样，系统在如AITZ等数据集中的表现有望进一步提升。
3. 2.2实验分析
3. 2.2. 1动态评估
以往的基准评估一般基于静态分析，难以反映GUI智能体在真实环境中的自主规划与泛化能力。为此，论文在移动设备上报告了实际任务完成率（TSR）。结果显示，现有基线模型的TSR仅为4%和26%，GPT-4o为36%，而OS-Kairos在介入时通过引入GPT-4o决策，达到了这一上限。在引入人工干预后，OS-Kairos的TSR从32%提升至70%，充分证明自适应交互机制在真实场景中具有显著优势，是实现高效GUI智能体的有效范式。
3. 2.2. 2效率评估
表4还展示了OS-Kairos在真实环境中的执行效率。基于50条指令统计，人工执行的最优步骤数约为429步。在最大操作步数限制为10的条件下，基线模型在遇到复杂步骤时普遍存在过度执行现象。而OS-Kairos更贴近人类的操作行为，其相对效率（RE）分别达到86. 42%和93. 47%，显著优于基线，体现了其高效且稳健的交互能力。
3. 2.2. 3置信度集成范式评估

3. 2.2. 4模型和数据分析
尽管基于7B模型构建，OS-Kairos通过置信度评分与数据蒸馏，可有效迁移至2B～7B模型。在Qwen2-VL-2B、4B和7B上分别达到85. 09%、77. 64%和76. 40%的TSR，表现出良好的精度与兼容性，适用于资源受限环境部署。OS-Kairos在不同数据规模下依然保持稳定表现，TSR可达76. 19%～88. 20%。即便使用少量探测数据，置信度机制也能有效支撑模型训练，成本远低于微调。
3. 2.2. 5交互敏感度分析
OS-Kairos通过调节置信度阈值γ实现自适应交互。消融实验表明，γ提高可显著提升TSR和SR，而HSR与操作准确率保持稳定，说明其能有效识别复杂步骤，减少过度执行。在γ=2时，仅需19%的人工干预即可达到接近微调的效果，展现出良好的灵活性与实用性。
四、讨论与启示
4. 1主要发现总结
本研究通过全面的实验评估，得出了以下主要发现：
1. OS-Kairos在多个数据集上显著优于prompt-based基线模型及微调模型，充分证明自适应交互机制对于提升GUIAgent任务完成的可靠性与鲁棒性具有关键作用。
2. 置信驱动交互高效稳定：OS-Kairos能稳定区分何时需要干预，有效避免过度执行。
3. 真实设备测试表现优越：在移动设备上运行时，OS-KairosTSR达32%（无干预）至70%（有干预），远超现有开源和商用模型，接近GPT-4o的上限水平。
4. 模型规模与数据成本友好：置信度机制可迁移至2B～7B模型，在资源受限场景中依然保持76%以上的TSR，仅需少量探测数据即可训练，成本远低于全量微调。
4. 2启示
4. 2.1对从业者的启示
1. 增强系统可靠性：置信度驱动的自适应交互机制可显著减少错误操作，提升系统在复杂真实场景中的稳定性与安全性。
2. 支持人机协作设计：通过动态决策是否请求用户干预，系统可灵活权衡自主性与可控性，适用于高风险任务如金融、医疗等场景。
4. 2.2对研究社区的启示
1. 拓展交互智能研究范式：本研究强调从“全自主执行”转向“置信度引导下的自适应协作”，为多模态GUI智能体设计提供新思路。
2. 提出具迁移性的框架设计：验证了数据蒸馏与置信机制在不同模型规模下的一致性，鼓励发展轻量级、可推广的交互方法。
3. 推动标准评估体系更新：指出静态测试局限，倡导引入真实环境+交互能力评估的新标准，有助于更全面地衡量GUIAgent的实用性与可靠性。
4. 3批判性分析
1. 适用范围与可推广性：目前系统主要验证于移动GUI环境，对于桌面端、Web端尚未进行测试，其泛化能力在更复杂的多模态交互系统中仍需验证。
2. 置信度分数：置信度分数是来自Actor-Critic探测架构下的GPT-4o给出，其准确性需要进一步验证。
五. 局限性与未来工作
5. 1局限性
1. 任务类型与应用场景有限：实验主要集中在移动端单任务GUI环境，对于桌面端、多窗口、Web或混合界面等复杂交互形式尚未验证。
2. 依赖外部大模型评分：当前系统在训练与评估中使用GPT-4o作为置信度评分器，提升了标注质量，但其准确性需进一步优化。
3. 过度介入：OS-Kairos通过置信度分数评估是否需要人类介入，但过度介入会影响GUIAgent的自动化。
5. 2未来工作
1. 实现模型内部置信度量化：当前置信度依赖外部模型，未来可探索在智能体内部实现置信度量化，提升推理效率与部署实用性。
2. 优化交互决策策略：为避免过度执行或频繁干预，可引入动态阈值或强化学习策略，实现更灵活、高效的人机协作控制。
3. 支持复杂任务与跨平台部署：推动模型在桌面端和Web平台的应用，增强其处理复杂任务和多模态语音输入的能力，提升泛化性与实用性。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin. com