微软正式开源UFO²，Windows桌面迈入「AgentOS 时代」

发布日期: 2025-05-06

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本论文第一作者为微软DKI团队的ChaoyunZhang，其为Windows平台首个智能体系统——UFO的核心开发者，该项目已在GitHub上开源并获得约7,000Stars，在社区中引发广泛关注。同时，他也是一篇超过90页的GUIAgent综述文章的主要撰写者，系统梳理了该领域的关键进展与技术框架。其余项目的主要贡献者亦均来自微软DKI团队，具备深厚的研究与工程背景。
论文标题：UFO²:TheDesktopAgentOS
论文地址：https ://arxiv.org/abs/2504.14603
开源代码：https ://github.com/microsoft/UFO/
项目文档：https ://microsoft.github.io/UFO/
近年来，图形用户界面（GUI）自动化技术正在逐步改变人机交互和办公自动化的生态。然而，以RoboticProcessAutomation（RPA）为代表的传统自动化工具通常依赖固定脚本进行操作，存在界面变化敏感、维护成本高昂、用户体验欠佳等明显问题。
同时，近年来兴起的基于大型语言模型（LLM）的计算机智能体（Computer-UsingAgents，CUA）虽然展现出灵活的自动化潜力，但多数方案仍停留在概念验证或原型阶段，缺乏与操作系统深度集成的能力，制约了其在实际工作环境中的规模化应用。
针对这些行业痛点，作为前代纯GUI桌面智能体UFO的全面升级版，微软研究团队近日正式开源了业内首个深度集成Windows操作系统的桌面智能体平台——UFO²AgentOS。该平台不仅继承了UFO的强大GUI操作能力，还在系统层面进行了深度优化，显著提升了智能体在Windows环境下的操作效率与稳定性。
图-1：传统CUAs和AgentOSUFO²对比
UFO²：深度OS集成的桌面智能体
UFO²不是传统意义上的桌面自动化工具，而是一种深度融入操作系统的智能体框架，首次以「AgentOS」理念设计，彻底解决了传统智能体界面交互脆弱、执行中断用户体验等核心问题。
UFO²引入了多智能体架构：中央的HostAgent负责自然语言任务解析与子任务分解，而专属的AppAgent则为每个应用程序提供定制化的API接入、界面感知与交互能力。两者协同工作，实现了任务的精准分解与灵活执行，并支持跨应用任务，显著提升了系统的可扩展性与执行效率。
具体来说，UFO²在以下几个核心维度实现了突破，这些维度都充分利用了与Windows系统的深度集成：
统一GUI–API混合执行
传统API执行方式精准高效，但需要针对特定应用实现对应接口，覆盖范围有限；而GUI执行方式更加通用灵活，但步骤更长，容易受到界面变动的影响。UFO²创新地将API与GUI两种执行范式合二为一，通过统一的Puppeteer接口，实现两种执行模式的动态选择。
在实际任务执行中，UFO²可以智能地根据操作环境与任务特性，自动判断是否优先使用API执行来提高速度与精准度，或者在API不足以完成任务时，灵活转向GUI操作，从而实现效率与通用性的最佳平衡，显著提升任务稳定性和鲁棒性。
图-2：GUI-API操作的混合统一接口
混合控件感知
UFO²实现了与Windows系统的深度融合，通过结合Windows原生UIAutomation（UIA）接口与先进视觉识别模型OmniParser-v2，实现了对界面元素的混合检测与精准感知。这种方式不仅克服了传统视觉识别准确性不足的问题，同时也解决了纯粹依赖系统API检测范围有限的瓶颈。
实际应用场景中，尤其是在界面复杂、控件自定义或标准化程度低的场景下，UFO²的混合感知能力有效提高了控件识别的准确性与覆盖率，从而保障了任务执行的稳定性与鲁棒性。
图-3：基于UIAAPI和OmniParser-v2的融合控件检测
持续增强的动态知识集成
UFO²采用检索增强生成（RAG）技术，构建了持续的知识库，动态整合外部应用文档和历史执行日志，使智能体实时获得最新的应用使用方法和最佳实践。这一技术保障了智能体在新功能上线或应用版本升级后能迅速适应变化，维持高效执行。
通过这种方式，UFO²可实现对复杂任务的精准理解与执行，减少因知识更新不及时导致的操作失败。此外，智能体还能利用历史成功执行的经验，提高任务完成的准确性与效率，真正实现「越用越强」。
图-4：动态检索外部应用文档和历史执行日志
高效的推测式多步执行
为有效降低大语言模型（LLM）调用次数，UFO²创新性地采用了推测式多步预测机制。智能体一次LLM调用即可预测多个后续步骤，并通过实时的界面状态校验来逐步执行。这种机制大幅度降低了智能体执行任务时的延迟和计算成本。
实验结果显示，推测式多步执行技术可减少高达51.5%的LLM调用次数，大幅提升任务执行速度与系统响应能力，使智能体能够更顺畅地完成复杂的任务序列，提升整体效率。
图-5：推测式多步执行和验证
无干扰的PiP虚拟桌面执行环境
UFO²引入了创新的画中画（PiP）虚拟桌面技术，通过深度利用Windows原生的远程桌面服务，创建了一个轻量级、独立且安全的虚拟桌面环境。所有智能体执行的任务均在此环境中进行，避免了与用户主桌面的任何交互干扰。
用户可以在智能体执行复杂任务的同时，继续进行其他重要的工作，而无需担心智能体任务影响自己的桌面操作。这一设计极大提高了智能自动化的用户接受度与实际使用体验。
图-6：UFO²画中画（PiP）的虚拟执行环境
实践检验：20+主流应用测试全方位领先
在严格的基准测试中，UFO²在超过20款主流Windows应用（如Excel、Outlook、Edge等）中进行了充分验证：
仅采用GPT-4o,任务成功率相比业内领先的OpenAIOperator提升超过10%。
特别值得强调的是，UFO²的推测式多步执行技术将大模型调用（LLMcall）的频率降低最多达51.5%，极大提升了任务响应速度和系统效率。
图-7：实验结果对比
全面开源，共同推动桌面智能新时代
微软团队已经将UFO²的全部代码和详细文档向社区开源，欢迎开发者们加入共建与创新。
💻开源项目地址：https ://github.com/microsoft/UFO（GitHubUFO²项目）
📚官方文档：https ://microsoft.github.io/UFO/（微软UFO²官方文档）
UFO²的发布不仅标志着桌面智能体真正迈入了系统级的「AgentOS时代」，也为未来智能办公、智能人机交互的发展树立了重要里程碑。通过UFO²，微软期待与全球开发者共同打造更加智能、稳定、高效的桌面智能生态。
欢迎各界人士关注、使用并反馈，共同推动桌面自动化和智能交互的下一次技术革命。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin.com