OS-Atlas: 用开源基座模型打造全场景GUI基座模型

发布日期: 2025-06-25

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

论文题目：OS-ATLAS:AFoudationActionModelForGeneralistGUIAgents
作者单位：上海AILab、上海交通大学、香港大学、MIT
论文地址：https ://arxiv. org/pdf/2410. 23218
项目地址：https ://osatlas. github.io
开源地址：https ://huggingface. co/OS-Copilot/
随着大语言模型(LLM)和多模态大模型(VLM)的发展，许多面向手机、电脑等智能设备的digitalagents（数字智能体）研究开始涌现，研究者们希望在这些场景下通过大模型为智能设备赋能，将冗杂的人工操作转换成口头化的自然语言表达和自动化的机器执行，达到智能体自动托管的目的。近期，图形用户界面智能体(GUIAgent)的开发逐渐成为一个重要方向，研究者们试图以GUI为基础范式构建数字化智能体。当前,VLM-basedGUIAgent通常以屏幕截图和任务指令为输入，完成复杂的决策任务。
GUIAgent的核心组件是ActionModel：将自然语言指令转化为可执行的动作指令（例如，在屏幕中点击某个位置）。然而，现有的开源GUIActionModels普遍存在两大局限：（1）GUI元素定位（GUIGrounding）能力较弱；（2）无法泛化到OOD场景。这些局限性主要归因于：（i）现有的VLM几乎没有在GUI屏幕截图上进行预训练；（ii）现有训练数据集内容格式各异，影响泛化性。

GUIGroundingMode：支持与先进规划器（Planner）协作，完成真实环境中的挑战性任务。
ActionMode：将自然语言指令转化为可执行的动作指令，支持多平台、多系统、多应用场景（Windows、Linux、MacOS、Android、Web）。
AgentMode：支持用户自主训练，构建专有化的GUI智能体。
除此以外，本工作还开发了跨平台GUIGrounding数据合成工具，并开源了一个相当规模的GUIGrounding数据集，包含230万张屏幕截图和超过1300万个GUI元素。
当前GUIAgent的训练从数据角度出发，主要面临以下问题:(1)训练数据可获取规模不足，且各个平台(Web,Desktop,Mobile)因数据收集的难度不同而导致数据量分布不均；(2)缺少针对真实GUI任务场景下的高质量合成数据和轨迹数据。
为了解决这些问题，OS-Copilot团队搭建了一个多平台的GUI数据生成工具库，并通过采集得到的数据构建和开源了一个跨平台的GUI语料库（包含超过1300万个GUI元素）。针对不同平台，作者们设计了特定的数据采集来源和方式:
网页端:先从CommonCrawl收集大量URL，再获取每个URL包含的网页信息。
桌面端:分成Windows,Linux和MacOS三个系统进行构建，使用随机游走（randomwalk）策略和脚本筛选相结合的方式采集真实操作系统环境下的屏幕截图和动作信息。
手机端:以AndroidWorld环境为基础开发并在环境中采集了大量的Android数据。
得益于数据生成工具库，与先前的工作相比，OS-Atlas获取了更为庞大和多样的GUI数据，并且这些数据也在我们后续的训练和实验中被证明了是非常高质量和有效的。
分别使用了InternVL2-4B和Qwen2VL-7B-Instruct模型作为初始基座。OS-Atlas的训练可以分为两个阶段:(1)GUIGrounding预训练；(2)Action数据微调。

REG数据通常容易获取，可表示为三元组，主要包含截图、对元素的直接描述和对应的坐标信息，而IG数据则需通过人工或GPT-4o等模型标注的方式得到，可表示为三元组，与REG数据最大的不同便是通过一个指令或任务来间接描述需要定位的元素。
这个阶段最终使用了包含约230万张截图(约1350万的元素信息)的图文对数据进行训练，预训练得到的模型记为OS-Atlas-Base，其拥有出色的GUIGrounding能力。
在具体实现中，本工作首先统一了GUIAgent的动作空间（UnifyActionSpace），解决了跨平台操作定义不一致的问题。为了使模型进一步具备ActionMode的能力，作者们对OS-Atlas-Base进行了ActionFinetuning,使得其能够根据不同场景中的自然语言指令，输出相应的执行动作。基于动作空间的格式定义，本工作收集了现有的训练数据集（如AMEX，AITZ，Mind2Web等），并将它们转化为统一的格式进行微调。最终，得到GUI场景下的基座动作模型OS-Atlas。
值得注意的是，由于统一的动作空间，OS-ATLAS天生理解通用的动作类型和各平台特有的动作类型，只要通过调整运行时的prompt，就可以支持OS-Atlas的跨平台使用。
作为GUIAgent的核心能力之一，评测模型的GUIGrounding能力尤为重要。本工作引入当前使用最广泛的的ScreenSpot作为评测基准。为了全面地证明OS-Atlas的优越性，本工作采用了直接推理和接入GPT-4oPlanner两种评测方式。
结果表明，OS-Atlas-Base大幅提升了先前的SOTA性能。特别地，在单模型直接推理的设定下，OS-Atlas在多平台的平均性能上超越同等量级的UGround-7B基座模型8. 32%。
同时，在评测中我们也发现了Screenspot测试集中的一些错误数据，我们对此进行了人工纠正并发布了修正版的Screenspot-V2。

本工作也进行了大量实验来证明模型在ActionMode和AgentMode上的巨大使用价值。我们采用了6个流行的下游数据集进行评测，涵盖了Web、Desktop和Mobile的场景。而针对ActionMode，本工作设计了Zero-shotOODSetting，模型需要直接依据自然语言指令，来生成可执行的动作。由于当前的开源模型不具备零样本泛化的能力，我们将OS-Atlas与GPT-4o进行对比。结果显示，我们的开源基座动作模型OS-Atlas，在跨平台的多个数据集中大幅度超越了GPT-4o，解决了当前GUI模型OOD泛化能力不强的局限性。

为了证明我们数据的有效性，我们从以下两个问题出发进行了实验论证:
扩大数据量是否会持续提升模型的GUIGrounding能力？
多平台的数据收集以及引入高质量IG数据是否有其必要性？
对于第一个问题，作者们用不同数据规模训练了多个checkpoint，并使用IOU和准确率两个指标进行了测评，发现随着数据规模的不断扩大，模型的Grounding能力整体呈现上升趋势。
对于第二个问题，作者们进行了数据消融实验，设计了三个对照组:(1)使用全量数据训练;（2）去除IG数据进行训练；(3)去除IG数据、手机端数据和桌面端数据进行训练。结果表明组(1)的效果要明显好于(2)和(3)，证明了IG数据以及多平台数据对于模型Grounding能力是很有必要的，为后续研究提供了参考。
在GUIGrounding的预训练实验过程中，我们还发现，下游任务（ScreenSpot）的性能并不是衡量Scalinglaw的理想指标。这是因为GUIGrounding的评测无法准确反映真实的数据分布，且评估指标过于粗略（正确点击元素并不等价于完全正确地预测坐标）。
因此，为了更加严谨地展示GUIGrounding上的scalinglaw，我们拟合并绘制了损失函数的下降曲线，如下图。
横轴表示模型训练步骤的数量，每个步骤包含1024个样本，每个样本最多包含15个GUI元素。深蓝色曲线表示平滑的损失轨迹。从图中可以观察到明显的下降趋势，表明持续扩展GUIGrounding预训练数据具有显著潜力。通过我们的scalinglaw分析，我们估算增加8倍的训练数据可以带来40%的相对损失减少。而将数据扩展64倍，可能会使损失相对减少57%。
OS-Atlas解决了现阶段GUIAgent在Grounding能力上的不足以及OOD泛化能力上的局限性。本工作开源了OS-Atlas系列基础动作模型，包含4B和7B两个版本。同时，作者们也开源了跨平台GUIGrounding数据合成工具，和截至目前最大的GUIGrounding数据集，包含230万张屏幕截图和超过1300万个GUI元素。这些开源成果将会为学术界和工业界构建更加先进的GUIAgent，提供有力帮助！

进技术交流群请添加AINLP小助手微信（id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区，专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。

ZejunCao

https://zejuncao.github.io/2025/06/25/1000002341-2650449291-2-1750841107/