微软发布GUI Agent新范式!告别传统方式,小参数少数据,7B吊打72B模型


微软发布GUI Agent新范式!告别传统方式,小参数少数据,7B吊打72B模型

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

想象你要指挥一个机器人点击手机上的“购物车”图标。传统Agent怎么做?它会像报经纬度一样输出:x=0. 345,y=0. 721。这带来三大问题:
定位死板:按钮内任意位置都能点,AI偏要死磕一个点;
缺乏空间感:AI靠猜数字而非“看懂”界面;
兼容性差:换个屏幕尺寸就懵圈。
就像让人用坐标点外卖,不如直接说“第三排第二个”直观!
论文:GUI-Actor:Coordinate-FreeVisualGroundingforGUIAgents链接:https ://arxiv. org/pdf/2506. 03143
微软团队从人类行为获得灵感——我们从不计算坐标,而是用眼睛锁定目标后直接点!于是他们打造了GUI-Actor:
在指令中加入特殊标记(例:“点击购物车图标”);
AI用注意力机制将与屏幕图像区块关联,自动锁定目标区域。
相当于给AI装了个“激光笔”,指哪打哪!
传统方法:只认1个坐标点,偏移就判错;
GUI-Actor:把按钮覆盖的所有图像区块(约28x28像素)都视为正确目标。
就像教孩子点按钮:“这一片都能点,不用非戳中心!”
从注意力图中选多个候选区(如高亮区域);
轻量验证器快速判断哪个最符合指令。
类似人类点按钮前扫一眼:“嗯,这个图标长得像购物车!”
在三大权威测试集上,GUI-Actor全面碾压前SoTA:
ScreenSpot-Pro(高难度专业软件测试):
7B参数模型44. 6分vs前冠军72B模型38.1分
少90%参数,性能反超17%!
跨平台泛化能力:
面对陌生分辨率/布局,GUI-Actor波动更小(传统模型早衰明显),下图c。
训练数据省60%:仅用60%数据达到传统模型100%数据的效果;
冻结大模型:只微调新增的1亿参数(7B模型仅动1. 4%参数),性能媲美全调优模型;
推理零额外成本:一次前向传播生成多候选区,无需重复计算。
手机助手:说“清空后台”自动关APP;
自动化办公:口头指令操作Excel/PS;
无障碍技术:视障用户语音操控界面。
试想未来:对着电脑喊“帮我P掉照片路人”,AI直接鼠标咔咔操作!
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录