CVPR 2025 | 解决XR算力瓶颈,FovealSeg框架实现毫秒级IOI分割
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
在XR正逐步从概念走向落地的今天,如何实现“按用户所视,智能计算”的精准理解,一直是视觉计算领域的核心挑战之一。
最近,一项来自纽约大学和MetaRealityLabs的联合研究引发了行业关注:FoveatedInstanceSegmentation——一种结合眼动追踪信息进行实例分割的新方法,已被CVPR2025正式接收。
代码连接:https ://github. com/SAI-Lab-NYU/Foveated-Instance-Segmentation
论文连接:https ://arxiv. org/pdf/2503. 21854
1. 从算力瓶颈谈起
在当下主流的AR/VR头显中,内置相机往往具备720P、1080P乃至1440P的拍摄能力,但要想在如此高分辨率的画面上做实例分割,推理延迟常常飙升至数百毫秒甚至秒级,远超人眼在交互中对时延(50–100ms)所能接受的舒适阈值。论文FoveatedInstanceSegmentation便是从“为什么一定要整幅图都分割”这一疑问切入,指出绝大多数计算其实浪费在用户根本不关注的区域上。Figure1里的卧室示例就说明,用户目光仅停留在床或衣柜等极小区域,而Figure3则量化了分辨率与延迟的关系:当输入从640×640缩到64×64时,延迟能从300ms量级骤降到十毫秒级。
2. 人眼注视模式带来的灵感
与桌面视觉任务不同,XR用户的视线呈“凝视—扫视”交替:每秒1–3次扫视,每次20–200ms;扫视期间视觉输入被大脑抑制,凝视期间只有注视点周围拥有高视觉敏锐度。Figure2直观展示了凝视/扫视节奏,而作者在AriaEverydayActivities数据集上的统计进一步揭示:只需像素差分即可将视频切成“视段”,段内帧间差异极小;若注视点位移低于0. 1的阈值,上一帧的分割结果即可直接复用(Figure4)。这为跨帧掩码复用和区域限定分割奠定了扎实的人因与统计基础。
3. 系统总览:FovealSeg框架
作者据此提出FovealSeg:内向摄像头以120Hz捕获眼部图像,经眼动追踪5–10ms就能得出注视坐标;外向摄像头同步采集前向高分辨率画面。框架首先检测是否发生扫视(阈值α),再判断场景是否突变(阈值β),若两者皆否,就把分割任务限制在当前gaze坐标附近的IOI区域,并复用历史掩码。流程图见Figure5。
4. 算法核心:FSNet
FovealSeg的核心网络模块是FSNet:
1. 显著性自适应下采样——把gaze坐标编码成距离图,与原图拼成四通道张量;SaliencyDNN依据距离图按需放大IOI、压缩背景。
2. 分割/分类双分支——前支路输出二值IOI掩码,后支路输出类别向量,二者外积得最终掩码。
3. 阶段式训练——先固定分割网训练SaliencyDNN,再反向微调分割/分类分支;DiceLoss+面积加权FocalLoss解决小目标易被背景淹没的顽疾。
Figure6依次展示了IOI局部放大策略的可视化示意、网络结构图和交替训练流程。
5. 效果验证:速度与精度双赢
在ADE20K、LVIS、Cityscapes等数据集上,作者用JetsonOrinNX做测试:
FSNet将输入缩到64×64仍能把IoU提到0. 36以上,比统一下采样基线高≥0. 14;
FovealSeg进一步利用跨帧重用,在α=0. 1、β=0. 01设置下把FLOPs降到ND(无下采样baseline)基线的1⁄75,比NS(无帧复用baseline)进一步降低近两倍。
Figure7的柱状图直观呈现了不同α、β组合下三种方案的FLOPs差距,端到端延迟仅84ms,重回实时交互红线。
6. 消融与讨论
论文还就下采样倍率、GaussianKernel大小、gaze输入等因素做了消融:
下采样过猛虽降精度,但FSNet依旧显著优于平均池化基线;
Kernel越大,显著区域权重越高,精度随之提升。
将gaze坐标替换成随机噪声,IoU至少掉0. 3,说明注视信息是方法立足之本。
这些对比虽以表格呈现(Table3–5),但也佐证了“人因驱动+统计约束”在模型设计中的必要性。
7. 小结与展望
FovealSeg以人眼生理特征为钥匙,把‘中央精细处理、周边压缩简化’的foveated思想真正落到实例分割上:
FSNet巧用显著性采样,把计算集中在IOI,兼顾分割和分类;
FovealSeg又用扫视检测与帧间复用,把冗余推理压到极致。
在当前XR终端算力有限的背景下,它为“毫秒级IOI分割”提供了切实可落地的方案;随着更高精度、低延迟的眼动传感器普及,以及多IOI并行、多任务融合的需求升温,foveated视觉计算或将成为XR生态里的“默认范式”,也为更多实时计算密集型任务(如场景理解、三维重建)提供新的能效平衡思路。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com