绝美无痕,比你还会P图的Agent!仅通过自然语言指令,灵活使用数百工具,超越GPT-4o达60%


绝美无痕,比你还会P图的Agent!仅通过自然语言指令,灵活使用数百工具,超越GPT-4o达60%

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

照片精修是专业摄影的核心环节,但传统工具如Lightroom操作复杂,而AI方案(如GPT-4o)常因过度重生成像素导致细节失真,且缺乏局部精细控制能力。
论文:JarvisArt:LiberatingHumanArtisticCreativityviaanIntelligentPhotoRetouchingAgent
链接:https ://arxiv. org/pdf/2506. 17612
JarvisArt提出一种多模态大模型驱动的智能Agent,通过理解自然语言指令,协调200+个Lightroom工具,实现媲美专业修图师的非破坏性编辑。其突破性在于:
精准意图解析:支持文本/框选/笔刷多模态输入
透明工作流:生成可解释的编辑决策链
任意分辨率支持:突破生成模型的分辨率限制
实验显示,其内容保真度超越GPT-4o达60%,为AI艺术创作开辟新路径。
行业痛点:
专业工具门槛高:Lightroom需手动调整数百参数,学习成本陡峭
AI方案三大缺陷:
内容失真:扩散模型重生成所有像素,破坏原图细节(如人脸特征)
局部控制缺失:无法实现\“提亮皮肤但保持背景\“的精细操作
分辨率限制:生成式模型无法处理超高分辨率图像
现有技术对比:
方法类型
代表模型
核心局限
优化算法
3DLUT/RSFNet
依赖预训练代理,泛化性差
强化学习
RL-based
缺乏艺术审美判断
扩散模型
MagicBrush
静态提示,多轮推理能力弱
多模态模型
GPT-4o/Gemini
局部控制弱,像素级保真度低
JarvisArt的定位:兼具自动化与可控性,通过\“AI代理+专业软件\“融合实现\“人类创意+机器执行\“的协作范式。
用户输入→多模态理解→艺术推理→工具协调→Lightroom执行
链式思维监督微调(CoTSFT):使用50K链式思维样本训练模型分步推理能力:
\“理解用户意图→分析美学缺陷→选择工具→设置参数\“
例如:\“用户需提升夜景霓虹灯对比度:先调白平衡至3200K冷调,再用线性蒙版提亮灯牌,最后增加锐化…\“
GRPO-R强化学习:
核心创新:三维奖励函数驱动模型进化:
格式奖励(Rf):强制结构化输出(思考过程/工具调用分离)
操作精度奖励(Rroa):量化工具选择与参数匹配度
感知质量奖励(Rpq):评估修图后视觉保真度
五大阶段:握手→文件验证→沙箱执行→异步处理→结果返回
核心价值:将ROC文件转为Lightroom可执行的Lua脚本,支持非破坏性编辑流程闭环。
三层数据生成流水线:
图像对与配置生成:
使用GroundingDINO定位兴趣区域(置信度>0. 8)
Qwen2. 5-VL模拟专家推荐预设(如\“人像-胶片模拟\“)
人工筛选最佳效果,记录Lightroom操作配置(ROC文件)
用户指令合成:
区分普通用户(\“让天空更蓝\“)和专业用户(\“降低高光-0. 3,HSL增加蓝色饱和度\“)
覆盖全局调整与局部优化需求
推理链标注:
首先生成详细技术步骤(如\“用径向蒙版提亮眼部\“)
经Qwen2. 5-VL精炼为人类可读的决策逻辑
数据集特性:
55K样本(5K标准指令+50KCoT增强)
四类场景:人像(40. 8%)、风光(33. 3%)、街景(5. 7%)、静物(20. 2%)
唯一支持:任意分辨率图像+Lightroom操作记录+链式思维标注
(1)操作精度奖励(Rroa)评估预测工具与目标的匹配度:
工具名匹配度参数名匹配度参数值匹配度其中按工具类型定制:标量参数:归一化绝对误差蒙版:端点距离颜色差异人像区域:类别精确匹配最终奖励
关键作用:确保模型精确选择工具(如\“曝光补偿\“而非\“对比度\“)并设置合理参数值(如曝光+0. 5而非+2. 0)。
(2)感知质量奖励(Rpq)解决\“不同参数可能视觉相似\“问题:
CD():CIELAB色彩分布相似度(权重γ=0. 4)
L():像素级L1/L2距离
核心思想:平衡全局色调一致性与局部细节保真度。
数据:JarvisArt在L1/L2等像素指标显著领先,指令跟随性媲美GPT-4o
内容保真度:
场景级L1:12. 44(vs. GPT-4o的22. 84,提升45. 6%)
区域级L1:7. 63(vs. GPT-4o的15. 71,提升51. 4%)
指令跟随性:
整体得分O:8. 52(vs. GPT-4o的9. 18,差距<8%)
JarvisArt获最高偏好率:
美学质量:38. 7%(vs. GPT-4o的29. 1%)
内容一致:42. 5%(vs. GPT-4o的24. 3%)
易学性:93. 3%用户可在无指导下独立操作
效率:86. 7%认为工作流更流畅
关键优势:降低认知负荷,避免参数迷宫
L1:12. 98(vs. GPT-4o的21. 49)
指令跟随得分O:8. 48(vs. GPT-4o的9. 22)
复杂光影场景:模型可能过度提亮阴影区域
抽象指令:\“营造梦幻感\“需多次迭代调整
根本原因:缺乏实时视觉反馈的\“顿悟时刻\“(对比数学推理的逐步验证)
核心贡献:
首创艺术家代理范式:实现人类创意与专业工具的无缝协作
三维奖励强化学习:解决工具调用决策的稀疏奖励问题
A2L工业协议:为AI+专业软件集成设立标准
应用价值:
摄影爱好者:低成本获得专业级修图效果
设计行业:加速商业图片后期流程
技术启示:为AI代理操作复杂软件(如CAD/3D建模)提供蓝图
愿景:让AI成为人类创造力的\“加速器\“,而非替代者。
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录