一张图片知道你在哪?7B模型超越一流开闭源模型!


一张图片知道你在哪?7B模型超越一流开闭源模型!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

编辑:深度学习自然语言处理公众号

受DeepSeek-R1的启发,它表明大语言模型(LLMs)能够通过基于规则的强化学习(RL)显著提升数学逻辑推理能力,随后还能泛化到更通用的逻辑推理能力,包括反思、验证、总结等。
在多模态领域,一些方法尝试通过基于图像的数学任务、图表分析任务以及逻辑谜题任务来激活推理能力,而另一些方法则专注于通过传统的检测任务(如目标检测、计数和分割)来提升感知能力。
我们提出了一项新任务:地理定位推理。这项任务在自然地提供准确位置标签的同时,要求模型在感知视觉信息的过程中,对视觉语义中的高级逻辑关系进行推理,最终实现位置的确定。为此,我们专门构建了一个用于地理定位的基于规则的强化学习数据集:SeekWorld(https ://huggingface.co/datasets/TheEighthDay/SeekWorld)。

下面是一张图片,我们通过SeekWord-7B模型的推理得到的结果:
这里正是云南的沙溪古镇,模型给出了详细推理的流程,并定位到了云南~
我们制作了一个demo网站,上传你的图片来试试吧!:HFDemo(https ://huggingface.co/spaces/TheEighthDay/SeekWorld_APP)
Model
Global-Test
China-Test
OverallAccuracy
🔒GPT4o-240806
30.98
🔒Doubao-1.5-vision-pro-32k-250115
43.75
41.42
🔒🧠Gemini-2.0-flash-thinking-exp-01-21
56.25
29.47
41.42
🧠QvQ-72B-max-2025-03-25
48.13
30.98
38.63
Qwen-2.5-32B-VL
38.12
23.92
30.26
(ours)
Qwen-2.5-7B-VL+RL(Reinforce++)
51.25
30.98
40.02
Qwen-2.5-7B-VL+SFT
37.19
24.43
30.13
Qwen-2.5-7B-VL
33.44
23.68
28.03
Qwen-2.5-7B-VL+CoT
25.31
20.40
22.59
带有🔒标识的模型是专有闭源模型,而带有🧠标识的模型则具备增强的推理能力。
与直接在SeekWorld数据集上进行强化学习(RL)训练相比,我们的SeekWorld-7B模型尝试了两项优化。其中,难度采样有效地提高了测试的准确率。另一方面,长度激励仅增加了推理过程的长度,而没有提高准确率。不过幸运的是,它能更好地展示中间推理过程。我们也在尝试使用GRM进行更好的过程监督。
难度采样:我们在训练集中对不同难度级别的问题进行了采样。具体来说,由于数据集中难题数量相对较多(5655道),我们将简单题(1945道)和中等难度题(941道)的数量翻倍,分别扩充到3890道和1882道。
长度激励:我们尝试引入了一种鼓励增加推理长度的奖励机制。奖励值设定为字符数量乘以0.001,奖励值最高为1.0。
数据集包含以下特点:
全球多样化采样:涵盖了来自世界各地广泛的场景集合,确保模型能够对多样的文化、地形和背景环境实现强大的泛化能力。
针对rule-basedRL优化的图像-标签对:对于图片清洗了包含位置信息的水印,对于地理坐标标签增加了一级行政规划区的别名,防止模型被错误惩罚。
分层难度架构:包含三个不同的推理难度层级——简单、中等和困难,以逐步挑战和评估模型在地理定位方面的能力。
我们热烈欢迎参与到SeekWorld项目中来!如果您对地理定位推理感兴趣,您可以向我们发送一张具有挑战性的测试图片,以此来帮助我们构建一个更全面的评估数据集。贡献方式如下:
拍摄一张带有地理线索但又不是很容易就能识别出位置的照片(例如,街景、生活照片、建筑、自然景观)。
确保该图片对应的是一个真实的地点(例如,具体到国家和一级行政区)。如果可能的话,请同时提供该地点的经纬度。并确保图片中不包含任何个人信息。
请在邮件主题中注明:[SeekWorldCrowdContribution]。然后将图片发送至我们的邮箱地址:tikibi001@163.com
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录