今日开源（2025-06-25）：VLN-R1，第一人称连续导航具身智能，突破离散地图限制，实现语言指令到连续动作的端到端转换

发布日期: 2025-06-25

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

⚙️Robotics开发
①项目：VLN-R1
★GPT4Scene项目旨在通过视觉语言模型从视频中理解3D场景。该项目结合了先进的深度学习技术和大规模数据集，提供了一种创新的方法来解析和理解复杂的3D环境。项目提供了完整的训练代码、验证数据集和模型权重，支持用户在不同的应用场景中进行定制化开发。
☆一键收藏：
https ://sota. jiqizhixin.com/project/vln-r1
🤖Agent开发
①项目：OAgents
★OAgents是由OPPOPersonalAI实验室开发的一个模块化基础Agent框架，旨在通过系统化研究Agent框架中的关键设计选择，提升Agent的有效性。该项目在GAIA和BrowseComp基准上进行了评估，提出了一种稳健的评估协议，以确保结果的可重复性，并识别出有效Agent的关键组件。OAgents在开源项目中实现了最先进的性能，促进了AgenticAI领域的未来研究。
☆一键收藏：
https ://sota. jiqizhixin.com/project/oagents
🛠️框架平台、必备工具
①项目：ToMAP
★ToMAP（TheoryofMindAugmentedPersuader）是一种新颖的说服者训练方案，结合了理论心智信息，使模型能够分析对手的当前思维，并制定更有效的、针对性更强的说服策略。ToMAP使得3B大小的语言模型能够获得令人印象深刻的说服能力，超越了更大规模的语言模型。
☆一键收藏：
https ://sota. jiqizhixin.com/project/tomap
②项目：ROLL
★ROLL是一个高效且用户友好的强化学习库，专为大语言模型（LLMs）设计，利用大规模GPU资源显著提升LLM在关键领域的性能，如人类偏好对齐、复杂推理和多轮智能体交互场景。ROLL通过使用Ray的多角色分布式架构实现灵活的资源分配和异构任务调度，并集成了前沿技术如Megatron-Core、SGLang和vLLM以加速模型训练和推理。
☆一键收藏：
https ://sota. jiqizhixin.com/project/roll
③项目：GoT-R1
★GoT-R1是一个通过强化学习提升视觉生成中语义-空间推理能力的框架。该项目基于生成思维链（GoT）方法，允许模型自主发现超越预定义模板的有效推理策略。通过精心设计的双阶段、多维度奖励框架，利用多模态大语言模型（MLLMs）评估中间推理过程和最终视觉输出。实验结果表明，在需要精确空间关系和属性绑定的组合任务中，GoT-R1在T2I-CompBench等基准上表现出显著改进。
☆一键收藏：
https ://sota. jiqizhixin.com/project/got-r1
④项目：ParallelComp
★ParallelComp是一种创新的无训练方法，用于长上下文外推，能够将大型语言模型的上下文长度从8K扩展到128K，同时保持高吞吐量和困惑度。该项目无需昂贵的微调，能够在长上下文任务中达到GPT-4性能的91. 17%，并且在预填充阶段实现了23. 50倍的加速和1.76倍的块吞吐量提升。它可以在单个A10080GBGPU上管理超长上下文。
☆一键收藏：
https ://sota. jiqizhixin.com/project/parallelcomp