今日开源(2025-06-25):VLN-R1,第一人称连续导航具身智能,突破离散地图限制,实现语言指令到连续动作的端到端转换
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
⚙️Robotics开发
①项目:VLN-R1
★GPT4Scene项目旨在通过视觉语言模型从视频中理解3D场景。该项目结合了先进的深度学习技术和大规模数据集,提供了一种创新的方法来解析和理解复杂的3D环境。项目提供了完整的训练代码、验证数据集和模型权重,支持用户在不同的应用场景中进行定制化开发。
☆一键收藏:
https ://sota. jiqizhixin.com/project/vln-r1
🤖Agent开发
①项目:OAgents
★OAgents是由OPPOPersonalAI实验室开发的一个模块化基础Agent框架,旨在通过系统化研究Agent框架中的关键设计选择,提升Agent的有效性。该项目在GAIA和BrowseComp基准上进行了评估,提出了一种稳健的评估协议,以确保结果的可重复性,并识别出有效Agent的关键组件。OAgents在开源项目中实现了最先进的性能,促进了AgenticAI领域的未来研究。
☆一键收藏:
https ://sota. jiqizhixin.com/project/oagents
🛠️框架平台、必备工具
①项目:ToMAP
★ToMAP(TheoryofMindAugmentedPersuader)是一种新颖的说服者训练方案,结合了理论心智信息,使模型能够分析对手的当前思维,并制定更有效的、针对性更强的说服策略。ToMAP使得3B大小的语言模型能够获得令人印象深刻的说服能力,超越了更大规模的语言模型。
☆一键收藏:
https ://sota. jiqizhixin.com/project/tomap
②项目:ROLL
★ROLL是一个高效且用户友好的强化学习库,专为大语言模型(LLMs)设计,利用大规模GPU资源显著提升LLM在关键领域的性能,如人类偏好对齐、复杂推理和多轮智能体交互场景。ROLL通过使用Ray的多角色分布式架构实现灵活的资源分配和异构任务调度,并集成了前沿技术如Megatron-Core、SGLang和vLLM以加速模型训练和推理。
☆一键收藏:
https ://sota. jiqizhixin.com/project/roll
③项目:GoT-R1
★GoT-R1是一个通过强化学习提升视觉生成中语义-空间推理能力的框架。该项目基于生成思维链(GoT)方法,允许模型自主发现超越预定义模板的有效推理策略。通过精心设计的双阶段、多维度奖励框架,利用多模态大语言模型(MLLMs)评估中间推理过程和最终视觉输出。实验结果表明,在需要精确空间关系和属性绑定的组合任务中,GoT-R1在T2I-CompBench等基准上表现出显著改进。
☆一键收藏:
https ://sota. jiqizhixin.com/project/got-r1
④项目:ParallelComp
★ParallelComp是一种创新的无训练方法,用于长上下文外推,能够将大型语言模型的上下文长度从8K扩展到128K,同时保持高吞吐量和困惑度。该项目无需昂贵的微调,能够在长上下文任务中达到GPT-4性能的91. 17%,并且在预填充阶段实现了23. 50倍的加速和1.76倍的块吞吐量提升。它可以在单个A10080GBGPU上管理超长上下文。
☆一键收藏:
https ://sota. jiqizhixin.com/project/parallelcomp