今日开源(2025-07-11):Devstral 1.1,开源代码大模型,128k上下文窗口,SWE-bench开源模型榜首
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
🏆基座模型
①项目:DevstralSmall1. 1
★Devstral-Small-2507是由MistralAI和AllHandsAI合作开发的面向软件工程任务的大语言模型。该模型在SWE-bench基准测试中表现优异,是该基准测试中的开源模型第一名。Devstral-Small-2507从Mistral-Small-3. 1微调而来,支持长达128k的上下文窗口,适用于代码库探索和多文件编辑等任务。该模型以Apache2. 0许可发布,允许商业和非商业用途。
☆一键收藏:
https ://sota. jiqizhixin.com/project/devstral-small-2507
②项目:DreamPRM
★DreamPRM项目旨在通过域重加权的方法解决多模态推理中数据集质量不平衡和分布偏移的问题。该项目通过双层优化循环联合学习高保真过程奖励模型(PRM)和最优域权重,在五个公共基准上实现了平均+4个百分点的稳定提升。
☆一键收藏:
https ://sota. jiqizhixin.com/project/dreamprm
🤖Agent开发
①项目:PresentAgent
★PresentAgent是一个多模态智能体,能够将长篇文档转化为带有解说的演示视频。与现有方法仅能生成静态幻灯片或文本摘要不同,PresentAgent通过生成完全同步的视觉和语音内容,模拟人类风格的演示。该项目采用模块化流水线,系统地分割输入文档,规划并渲染幻灯片风格的视觉帧,利用大型语言模型和文本到语音模型生成上下文解说,并精确地将音频和视频组合成最终视频。通过Vision-LanguageModels提供的PresentEval框架,项目在内容保真度、视觉清晰度和观众理解度三个关键维度上对视频进行综合评分。
☆一键收藏:
https ://sota. jiqizhixin.com/project/presentagent
🛠️框架平台、必备工具
①项目:PAPO
★PAPO是GRPO的一种简单而有效的扩展,旨在增强视觉基础的推理能力。通过引入完全依赖于内部监督信号的隐式感知损失,PAPO在多模态推理中表现出一致的改进。该项目无需额外的数据或外部奖励模型,能够直接替代GRPO,并在多种多模态基准测试中实现显著的性能提升。
☆一键收藏:
https ://sota. jiqizhixin.com/project/papo
②项目:SPACE
★SPACE是一个强大的DNA基础模型,专注于基因组特征预测。该项目提供了ICML2025海报论文的官方实现,利用Basenji数据集进行训练,并将数据转换为H5格式以便于下载和使用。项目提供了预训练模型和相关代码,用户可以轻松加载和使用这些模型进行基因组特征预测。项目还提供了从头开始训练SPACE模型的脚本,以及用于下游任务的代码。
☆一键收藏:
https ://sota. jiqizhixin.com/project/space
③项目:AlgoTune
★AlgoTune是一个基准测试平台,由155个广泛使用的数学、物理和计算机科学问题组成。其目标是编写代码解决每个问题,并在速度上超过现有实现。除了基准测试,AlgoTune还提供了一个名为AlgoTuner的智能体,帮助语言模型轻松优化代码。
☆一键收藏:
https ://sota. jiqizhixin.com/project/algotune