今日开源(2025-07-01):阿里开源ThinkSound,Any2Audio音频编辑生成统一模型,CoT驱动跨模态转换


今日开源(2025-07-01):阿里开源ThinkSound,Any2Audio音频编辑生成统一模型,CoT驱动跨模态转换

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

🏆基座模型
①项目:ThinkSound
★ThinkSound是一个统一的Any2Audio生成框架,利用Chain-of-Thought(CoT)推理指导,通过多模态大语言模型(MLLMs)实现音频的生成和编辑。该项目支持从视频、文本和音频等任意模态生成或编辑音频,提供了分步推理的能力。ThinkSound的目标是通过交互式的对象中心编辑和统一的框架,支持生成、编辑和交互工作流。
☆一键收藏:
https ://sota. jiqizhixin.com/project/thinksound
🤖Agent开发
①项目:ML-Master
★ML-Master是一个创新的AI4AI(AI-for-AI)智能体,结合了探索与推理,通过自适应记忆机制选择性地捕获和总结相关见解和结果,确保每个组件相互增强而不相互妥协。该项目旨在通过整合探索和推理来推动AI的发展。
☆一键收藏:
https ://sota. jiqizhixin.com/project/ml-master
②项目:RiOSWorld
★RiOSWorld是一个用于评估多模态计算机使用智能体(CUA)风险的基准项目。该项目提供了一套工具和环境,用于测试和评估计算机使用智能体在不同情境下的风险表现。项目旨在帮助研究人员和开发者更好地理解和改进多模态智能体的安全性和可靠性。
☆一键收藏:
https ://sota. jiqizhixin.com/project/riosworld
③项目:L0
★L0是一个可扩展的、端到端的训练管道,专为通用智能体设计。它提供了一个用于复杂智能体环境的强化学习训练框架,具有低成本、可扩展和沙盒化的并发智能体工作池。项目中包含一个通用智能体框架NotebookAgent(NB-Agent),通过Jupyter内核以“代码即行动”的方式操作。L0还提供了一种简单而有效的多轮训练方法,结合了智能体策略梯度和可验证的多步奖励。项目中训练了一系列模型,如L0-4B、L0-7B和L0-32B,展示了其在深度搜索场景中的通用智能体任务能力。
☆一键收藏:
https ://sota. jiqizhixin.com/project/l0
🛠️框架平台、必备工具
①项目:Rex-Thinker
★Rex-Thinker是一种基于Chain-of-Thought(CoT)推理的对象指代模型,旨在解决解释性不足和无法拒绝不匹配表达的问题。该模型通过逐步推理候选对象来确定是否匹配给定表达,而不是直接预测边界框。Rex-Thinker通过监督微调和基于GRPO的增强学习进行训练,以提高准确性、忠实性和泛化能力。
☆一键收藏:
https ://sota. jiqizhixin.com/project/rex-thinker
②项目:Omni_Infer
★Omni_Infer是一套专为昇腾硬件平台定制的推理加速工具集,完全兼容主流开源大模型推理框架,旨在提供高性能、企业级推理能力。其核心特性包括企业级低延迟调度、请求级负载均衡、优化的MoE专家部署和高级注意力机制优化,支持大规模分布式部署和动态资源管理。
☆一键收藏:
https ://sota. jiqizhixin.com/project/omni-infer


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录