今日开源(2025-05-30):Chatterbox,生产级开源TTS模型,支持情感夸张控制,超低延迟适配多场景
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
🏆基座模型
①项目:Chatterbox
★Chatterbox是ResembleAI推出的首个生产级开源语音合成(TTS)模型。该模型在与ElevenLabs等领先的闭源系统的对比评估中表现优异,支持情感夸张控制,使生成的语音更具特色。Chatterbox适用于视频、游戏、AI智能体等多种场景,提供超低延迟的可靠性能,适合生产环境中的应用。
☆一键收藏:
https ://sota. jiqizhixin.com/project/chatterbox
②项目:UniTTS
★UniTTS是一个端到端的语音合成系统,利用DistilCodec进行音频离散化。其核心网络采用Qwen2. 5-7B模型来处理音频标记之间的关系。UniTTS通过综合音频建模能力,实现了全频谱音频输入/输出的语音合成,特别是在情感表达和细微的韵律变化捕捉方面表现出色。
☆一键收藏:
https ://sota. jiqizhixin.com/project/unitts
🤖Agent开发
①项目:WebAgent
★WebAgent是由阿里巴巴集团的同义实验室开发的一个信息检索智能体项目。该项目包括WebDancer和WebWalker两个子项目,分别专注于自主信息检索agent和大规模语言模型在网页遍历中的基准测试。WebDancer采用ReAct框架,旨在实现自主的信息检索和推理能力。项目通过四阶段训练范式,包括浏览数据构建、轨迹采样、监督微调和增强学习,来提升模型的泛化能力。WebWalker则提供了一个用于网页遍历的基准测试框架。
☆一键收藏:
https ://sota. jiqizhixin.com/project/webagent
🛠️框架平台、必备工具
①项目:Linear-MoE
★Linear-MoE项目旨在提供一个生产就绪的库,用于建模和训练线性稀疏专家(MoE)模型。该项目基于最新的Megatron-Core构建,支持非侵入式的集成。Linear-MoE的设计目标是提高模型的计算效率和性能,适用于大规模深度学习任务。项目的代码库中包含了多种线性注意力机制和状态空间建模方法,支持多种现代深度学习框架和工具的集成。
☆一键收藏:
https ://sota. jiqizhixin.com/project/linear-moe
②项目:Zochi
★Zochi是一个人工科学家系统,具备从假设生成到实验再到同行评审发表的端到端科学发现能力。与以往仅自动化科学研究某一环节的系统不同,Zochi展示了在整个研究生命周期中的全面能力。
☆一键收藏:
https ://sota. jiqizhixin.com/project/zochi
③项目:Cobolt
★Cobolt是一个跨平台桌面应用程序,允许用户与本地托管的语言模型(LLM)进行交互,并享受如模型上下文协议(MCP)支持等功能。该应用程序确保用户的数据仅存储在本地设备上,不会发送到远程服务器。Cobolt支持用户连接到喜爱的工具和数据源,提供个性化的响应。它旨在通过使用小型语言模型和本地计算设备,提供更私密和透明的AI助手体验。
☆一键收藏:
https ://sota. jiqizhixin.com/project/cobolt