今日开源(2025-06-24):MOSS-TTSD,中英文对话语音模型,零样本克隆+长文本生成,百万小时数据训练实现自然韵律
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
🏆基座模型
①项目:MOSS-TTSD
★MOSS-TTSD是一个开源的双语语音对话生成模型,支持中文和英文。它能够将对话脚本转换为自然且富有表现力的对话语音。MOSS-TTSD支持零样本多说话人语音克隆和长文本语音生成,非常适合用于AI播客制作。该项目基于统一的语义-声学神经音频编解码器和预训练的大型语言模型,结合了数百万小时的TTS数据和40万小时的合成及真实对话语音数据,生成的语音具有自然的对话韵律。
☆一键收藏:
https ://sota. jiqizhixin.com/project/moss-ttsd
🛠️框架平台、必备工具
①项目:AlphaOne
★AlphaOne(𝛼1)是一个通用框架,用于在测试时调节大型推理模型(LRMs)的推理进程。该框架引入了𝛼时刻,代表具有通用参数𝛼的缩放思考阶段。在此阶段,AlphaOne通过将推理过渡标记的插入建模为伯努利随机过程,动态调度慢速思考的过渡。在𝛼时刻之后,AlphaOne通过结束思考标记确定性地终止慢速思考,从而促进快速推理和高效答案生成。此方法通过灵活和密集的慢速到快速推理调节,统一并推广了现有的单调缩放方法,同时提供了关于推理能力和计算效率联合优化的重要见解。
☆一键收藏:
https ://sota. jiqizhixin.com/project/alphaone
②项目:RAG-Anything
★RAG-Anything是一个综合性的多模态文档处理系统,旨在解决传统文本聚焦的RAG系统无法有效处理的多模态内容问题。该系统基于LightRAG构建,提供无缝的多模态内容处理和查询功能,适用于学术研究、技术文档、财务报告和企业知识管理等领域。用户可以通过一个统一的界面查询包含文本、视觉图表、结构化表格和数学公式的文档。
☆一键收藏:
https ://sota. jiqizhixin.com/project/rag-anything
③项目:Tersa
★Tersa是一个开源平台,旨在通过直观的拖拽界面构建AI工作流。用户可以通过连接节点来创建工作流,并利用各种行业领先的AI模型处理图像、文本、音频和视频内容。项目支持自动保存和云存储,确保工作流的安全性和可访问性。Tersa采用现代化的用户界面,使用Next. js、React和TailwindCSS构建,提供流畅的用户体验。
☆一键收藏:
https ://sota. jiqizhixin.com/project/tersa
④项目:StreamBP
★StreamBP是一个用于长序列训练的大型语言模型的内存高效精确反向传播代码库。该项目显著降低了激活值的内存成本,并将最大序列长度扩展到比梯度检查点大2. 8到5.5倍,同时使用相似甚至更少的反向传播时间。该代码库适用于一般的Transformer模型类,并支持分布式训练。
☆一键收藏:
https ://sota. jiqizhixin.com/project/streambp
⑤项目:TELLME
★TELLME项目旨在提升大型语言模型(LLMs)的自解释性,通过解缠不同概念的表征来增强模型的透明度和安全性。项目提出了一种名为SEER的方法,最大化相同概念的表征相似性,同时最小化不同概念之间的表征相似性,以此来改善LLMs的推理逻辑透明度。此外,SEER还通过在解缠前后对表征的l2l2距离和概率的KL距离进行约束,保持LLMs的通用性能。
☆一键收藏:
https ://sota. jiqizhixin.com/project/tellme