今日开源(2025-07-02):TEN 开源超轻量语音活动检测模型与对话轮次管理模型,支持全双工语音交互


今日开源(2025-07-02):TEN 开源超轻量语音活动检测模型与对话轮次管理模型,支持全双工语音交互

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

开发一个人机对话体验超自然丝滑的VoiceAgent,到底需要多少个语音模型呢?

针对这一挑战,TEN开源系列近期开源了两个新模型:TENVAD(语音活动检测)与TENTurnDetection(智能对话轮次管理),通过模拟人类对话逻辑,解决「何时听、何时说」的场景。
这两个模型由声网和RTE开发者社区主要支持,是基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的高性能模型,能够让AIAgent的交互体验更加自然,任何人都可以自由使用。这两款模型也将作为开源对话式AI生态体系TEN的核心模块持续迭代优化。
TENVAD是一个轻量的,低延迟,低功耗,高准确率语音活动检测模型,通常用于语音输入LLM前的预处理步骤:
识别音频帧中是否有人声;
判断一句话的开始和结束位置;
过滤掉无关音频(背景噪音、静音等);
通过TENVAD预处理,可以提升语音识别(STT)的准确性,同时显著降低处理成本——避免将无意义的声音送入到STT流程中从而产生开销。

👉一键Start:https ://github. com/TEN-framework/ten-vad
TENTurnDetection的核心功能是对话论次判断,在判断用户何时停止说话方面有不错的表现,这点对于AI语音交互的「自然感」方面十分重要。在真实交流中,AI需要区分出「中途停顿」与「说完了」的差别。插话太早会打断人类思路,太迟回应则会显得迟钝、不自然。
TENTurnDetection支持中英文、支持全双工语音交互(允许用户和AI同时说话),并通过分析语言模式,判断说话者是在思考、犹豫,还是已经表达完毕,用以AI判断「该说」还是「该听」,从而让对话更加流畅自然。
👉项目地址:https ://huggingface. co/TEN-framework/TEN_Turn_Detection
与目前常用的WebRTCPitchVAD和SileroVAD相比,在公开的TENVAD测试集上(来自多场景、逐帧人工标注),TENVAD展示出了更优的效果。
在延迟方面TENVAD同样领先。它能快速检测语音与非语音之间的切换,而SileroVAD则存在数百毫秒的延迟,导致人机交互系统的端到端延迟和打断延迟增加。
而针对TENTurnDetection,在多场景测试数据集上和其他同类开源模型进行对比,各模型的表现如下:
TENVAD和TENTurnDetection模型都可以搭配TENFramework使用。TENFramework是一个主流对话式AI开源框架,用于构建具备实时、多模态的VoiceAIAgent。
TENFramework目前已集成主流STT、LLM、TTS、RTC、RAG等多种模型及组件,同时适配Dify、Coze等主流编排工具,内置优化后的实时通信能力,提供低延时、可打断的交互体验,快速让你的AIbot能听能说。
HuggingFace上快速运行(推荐)
登录HuggingFace;
打开TENAgentDemo:https ://huggingface. co/spaces/TEN-framework/ten-agent-demo
点击右上角设置>DuplicatethisSpace;
即可用HuggingFace提供的GPU部署完整体验。
本地运行(自带GPU)
登录HuggingFace;
打开TENAgentDemo:https ://huggingface. co/spaces/TEN-framework/ten-agent-demo
点击右上角设置>RunLocally;
按照本地部署指南操作即可运行完整。(https ://github. com/TEN-framework/ten-framework)
↓扫描下方二维码添加小助手,发送「语音」加入VoiceAgent魔改小组,切磋语音AI开发技术,打磨VoiceAgent开源工具链


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录