秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
机器之心报道
编辑:Sia、杨文
六边形战士来了。
今天,kimi又发布了新的开源项目——一个全新的通用音频基础模型Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的(SOTA)性能。
结果显示,Kimi-Audio总体性能排名第一,几乎没有明显短板。
目前,模型代码、模型检查点以及评估工具包已经在Github上开源。
项目链接:https ://github.com/MoonshotAI/Kimi-Audio
新颖的架构设计
这一架构使Kimi-Audio能够在单一模型框架下,流畅地处理从语音识别、理解到语音对话等多种音频语言任务。
Kimi-Audio由三个主要组件组成:音频分词器(AudioTokenizer)、音频大模型(AudioLLM)、音频去分词器(AudioDetokenizer)。
具体而言,音频分词器(AudioTokenizer)负责将输入音频转化为通过矢量量化(vectorquantization)得到的离散语义token,帧率为12.5Hz。同时,音频分词器还提取连续的声学向量,以增强感知能力。
这种结合方式使模型既具有语义上的压缩表示,又保留了丰富的声学细节,从而为多种音频任务提供了坚实的表示基础。
音频大模型(AudioLLM)是系统的核心,负责生成语义token以及文本token,以提升生成能力。其架构基于共享Transformer层,能够处理多模态输入,并在后期分支为专门用于文本和音频生成的两个并行输出头。
音频去分词器(AudioDetokenizer)使用流匹配(flowmatching)方法,将音频大模型预测出的离散语义token转化为连贯的音频波形,生成高质量、具有表现力的语音。
数据建构与训练方法
除了新颖的模型架构,构建SOTA模型的核心工作还包括数据建构和训练方法。
为实现SOTA级别的通用音频建模,Kimi-Audio在预训练阶段使用了约1300万小时覆盖多语言、音乐、环境声等多种场景的音频数据,并搭建了一条自动处理“流水线”生成高质量长音频-文本对。
预训练后,模型进行了监督微调(SFT),数据涵盖音频理解、语音对话和音频转文本聊天三大类任务,进一步提升了指令跟随和音频生成能力。
Kimi-Audio预训练数据处理流程的直观展示。简单来说,就是把原始音频一步步净化、切分、整理,变成干净、有结构、有标注的训练数据。
在训练方法上,为实现强大的音频理解与生成能力,同时保持模型的知识容量与智能水平,研发人员以预训练语言模型为初始化,设计了三个类别的预训练任务:
仅文本和仅音频预训练,用于分别学习两个模态的知识;音频到文本的映射,促进模态转换能力;音频文本交错训练,进一步弥合模态间的鸿沟。
在监督微调阶段,他们设计了一套训练配方,以提升训练效率与任务泛化能力。
考虑到下游任务的多样性,研究者没有设置特殊的任务切换操作,而是为每个任务使用自然语言作为指令;对于指令,他们构建了音频和文本版本(即音频由Kimi-TTS在零样本方式下基于文本生成),并在训练期间随机选择一种;为了增强遵循指令能力的鲁棒性,他们使用大语言模型为ASR任务构建了200条指令,为其他任务构建了30条指令,并为每个训练样本随机选择一条。他们构建了大约30万小时的数据用于监督式微调。
如表1和表2所示,他们基于全面的消融实验,在每个数据源上对Kimi-Audio进行了2-4个训练周期的微调,使用AdamW优化器,学习率从1e⁻⁵到1e⁻⁶进行余弦衰减,使用10%的token进行学习率预热。
此外,他们还分三个阶段训练音频解码器。首先,使用预训练数据中的大约100万小时的音频,对流匹配模型和声码器进行预训练,以学习具有多样化音色、语调和质量的音频。其次,采用分块微调策略,在相同的预训练数据上将动态块大小调整为0.5秒到3秒。最后,在Kimi-Audio说话者提供的高质量单声道录音数据上进行微调。
评估结果
研究者基于评估工具包,详细评估了Kimi-Audio在一系列音频处理任务中的表现,包括自动语音识别(ASR)、音频理解、音频转文本聊天和语音对话。他们使用已建立的基准测试和内部测试集,将Kimi-Audio与其他音频基础模型(Qwen2-Audio、Baichuan-Audio、Step-Audio、GLM4-Voice和Qwen2.5-Omini)进行了比较。
自动语音识别
研究者对Kimi-Audio的自动语音识别(ASR)能力进行了评估,涵盖了多种语言和声学条件的多样化数据集。如表4所示,Kimi-Audio在这些数据集上持续展现出比以往模型更优越的性能。他们报告了这些数据集上的词错误率(WER),其中较低的值表示更好的性能。
音频理解
除了语音识别外,研究者还评估了Kimi-Audio理解包括音乐、声音事件和语音在内的各种音频信号的能力。表5总结了在各种音频理解基准测试上的性能,通常较高的分数表示更好的性能。
在MMAU基准测试中,Kimi-Audio在声音类别(73.27)和语音类别(60.66)上展现出卓越的理解能力。同样,在MELD语音情感理解任务上,它也以59.13的得分超越了其他模型。Kimi-Audio在涉及非语音声音分类(VocalSound和Nonspeech7k)以及声学场景分类(TUT2017和CochlScene)的任务中也处于领先地位。这些结果突显了Kimi-Audio在解读复杂声学信息方面的高级能力,超越了简单的语音识别范畴。
音频到文本聊天
研究者使用OpenAudioBench和VoiceBench基准测试评估了Kimi-Audio基于音频输入进行文本对话的能力。这些基准测试评估了诸如指令遵循、问答和推理等各个方面。性能指标因基准测试而异,较高的分数表示更好的对话能力。结果如表6所示。
语音对话
最后,他们基于多维度的主观评估,评估了Kimi-Audio的端到端语音对话能力。如表7所示,Kimi-Audio与GPT-4o和GLM-4-Voice等模型在人类评分(1-5分量表,分数越高越好)的基础上进行了比较。
除去GPT-4o,Kimi-Audio在情感控制、同理心和速度控制方面均取得了最高分。尽管GLM-4-Voice在口音控制方面表现略佳,但Kimi-Audio的整体平均得分仍高达3.90,超过了Step-Audio-chat(3.33)、GPT-4o-mini(3.45)和GLM-4-Voice(3.65),并与GPT-4o(4.06)仅存在微小差距。总体而言,评估结果表明,Kimi-Audio在生成富有表现力和可控性的语音方面表现出色。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com