Qwen3 Embedding:基于基础模型的文本嵌入与重排序技术,附技术报告英中PDF对照版
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
文本嵌入和重排序是多项NLP和信息检索应用的基础组件,如网络搜索、问答系统和推荐系统等。高质量的嵌入可以使模型捕捉文本之间的语义关系,而有效的重排序机制则确保将最相关的结果优先展示。随着大型语言模型(LLMs)的出现,文本嵌入和重排序模型得到了进一步发展。然而,训练在可扩展性、上下文理解和与特定下游任务对齐方面表现出色的嵌入和重排序模型仍然具有挑战性。
Qwen3Embedding系列基于Qwen3基础模型构建。Qwen3基础模型具备强大的多语言文本理解和生成能力,为嵌入和重排序模型的训练提供了坚实的基础。
Qwen3Embedding系列采用多阶段训练流程,包括大规模无监督预训练和在高质量数据集上的监督微调。此外,还采用模型融合策略,将多个模型检查点合并,以增强模型的鲁棒性和适应性。
无监督预训练:利用Qwen3指令模型合成大规模、高质量、多语言和多任务的文本相关性数据集。这些合成数据用于初始的无监督训练阶段。
监督微调:从合成数据中筛选出高质量的小规模数据用于监督训练阶段。这一阶段使用基于InfoNCE框架的改进对比损失函数进行优化。
模型融合:使用球面线性插值(slerp)技术,将监督微调过程中保存的多个模型检查点合并,以提升模型在不同数据分布上的鲁棒性和泛化性能。
Qwen3嵌入模型基于Qwen3基础模型的密集版本构建,有0. 6B、4B和8B三种参数规模。模型通过因果注意力机制处理输入序列,并在序列末尾添加[ EOS]令牌。最终嵌入从最后一层对应[ EOS]令牌的隐藏状态中获取。为了使嵌入在下游任务中遵循指令,将指令与查询拼接为一个输入上下文,而文档保持不变。
Qwen3重排序模型同样基于Qwen3基础模型的密集版本构建,有0. 6B、4B和8B三种参数规模。模型使用LLM聊天模板,将相似度评估任务视为二元分类问题。输入遵循特定模板,模型通过计算下一个令牌为“是”或“否”的可能性来确定相关性分数。
Qwen3嵌入模型在多个基准测试中进行了全面评估,包括大规模多语言文本嵌入基准(MMTEB)、MTEB(英语、v2)、CMTEB和MTEB(代码)等。评估涵盖文本检索、分类、语义文本相似性等多种任务。
重排序模型:所有三个Qwen3重排序模型相较于嵌入模型均提升了性能,并超越了所有基线重排序方法。Qwen3-Reranker-8B模型在大多数任务中表现最佳,相较于0. 6B模型,在多个任务中排名结果提高了3. 0分。
大规模弱监督预训练的有效性:仅在合成数据上训练的Qwen3-Embedding-0. 6B模型相较于最终模型表现出了合理的性能。如果进一步去除弱监督训练阶段,最终性能明显下降,表明大规模弱监督训练阶段对于实现卓越性能至关重要。
模型融合的有效性:未采用模型融合技术训练的模型性能明显不如采用模型融合的最终Qwen3-Embedding-0. 6B模型,表明模型融合阶段对于开发强大的模型至关重要。
Qwen3Embedding系列模型基于Qwen3基础模型,通过多阶段训练流程、合成数据和模型融合策略,在文本嵌入和重排序任务中取得了最先进的性能。这些模型在多语言检索、代码检索和复杂指令遵循等任务中表现出色,并且在多个基准测试中超越了现有的开源模型和商业API服务。Qwen3Embedding和Qwen3重排序模型(0. 6B、4B和8B)已开源,可供社区使用和进一步开发。
通过这篇技术报告,我们深入解析了Qwen3Embedding系列模型的设计、训练方法和实验评估。这一模型的出现为文本嵌入和重排序领域带来了新的突破,有望在众多NLP和信息检索应用中发挥重要作用。
附Qwen3Embedding技术报告英中对照版,仅供学习参考,感兴趣的朋友关注AGI之美公众号,回复’qwen3em’获取全文PDF:
感兴趣的朋友关注AGI之美公众号,回复’qwen3em’获取全文PDF: