仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
文本嵌入和重排序在网络搜索、问答系统和推荐系统等自然语言处理(NLP)和信息检索(IR)应用中至关重要。高质量的嵌入使模型能够捕获文本之间的语义关系,而有效的重排序机制可确保最相关的结果获得优先权。
Qwen3Embedding:AdvancingTextEmbeddingandRerankingThroughFoundationModels
https ://arxiv. org/pdf/2506. 05176
该论文介绍了Qwen3Embedding系列,旨在提升文本嵌入和重排序能力。论文试图解决的关键问题和挑战包括:
可扩展性、上下文理解和与下游任务的对齐:尽管取得了显著进展,但训练在可扩展性、上下文理解和与下游任务对齐方面表现良好的嵌入和重排序模型仍然充满挑战,尤其是随着大型语言模型(LLM)驱动的检索增强生成(RAG)和代理系统等新兴应用范式的出现。
利用LLM进行嵌入和重排序:虽然LLM凭借其更丰富的世界知识和推理能力提升了这些模型,但如何有效地将它们整合到训练过程中,包括数据合成和质量过滤,以及开发新的训练范式,仍然是一个持续的挑战。
解决这些问题的重要性及潜在影响包括:
改进NLP和IR应用的性能:通过开发更有效的嵌入和重排序模型,该论文旨在增强各种应用的核心组件,从而带来更好的搜索结果、更准确的问答和更相关的推荐。
满足LLM驱动应用的新需求:RAG和代理系统的兴起对文本嵌入和重排序提出了新的要求。这项研究有助于满足这些需求,使LLM更强大、更通用。
推动技术前沿:Qwen3Embedding系列在MTEB多语言基准测试以及各种检索任务(包括代码检索、跨语言检索和多语言检索)等各种基准测试中取得了最先进的结果。值得注意的是,它在MTEB多语言基准测试中的得分为70. 58,在MTEB代码基准测试中的得分为80. 68,超越了之前最先进的专有嵌入模型Gemini-Embedding。这表明文本嵌入和重排序能力取得了重大飞跃。
团队解决问题的独特视角或切入点包括:
基于Qwen3基础模型构建:Qwen3Embedding系列构建在Qwen3基础模型之上,充分利用了这些模型强大的多语言文本理解和生成能力。
创新的多阶段训练流程:训练流程结合了大规模无监督预训练和高质量数据集上的有监督微调。一个关键创新是利用Qwen3LLM本身来合成高质量、多样化的多领域和多语言训练数据,从而增强了训练流程,尤其是在低资源场景下。
有效的模型合并策略:论文强调了使用模型合并技术(特别是球面线性插值(slerp))来增强模型的鲁棒性和泛化能力。
多种模型尺寸和实用功能:为嵌入和重排序任务提供多种尺寸(0. 6B、4B和8B)的模型,并支持灵活的嵌入维度表示和可定制的指令等实用功能,满足了不同的部署场景和用户需求。
该研究动机与更广泛的技术和社会趋势相关联,包括:
大型语言模型(LLM)的兴起:这项工作直接建立在LLM的进步之上,展示了如何扩展LLM的能力以改进基础NLP任务。
对高质量信息检索的需求:随着数字信息量的增长,对高效准确的检索系统的需求变得至关重要。这项研究通过提供更好的语义搜索和相关性排序工具来满足这一需求。
多语言和跨语言理解:对多语言和跨语言能力的重视符合信息的全球性质以及对能够有效跨不同语言操作的模型的日益增长的需求。
开源贡献:将Qwen3Embedding和Qwen3-Reranker模型(0. 6B、4B和8B)公开发布,鼓励社区使用和在此基础上进行研究和开发,从而促进人工智能技术的更广泛发展。
该论文在引言和相关章节中提及了文本嵌入和重排序领域的多个重要研究方向和模型。这些工作主要围绕以下几个方面展开:
在大型语料库上进行预训练,然后针对特定任务进行微调,捕获文本的语义信息。
BERT(Reimers&Gurevych,2019)
利用LLM更丰富的世界知识、文本理解和推理能力,作为基础模型训练嵌入和重排序模型,提升性能。
Qwen3(Yangetal.,2025),GPT-4o(Hurstetal.,2024)
利用LLM生成高质量的训练数据,以克服数据稀缺问题,并进行数据筛选以确保数据质量。
Wangetal.,2024;Leeetal.,2024;2025b
引入区别性任务(如指令类型、领域、语言)来训练嵌入模型,或结合零样本方法和有监督微调来训练重排序模型。
Suetal.,2023(嵌入);Maetal.,2023;Pradeepetal.,2023;Zhangetal.,2024a;Zhuangetal.,2024(重排序)
结合大规模弱监督数据进行初始训练,再用少量高质量有监督数据进行微调,以提高模型性能和泛化能力。
Lietal.,2023;Wangetal.,2022;Chenetal.,2024
通过合并多个模型检查点来增强模型的鲁棒性和泛化能力。
Lietal.,2024
提供全面的评估基准,用于衡量文本嵌入和重排序模型的性能,特别是多语言和特定领域的任务。
MTEB(Muennighoffetal.,2023),MMTEB(Enevoldsenetal.,2025),CMTEB(Xiaoetal.,2024)
当前文本嵌入和重排序领域的主流方法和技术路线主要围绕以下几点:
以BERT或LLM(如Qwen3)作为骨干模型,利用其强大的文本编码能力。
采用InfoNCE框架等对比损失函数,通过正负样本对的学习来优化嵌入空间。
通常包括一个大规模的弱监督预训练阶段,然后是高质量有监督数据的微调阶段,以平衡泛化能力和任务特异性。
利用LLM生成多样化、高质量的合成训练数据,特别是在低资源语言和特定任务场景下。
通过在输入中包含指令来训练模型,使其能够根据不同的任务需求生成或评估相关性。
发布不同参数规模的模型,以适应不同的部署场景,平衡效率和效果。
采用技术(如slerp)合并多个模型检查点,以提高模型的鲁棒性和泛化能力。
论文指出,尽管该领域取得了显著进展,但仍存在以下局限性和挑战:
传统方法的局限性:在LLM出现之前,主流方法是使用像BERT这样的编码器专用预训练语言模型作为基础。虽然这些模型表现良好,但它们缺乏LLM所固有的更丰富的世界知识、文本理解和推理能力。
训练数据来源与质量:以往的弱监督训练数据主要来源于问答论坛或学术论文等开源社区,这导致数据可能包含噪声且多样性受限。尽管有研究致力于利用LLM辅助数据合成和过滤,但如何高效、高质量地生成并利用这些数据仍是挑战。
可扩展性、上下文理解和任务对齐:对于文本嵌入和重排序模型而言,在可扩展性、上下文理解以及与特定下游任务的对齐方面,仍然存在挑战。新兴的应用范式如RAG和代理系统,对这些模型提出了新的要求和挑战。
缺乏系统性创新:虽然多阶段训练是常见做法,但现有方法在数据来源、数据质量利用和模型鲁棒性增强方面可能缺乏系统性的创新。
Qwen3Embedding系列的工作巧妙地定位在现有研究的交叉点上,并通过以下方式体现其独特性:
以Qwen3LLM为核心骨干:论文明确指出其模型构建在Qwen3基础模型之上。这使得Qwen3Embedding系列能够充分利用Qwen3LLM强大的多语言文本理解和生成能力,从而超越传统的编码器模型。
创新的数据合成范式:与以往主要依赖开源社区数据不同,Qwen3Embedding系列提出直接利用基础模型(Qwen332B)来合成高质量、多样化、多语言和多任务的文本相关性数据。这种方法提供了更大的可控性,尤其在低资源场景和语言中。
结合高质量合成数据进行监督微调:论文在多阶段训练的第二阶段中,选择性地加入了这些高质量的合成数据,进一步提升了模型的整体性能和泛化能力。
引入模型合并策略:在监督微调之后,论文应用了基于球面线性插值(slerp)的模型合并技术,以增强模型的鲁棒性和跨不同数据分布的泛化性能。
提供模型规模多样性与实用功能:论文推出了不同参数规模的模型(0. 6B、4B、8B),以满足不同的部署需求,并支持灵活的嵌入维度和可定制的指令,增强了模型的实用性。
Qwen3Embedding系列在借鉴前人工作的基础上,实现了多方面的改进:
借鉴:
Transformer架构和对比学习:沿用了基于Transformer的模型架构和InfoNCE框架的对比损失函数,这是当前文本嵌入训练的主流范式。
多阶段训练框架:借鉴了多阶段训练的普遍实践,即从大规模弱监督预训练开始,然后进行有监督微调。
模型合并:受到了Lietal.,2024等工作的启发,引入了模型合并技术。
指令遵循:借鉴了通过在输入中包含指令来实现任务感知相关性评估的方法。
改进:
更强大的骨干模型:从BERT等编码器模型升级到更先进的Qwen3LLM,显著提升了模型的文本理解和生成能力。
数据合成的质和量突破:从传统的开源数据收集转向利用LLM主动合成大规模(约1. 5亿对)且高质量的训练数据,实现了数据来源和多样性的突破。这种合成方式允许任意定义任务、语言、长度和难度等维度。
高质量合成数据在监督微调中的应用:创新性地将高质量的合成数据(约1200万对)纳入第二阶段的监督微调中,进一步提升了模型性能和泛化能力。
系统性的模型合并策略:通过对多个微调检查点进行合并,增强了模型在各种数据分布下的鲁棒性和泛化能力。
全面且公开的解决方案:不仅提供了嵌入模型,还提供了重排序模型,并公开了不同尺寸的模型,促进了社区的研究和应用。
综上所述,Qwen3Embedding的工作不仅吸取了前人的经验,更在数据生成、训练策略和模型融合等方面进行了创新,显著推动了文本嵌入和重排序领域的发展。
下图是合成数据构造查询的提示语:
该论文在文本嵌入和重排序领域的主要创新点体现在以下几个方面:
技术创新:
基于Qwen3LLM的骨干模型:首次将Qwen3大模型作为文本嵌入和重排序模型的基础骨干,充分利用其强大的多语言理解和生成能力。
LLM驱动的高质量训练数据合成:创新性地利用Qwen3LLM(特别是32B模型)来大规模生成高质量、多样化、多语言和多任务的文本相关性训练数据(约1. 5亿对)。这包括生成不同的指令、文档、查询和响应,并进行质量过滤。
多阶段训练流程的优化:结合大规模弱监督预训练与基于LLM合成的高质量有监督微调,构建了更高效和鲁棒的训练范式。
模型合并策略的应用:在训练后期采用基于球面线性插值(slerp)的模型合并技术,以进一步增强模型的鲁棒性和泛化能力。
灵活的嵌入维度和可定制的指令:提供了更灵活的嵌入维度选择(例如,512、768、1024等)和可定制的指令模板,以适应不同的应用场景和用户需求。
方法创新:
“模型即数据生成器”范式:将LLM不仅仅视为模型本身,更视为高效、高质量训练数据的生成器,打破了传统训练数据来源的局限。
从广度到深度的数据覆盖:通过LLM生成数据,实现了对不同领域、语言、长度和难度维度的全面覆盖,解决了现有数据集中多样性不足的问题。
视角创新:
构建LLM驱动的全栈式信息检索组件:论文的愿景是将强大的LLM不仅用于生成式任务,更用于构建核心的信息检索组件(嵌入和重排序),为RAG和代理系统等新范式提供基础支撑。
LLM的兴起与能力演进:近年来LLM在文本理解、生成和推理方面的惊人表现是核心灵感来源。既然LLM能够理解复杂指令并生成高质量文本,那么它们也应该能够生成高质量的训练数据,并作为构建更强大基础模型的骨干。
数据稀缺与质量挑战:传统文本嵌入和重排序模型的训练往往受限于高质量标注数据的缺乏。如何克服这一瓶颈是研究人员一直思考的问题。利用LLM的生成能力来“自给自足”地创建数据,是解决这一挑战的自然思路。
多阶段训练的成功经验:预训练-微调范式在NLP领域取得了巨大成功,因此将这一思路应用于嵌入和重排序模型,并进一步优化其阶段设计是自然的演进。
模型融合的鲁棒性优势:模型集成(Ensembling)在机器学习中被广泛证明能够提高模型性能和鲁棒性。模型合并作为一种轻量级的集成方式,提供了在不显著增加计算开销的情况下提升模型稳定性的可能。
用户需求与应用场景:面对不同的部署环境(如边缘设备到大型服务器)和应用需求(效率优先或效果优先),提供不同规模的模型以及灵活的维度和指令支持,是源于实际应用场景的考虑。
LLM作为骨干模型:
解决问题:现有编码器模型的语义理解能力有限,尤其在处理复杂语境和多语言信息时。
有效性:Qwen3LLM具有丰富的世界知识和强大的文本理解能力,将其作为骨干模型,能够捕获更深层次的语义信息,从而生成更高质量的文本嵌入和更准确的重排序分数,有效提升模型在复杂检索任务中的性能。
LLM驱动的高质量训练数据合成:
解决问题:高质量标注数据稀缺,传统弱监督数据噪声大且多样性不足。
有效性:LLM能够根据设定的规则和指令生成大量多样化、高质量的文本相关性对。这克服了数据瓶颈,使得模型能够接触到更广泛的语义模式,尤其在低资源场景和特定领域表现优异。高质量的数据直接决定了模型的学习上限。
多阶段训练流程的优化:
解决问题:如何平衡模型在通用知识和任务特异性知识之间的学习。
有效性:大规模弱监督预训练确保了模型的通用语义理解能力,而基于高质量合成数据的监督微调则使模型精确地学习到相关性判断的细粒度特征,两者结合使得模型既具备泛化能力又在特定任务上表现卓越。
模型合并策略:
解决问题:单一模型可能在某些数据分布上表现不稳定或缺乏鲁棒性。
有效性:通过合并多个微调检查点,可以平滑模型参数,减少过拟合,提高模型对不同数据集和任务的泛化能力和鲁棒性,尤其在面临领域漂移或数据噪声时表现更稳定。
灵活的嵌入维度和可定制的指令:
解决问题:模型部署缺乏灵活性,无法适应不同计算资源和业务场景。
有效性:满足了用户在效率和效果之间的权衡需求,使模型在各种实际应用中更具可用性和适应性。
本文对Qwen3Embedding系列模型进行了全面的评估,包括文本嵌入和重排序任务。
文本嵌入模型评估
消融研究:
大规模弱监督预训练的有效性:研究表明,大规模弱监督训练阶段对于实现卓越性能至关重要。仅使用合成数据训练的Qwen3-Embedding-0. 6B模型(没有后续训练阶段)与最终模型相比,仍取得了良好且强大的性能。如果去除弱监督训练阶段(即没有合成数据训练),最终性能会显著下降。
模型合并的有效性:模型合并阶段也被证明是开发强大模型的关键。没有使用模型合并技术的模型(使用数据采样来平衡各种任务)的性能明显低于最终的Qwen3-Embedding-0. 6B模型(采用了模型合并)。
文本重排序模型评估
在各种重排序任务中,所有三款Qwen3-Reranker模型(0. 6B、4B、8B)与Qwen3-Embedding-0. 6B模型相比,性能均有所提升,并且超越了所有基线重排序方法。
Qwen3-Reranker-8B在大多数任务中取得了最高的性能。
NV-Embed-v2
7B
56. 29
49. 58
57. 84
57. 29
40. 80
1. 04
18. 63
78. 94
63. 82
56. 72
71. 10
GritLM-7B
7B
60. 92
53. 74
70. 53
61. 83
49. 75
3. 45
22. 77
79. 94
63. 78
58. 31
73. 33
BGE-M3
0. 6B
59. 56
52. 18
79. 11
60. 35
40. 88
-3. 11
20. 1
80. 76
62. 79
54. 60
74. 12
multilingual-e5-large-instruct
0. 6B
63. 22
55. 08
80. 13
64. 94
50. 75
-0. 40
22. 91
80. 86
62. 61
57. 12
76. 81
gte-Qwen2-1. 5B-instruct
1. 5B
59. 45
52. 69
62. 51
58. 32
52. 05
0. 74
24. 02
81. 58
62. 58
60. 78
71. 61
gte-Qwen2-7b-Instruct
7B
62. 51
55. 93
73. 92
61. 55
52. 77
4. 94
25. 48
85. 13
65. 55
60. 08
73. 98
text-embedding-3-large
58. 93
51. 41
62. 17
60. 27
46. 89
-2. 68
22. 03
79. 17
63. 89
59. 27
71. 68
Cohere-embed-multilingual-v3. 0
61. 12
53. 23
70. 50
62. 95
46. 89
-1. 89
22. 74
79. 88
64. 07
59. 16
74. 80
GeminiEmbedding
68. 37
59. 59
79. 28
71. 82
54. 59
5. 18
29. 16
83. 63
65. 58
67. 71
79. 40
Qwen3-Embedding-0. 6B
0. 6B
64. 33
56. 00
72. 22
66. 83
52. 33
5. 09
24. 59
80. 83
61. 41
64. 64
76. 17
Qwen3-Embedding-4B
4B
69. 45
60. 86
79. 36
72. 33
57. 15
11. 56
26. 77
85. 05
65. 08
69. 60
80. 86
Qwen3-Embedding-8B
8B
70. 58
61. 69
80. 89
74. 00
57. 65
10. 06
28. 66
86. 40
65. 63
70. 88
81. 08
NV-Embed-v2
7B
4096
69. 81
65. 00
63. 0
62. 0
GritLM-7B
7B
4096
67. 07
63. 22
- multilingual-e5-large-instruct
0. 6B
1024
65. 53
61. 21 - gte-Qwen2-1. 5b-instruct
1. 5B
1536
67. 20
63. 26
67. 12
67. 79 - gte-Qwen2-7b-instruct
7B
3584
70. 72
65. 77
71. 62
72. 19
text-embedding-3-large - 3072
66. 43
62. 15 - cohere-embed-multilingual-v3. 0
- 1024
66. 01
61. 43 - GeminiEmbedding
- 3072
73. 30
67. 67 - Owen3-Embedding-0. 6B
0. 6B
1024
70. 70
64. 88
66. 33
67. 44
75. 41
Owen3-Embedding-4B
4B
2560
74. 60
68. 09
72. 26
73. 50
80. 06
Qwen3-Embedding-8B
8B
4096
75. 22
68. 70
73. 83
75. 00
80. 68
Qwen3-Embedding-0. 6B
0. 6B
61. 82
71. 02
64. 64
50. 26
75. 41
5. 09
Jina-multilingual-reranker-v2-base
0. 3B
58. 22
63. 37
63. 73
39. 66
58. 98
-0. 68
gte-multilingual-reranker-base
0. 3B
59. 51
74. 08
59. 44
66. 33
54. 18
-1. 64
BGE-reranker-v2-m3
0. 6B
57. 03
72. 16
58. 36
59. 51
41. 38
-0. 01
Owen3-Reranker-0. 6B
0. 6B
65. 80
71. 31
66. 36
67. 28
73. 42
5. 41
Owen3-Reranker-4B
4B
69. 76
75. 94
72. 74
69. 97
81. 20
14. 84
Qwen3-Reranker-8B
8B
69. 02
77. 45
72. 94
70. 19
81. 22
8. 05
Qwen3-Embedding-0. 6Bw/onlysyntheticdata
58. 49
60. 63
59. 78
66. 79
Qwen3-Embedding-0. 6Bw/osyntheticdata
61. 21
65. 59
63. 37
74. 58
Qwen3-Embedding-0. 6Bw/omodelmerge
62. 56
68. 18
64. 76
74. 89
Qwen3-Embedding-0. 6B
64. 33
70. 70
66. 33
75. 41
Qwen3Embedding系列模型在文本嵌入和重排序任务方面取得了显著进展,并在多项基准测试中达到了最先进的性能。
卓越的性能:Qwen3-Embedding-4B和8B模型在多语言、英语、中文和代码嵌入任务中持续超越现有模型,而0. 6B模型也展现出强大的竞争力。
多阶段训练流程的有效性:大规模弱监督预训练和模型合并策略被证明是模型高性能的关键因素。Qwen3LLM在合成高质量、多样化训练数据方面的作用对于整个训练流程至关重要。
广泛的应用前景:Qwen3Embedding系列模型支持灵活的维度表示和可定制的指令,使其适用于各种下游任务,包括检索、语义文本相似性、分类和聚类。
开放可用性:Qwen3-Embedding和Qwen3-Reranker模型的开源发布,将有助于促进社区驱动的研究和开发。
总而言之,Qwen3Embedding系列模型代表了基于基础模型在文本嵌入和重排序领域的重要进步,为自然语言处理和信息检索应用提供了强大而灵活的解决方案。
进技术交流群请添加AINLP小助手微信(id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区,专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。