Qwen3 Embedding - 合成数据 is all you need

发布日期: 2025-06-14

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

今天看看QwenEmbedding。
Qwen-Embedding是基于GTE升级的。看到GTE，我是比较抵触的，所以一直也懒得看技术报告。
整体内容不是特别的新颖，个人觉着。大规模训练+高质量微调+模型合成。
值得聊聊的是合成数据。
第一阶段使用1. 5亿的合成数据。
为了适应MTEB的各种，如分类，排序，召回等等任务。
合成步骤分2步：
第一步确定文档适合的人群、问题类型、难度。
第二步确定出具体的查询。
第二阶段使用接近2000万的高质量pair数据。
筛选第一阶段cosinesim>0. 7的数据1200万+开源QA数据700万。
第三阶段，merge一下几个ckpt，常规提分操作，但是单独拎出来说，略上不了台面。
训练架构很常规，向量取EOS向量。Reranking取最后一个做二分类。
训练损失InfoNCE，加了个mask，忽略掉比正样本得分还高一些的负样本（疑似假阴性）。
不知道具体效果如何，测试过的同学，可以评论留言~