Qwen3 Embedding - 合成数据 is all you need


Qwen3 Embedding - 合成数据 is all you need

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

今天看看QwenEmbedding。
Qwen-Embedding是基于GTE升级的。看到GTE,我是比较抵触的,所以一直也懒得看技术报告。
整体内容不是特别的新颖,个人觉着。大规模训练+高质量微调+模型合成。
值得聊聊的是合成数据。
第一阶段使用1. 5亿的合成数据。
为了适应MTEB的各种,如分类,排序,召回等等任务。
合成步骤分2步:
第一步确定文档适合的人群、问题类型、难度。
第二步确定出具体的查询。
第二阶段使用接近2000万的高质量pair数据。
筛选第一阶段cosinesim>0. 7的数据1200万+开源QA数据700万。
第三阶段,merge一下几个ckpt,常规提分操作,但是单独拎出来说,略上不了台面。
训练架构很常规,向量取EOS向量。Reranking取最后一个做二分类。
训练损失InfoNCE,加了个mask,忽略掉比正样本得分还高一些的负样本(疑似假阴性)。
不知道具体效果如何,测试过的同学,可以评论留言~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录