KaLM-Embedding：模型重塑多语言文本Embedding模型

1、引言

在大型语言模型（LLMs）迅速发展的今天，检索增强生成已经成为提升模型性能的重要手段。然而，随着RAG框架的广泛应用，文本Embedding模型逐渐成为制约其进一步发展的瓶颈。传统Embedding模型在处理多语言、多领域任务时，往往因训练数据质量不高而表现欠佳。为此，我们推出了KaLM-Embedding（Knowledge in large Language Models into Embedding）模型，其在MTEB（Massive Text Embedding Benchmark）基准测试中，多语能力超越了同规模的其他模型。

2、KaLM-Embedding：创新训练方法打造卓越多语言模型

（1）数据收集：奠定模型成功的基石

在KaLM-Embedding模型的开发过程中，我们精心设计了数据收集策略，以确保模型在多语言、多领域的任务中表现出色。

大规模开源数据集：多样性与质量的结合

预训练数据：在对比预训练阶段，通过引入大规模的弱监督训练对使得原本的语言模型转换为Embedding模型，具备初步的文本Embedding表征能力，为后续的微调奠定基础。我们使用了来自各种文档的标题-正文对以及对称翻译句子对数据，并补充了部分大规模监督问答数据集，确保数据的多样性和覆盖范围。
微调数据：在微调阶段，我们引入了超过70个不同来源的高质量数据集。这些数据集种类繁多、质量上乘，尽管数据量较小，却为模型的精细化训练提供了理想条件。我们纳入了多个分类和聚类数据集，将每个（句子，类别标签）对视为一个训练实例。此外，我们从所有分类数据集中采样难负样本，以缓解某些数据集中标签类别不足的问题。对于每个特定数据集，我们进行了细致的处理，如过滤掉过短的文档或根据元数据排除低质量部分。
数据纯净度：为了确保数据的纯净度，我们仅使用所有数据集的训练集，明确排除任何测试集。对于没有分离训练集和测试集的数据集，我们首先过滤掉包含在MTEB中的测试集样本，然后处理剩余数据。这一策略确保了训练过程中，所有出现在MTEB评估中的示例都未被模型提前看到。

尽管微调数据以中文和英文为主，仅包含少量多语言数据，但模型在其他语言上的表现依然令人满意，表明预训练LLMs的多语言优势可以成功转移到嵌入模型中。

基于角色的合成数据：提升数据多样性与领域覆盖

我们利用Qwen2-72B-Instruct生成了55万条高质量的合成数据，涵盖6种任务类型和4万条独特指令。为了增强数据的多样性，我们引入了Persona Hub中的随机角色作为系统提示，有效提升了生成数据的领域多样性。由于4种检索任务需要在生成数据之前生成指令，我们仅在指令生成阶段引入角色，避免了两个阶段之间角色冲突。

（2）训练策略：优化模型性能的关键

排序一致性过滤：精准筛选样本

除了使用批内负样本外，我们还从数据集的语料库中检索难负样本。然而，某些查询可能对应多个正确文档或答案，或过于宽泛，导致与多个文档相关联，尽管相关性较低。这些情况会引入假负样本，对模型优化产生不利影响。

为了解决这一问题，我们采用了排序一致性过滤（top-k过滤）方法，通过对查询与其原始正样本数据在整个文档语料库中的相似度进行排名，过滤掉正样本数据对排名不在前k位的样本。这一过程与难负样本挖掘同时进行，以避免冗余计算。