这篇论文在RAG(检索增强生成)和Reasoning(多步推理)的结合中属于检索增强推理类型。其核心目的是通过检索外部知识来增强大型语言模型(LLMs)的推理能力,解决以下问题:

  1. 知识不足导致的多步推理失败:传统LLMs依赖内部知识,难以应对时效性强或知识密集型问题(如多跳问答),容易产生幻觉或不准确答案。R1-Searcher通过强化学习训练模型在推理过程中主动调用外部检索系统,动态补充所需知识,确保多步思考的连贯性和准确性。
  2. 推理与检索的深度融合:通过两阶段RL设计(检索激励与答案优化),模型自主决定检索时机,并将检索结果无缝整合到推理过程中。例如,案例显示模型通过分步检索关键信息(如年份、人物),逐步解决复杂问题,体现了检索对推理的支撑作用。

论文未聚焦于通过推理优化检索策略(如意图解析或查询改写),而是专注于通过检索弥补知识缺口,提升多步推理的可靠性。因此,其核心目标是“通过检索增强推理能力”,而非“通过推理优化检索质量”。


1. 多步推理过程总结

核心推理流程

问题分解 → 主动检索触发 → 文档整合 → 验证迭代 → 最终答案生成

  1. 问题分解:模型将复杂问题拆解为多个子问题(如“确定最后一位汉诺威国王的姓名”→“查询其死亡时间”)。
  2. 检索触发:在推理过程中,模型通过生成特殊标记(<begin_of_query>主动触发检索,获取外部知识。
  3. 文档整合:检索结果(<begin_of_documents>...</end_of_documents>)被嵌入推理路径,作为后续生成的依据。
  4. 验证迭代:根据当前推理结果,模型可能多次触发检索以补充信息或修正错误(例如案例中首次检索未完全解决问题时触发二次检索)。
  5. 答案生成:最终答案需严格符合格式(<answer>标签)并覆盖真实答案(Cover Exact Match)。

单次迭代单元为 “检索触发 → 文档整合 → 局部推理验证”。模型在每次推理中可动态决定是否触发新的检索(见图6案例中的多轮检索)。


2. 方法类型判断

属于动态流程的Agentic RAG