R1-Searcher | Notion

这篇论文在RAG（检索增强生成）和Reasoning（多步推理）的结合中属于检索增强推理类型。其核心目的是通过检索外部知识来增强大型语言模型（LLMs）的推理能力，解决以下问题：

知识不足导致的多步推理失败：传统LLMs依赖内部知识，难以应对时效性强或知识密集型问题（如多跳问答），容易产生幻觉或不准确答案。R1-Searcher通过强化学习训练模型在推理过程中主动调用外部检索系统，动态补充所需知识，确保多步思考的连贯性和准确性。
推理与检索的深度融合：通过两阶段RL设计（检索激励与答案优化），模型自主决定检索时机，并将检索结果无缝整合到推理过程中。例如，案例显示模型通过分步检索关键信息（如年份、人物），逐步解决复杂问题，体现了检索对推理的支撑作用。

论文未聚焦于通过推理优化检索策略（如意图解析或查询改写），而是专注于通过检索弥补知识缺口，提升多步推理的可靠性。因此，其核心目标是“通过检索增强推理能力”，而非“通过推理优化检索质量”。

→ 核心推理流程：

问题分解 → 主动检索触发 → 文档整合 → 验证迭代 → 最终答案生成

单次迭代单元为 “检索触发 → 文档整合 → 局部推理验证”。模型在每次推理中可动态决定是否触发新的检索（见图6案例中的多轮检索）。

属于动态流程的Agentic RAG。