ReARTeR | Notion

这篇文章属于检索增强推理（Retrieval-Augmented Reasoning）类型，其核心目的是通过检索提升多步推理能力，解决因知识不足或推理过程偏差导致的多步思考失败问题。具体分析如下：

目标定位：

文章明确指出，现有RAG系统在复杂多步推理任务中存在局限性，而ReARTeR框架通过引入可信的流程奖励（PRM和PEM），旨在优化推理过程。这说明其最终目的是提升多步推理的准确性和可靠性，而非改进检索本身。
手段与问题：

• 检索的作用：外部知识检索（通过RAG的retriever）被用于补充推理过程中所需的知识，例如在每一步推理中动态检索文档（如式(2)中的$d_t$），以防止因知识缺失导致的推理错误。

• 关键问题：文章强调现有方法存在推理步骤的偏差（如PRM的早期步骤偏差、训练数据分布偏差），这些问题会直接导致多步推理失败。ReARTeR通过流程奖励模型和解释模型，对推理步骤进行动态评分与修正，确保每一步的合理性。
与另一类别的区别：

文中未涉及通过推理优化检索意图或查询改写（如解决query-document语义鸿沟），也未强调提升检索结果的质量。因此，不属于“推理增强检索”（即推理服务于检索优化）。

综上，文章属于检索增强推理，通过检索提供知识支撑，并结合流程奖励机制解决多步推理中的步骤偏差问题，最终提升复杂推理任务的性能。

生成多个候选推理步骤（M条路径） → PRM评分 → 选择最高分步骤 →
→ 若分数高于阈值τ，直接进入下一步；若低于τ，触发修正机制：
   → PEM生成自然语言解释 → 基于外部反馈（PRM分数 + PEM解释）修正步骤 →
→ 生成下一步骤 → 循环迭代直至完成推理链

迭代最小单元：单一步骤的生成→评分→修正循环。每个步骤的修正机制可能触发多次迭代优化，但最小执行单元为单个步骤的生成、评分与反馈修正流程。

属于动态流程的Agentic RAG

核心区别：

• 动态性证据：检索行为由模型动态触发（通过推理步骤中的检索指示符j_t判断是否执行检索），而非固定流程。

• 自主性表现：