DeepRAG | Notion

根据论文内容，DeepRAG 属于 检索增强推理（Retrieval-Augmented Reasoning） 类型，其核心目的是 通过动态检索提升多步推理的准确性和效率，具体解决以下问题：

弥补模型内部知识的局限性：

针对 LLM 因参数化知识存在时效性、准确性和覆盖范围不足导致的事实性幻觉（factual hallucination），通过按需检索外部知识补充关键信息，避免因知识缺失导致多步推理失败。
优化冗余检索与噪声干扰：

传统 RAG 方法在复杂查询中可能因任务分解不充分或过度检索引入噪声，而 DeepRAG 通过原子决策（atomic decisions）动态判断每一步是否需要检索，减少不必要的检索操作，降低噪声对推理过程的干扰。
增强推理的连贯性与适应性：

通过将推理过程建模为马尔可夫决策过程（MDP），结合检索叙事（retrieval narrative）结构化分解问题，确保子查询的生成和检索决策紧密依赖前序推理结果，从而构建更连贯、自适应的多步推理链条。

实验结果（如答案准确性提升 21.99%、检索效率优化）进一步验证了该方法通过检索增强推理的有效性，而非通过推理优化检索策略。因此，DeepRAG 的核心目标是通过检索支持多步推理，而非通过推理改进检索意图解析或文档匹配。

1. 多步推理过程总结

核心推理流程：

问题分解 → 子查询生成 → 原子决策（检索/参数）→ 生成中间答案 → 迭代（直到终止决策）→ 最终答案

最小迭代单元：

每个子查询处理单元包含：

子查询生成 → 原子决策（检索/参数）→ 中间答案生成

（若决策为检索：子查询 → 文档检索 → 中间答案；若为参数：子查询 → 内部知识 → 中间答案）

1. 多步推理过程总结

核心推理流程：

问题分解 → 子查询生成 → 原子决策（检索/参数推理）→ 中间答案生成 → [循环迭代] → 最终答案综合

迭代最小单元过程：

(1) 状态观察：基于当前问题分解状态 $s_t = [x, (q_1, r_1),...,(q_t, r_t)]$
(2) 动作选择：
   - 终止决策 $\\sigma_{t+1}$：判断是否继续分解问题
   - 原子决策 $\\delta_{t+1}$：选择检索/参数推理
(3) 状态转移：
   - 若选择检索：$r_{t+1} = [d_{t+1}, ia_{t+1}]$（文档+中间答案）
   - 若选择参数推理：$r_{t+1} = ia_{t+1}$（纯中间答案）
(4) 奖励评估：最终答案正确性与检索成本的联合优化