根据论文内容,DeepRAG 属于 检索增强推理(Retrieval-Augmented Reasoning) 类型,其核心目的是 通过动态检索提升多步推理的准确性和效率,具体解决以下问题:

  1. 弥补模型内部知识的局限性

    针对 LLM 因参数化知识存在时效性、准确性和覆盖范围不足导致的事实性幻觉(factual hallucination),通过按需检索外部知识补充关键信息,避免因知识缺失导致多步推理失败。

  2. 优化冗余检索与噪声干扰

    传统 RAG 方法在复杂查询中可能因任务分解不充分或过度检索引入噪声,而 DeepRAG 通过原子决策(atomic decisions)动态判断每一步是否需要检索,减少不必要的检索操作,降低噪声对推理过程的干扰。

  3. 增强推理的连贯性与适应性

    通过将推理过程建模为马尔可夫决策过程(MDP),结合检索叙事(retrieval narrative)结构化分解问题,确保子查询的生成和检索决策紧密依赖前序推理结果,从而构建更连贯、自适应的多步推理链条。

实验结果(如答案准确性提升 21.99%、检索效率优化)进一步验证了该方法通过检索增强推理的有效性,而非通过推理优化检索策略。因此,DeepRAG 的核心目标是通过检索支持多步推理,而非通过推理改进检索意图解析或文档匹配。


1. 多步推理过程总结

核心推理流程

问题分解 → 子查询生成 → 原子决策(检索/参数)→ 生成中间答案 → 迭代(直到终止决策)→ 最终答案

最小迭代单元

每个子查询处理单元包含:

子查询生成 → 原子决策(检索/参数)→ 中间答案生成

(若决策为检索:子查询 → 文档检索 → 中间答案;若为参数:子查询 → 内部知识 → 中间答案

1. 多步推理过程总结

核心推理流程

问题分解 → 子查询生成 → 原子决策(检索/参数推理)→ 中间答案生成 → [循环迭代] → 最终答案综合

迭代最小单元过程

(1) 状态观察:基于当前问题分解状态 $s_t = [x, (q_1, r_1),...,(q_t, r_t)]$
(2) 动作选择:
   - 终止决策 $\\sigma_{t+1}$:判断是否继续分解问题
   - 原子决策 $\\delta_{t+1}$:选择检索/参数推理
(3) 状态转移:
   - 若选择检索:$r_{t+1} = [d_{t+1}, ia_{t+1}]$(文档+中间答案)
   - 若选择参数推理:$r_{t+1} = ia_{t+1}$(纯中间答案)
(4) 奖励评估:最终答案正确性与检索成本的联合优化