REALM: Retrieval-Augmented Language Model Pre-Training

https://papers.cool/arxiv/2002.08909

Authors: Kelvin Guu ; Kenton Lee ; Zora Tung ; Panupong Pasupat ; Ming-Wei Chang

Summary: Language model pre-training has been shown to capture a surprising amount of world knowledge, crucial for NLP tasks such as question answering. However, this knowledge is stored implicitly in the parameters of a neural network, requiring ever-larger networks to cover more facts. To capture knowledge in a more modular and interpretable way, we augment language model pre-training with a latent knowledge retriever, which allows the model to retrieve and attend over documents from a large corpus such as Wikipedia, used during pre-training, fine-tuning and inference. For the first time, we show how to pre-train such a knowledge retriever in an unsupervised manner, using masked language modeling as the learning signal and backpropagating through a retrieval step that considers millions of documents. We demonstrate the effectiveness of Retrieval-Augmented Language Model pre-training (REALM) by fine-tuning on the challenging task of Open-domain Question Answering (Open-QA). We compare against state-of-the-art models for both explicit and implicit knowledge storage on three popular Open-QA benchmarks, and find that we outperform all previous methods by a significant margin (4-16% absolute accuracy), while also providing qualitative benefits such as interpretability and modularity.


Q: 这篇论文试图解决什么问题?

A: 这篇论文提出了一种名为REALM(Retrieval-Augmented Language Model Pre-Training)的新框架,旨在解决以下问题:

  1. 隐式知识存储的局限性:现有的语言模型如BERT、RoBERTa和T5等在预训练过程中能够捕获大量的世界知识,但这些知识是以隐式的方式存储在神经网络的参数中。这导致了两个主要问题:首先,难以确定网络中存储了哪些知识以及知识的具体位置;其次,为了捕获更多的世界知识,需要训练更大的网络,这可能导致训练速度变慢或成本增加。
  2. 知识模块化和可解释性:为了以更模块化和可解释的方式捕获知识,REALM通过引入一个潜在的知识检索器(latent knowledge retriever)来增强语言模型的预训练。这种方法使得模型在推理过程中能够显式地决定检索和使用哪些知识。
  3. 计算挑战:在预训练过程中加入大规模的神经检索模块是一个显著的计算挑战,因为检索器必须考虑数百万份候选文档,并且需要通过检索步骤进行反向传播。为了解决这个问题,论文提出了一种结构化的检索器设计,使得对每份文档的计算可以被缓存和异步更新。
  4. 开放域问答(Open-QA)任务的挑战:开放域问答是自然语言处理中最具知识密集性的任务之一。在这类任务中,模型必须从大量文档中保留知识,因为问题可能涉及任何文档。REALM通过在预训练和微调阶段使用检索增强的语言模型来提高在Open-QA任务上的表现。

总结来说,REALM旨在通过结合检索增强和预训练,提高语言模型在处理开放域问答等任务时的性能,同时提供更好的知识可解释性和模块化。


Q: 有哪些相关研究?

A: 这篇论文提到了与REALM相关的几个研究领域和具体工作,主要包括:

  1. 语言模型预训练:BERT (Devlin et al., 2018)、RoBERTa (Liu et al., 2019) 和 T5 (Raffel et al., 2019) 等模型展示了如何通过预训练捕获大量的世界知识。这些模型通常在大规模文本语料库上进行预训练,然后在特定任务上进行微调。
  2. 开放域问答(Open-QA):开放域问答任务要求模型在没有预定义文档的情况下回答问题,这需要模型从大量文档中检索和利用知识。相关工作包括DrQA (Chen et al., 2017)、HardEM (Min et al., 2019a)、GraphRetriever (Min et al., 2019b) 和 PathRetriever (Asai et al., 2019) 等,这些系统通常采用检索加阅读理解的方法来回答问题。
  3. 检索增强的神经网络:一些研究提出了在神经网络中加入检索步骤的方法,例如Key-Value Memory Networks (Miller et al., 2016) 和 k-Nearest Neighbor Language Model (Khandelwal et al., 2019)。这些工作展示了在神经网络中加入检索步骤的好处,但并没有将其应用于语言模型预训练。
  4. 生成式模型:最近的研究开始探索将开放域问答视为序列预测任务,例如GPT-2 (Radford et al., 2019) 和 T5 (Raffel et al., 2019)。这些模型直接生成答案,而不依赖于给定的上下文。
  5. 检索和编辑框架:Guu et al. (2018) 提出了一种语言模型,它使用检索和编辑框架来生成结构化输出,这与REALM在某种程度上相似,但REALM学习自己决定哪些文本最有用于减少困惑度。