본문 바로가기
Deep Learning/NLP

[NLP] DPR: Dense Passage Retrieval for Open-Domain Question Answering

by holy_jjjae 2024. 5. 26.

현재 Retrieval 쪽을 공부할 일이 생겨서 오랜만에 논문 리뷰 글을 써본다.

 

이번 게시물에서는 DPR을 제안한 논문인 Dense Passage Retrieval for Open-Domain Question Answering 논문이다.

 

https://arxiv.org/abs/2004.04906

 

Dense Passage Retrieval for Open-Domain Question Answering

Open-domain question answering relies on efficient passage retrieval to select candidate contexts, where traditional sparse vector space models, such as TF-IDF or BM25, are the de facto method. In this work, we show that retrieval can be practically implem

arxiv.org

 

2020년 "EMNLP" 유명한 논문으로, RAG의 retrieval module에도 사용되었다. 

 

Introduction

 

Open-domain question answering (ODQA) task는 거대한 document의 모음집으로부터 질문에 대한 정보를 찾아 답변하는 task이다. 통상적으로, 이러한 ODQA task를 수행하는 framework는 (1) Retriever과 (2) Reader 두 가지로 구성된다.

 

Retriever의 경우, 질문에 대한 답이 담겨있는 passage의 부분 집합을 선택하여 retrieve 하는 역할이고, Reader는 retrieve된 context 를 받아와 알맞은 답변를 산출하는 역할을 한다.

 

본 연구가 진행되었던 시기에는 retriever 부분에 TF-IDF와 BM25와 같은 방법론들이 주로 사용되어왔다. 이에 저자들은 이러한 방법론이 아닌, Dense encoding에 집중하였다. Dense encoding의 경우, 동의어나 의역과 같은 요소들을 잘 식별해 낸다는 장점이 존재한다.

 

예를 들어, 

Question : “Who is the bad guy in lord of the rings?”
Answer : “Sala Baker is best known for portraying the villain Sauron in the Lord of the Rings trilogy”

 

위 예제에서, “악역”의 의미로 질문에서는 “bad guy”가 쓰였지만 answer에서는 “villain”이 사용되었다

 

기존의 TF-IDF, BM25와 같은 term-based 방법론의 경우, 같은 의미에 대한 term이 달라졌기에, 해당 답변이 포함된 passage를 잘 retrieve 하지 못할 수 있다.

 

그러나 dense encoding을 기반으로 한 dense retriever의 경우, term이 달라져도 “bad guy”에 대한 representation과 “villain”에 대한 representation이 embedding space에서 가까운 위치에 있기 때문에 이를 잘 retrieve 할 수 있다. 또한, dense encoding의 경우 학습이 가능하다 (learnable) 는 특징이 있기에, task-specific representation을 가지기에 충분한 flexibility를 가진다는 장점이 존재한다.

 

그러나, 좋은 dense vector representation을 학습하기 위해서는 수많은 question-context labeled pair data 가 필요하다고 여겨져 왔으며, 기존 연구들에서는 TF-IDF와 BM25보다 월등한 성능을 보이지도 않았다. Inverse close task (ICT) objective로 dense retriever에 대해 additional pre-training을 진행한 ORQA에서 dense retriever의 성능이 BM25를 능가하긴 했으나, 여기에도 두 가지의 한계가 존재한다

 

  1. ICT pre-training의 경우, 너무 많은 계산량을 필요로 한다
  2. context encoder가 question-answer pair를 사용하여 fine-tuning 된 것이 아니기에, 해당 encoder를 이용하여 산출되는 representation은 suboptimal 할 수 있다.

본 연구에서는 이러한 기존 방법론들의 한계를 해결하기 위해, 적은 수의 question-passage pair만을 가지고 학습을 진행하는 것에 초점을 두었다고 하며, 이를 통해 나온 dense retriever를 Dense Passage Retriever (DPR) 이라고 한다.

 

 

Contribution

 

  • Additional pre-training을 거치지 않고 question encoder와 passage encoder를 fine-tuning 시키기만 한 retriever로 BM25의 성능을 능가함을 보임
  • retriever의 높은 성능이 end-to-end QA system의 높은 성능으로 이어진다는 것을 보임

 

Dense Passage Retriever(DPR)

 

Goal

  • Passage (document)들을 low-dimensional and continuous space에서 indexing
  • 이를 바탕으로 효과적으로 input text와 관련 있는 top-k개의 passage를 retrieve 하는 것

 

Overview

DPR이 위의 목적을 달성하기 위해서는, 우선적으로 passage를 low-dimensional and continuous space로 mapping해주는 encoder가 필요하다.

 

논문에서는 해당 encoder를 passage dense encoder $E_p()$라고 한다. $E_p()$는 passage의 정보를 잘 담고 있는 passage representation을 만들어낸다. 또한, 질문(question)도 representation으로 변환해야만 두 representation의 유사도를 측정하여 relevant top-k passage를 골라낼 수 있다. 이를 위해 질문을 representation으로 만들어주는 question dense encoder $E_Q()$를 둔다

 

이렇게 두 encoder를 통해 만들어진 두 representation의 유사도를 구하여 relevant top-k passage를 선정하게 된다. 본 연구에서는 아래와 같이 dot product로 두 representation 간 유사도를 측정한다

저자들은 내적외에도 Decomposable 한 유사도 함수들인 L2 거리, 코사인 유사도 등에 대해 비교 실험을 진행하였다고 한다. 그 결과, 다른 유사도를 측정하는 함수들도 잘 작동한다는 것을 확인했지만, 내적이 가장 단순한 함수이기에 내적을 채택하였다고 한다.

 

또한, multi layer cross-attention 과 같은 representation을 잘 해주는 방법들이 존재하지만, passage의 collection에 대해 미리 계산해두기 위해서는 유사도를 측정하는 함수가 Decomposable 해야하기에 이를 선택했다고 한다.

 

(Details) Encoder로는 BERT-base를 사용하였으며, passage encoder $E_p()$를 통해 산출된 passage representation들에 대해서는 FAISS (Facebook AI Similarity Search)를 이용하여 indexing을 진행했다고 한다.

 

 

Training (Metric Learning)

DPR을 학습시킨다는 것은, representation을 잘 만들어내는 encoder가 되게끔 학습을 시키는 것이다.

즉, 질문과 passage 쌍이 서로 관련 있으면 더 작은 거리를 가지고, 관련이 없으면 더 먼 거리를 가지는 representation을 산출하는 encoder로 만들어간다는 것인데, 이를 위한 목적 함수 (loss function) 은 다음과 같다.

 where

  •  : question
  •  : relevant (positive) passage
  •  : irrelevant (negative) passage

(해석) 즉, instance 안의 passage 중에서, positive passage에 대한 log-likehood가 높아질수록 negative log likelihood 형태인 목적함수의 값은 작아지고, 이를 최소화하도록 학습하여 결과적으로는 positive passage에 대한 likelihood를 높이고, negative passage에 대한 likelihood를 낮추도록 학습하는 것이다.

 

 

Positive and negative passages

그런데, 이 수식을 보다 보면 질문에 대한 negative passage를 어떻게 정할지에 대해 의문이 들게 된다. 실제로 이는 그동안 많이 간과되어 온 부분이며, 논문에서는 이에 대한 여러 옵션을 제안하고 뒷부분에서 비교 실험을 진행하였다고 한다.

 

우선, 기본적으로 논문에서 제안하는 negative passage sampling 옵션은 아래의 3가지이다.

  1. Random : passage corpus로부터 무작위로 추출
  2. BM25 : BM25를 사용하여 return 된 passage 중에서, 답을 포함하고 있진 않지만, 질문과 match가 많이 된 passage
  3. Gold : training dataset에서, 다른 질문들의 positive passage들을 negative passage로 사용

이들에 대한 전반적인 과정을 나타내는 figure는 아래와 같다

(Result) 같은 mini-batch 안에 있는 다른 질문의 positive passage들을 negative passage로 사용하고(Gold), 하나의 BM25 passage를 더해준 조합이 가장 성능이 좋았다고 한다.

 

 

In-batch negatives

하나의 mini-batch 안에 $B$개의 question이 있다고 가정할 때, 각각의 question은 positive(relevant) passage를 가진다.

 

이때, QP를 각각 (B x d) 차원의 Question embedding matrix, Passage embedding matrix라고 하면, S = QP^T는 (B x B) 차원Similarity score matrix가 된다.

 

이때, 각각의 question과 passage를 , 라고 할 때, 이면 positive (relevant) passage , 이면 negative(irrelevant) passage라고 할 수 있다. 즉, similarity scores matrix에서 대각원소에 해당하면 positive passage, 비대각원소에는 negative passage 이다.

 

저자들은 이렇게 구해진 Similarity matrix를 학습 시 재사용하여, 효율적으로 mini-batch 안에 있는 question-passage pair에 대해 학습하였다고 한다.

 

이러한 In-batch training은 각각의 질문에 대해 (B-1)개의 negative passage를 제공할 수 있다

 

Experimental Setup

 

Wikipedia Data Pre-processing

우선, passage는 Wikipedia data를 기반으로 한다.

(Dec. 20, 2018 버전의 Wikipedia dump를 기반으로 preprocessing을 진행하여 passage set을 구축)

 

저자들은 DrQA에서 사용한 pre-processing code를 사용하여 semi-structured data와 disambiguation page들을 제거했다고 한다. 이후, 100 words를 기준으로 passage를 구축하여 총 21,015,324개의 passage를 구축하였다고 한다.

 

각각의 passage들은 해당 passage가 기인한 Wikipedia 문서의 제목이 앞에 추가되었으며, 이때 제목과 passage 본문은 [SEP] token으로 구분했다고 한다.

 

 

Question Answering Dataset

저자들은 아래와 같은 dataset을 사용했다고 한다

 

 

Selection of positive passage

그런데, 여기에서 TREC, WebQuestions, TriviaQA dataset에는 passage가 주어지지 않고, 오로지 질문과 답만 주어지기에, 저자들은 BM25를 통해 positive passage labeling을 진행하였다. 질문과 구축한 Wikipedia passage에 대해 BM25를 적용시켜, 답을 포함하고 있는 highest-ranked passage를 positive passage로 labeling 하였다.

 

다만, 답을 포함하고 있는 passage가 나오지 않는 경우도 있는데, 저자들은 이러한 경우엔 top-100 retrieved passage 모두에서 답이 없을 경우, 해당 질문은 폐기하였다고 한다.

 

SQuAD와 NaturalQuestions의 경우, 기본적으로 passage까지 주어지지만, 해당 dataset들에서 passage를 처리한 과정이 본 연구와는 달랐기에, 두 dataset에 대해서도 positive passage에 대해 match and replace를 진행하였다고 한다.

 

그 결과, 위의 table에서 확인할 수 있는 것처럼 전처리 전과 후의 질문의 갯수가 달라진 것을 확인할 수 있다.

 

 

 Experiments

 

Experiments : Passage Retrieval

저자들은 먼저 기존 BM25와 같은 전통적인 Retrieval 방법에 비해 DPR이 얼마나 성능 향상을 이끌어내는지에 대한 실험을 진행하였다.

 

해당 실험에서 사용된 DPR model에 대한 정보는

  • trained using the in-batch negative setting
  • batch size : 128
  • trained both encoder for up to 40 epochs for large dataset(NQ, TriviaQA, SQuAD)
  • trained both encoder for up to 100 epochs for small dataset(TREC, WQ)
  • learning rate $10^{-5}$
  • optimizer : Adam
  • dropout : 0.1

 

  1. Single: 개별 dataset에 fine-tuning을 시킨 이후 해당 dataset에 대해 성능 평가: single
  2. Multi: 여러 dataset을 혼합하고, 훈련시킨 encoder 하나만으로 모든 dataset에 대해 성능 평가

(단, mulit에서 SQuAD는 training dataset에서 제외됨)

 

추가적으로, 각 상황에 대해 DPR 단독으로 사용했을 때와, BM25와 DPR을 같이 사용하는 상황에 대해서도 성능 측정을 하였다. 이런 경우에서는 우선 DPR과 BM25 각각 top-2000 passage를 retrieve 한 다음, 아래의 수식을 이용하여 다시 순위를 매겨 최종적으로 retrieve 될 passage를 산출하였다고 한다.

($\lambda$ = 1.1 을 사용)

 

 

Main Result

이에 대한 결과는 아래와 같다

 

SQuAD dataset을 제외한 모든 dataset에서 DPR이 BM25에 비해 더 좋은 성능을 내는 것을 확인할 수 있다.

 

Multiple dataset으로 학습한 경우, TREC과 같이 작은 크기의 dataset에서 성능 향상의 효과가 나타나는 것을 확인할 수 있다. 그와는 반대로, NQ나 WebQuestion과 같이 보다 큰 크기의 dataset에서는 Single setting에 비해 성능이 하락하는 것을 확인할 수 있다.

 

또한, BM25와 DPR 혼합 setting의 경우, 몇몇 dataset에서만 성능 향상이 있었음을 확인할 수 있다.

 

그런데, DPR이 유독 SQuAD dataset에 대해서는 성능이 좋지 않다. 저자들은 이에 대해 아래의 두 가지 이유일 것이라 추측한다

  • SQuAD의 annotator들이 passage를 본 뒤에 question을 작성했기 때문에, passage와 question 사이의 어휘 중복이 많이 일어났다. 이러한 점이 BM25에게 더 유리하다.
  • SQuAD dataset은 단지 500개가량의 Wikipedia article들에서 수집되었기 때문에, training example들이 극히 편향 (extremely biased) 되어있기 때문이다.

 

 

Ablation Study on Model Training

이어서, model 학습에 대해 비교 실험을 진행한 부분이다.

 

 

Sample Efficiency

먼저, 저자들은 good passage retrieval performance를 얻기 위해 얼마나 많은 training example이 필요한지에 대한 실험을 진행하였다. 해당 실험의 결과는 아래와 같다

 

단지 1000개의 training example을 사용한 순간부터도 DPR이 BM25의 성능을 능가함을 확인할 수 있다. 이러한 결과는 작은 수의 question-passage pair로도 high-quality dense retriever를 학습시킬 수 있다는 점을 시사한다.

 

또한, training example을 추가할수록 성능을 계속 증가하는 것을 확인할 수 있다.

 

 

In-batch negative training

이어서, 저자들은 각각 다른 training schemes들에 대해서 NQ dataset의 development set으로 성능 측정 및 비교를 진행하였다. 해당 결과는 아래와 같다.

결과표를 보면, 3개의 block으로 나눠져 있음을 확인할 수 있다.

이는 다음과 같은 기준으로 분류되었다

  • 상단 블럭 : standard 1-of-N training setting
  • 가운데 블럭 : Gold with In-batch negative setting
  • 하단 블럭 : Gold with In-batch negative setting + 1 or 2 BM25 passage

먼저 상단 블럭의 결과부터 살펴보면, Top-5에서는 BM25 sampling이 가장 좋은 결과를 산출했지만, Top-20부터는 세 방법론 모두 비슷한 성능을 내는 것을 확인할 수 있다.

 

그러나 가운데 블럭을 보면, top-block의 gold #7 setting에 비해 in-batch training을 적용한 gold #7 setting의 성능이 매우 좋아진 것을 확인할 수 있다. 또한, In batch이기 때문에 batch size가 늘어날수록 전체 negative passage의 개수도 늘어난다. 따라서, batch size, 즉 negative example의 개수를 늘릴수록 성능 향상이 이루어지는 것도 확인할 수 있다.

 

마지막으로 하단 블럭을 살펴보면, 해당 block은 batch에 존재하는 각각의 질문마다 1개 혹은 2개의 BM25 negative passage (hard negative passage)를 추가해 준 block이다

.

이러한 hard negative를 추가하는 것이 성능 향상에 도움을 줬지만, 2개를 추가했을 때는 오히려 1개만 추가했을 때보다 성능 하락이 있음을 확인할 수 있다. 또한 middle block과 마찬가지로 batch size, 즉 negative example의 개수를 늘릴수록 성능 향상이 이루어지는 것도 확인할 수 있다.

 

 

Cross-dataset  generalization

저자들은 DPR이 학습된 dataset이 아닌, test dataset에서도 잘 작동하는지, 즉, 일반화 성능이 어떤지에 대해서도 실험을 진행하였다.

 

이를 위해 DPR을 NQ dataset으로 학습한 뒤 WebQuestion, CuratedTREC dataset에 대해 성능 측정을 하였다

 

해당 실험 결과, 해당 dataset으로 fine-tuned 된 DPR에 비해 top-20 retrieval accuracy에서 3~5 point정도 성능 하락이 있었다고 한다.

  • WebQuestions : 75.0 → 69.9
  • CuratedTREC : 89.1 → 86.3

논문에서는 이에 대해 성능 하락이 있었지만, 어느 정도 잘 동작하며, 무엇보다 BM25의 성능보다 우월한 성능을 가진다고 이야기한다

 

 

Qualitative Analysis

저자들은 BM25와 DPR이 retrieve 하는 passage의 성격 차이에 대해서도 이야기한다.

 

BM25는 키워드에 더 민감하게 반응하고, DPR은 의미적 관계나 어휘적 변형을 더 잘 포착했다고 한다. 아래는 두 Retriever가 같은 질문에 대해 retrieve 한 passage의 예시이다.

 

첫 번째 행은 DPR이 더 잘 retrieve한 경우이고, 두 번째는 BM25가 더 잘 retrieve한 경우이다.

 

첫 번째 예시의 경우, BM25는 England나 Ireland와 같은 keyword에만 집중하여 잘못된 passage를 가져온 반면, DPR은 body of water의 의미적인 관계를 포착하여 Irish Sea passage를 잘 가져왔다

 

두 번째 예시의 경우, Thoros of Myr라는 키워드가 중요한 문제였는데, DPR은 이것을 잘 포착하지 못한 반면 BM25는 이러한 요소를 잘 포착함을 확인할 수 있다.

 

 

Question Answering

마지막으로, DPR을 포함한 다양한 Retriever를 사용하여 ODQA task를 진행하였다

 

 

DPR을 사용한 ODQA system이 SQuAD를 제외한 모든 dataset에서 가장 좋은 성능을 낸 것을 확인할 수 있다.