Improving Language Understanding by Generative Pre-Training

Improving Language Understanding by Generative Pre-Training

2025. 9. 12. 15:31ㆍ업무/데이터과학

728x90

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Abstract

Natural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment, and document classification. Although large unlabeled text corpora are abundant, labeled data for learning these specific tasks is scarce, making it challenging for discriminatively trained models to perform adequately. We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each
specific task. In contrast to previous approaches, we make use of task-aware input transformations during fine-tuning to achieve effective transfer while requiring minimal changes to the model architecture. We demonstrate the effectiveness of our approach on a wide range of benchmarks for natural language understanding. Our general task-agnostic model outperforms discriminatively trained models that use architectures specifically crafted for each task, significantly improving upon the state of the art in 9 out of the 12 tasks studied. For instance, we achieve absolute improvements of 8.9% on commonsense reasoning (Stories Cloze Test), 5.7% on question answering (RACE), and 1.5% on textual entailment (MultiNLI).
자연어 이해는 텍스트 내포, 질문 응답, 의미 유사도 평가, 문서 분류 등 다양한 작업을 포함합니다. 대규모 레이블이 없는 텍스트 코퍼스는 풍부하지만, 특정 작업을 위한 레이블 데이터는 부족하여 차별적으로 훈련된 모델의 성능이 제한됩니다. 이 연구는 언어 모델을 생성적으로 사전 훈련하고, 각 작업에 대해 차별적으로 미세 조정을 수행함으로써 이러한 문제를 해결합니다. 작업 인식 입력 변환을 사용하여 모델 아키텍처에 최소한의 변경만 가하면서도 효과적인 전이를 달성합니다. 이 접근 방식은 다양한 자연어 이해 벤치마크에서 효과적이며, 일반적인 작업 비의존적 모델이 각 작업에 특화된 모델보다 우수한 성능을 보이며, 12개 작업 중 9개에서 최신 기술을 크게 개선합니다. 예를 들어, 상식 추론에서 8.9%, 질문 응답에서 5.7%, 텍스트 내포에서 1.5%의 향상을 달성했습니다.

1 Introduction

The ability to learn effectively from raw text is crucial to alleviating the dependence on supervised learning in natural language processing (NLP). Most deep learning methods require substantial amounts of manually labeled data, which restricts their applicability in many domains that suffer from a dearth of annotated resources [61]. In these situations, models that can leverage linguistic information from unlabeled data provide a valuable alternative to gathering more annotation, which can be time consuming and expensive. Further, even in cases where considerable supervision is available, learning good representations in an unsupervised fashion can provide a significant performance boost. The most compelling evidence for this so far has been the extensive use of pretrained word embeddings [10, 39, 42] to improve performance on a range of NLP tasks [8, 11, 26, 45].
자연어 처리(NLP)에서 원시 텍스트로부터 효과적으로 학습하는 능력은 지도 학습에 대한 의존성을 완화하는 데 중요합니다. 대부분의 딥러닝 방법은 상당한 양의 수동으로 레이블된 데이터를 필요로 하며, 이는 주석이 부족한 많은 도메인에서 적용 가능성을 제한합니다 [61]. 이러한 상황에서, 레이블이 없는 데이터에서 언어 정보를 활용할 수 있는 모델은 주석 수집의 시간과 비용을 절약할 수 있는 가치 있는 대안이 됩니다. 또한, 상당한 양의 지도 데이터가 있는 경우에도, 비지도 방식으로 좋은 표현을 학습하는 것이 성능 향상에 큰 도움이 될 수 있습니다. 지금까지 이에 대한 가장 설득력 있는 증거는 다양한 NLP 작업에서 성능을 향상시키기 위해 사전 훈련된 단어 임베딩 [10, 39, 42]을 광범위하게 사용한 것입니다.
Leveraging more than word-level information from unlabeled text, however, is challenging for two main reasons. First, it is unclear what type of optimization objectives are most effective at learning text representations that are useful for transfer. Recent research has looked at various objectives such as language modeling [44], machine translation [38], and discourse coherence [22], with each method outperforming the others on different tasks. Second, there is no consensus on the most effective way to transfer these learned representations to the target task. Existing techniques involve a combination of making task-specific changes to the model architecture [43, 44], using intricate learning schemes [21] and adding auxiliary learning objectives [50]. These uncertainties have made it difficult to develop effective semi-supervised learning approaches for language processing.
그러나 레이블이 없는 텍스트에서 단어 수준 이상의 정보를 활용하는 것은 두 가지 주요 이유로 어렵습니다. 첫째, 전이에 유용한 텍스트 표현을 학습하는 데 가장 효과적인 최적화 목표가 무엇인지 명확하지 않습니다. 최근 연구는 언어 모델링 [44], 기계 번역 [38], 담화 일관성 [22] 등 다양한 목표를 탐구했으며, 각 방법은 다른 작업에서 다른 방법보다 우수한 성능을 보였습니다. 둘째, 학습된 표현을 대상 작업에 효과적으로 전이하는 가장 효과적인 방법에 대한 합의가 없습니다. 기존 기술은 모델 아키텍처에 작업별 변경을 가하거나 [43, 44], 복잡한 학습 방식을 사용하거나 [21], 보조 학습 목표를 추가하는 것 [50]을 포함합니다. 이러한 불확실성으로 인해 언어 처리에 대한 효과적인 준지도 학습 접근법을 개발하는 것이 어려웠습니다.
[https://gluebenchmark.com/leaderboard]
In this paper, we explore a semi-supervised approach for language understanding tasks using a combination of unsupervised pre-training and supervised fine-tuning. Our goal is to learn a universal representation that transfers with little adaptation to a wide range of tasks. We assume access to a large corpus of unlabeled text and several datasets with manually annotated training examples (target tasks). Our setup does not require these target tasks to be in the same domain as the unlabeled corpus. We employ a two stage training procedure. First, we use a language modeling objective on the unlabeled data to learn the initial parameters of a neural network model. Subsequently, we adapt these parameters to a target task using the corresponding supervised objective.
이 논문에서는 비지도 사전 훈련과 지도 미세 조정을 결합한 언어 이해 작업을 위한 준지도 접근법을 탐구합니다. 우리의 목표는 최소한의 적응으로 다양한 작업에 전이될 수 있는 범용 표현을 학습하는 것입니다. 우리는 대규모 레이블이 없는 텍스트 코퍼스와 수동으로 주석이 달린 훈련 예제가 있는 여러 데이터셋(대상 작업)에 접근할 수 있다고 가정합니다. 우리의 설정은 이러한 대상 작업이 레이블이 없는 코퍼스와 동일한 도메인일 필요가 없습니다. 우리는 두 단계의 훈련 절차를 사용합니다. 첫째, 레이블이 없는 데이터에서 언어 모델링 목표를 사용하여 신경망 모델의 초기 매개변수를 학습합니다. 그 후, 해당 지도 목표를 사용하여 이 매개변수를 대상 작업에 적응시킵니다.
For our model architecture, we use the Transformer [62], which has been shown to perform strongly on various tasks such as machine translation [62], document generation [34], and syntactic parsing [29]. This model choice provides us with a more structured memory for handling long-term dependencies in text, compared to alternatives like recurrent networks, resulting in robust transfer performance across diverse tasks. During transfer, we utilize task-specific input adaptations derived from traversal-style approaches [52], which process structured text input as a single contiguous sequence of tokens. As we demonstrate in our experiments, these adaptations enable us to fine tune effectively with minimal changes to the architecture of the pre-trained model.
우리의 모델 아키텍처로는 다양한 작업에서 강력한 성능을 보인 Transformer [62]를 사용합니다 [62]. 이 선택은 순환 네트워크와 같은 대안과 비교하여 텍스트의 장기 의존성을 처리하기 위한 더 구조화된 메모리를 제공하며, 다양한 작업에서 강력한 전이 성능을 제공합니다. 전이 과정에서 우리는 순회 방식 [52]에서 파생된 작업별 입력 적응을 사용하여 사전 훈련된 모델의 아키텍처에 최소한의 변경만으로 효과적으로 미세 조정할 수 있음을 실험에서 보여줍니다.
We evaluate our approach on four types of language understanding tasks – natural language inference, question answering, semantic similarity, and text classification. Our general task-agnostic model outperforms discriminatively trained models that employ architectures specifically crafted for each task, significantly improving upon the state of the art in 9 out of the 12 tasks studied. For instance, we achieve absolute improvements of 8.9% on commonsense reasoning (Stories Cloze Test) [40], 5.7% on question answering (RACE) [30], 1.5% on textual entailment (MultiNLI) [66] and 5.5% on the recently introduced GLUE multi-task benchmark [64]. We also analyzed zero-shot behaviors of the pre trained model on four different settings and demonstrate that it acquires useful linguistic knowledge for downstream tasks.
우리는 자연어 추론, 질문 응답, 의미 유사도, 텍스트 분류와 같은 네 가지 유형의 언어 이해 작업에서 우리의 접근법을 평가합니다. 우리의 일반적인 작업 비의존적 모델은 각 작업에 특화된 아키텍처를 사용하는 차별적으로 훈련된 모델보다 우수한 성능을 보이며, 연구된 12개 작업 중 9개에서 최신 기술을 크게 개선합니다. 예를 들어, 상식 추론(Story Cloze Test) [40]에서 8.9%, 질문 응답(RACE) [30]에서 5.7%, 텍스트 내포(MultiNLI) [66]에서 1.5%, 그리고 최근에 도입된 GLUE 다중 작업 벤치마크 [64]에서 5.5%의 절대적인 향상을 달성했습니다. 또한, 우리는 사전 훈련된 모델의 제로지식 행동을 네 가지 다른 설정에서 분석하고, 이것이 다운스트림 작업에 유용한 언어 지식을 습득했음을 보여줍니다.

2 Related Work

Semi-supervised learning for NLP Our work broadly falls under the category of semi-supervised learning for natural language. This paradigm has attracted significant interest, with applications to tasks like sequence labeling [24, 33, 57] or text classification [41, 70]. The earliest approaches used unlabeled data to compute word-level or phrase level statistics, which were then used as features in a supervised model [33]. Over the last few years, researchers have demonstrated the benefits of using word embeddings [11, 39, 42], which are trained on unlabeled corpora, to improve performance on a variety of tasks [8, 11, 26, 45]. These approaches, however, mainly transfer word-level information, whereas we aim to capture higher-level semantics.
우리의 작업은 자연어를 위한 준지도 학습 범주에 속합니다. 이 패러다임은 시퀀스 레이블링 [24, 33, 57]이나 텍스트 분류 [41, 70]과 같은 작업에 적용되어 상당한 관심을 끌어왔습니다. 초기 접근 방식은 레이블이 없는 데이터를 사용하여 단어 수준 또는 구문 수준의 통계를 계산하고, 이를 지도 모델의 특성으로 사용했습니다 [33]. 지난 몇 년 동안 연구자들은 레이블이 없는 코퍼스에서 훈련된 단어 임베딩 [11, 39, 42]을 사용하여 다양한 작업의 성능을 향상시키는 이점을 보여주었습니다 [8, 11, 26, 45]. 그러나 이러한 접근 방식은 주로 단어 수준의 정보를 전이하는 반면, 우리는 더 높은 수준의 의미를 포착하는 것을 목표로 합니다.
Recent approaches have investigated learning and utilizing more than word-level semantics from unlabeled data. Phrase-level or sentence level embeddings, which can be trained using an unlabeled corpus, have been used to encode text into suitable vector representations for various target tasks [28, 32, 1, 36, 22, 12, 56, 31].
최근 접근 방식은 레이블이 없는 데이터에서 단어 수준 이상의 의미를 학습하고 활용하는 것을 탐구했습니다. 구문 수준 또는 문장 수준 임베딩은 레이블이 없는 코퍼스를 사용하여 훈련될 수 있으며, 이를 통해 다양한 대상 작업을 위한 적절한 벡터 표현으로 텍스트를 인코딩하는 데 사용됩니다 [28, 32, 1, 36, 22, 12, 56, 31].
Unsupervised pre-training Unsupervised pre training is a special case of semi-supervised learning where the goal is to find a good initialization point instead of modifying the supervised learning objective. Early works explored the use of the technique in image classification [20, 49, 63] and regression tasks [3]. Subsequent research [15] demonstrated that pre-training acts as a regularization scheme, enabling better generalization in deep neural networks. In recent work, the method has been used to help train deep neural networks on various tasks like image classification [69], speech recognition [68], entity disambiguation [17] and machine translation [48].
비지도 사전 훈련은 준지도 학습의 특수한 경우로, 지도 학습 목표를 수정하는 대신 좋은 초기화 지점을 찾는 것을 목표로 합니다. 초기 연구는 이미지 분류 [20, 49, 63]와 회귀 작업 [3]에서 이 기술을 탐구했습니다. 후속 연구 [15]는 사전 훈련이 깊은 신경망에서 더 나은 일반화를 가능하게 하는 정규화 체계로 작용한다는 것을 보여주었습니다. 최근 연구에서는 이미지 분류 [69], 음성 인식 [68], 개체명 명확화 [17], 기계 번역 [48]과 같은 다양한 작업을 위한 깊은 신경망 훈련에 이 방법이 사용되었습니다.
The closest line of work to ours involves pre training a neural network using a language modeling objective and then fine-tuning it on a target task with supervision. Dai et al. [13] and Howard and Ruder [21] follow this method to improve text classification. However, although the pre-training phase helps capture some linguistic information, their usage of LSTM models restricts their prediction ability to a short range. In contrast, our choice of transformer networks allows us to capture longer range linguistic structure, as demonstrated in our experiments. Further, we also demonstrate the effectiveness of our model on a wider range of tasks including natural language inference, paraphrase detection and story completion. Other approaches [43, 44, 38] use hidden representations from a pre-trained language or machine translation model as auxiliary features while training a supervised model on the target task. This involves a substantial amount of new parameters for each separate target task, whereas we require minimal changes to our model architecture during transfer.
우리의 연구와 가장 유사한 접근 방식은 언어 모델링 목표를 사용하여 신경망을 사전 훈련하고, 그 후 지도와 함께 대상 작업에 미세 조정하는 것입니다. Dai et al. [13]과 Howard와 Ruder [21]는 이 방법을 사용하여 텍스트 분류를 개선했습니다. 그러나 LSTM 모델의 사용은 예측 능력을 짧은 범위로 제한하는 반면, 우리의 Transformer 네트워크 선택은 실험에서 입증된 바와 같이 더 긴 범위의 언어 구조를 포착할 수 있습니다. 또한, 우리는 자연어 추론, 패러프레이즈 감지 및 이야기 완료를 포함한 더 넓은 범위의 작업에서도 모델의 효과를 보여줍니다. 다른 접근 방식 [43, 44, 38]은 사전 훈련된 언어 또는 기계 번역 모델의 숨겨진 표현을 보조 특성으로 사용하여 대상 작업에 대한 지도 모델을 훈련하는 데 상당한 양의 새로운 매개변수가 필요하지만, 우리는 전이 과정에서 모델 아키텍처에 최소한의 변경만 필요합니다.
Auxiliary training objectives Adding auxiliary unsupervised training objectives is an alternative form of semi-supervised learning. Early work by Collobert and Weston [10] used a wide variety of auxiliary NLP tasks such as POS tagging, chunking, named entity recognition, and language modeling to improve semantic role labeling. More recently, Rei [50] added an auxiliary language modeling objective to their target task objective and demonstrated performance gains on sequence labeling tasks. Our experiments also use an auxiliary objective, but as we show, unsupervised pre-training already learns several linguistic aspects relevant to target tasks.
보조 학습 목표를 추가하는 것은 준지도 학습의 또 다른 형태입니다. Collobert와 Weston [10]의 초기 연구는 POS 태깅, 청킹, 개체명 인식 및 언어 모델링과 같은 다양한 보조 NLP 작업을 사용하여 의미 역할 레이블링을 개선했습니다. 더 최근에는 Rei [50]가 보조 언어 모델링 목표를 대상 작업 목표에 추가하여 시퀀스 레이블링 작업에서 성능 향상을 보여주었습니다. 우리의 실험도 보조 목표를 사용하지만, 비지도 사전 훈련이 이미 대상 작업에 관련된 여러 언어적 측면을 학습한다는 것을 보여줍니다.

요약

자연어 처리에서 원시 텍스트로부터 효과적으로 학습하는 능력은 지도 학습에 대한 의존성을 완화하는 데 중요합니다. 대부분의 딥러닝 방법은 상당한 양의 수동으로 레이블된 데이터를 필요로 하며, 이는 주석이 부족한 많은 도메인에서 적용 가능성을 제한합니다. 이 연구는 비지도 사전 훈련과 지도 미세 조정을 결합한 언어 이해 작업을 위한 준지도 접근법을 탐구합니다. 우리의 목표는 최소한의 적응으로 다양한 작업에 전이될 수 있는 범용 표현을 학습하는 것입니다. 우리는 대규모 레이블이 없는 텍스트 코퍼스와 수동으로 주석이 달린 훈련 예제가 있는 여러 데이터셋(대상 작업)에 접근할 수 있다고 가정합니다. 우리의 설정은 이러한 대상 작업이 레이블이 없는 코퍼스와 동일한 도메인일 필요가 없습니다. 우리는 두 단계의 훈련 절차를 사용합니다. 첫째, 레이블이 없는 데이터에서 언어 모델링 목표를 사용하여 신경망 모델의 초기 매개변수를 학습합니다. 그 후, 해당 지도 목표를 사용하여 이 매개변수를 대상 작업에 적응시킵니다.
우리의 모델 아키텍처로는 다양한 작업에서 강력한 성능을 보인 Transformer를 사용합니다. 이 선택은 순환 네트워크와 같은 대안과 비교하여 텍스트의 장기 의존성을 처리하기 위한 더 구조화된 메모리를 제공하며, 다양한 작업에서 강력한 전이 성능을 제공합니다. 전이 과정에서 우리는 순회 방식에서 파생된 작업별 입력 적응을 사용하여 사전 훈련된 모델의 아키텍처에 최소한의 변경만으로 효과적으로 미세 조정할 수 있음을 실험에서 보여줍니다.
우리는 자연어 추론, 질문 응답, 의미 유사도, 텍스트 분류와 같은 네 가지 유형의 언어 이해 작업에서 우리의 접근법을 평가합니다. 우리의 일반적인 작업 비의존적 모델은 각 작업에 특화된 아키텍처를 사용하는 차별적으로 훈련된 모델보다 우수한 성능을 보이며, 연구된 12개 작업 중 9개에서 최신 기술을 크게 개선합니다. 예를 들어, 상식 추론에서 8.9%, 질문 응답에서 5.7%, 텍스트 내포에서 1.5%, 그리고 GLUE 다중 작업 벤치마크에서 5.5%의 절대적인 향상을 달성했습니다. 또한, 우리는 사전 훈련된 모델의 제로지식 행동을 네 가지 다른 설정에서 분석하고, 이것이 다운스트림 작업에 유용한 언어 지식을 습득했음을 보여줍니다.

3. 프레임워크

우리의 훈련 절차는 두 단계로 구성됩니다. 첫 번째 단계는 대규모 텍스트 코퍼스에서 고용량 언어 모델을 학습하는 것입니다. 이 단계는 레이블이 있는 데이터를 사용하여 모델을 차별적 작업에 적응시키는 미세 조정 단계로 이어집니다.

3.1 비지도 사전 훈련

토큰으로 구성된 비지도 코퍼스 $$ U = {u_1; u_2; \ldots; u_n} $$가 주어졌을 때, 우리는 표준 언어 모델링 목표를 사용하여 다음과 같은 로그 우도를 최대화합니다:
- $$ L_1(U) = \sum_{i} \log P(u_i | u_{i-k}, \ldots, u_{i-1}; \theta) $$
여기서 $ k $는 컨텍스트 창의 크기이며, 조건부 확률 $ P $는 매개변수 $ \theta $를 가진 신경망을 사용하여 모델링됩니다. 이 매개변수는 확률적 경사 하강법 [51]을 사용하여 훈련됩니다.
우리의 실험에서는 Transformer 디코더 [34]를 언어 모델로 사용하며, 이는 Transformer [62]의 변형입니다. 이 모델은 입력 컨텍스트 토큰에 대해 다중 헤드 자기 주의 연산을 적용하고, 위치별 피드포워드 레이어를 통해 대상 토큰에 대한 출력 분포를 생성합니다:
- $$ h_0 = UW_e + W_p $$
- $$ h_l = \text{transformer_block}(h_{l-1}) \quad \forall i \in [1, n] $$
- $$ P(u) = \text{softmax}(h_nW_e^T) $$
여기서 $ U = (u_{-k}, \ldots, u_{-1}) $는 토큰의 컨텍스트 벡터이고, $ n $은 레이어의 수이며, $ W_e $는 토큰 임베딩 행렬이고, $ W_p $는 위치 임베딩 행렬입니다.

3.2 지도 미세 조정

식 (1)의 목표로 모델을 훈련한 후, 우리는 매개변수를 지도 대상 작업에 적응시킵니다. 우리는 레이블이 있는 데이터셋 $ C $를 가정하며, 각 인스턴스는 입력 토큰 시퀀스 $ x_1; \ldots; x_m $와 레이블 $ y $로 구성됩니다. 입력은 사전 훈련된 모델을 통해 전달되어 최종 Transformer 블록의 활성화 $ h_{ml} $를 얻고, 이를 선형 출력 레이어에 전달하여 레이블 $ y $를 예측합니다:
- $$ P(y | x_1; \ldots; x_m) = \text{softmax}(h_{ml}W_y) $$
이를 통해 최대화할 목표는 다음과 같습니다:
- $$ L_2(C) = \sum_{(x,y)} \log P(y | x_1; \ldots; x_m) $$
또한, 미세 조정 과정에서 언어 모델링을 보조 목표로 포함하면 (a) 지도 모델의 일반화 능력을 개선하고, (b) 수렴 속도를 가속화하는 데 도움이 된다는 것을 발견했습니다. 이는 이전 연구 [50, 43]와 일치하며, 이러한 보조 목표로 인해 성능이 향상된 것을 관찰했습니다. 구체적으로, 우리는 다음과 같은 목표를 가중치 $ \lambda $로 최적화합니다:
- $$ L_3(C) = L_2(C) + \lambda \cdot L_1(C) $$
미세 조정 과정에서 필요한 추가 매개변수는 선형 출력 레이어의 $ W_y $와 구분 토큰의 임베딩뿐입니다.
이미지 추가 [Figure 1]
그림 1: (왼쪽) 이 연구에서 사용된 Transformer 아키텍처와 훈련 목표. (오른쪽) 다양한 작업에 대한 미세 조정을 위한 입력 변환. 우리는 모든 구조화된 입력을 사전 훈련된 모델이 처리할 수 있는 토큰 시퀀스로 변환하고, 그 뒤에 선형 레이어와 소프트맥스 레이어를 적용합니다.

3.3 작업별 입력 변환

텍스트 분류와 같은 일부 작업에서는 위에서 설명한 대로 모델을 직접 미세 조정할 수 있습니다. 그러나 질문 응답이나 텍스트 내포와 같은 다른 작업은 정렬된 문장 쌍이나 문서, 질문 및 답변으로 구성된 구조화된 입력을 가집니다. 사전 훈련된 모델은 연속된 텍스트 시퀀스에서 훈련되었기 때문에, 이러한 작업에 적용하기 위해 일부 수정이 필요합니다. 이전 연구는 전이된 표현 위에 작업별 아키텍처를 학습하는 것을 제안했습니다 [44]. 이러한 접근 방식은 추가적인 아키텍처 구성 요소에 대한 전이 학습을 사용하지 않고 작업별 맞춤화를 다시 도입합니다. 대신, 우리는 순회 방식 [52]을 사용하여 구조화된 입력을 사전 훈련된 모델이 처리할 수 있는 정렬된 시퀀스로 변환합니다. 이러한 입력 변환은 작업 간 아키텍처에 광범위한 변경을 피할 수 있도록 합니다. 아래에서는 이러한 입력 변환을 간단히 설명하고, 그림 1은 시각적 설명을 제공합니다. 모든 변환에는 무작위로 초기화된 시작 및 종료 토큰 $ (h_{si}, h_{ei}) $이 포함됩니다.
텍스트 내포 내포 작업의 경우, 전제 $ p $와 가설 $ h $의 토큰 시퀀스를 구분 토큰 $ ($) $을 사용하여 연결합니다.
유사도 유사도 작업에서는 비교되는 두 문장 사이에 내재된 순서가 없습니다. 이를 반영하기 위해 입력 시퀀스를 두 문장의 가능한 모든 순서로 수정하고 (구분 토큰을 사용하여), 각 순서를 독립적으로 처리하여 두 시퀀스 표현 $ h_{ml} $을 생성한 후 선형 출력 레이어에 전달하기 전에 요소별로 더합니다.
질문 응답 및 상식 추론 이러한 작업에서는 문서 컨텍스트 $ z $, 질문 $ q $, 그리고 가능한 답변 집합 $ {a_k} $가 주어집니다. 우리는 문서 컨텍스트와 질문을 각 가능한 답변과 연결하고 구분 토큰을 추가하여 $ [z; q; $ ; a_k] $를 얻습니다. 이러한 각 시퀀스는 모델에 독립적으로 전달되고, 소프트맥스 레이어를 통해 처리되어 가능한 답변에 대한 출력 분포를 생성합니다.

요약

이 연구는 두 단계의 훈련 절차를 사용하여 언어 모델을 학습하고 미세 조정하는 프레임워크를 제안합니다. 첫 번째 단계에서는 대규모 텍스트 코퍼스에서 언어 모델을 비지도 방식으로 사전 훈련합니다. 두 번째 단계에서는 레이블이 있는 데이터를 사용하여 모델을 차별적 작업에 적응시킵니다. 미세 조정 과정에서 언어 모델링을 보조 목표로 포함하면 일반화 능력과 수렴 속도를 개선할 수 있습니다. 또한, 순회 방식을 사용하여 구조화된 입력을 사전 훈련된 모델이 처리할 수 있는 정렬된 시퀀스로 변환함으로써 작업별 아키텍처 변경을 최소화합니다. 이를 통해 텍스트 내포, 유사도, 질문 응답 및 상식 추론과 같은 다양한 작업에 효과적으로 적용할 수 있습니다.

4. 실험

4.1 설정

비지도 사전 훈련 언어 모델 훈련을 위해 BooksCorpus 데이터셋 [71]을 사용합니다. 이 데이터셋은 모험, 판타지, 로맨스 등 다양한 장르의 7,000권 이상의 미발표 도서를 포함하고 있습니다. 특히, 이 데이터셋은 긴 연속 텍스트를 포함하고 있어 생성 모델이 장기 정보를 조건으로 학습할 수 있습니다. 대안 데이터셋인 1B Word Benchmark는 ELMo [44]와 같은 접근 방식에서 사용되며, 크기가 비슷하지만 문장 수준에서 섞여 있어 장기 구조를 파괴합니다. 우리의 언어 모델은 이 코퍼스에서 토큰 수준 혼란도 18.4를 달성합니다.
모델 사양 우리의 모델은 원래 Transformer 연구 [62]를 따릅니다. 우리는 768차원 상태와 12개의 주의 헤드를 가진 마스킹된 자기 주의를 사용하는 12층 디코더 전용 Transformer를 훈련했습니다. 위치별 피드포워드 네트워크에서는 3,072차원 내부 상태를 사용했습니다. Adam 최적화 방식 [27]을 사용했으며, 최대 학습률은 2.5e-4입니다. 학습률은 처음 2,000 업데이트 동안 선형적으로 증가시키고, 코사인 스케줄을 사용하여 0으로 감소시켰습니다. 우리는 512 토큰 길이의 연속 시퀀스를 무작위로 샘플링한 미니배치에서 100 에포크 동안 훈련했습니다. 모델 전반에 걸쳐 레이어 정규화 [2]를 사용했기 때문에 간단한 가중치 초기화 $ N(0; 0.02) $로 충분했습니다. 우리는 40,000개의 병합으로 구성된 바이트 페어 인코딩(BPE) 어휘를 사용하고, 정규화를 위해 0.1의 비율로 잔여물, 임베딩 및 주의 드롭아웃을 적용했습니다. 또한 [37]에서 제안한 수정된 L2 정규화를 사용했으며, 모든 비편향 또는 이득 가중치에 대해 $ w = 0.01 $을 적용했습니다. 활성화 함수로는 가우시안 에러 선형 단위(GELU) [18]를 사용했습니다. 원래 연구에서 제안한 사인파 위치 임베딩 대신 학습된 위치 임베딩을 사용했습니다. 우리 BooksCorpus의 원시 텍스트를 정리하고, 일부 구두점과 공백을 표준화하며, spaCy 토크나이저를 사용하기 위해 ftfy 라이브러리2를 사용했습니다.
미세 조정 세부 사항 명시적으로 지정되지 않은 경우, 비지도 사전 훈련에서 사용한 하이퍼파라미터 설정을 재사용합니다. 분류기에 드롭아웃을 추가하고 비율은 0.1로 설정했습니다. 대부분의 작업에서는 학습률을 6.25e-5로 설정하고 배치 크기를 32로 사용했습니다. 우리의 모델은 빠르게 미세 조정되며, 대부분의 경우 3 에포크의 훈련으로 충분했습니다. 우리는 훈련의 0.2% 동안 선형 학습률 감소 스케줄과 웜업을 사용했습니다. $ \lambda $는 0.5로 설정했습니다.

요약

이 연구는 BooksCorpus 데이터셋을 사용하여 언어 모델을 비지도 방식으로 사전 훈련하고, 이를 다양한 언어 이해 작업에 미세 조정하는 실험을 수행합니다. 언어 모델은 12층 디코더 전용 Transformer 아키텍처를 기반으로 하며, Adam 최적화와 GELU 활성화 함수를 사용하여 훈련됩니다. 미세 조정 과정에서는 드롭아웃과 선형 학습률 감소 스케줄을 적용하여 모델을 빠르게 적응시킵니다. 이 프레임워크는 자연어 추론, 질문 응답, 문장 유사도 및 분류와 같은 다양한 작업에서 우수한 성능을 보입니다.

4.2 지도 미세 조정

우리는 자연어 추론, 질문 응답, 의미 유사도 및 텍스트 분류를 포함한 다양한 지도 작업에 대한 실험을 수행합니다. 이러한 작업 중 일부는 최근에 출시된 GLUE 다중 작업 벤치마크 [64]의 일부로 제공되며, 우리는 이를 활용합니다. 그림 1은 모든 작업과 데이터셋에 대한 개요를 제공합니다.
자연어 추론 자연어 추론(NLI), 즉 텍스트 내포 인식 작업은 두 문장을 읽고 그들 간의 관계를 내포, 모순 또는 중립 중 하나로 판단하는 작업입니다. 최근 많은 관심 [58, 35, 44]에도 불구하고, 이 작업은 어휘 내포, 공동 참조 및 어휘 및 구문적 모호성과 같은 다양한 현상으로 인해 여전히 도전적입니다. 우리는 이미지 캡션(SNLI), 전사된 음성, 대중 소설 및 정부 보고서(MNLI), 위키백과 기사(QNLI), 과학 시험(SciTail) 또는 뉴스 기사(RTE)와 같은 다양한 출처의 다섯 가지 데이터셋에서 평가합니다.
표 2는 우리의 모델과 이전 최첨단 접근 방식 간의 다양한 NLI 작업에 대한 결과를 상세히 보여줍니다. 우리의 방법은 다섯 가지 데이터셋 중 네 가지에서 베이스라인을 크게 능가하며, MNLI에서 최대 1.5%, SciTail에서 5%, QNLI에서 5.8%, SNLI에서 0.6%의 절대 개선을 달성합니다. 이는 우리의 모델이 여러 문장에 걸쳐 더 나은 추론을 수행하고 언어적 모호성을 처리하는 능력을 보여줍니다. RTE에서는 평가한 소규모 데이터셋(2,490개 예제)에서 56%의 정확도를 달성했으며, 이는 다중 작업 biLSTM 모델의 61.7%보다 낮습니다. 우리의 접근 방식이 더 큰 NLI 데이터셋에서 강력한 성능을 보였기 때문에, 다중 작업 훈련도 도움이 될 가능성이 높지만 현재로서는 이를 탐구하지 않았습니다.
질문 응답 및 상식 추론 단일 문장 및 다중 문장 추론이 필요한 또 다른 작업은 질문 응답입니다. 우리는 최근에 출시된 RACE 데이터셋 [30]을 사용하며, 이 데이터셋은 중학교 및 고등학교 시험에서 가져온 영어 지문과 관련 질문으로 구성됩니다. 이 코퍼스는 CNN [19] 또는 SQuaD [47]와 같은 다른 데이터셋보다 더 많은 추론 유형의 질문을 포함하고 있어, 장기 컨텍스트를 처리할 수 있도록 훈련된 우리의 모델에 대한 완벽한 평가를 제공합니다. 또한, 우리는 Story Cloze Test [40]에서도 평가하며, 이 작업은 두 옵션 중에서 다중 문장 이야기의 올바른 결말을 선택하는 작업입니다. 이러한 작업에서 우리의 모델은 이전 최고 결과를 상당한 마진으로 능가하며, Story Cloze에서는 최대 8.9%, RACE에서는 전체적으로 5.7%의 개선을 달성합니다. 이는 우리의 모델이 장기 컨텍스트를 효과적으로 처리할 수 있는 능력을 보여줍니다.
의미 유사도 의미 유사도(또는 패러프레이즈 감지) 작업은 두 문장이 의미적으로 동등한지를 예측하는 작업입니다. 개념의 재표현 인식, 부정 이해 및 구문적 모호성 처리가 주요 과제입니다. 우리는 이 작업을 위해 Microsoft Paraphrase 코퍼스(MRPC) [14](뉴스 출처에서 수집), Quora 질문 쌍(QQP) 데이터셋 [9], 그리고 의미 텍스트 유사도 벤치마크(STS-B) [6]를 사용합니다. 우리는 세 가지 의미 유사도 작업 중 두 가지에서 최첨단 결과를 달성하며, STS-B에서 절대적으로 1점 개선합니다. QQP에서의 성능 차이는 상당하며, Single-task BiLSTM + ELMo + Attn 대비 4.2%의 절대 개선을 달성합니다.
분류 마지막으로, 우리는 두 가지 다른 텍스트 분류 작업에서도 평가합니다. 언어적 수용성 코퍼스(CoLA) [65]는 문장이 문법적인지 여부에 대한 전문가 판단을 포함하며, 훈련된 모델의 내재된 언어적 편향을 테스트합니다. 반면, 스탠포드 감정 트리뱅크(SST-2) [54]는 표준 이진 분류 작업입니다. 우리의 모델은 CoLA에서 45.4점을 달성하며, 이전 최고 결과인 35.0점을 크게 능가하여 우리의 모델이 학습한 내재된 언어적 편향을 보여줍니다. 또한 SST-2에서 91.3%의 정확도를 달성하며, 이는 최첨단 결과와 경쟁적입니다. 우리는 GLUE 벤치마크에서 전체적으로 72.8점을 달성하며, 이전 최고 점수인 68.9점을 크게 능가합니다.
전반적으로, 우리의 접근 방식은 평가한 12개 데이터셋 중 9개에서 새로운 최첨단 결과를 달성하며, 많은 경우 앙상블을 능가합니다. 우리의 결과는 또한 우리의 접근 방식이 다양한 크기의 데이터셋에 걸쳐 잘 작동함을 나타냅니다. STS-B(5.7k 훈련 예제)와 같은 소규모 데이터셋부터 SNLI(550k 훈련 예제)와 같은 가장 큰 데이터셋까지 포함됩니다.

요약

이 연구는 자연어 추론, 질문 응답, 의미 유사도 및 텍스트 분류를 포함한 다양한 지도 작업에 대해 사전 훈련된 언어 모델을 미세 조정하는 실험을 수행합니다. 우리의 모델은 GLUE 벤치마크와 같은 다양한 데이터셋에서 최첨단 결과를 달성하며, 특히 장기 컨텍스트 처리와 언어적 모호성 해결에서 우수한 성능을 보입니다. 또한, 소규모와 대규모 데이터셋 모두에서 일관된 성능을 보이며, 다중 작업 훈련의 잠재적 이점을 보여줍니다.

5 분석

레이어 전송 수의 영향 우리는 비지도 사전 훈련에서 지도 대상 작업으로 다양한 수의 레이어를 전송하는 영향을 관찰했습니다. 그림 2(왼쪽)는 우리의 접근 방식이 MultiNLI와 RACE에서 레이어 전송 수에 따른 성능을 보여줍니다. 우리는 임베딩 전송이 성능을 개선하고, 각 Transformer 레이어가 MultiNLI에서 최대 9%의 전체 전송까지 추가적인 이점을 제공한다는 표준 결과를 관찰했습니다. 이는 사전 훈련된 모델의 각 레이어가 대상 작업을 해결하는 데 유용한 기능을 포함하고 있음을 나타냅니다.
제로샷 행동 우리는 Transformer의 언어 모델 사전 훈련이 왜 효과적인지 더 잘 이해하고 싶었습니다. 하나의 가설은 기본 생성 모델이 언어 모델링 능력을 향상시키기 위해 우리가 평가하는 많은 작업을 수행하는 방법을 학습한다는 것입니다. 더 구조화된 Transformer의 주의 메모리가 LSTMs와 비교하여 전송에 도움이 된다는 가설도 있습니다. 우리는 지도 미세 조정 없이 기본 생성 모델을 사용하여 작업을 수행하는 일련의 휴리스틱 솔루션을 설계했습니다. 그림 2(오른쪽)는 생성 사전 훈련 과정에서 이러한 휴리스틱 솔루션의 효과를 시각화합니다. 우리는 이러한 휴리스틱의 성능이 안정적이고 훈련 과정에서 꾸준히 증가하며, 생성 사전 훈련이 다양한 작업 관련 기능 학습을 지원한다는 것을 관찰했습니다. 또한, LSTM은 제로샷 성능에서 더 높은 분산을 보이며, Transformer 아키텍처의 귀납적 편향이 전송에 도움이 된다는 것을 시사합니다.
CoLA(언어적 수용성)에서는 생성 모델이 할당한 평균 토큰 로그 확률로 예제를 점수화하고 임계값을 사용하여 예측을 수행합니다. SST-2(감정 분석)에서는 각 예제에 "very"를 추가하고 언어 모델의 출력 분포를 "positive"와 "negative" 단어로 제한하여 더 높은 확률을 할당한 토큰을 예측으로 선택합니다. RACE(질문 응답)에서는 문서와 질문의 조건부 평균 토큰 로그 확률이 가장 높은 답변을 선택합니다. DPRD [46](Winograd 스키마)에서는 정관사 대명사를 가능한 두 참조어로 대체하고, 대체 후 시퀀스에 더 높은 평균 토큰 로그 확률을 할당한 해결을 예측합니다.
어블레이션 연구 우리는 세 가지 다른 어블레이션 연구(표 5)를 수행했습니다. 첫째, 미세 조정 중 보조 LM 목표 없이 우리의 방법의 성능을 조사했습니다. 보조 목표가 NLI 작업과 QQP에 도움이 된다는 것을 관찰했으며, 전반적으로 더 큰 데이터셋은 보조 목표로부터 이점을 얻지만 작은 데이터셋은 그렇지 않다는 추세를 보였습니다. 둘째, 동일한 프레임워크를 사용하여 단일 레이어 2048 유닛 LSTM과 Transformer를 비교했습니다. LSTM을 사용할 때 평균 점수가 5.6점 감소했으며, LSTM은 MRPC에서만 Transformer를 능가했습니다. 셋째, 우리는 사전 훈련 없이 지도 대상 작업에 직접 훈련된 Transformer 아키텍처와 비교했습니다. 사전 훈련이 없으면 모든 작업에서 성능이 저하되었으며, 전체 모델 대비 14.8% 감소했습니다.

6 결론

우리는 생성 사전 훈련과 판별 미세 조정을 통해 단일 작업 비특이적 모델을 통해 강력한 자연어 이해를 달성하는 프레임워크를 소개했습니다. 다양한 연속 텍스트 코퍼스에서 사전 훈련함으로써, 우리의 모델은 상당한 세계 지식과 장기 의존성 처리 능력을 획득하고, 이를 질문 응답, 의미 유사도 평가, 내포 결정 및 텍스트 분류와 같은 판별 작업에 성공적으로 전송하여 우리가 연구한 12개 데이터셋 중 9개에서 최첨단 결과를 개선했습니다. 판별 작업의 성능을 향상시키기 위한 비지도(사전) 훈련은 머신러닝 연구에서 오랫동안 중요한 목표였습니다. 우리의 작업은 상당한 성능 향상이 가능하다는 것을 시사하며, 이 접근 방식과 가장 잘 작동하는 모델(Transformer)과 데이터셋(장기 의존성을 가진 텍스트)이 무엇인지에 대한 힌트를 제공합니다. 우리는 이것이 자연어 이해 및 기타 도메인에 대한 비지도 학습에 대한 새로운 연구를 가능하게 하고, 비지도 학습이 어떻게 그리고 언제 작동하는지에 대한 우리의 이해를 더욱 개선하기를 바랍니다.

요약

이 연구는 Transformer 기반의 언어 모델 사전 훈련과 판별 미세 조정을 통해 자연어 이해 작업을 개선하는 프레임워크를 분석합니다. 레이어 전송 수에 따른 성능 영향, 제로샷 행동 및 어블레이션 연구를 통해 사전 훈련의 중요성을 강조합니다. 특히, 장기 의존성 처리와 다양한 작업 관련 기능 학습이 성능 향상에 기여하며, 이는 자연어 이해 및 기타 도메인에서 비지도 학습의 잠재력을 보여줍니다.