Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 정리
2026. 6. 2. 17:02ㆍ수집/IT
728x90
반응형
https://arxiv.org/abs/2201.11903
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
We explore how generating a chain of thought -- a series of intermediate reasoning steps -- significantly improves the ability of large language models to perform complex reasoning. In particular, we show how such reasoning abilities emerge naturally in su
arxiv.org
Abstact
- We explore how generating a chain of thought—a series of intermediate reasoning steps—significantly improves the ability of large language models to perform complex reasoning. In particular, we show how such reasoning abilities emerge naturally in sufficiently large language models via a simple method called chain-ofthought prompting, where a few chain of thought demonstrations are provided as exemplars in prompting.
- Experiments on three large language models show that chain-of-thought prompting improves performance on a range of arithmetic, commonsense, and symbolic reasoning tasks. The empirical gains can be striking. For instance, prompting a PaLM540Bwith just eight chain-of-thought exemplars achieves state-of-the-art accuracy on the GSM8K benchmark of math word problems, surpassing even f inetuned GPT-3 with a verifier.
- 우리는 사고의 연쇄(Chain of Thought, CoT) — 즉 일련의 중간 추론 단계 — 를 생성하는 것이 대형 언어 모델의 복잡한 추론 능력을 크게 향상시킨다는 것을 탐구합니다. 특히, 우리는 충분히 큰 언어 모델에서 이러한 추론 능력이 생각의 연쇄 프롬프팅(chain-of-thought prompting)이라는 간단한 방법만으로도 자연스럽게 나타난다는 것을 보여줍니다. 이 방법은 프롬프트에 몇 가지 사고의 연쇄(exemplars)을 제공하는 방식입니다.
- 세 개의 대형 언어 모델을 대상으로 진행한 실험 결과, 생각의 연쇄 프롬프팅은 산술(arithmetic), 상식(commonsense), 기호(symbolic) 추론 등 다양한 과제에서 모델의 성능을 크게 개선하는 것으로 나타났습니다. 실증적인 향상 폭은 매우 인상적입니다. 예를 들어, PaLM 540B 모델에 단 8개의 사고의 연쇄 예시만 제공하여 프롬프팅한 결과, 수학 워드 문제 벤치마크인 GSM8K에서 최첨단(state-of-the-art) 정확도를 달성했습니다. 이는 검증기(verifier)를 사용한 파인튜닝된 GPT-3보다도 우수한 성능입니다.

1. Introduction
- The NLP landscape has recently been revolutionized by language models (Peters et al., 2018; Devlin et al., 2019; Brown et al., 2020, inter alia). Scaling up the size of language models has been shown to confer a range of benefits, such as improved performance and sample efficiency (Kaplan et al., 2020; Brown et al., 2020, inter alia). However, scaling up model size alone has not proved sufficient for achieving high performance on challenging tasks such as arithmetic, commonsense, and symbolic reasoning (Rae et al., 2021). This work explores how the reasoning ability of large language models can be unlocked by a simple method motivated by two ideas.
- First, techniques for arithmetic reasoning can benefit from generating natural language rationales that lead to the final answer. Prior work has given models the ability to generate natural language intermediate steps by training from scratch (Ling et al., 2017) or finetuning a pretrained model (Cobbe et al., 2021), in addition to neuro-symbolic methods that use formal languages instead of natural language (Roy and Roth, 2015; Chiang and Chen, 2019; Amini et al., 2019; Chen et al., 2019).
- Second, large language models offer the exciting prospect of in-context few-shot learning via prompting. That is, instead of finetuning a separate language model checkpoint for each new task, one can simply “prompt” the model with a few input–output exemplars demonstrating the task. Remarkably, this has been successful for a range of simple question-answering tasks (Brown et al., 2020).
- Both of the above ideas, however, have key limitations. For rationale-augmented training and f inetuning methods, it is costly to create a large set of high quality rationales, which is much more complicated than simple input–output pairs used in normal machine learning. For the traditional fewshot prompting method used in Brown et al. (2020), it works poorly on tasks that require reasoning abilities, and often does not improve substantially with increasing language model scale (Rae et al., 2021).
- In this paper, we combine the strengths of these two ideas in a way that avoids their limitations. Specifically, we explore the ability of language models to perform few-shot prompting for reasoning tasks, given a prompt that consists of triples: input, chain of thought, output . A chain of thought is a series of intermediate natural language reasoning steps that lead to the final output, and we refer to this approach as chain-of-thought prompting. An example prompt is shown in Figure 1.
- We present empirical evaluations on arithmetic, commonsense, and symbolic reasoning benchmarks, showing that chain-of-thought prompting outperforms standard prompting, sometimes to a striking degree. Figure 2 illustrates one such result—on the GSM8K benchmark of math word problems (Cobbe et al., 2021), chain-of-thought prompting with PaLM 540B outperforms standard prompting by a large margin and achieves new state-of-the-art performance.
- A prompting only approach is important because it does not require a large training dataset and because a single model checkpoint can perform many tasks without loss of generality. This work underscores how large language models can learn via a few examples with natural language data about the task (c.f. automatically learning the patterns underlying inputs and outputs via a large training dataset).
- 최근 NLP 분야는 언어 모델들에 의해 혁명적으로 변화되었습니다 (Peters et al., 2018; Devlin et al., 2019; Brown et al., 2020, 그 외 다수). 언어 모델의 크기를 확대하는 것이 성능 향상과 샘플 효율성 개선 등 다양한 이점을 가져온다는 것이 밝혀졌습니다 (Kaplan et al., 2020; Brown et al., 2020, 그 외 다수). 그러나 모델 크기 확대만으로는 산술, 상식, 기호 추론과 같은 어려운 과제에서 높은 성능을 달성하는 데 충분하지 않았습니다 (Rae et al., 2021). 본 연구는 두 가지 아이디어에서 영감을 받은 간단한 방법으로 대형 언어 모델의 추론 능력을 어떻게 끌어낼 수 있는지 탐구합니다.
- 첫째, 산술 추론 기법은 최종 답변에 이르는 자연어 근거(rationales)를 생성하는 데서 이점을 얻을 수 있습니다. 기존 연구에서는 모델이 처음부터 학습하거나 (Ling et al., 2017), 사전 학습된 모델을 파인튜닝하여 (Cobbe et al., 2021) 자연어 중간 단계를 생성할 수 있게 했으며, 자연어 대신 형식 언어를 사용하는 신경-기호(neuro-symbolic) 방법도 있습니다 (Roy and Roth, 2015; Chiang and Chen, 2019; Amini et al., 2019; Chen et al., 2019).
- 둘째, 대형 언어 모델은 프롬프팅을 통한 맥락 내 소수 샷 학습(in-context few-shot learning)이라는 매력적인 가능성을 제공합니다. 즉, 새로운 과제마다 별도의 언어 모델을 파인튜닝하는 대신, 과제를 수행하는 몇 가지 입력-출력 예시로 모델을 “프롬프트”하기만 하면 됩니다. 놀랍게도 이는 다양한 간단한 질의응답 과제에서 성공을 거두었습니다 (Brown et al., 2020).
- 그러나 위 두 아이디어 모두 중요한 한계가 있습니다. 근거를 추가한 학습 및 파인튜닝 방법은 고품질 근거를 대량으로 만드는 데 비용이 많이 들며, 이는 일반적인 머신러닝에서 사용하는 단순한 입력-출력 쌍보다 훨씬 복잡합니다. Brown et al. (2020)에서 사용된 전통적인 소수 샷 프롬프팅 방법은 추론 능력이 필요한 과제에서 성능이 좋지 않고, 언어 모델의 크기가 커져도 크게 개선되지 않는 경우가 많습니다 (Rae et al., 2021).
- 본 논문에서는 이 두 아이디어의 장점을 결합하면서 그 한계를 피하는 방법을 탐구합니다. 구체적으로, 입력, 사고의 연쇄(chain of thought), 출력으로 구성된 프롬프트를 제공했을 때 언어 모델이 추론 과제에 대해 소수 샷 프롬프팅을 수행할 수 있는 능력을 탐구합니다. 사고의 연쇄는 최종 출력에 이르는 일련의 중간 자연어 추론 단계이며, 이 접근 방식을 생각의 연쇄 프롬프팅(chain-of-thought prompting)이라고 부릅니다. 예시 프롬프트는 Figure 1에 나와 있습니다.
- 우리는 산술, 상식, 기호 추론 벤치마크에 대한 실증 평가를 통해 생각의 연쇄 프롬프팅이 표준 프롬프팅보다 우수한 성능을 보이며, 때로는 매우 큰 차이를 보인다는 것을 보여줍니다. Figure 2는 그중 하나의 결과를 보여주는데, 수학 워드 문제 벤치마크인 GSM8K에서 PaLM 540B에 생각의 연쇄 프롬프팅을 적용한 결과, 표준 프롬프팅보다 큰 폭으로 앞서며 새로운 최첨단(state-of-the-art) 성능을 달성했습니다.
- 프롬프팅만 사용하는 접근 방식은 대규모 학습 데이터셋이 필요 없고, 하나의 모델 체크포인트로 여러 과제를 범용적으로 수행할 수 있다는 점에서 중요합니다. 본 연구는 대형 언어 모델이 대규모 학습 데이터셋을 통해 입력과 출력의 패턴을 자동으로 학습하는 대신, 과제에 대한 자연어 데이터가 포함된 몇 가지 예시만으로도 학습할 수 있음을 강조합니다.
2. Chain-of-Thought Prompting 생각의 연쇄 프롬프팅
- Consider one’s own thought process when solving a complicated reasoning task such as a multi-step math word problem. It is typical to decompose the problem into intermediate steps and solve each before giving the final answer:
- “After Jane gives 2 flowers to her mom she has 10 gives 3 to her dad she will have 7 then after she so the answer is 7.”
- The goal of this paper is to endow language models with the ability to generate a similar chain of thought—a coherent series of intermediate reasoning steps that lead to the final answer for a problem.
- We will show that sufficiently large 2language models can generate chains of thought if demonstrations of chain-of-thought reasoning are provided in the exemplars for few-shot prompting.
- Figure 1 shows an example of a model producing a chain of thought to solve a math word problem that it would have otherwise gotten incorrect. The chain of thought in this case resembles a solution and can interpreted as one, but we still opt to call it a chain of thought to better capture the idea that it mimics a step-by-step thought process for arriving at the answer (and also, solutions/explanations typically come after the final answer (Narang et al., 2020; Wiegreffe et al., 2022; Lampinen et al., 2022, inter alia)).
- Chain-of-thought prompting has several attractive properties as an approach for facilitating reasoning in language models.
- First, chain of thought, in principle, allows models to decompose multi-step problems into intermediate steps, which means that additional computation can be allocated to problems that require more reasoning steps.
- Second, a chain of thought provides an interpretable window into the behavior of the model, suggesting how it might have arrived at a particular answer and providing opportunities to debug where the reasoning path went wrong (although fully characterizing a model’s computations that support an answer remains an open question).
- Third, chain-of-thought reasoning can be used for tasks such as math word problems, commonsense reasoning, and symbolic manipulation, and is potentially applicable (at least in principle) to any task that humans can solve via language.
- Finally, chain-of-thought reasoning can be readily elicited in sufficiently large off-the-shelf language models simply by including examples of chain of thought sequences into the exemplars of few-shot prompting. In empirical experiments, we will observe the utility of chain-of-thought prompting for arithmetic reasoning (Section 3), commonsense reasoning (Section 4), and symbolic reasoning (Section 5).
- 복잡한 추론 과제, 예를 들어 다단계 수학 워드 문제를 풀 때 자신의 사고 과정을 떠올려 보십시오. 일반적으로 문제를 중간 단계로 분해한 후 각 단계를 해결하고 최종 답을 내립니다.
- “제인이 엄마에게 꽃 2송이를 주고 나면 10송이가 남고, 아빠에게 3송이를 더 주면 7송이가 남는다. 따라서 정답은 7이다.”
- 이 논문의 목표는 언어 모델이 이와 유사한 사고의 연쇄(Chain of Thought, CoT) 를 생성할 수 있도록 하는 것이다. 즉, 문제의 최종 답에 도달하기까지의 일관성 있는 중간 추론 단계들을 생성할 수 있는 능력을 부여하는 것이다.
- 우리는 충분히 큰 언어 모델이 소수 샷 프롬프팅의 예시로 사고의 연쇄 추론을 제공하면, 사고의 연쇄를 자연스럽게 생성할 수 있음을 보여줄 것입니다.
- Figure 1은 모델이 이전에는 틀렸던 수학 워드 문제를 사고의 연쇄를 통해 해결하는 예시를 보여줍니다. 이 경우 사고의 연쇄는 풀이(solution)와 유사하며 그렇게 해석될 수도 있지만, 우리는 여전히 “사고의 연쇄”라는 용어를 사용합니다. 이는 최종 답에 도달하기 위한 단계별 사고 과정을 모방한다는 점을 더 잘 포착하기 위함입니다 (또한 풀이나 설명은 보통 최종 답변 이후에 나오는 경우가 많습니다).
- 생각의 연쇄 프롬프팅은 언어 모델의 추론을 촉진하는 접근 방식으로서 여러 매력적인 특성을 가지고 있습니다.
- 첫째, 사고의 연쇄는 원칙적으로 다단계 문제를 중간 단계로 분해할 수 있게 해주므로, 더 많은 추론 단계가 필요한 문제에 추가적인 계산 자원을 할당할 수 있습니다.
- 둘째, 사고의 연쇄는 모델의 행동을 해석할 수 있는 창(interpretable window)을 제공하여, 모델이 특정 답변에 어떻게 도달했는지 보여주고, 추론 경로에서 어디서 잘못되었는지 디버깅할 기회를 줍니다 (물론 모델의 답변을 뒷받침하는 전체 계산 과정을 완전히 규명하는 것은 여전히 미해결 과제입니다).
- 셋째, 생각의 연쇄 추론은 수학 워드 문제, 상식 추론, 기호 조작 등의 과제에 사용할 수 있으며, 인간이 언어를 통해 해결할 수 있는 거의 모든 과제에 (적어도 원칙적으로는) 적용 가능합니다.
- 마지막으로, 충분히 큰 기존(off-the-shelf) 언어 모델에서는 소수 샷 프롬프팅의 예시에 사고의 연쇄 시퀀스를 포함하는 것만으로도 쉽게 사고의 연쇄 추론을 유도할 수 있습니다. 실험에서는 생각의 연쇄 프롬프팅의 유용성을 산술 추론(섹션 3), 상식 추론(섹션 4), 기호 추론(섹션 5)에서 관찰할 것입니다.

Conclusions
- We have explored chain-of-thought prompting as a simple and broadly applicable method for enhancing reasoning in language models. Through experiments on arithmetic, symbolic, and commonsense reasoning, we find that chain-of-thought reasoning is an emergent property of model scale that allows sufficiently large language models to perform reasoning tasks that otherwise have flat scaling curves. Broadening the range of reasoning tasks that language models can perform will hopefully inspire further work on language-based approaches to reasoning.
- 우리는 Chain-of-Thought Prompting(사고의 연쇄 프롬프팅) 이 언어 모델의 추론 능력을 향상시키는 단순하면서도 폭넓게 적용 가능한 방법임을 살펴보았다.
- 산술 추론(arithmetic reasoning), 기호 추론(symbolic reasoning), 상식 추론(commonsense reasoning)에 대한 실험을 통해, 사고의 연쇄 추론은 모델 규모가 커질 때 나타나는 창발적 특성(emergent property) 이며, 충분히 큰 언어 모델이 기존에는 성능 향상이 거의 없던(flat scaling curves) 추론 과제들을 수행할 수 있게 해준다는 사실을 확인했다.
- 언어 모델이 수행할 수 있는 추론 과제의 범위를 넓힘으로써, 추론 문제를 언어 기반 접근법으로 해결하려는 후속 연구들이 더욱 활발히 이루어지기를 기대한다.
728x90
반응형
'수집 > IT' 카테고리의 다른 글
| The Prompt Report: A Systematic Survey of Prompt Engineering Techniques 정리 (0) | 2026.06.02 |
|---|---|
| 만들면서 배우는 생성 AI 정리 중 (2) | 2025.06.15 |
| 한국어 임베딩 정리 (1) | 2025.06.15 |
| 데이터 과학자 원칙 정리 (3) | 2025.06.15 |
| 행동 데이터 분석 정리 중 (0) | 2025.06.15 |