2026. 1. 16. 09:49ㆍ업무/데이터과학
ABSTRACT
Accurate and consistent evaluation is crucial for decision-making across numerous fields, yet it remains a challenging task due to inherent subjectivity, variability, and scale. Large Language Models (LLMs) have achieved remarkable success across diverse domains, leading to the emergence of "LLM-as-a-Judge," where LLMs are employed as evaluators for complex tasks. With their ability to process diverse data types and provide scalable and flexible assessments, LLMs present a compelling alternative to traditional expert-driven evaluations. However, ensuring the reliability of LLM-as-a-Judge systems remains a significant challenge that requires careful design and standardization. This paper provides a comprehensive survey on LLM-as-aJudge, offering a formal definition and a detailed classification, while focusing on addressing the core question: How to built reliable LLM-as-a-Judge systems? We explore strategies to enhance reliability, including improving consistency, mitigating biases, and adapting to diverse assessment scenarios. Additionally, we propose methodologies for evaluating the reliability of LLM-as-a-Judge systems, supported by a novel benchmark designed for this purpose. To advance the development and real-world deployment of LLM-as-aJudge systems, we also discussed practical applications, challenges, and future directions. This survey serves as a foundational reference for researchers and practitioners in this rapidly evolving field. Our contributions span multiple levels: we establish the conceptual boundaries of LLM-as-a-Judge, reorganize fragmented literature into a unified framework, and propose a novel reliability-oriented benchmark. Building on these, we also articulate a forward-looking research agenda, offering both theoretical foundations and practical guidance for constructing reliable and socially trustworthy LLM-as-a-Judge systems. The associated resources can be accessed at https://awesome-llm-as-a-judge.github.io/.
Awesome LLM-as-a-Judge
🔥 [2025-01-28]: We added analysis on LLM-as-a-Judge and o1-like Reasoning Enhancement, as well as meta-evaluation results on o1-mini, Gemini-2.0-Flash-Thinking-1219, and DeepSeek-R1! 🌟 [2025-01-16]: We shared and discussed the methodologies, applicat
awesome-llm-as-a-judge.github.io
초록
정확하고 일관된 평가는 수많은 분야에서 의사결정을 위해 필수적이지만, 본질적인 주관성, 변동성, 그리고 대규모 처리의 어려움 때문에 여전히 매우 도전적인 과제입니다. 대형 언어 모델(LLM)은 다양한 분야에서 놀라운 성과를 거두며 “LLM-as-a-Judge”(LLM을 심판/평가자로 활용하는 방식)라는 새로운 패러다임의 등장으로 이어졌습니다. 다양한 데이터 유형을 처리하고 확장 가능하며 유연한 평가를 제공할 수 있는 능력 덕분에, LLM은 전통적인 전문가 중심 평가의 매력적인 대안으로 주목받고 있습니다. 그러나 LLM-as-a-Judge 시스템의 신뢰성을 확보하는 일은 여전히 중대한 과제로 남아 있으며, 이를 위해서는 세심한 설계와 표준화가 요구됩니다. 본 논문은 LLM-as-a-Judge에 대한 포괄적인 서베이 논문으로, 공식적인 정의와 상세한 분류 체계를 제시하며, 핵심 질문인 “어떻게 신뢰할 수 있는 LLM-as-a-Judge 시스템을 구축할 수 있는가?” 에 집중합니다. 우리는 일관성 향상, 편향 완화, 다양한 평가 시나리오에의 적응 등 신뢰성을 높이기 위한 여러 전략들을 탐구합니다. 또한 LLM-as-a-Judge 시스템의 신뢰성을 평가하기 위한 방법론을 제안하며, 이를 위한 새로운 벤치마크를 설계하였습니다.
LLM-as-a-Judge 시스템의 발전과 실제 적용을 촉진하기 위해 실무적 응용 사례, 현재의 주요 도전 과제, 그리고 앞으로의 연구 방향도 함께 논의합니다. 본 서베이 논문은 빠르게 발전하고 있는 이 분야의 연구자와 실무자를 위한 기초 참고 자료가 되고자 하며, 다음과 같은 기여를 합니다:
- LLM-as-a-Judge의 개념적 경계를 명확히 정의
- 산재해 있던 문헌들을 통합된 프레임워크로 재구성
- 신뢰성 중심의 새로운 벤치마크 제안 이론적 기반과 실무적 가이드를 모두 포함한 미래 연구 로드맵 제시
- 관련 자료는 아래 링크에서 확인할 수 있습니다: https://awesome-llm-as-a-judge.github.io/
Awesome LLM-as-a-Judge
🔥 [2025-01-28]: We added analysis on LLM-as-a-Judge and o1-like Reasoning Enhancement, as well as meta-evaluation results on o1-mini, Gemini-2.0-Flash-Thinking-1219, and DeepSeek-R1! 🌟 [2025-01-16]: We shared and discussed the methodologies, applicat
awesome-llm-as-a-judge.github.io
1 INTRODUCTION
Judgment is the faculty of thinking the particular as contained under the universal. It involves the capacity to subsume under rules, that is, to distinguish whether something falls under a given rule. ——Kant, Critique of Judgment [59], Introduction IV, 5:179; Critique of Pure Reason [58], A132/B171. Recently, Large Language Models (LLMs) have achieved remarkable success across numerous domains [178], ranging from technical fields [142, 191, 210] to the humanities [55, 100, 113, 217] and social sciences [45, 127, 164, 177]. This growing interest stems from LLMs’ ability to mimic human-like reasoning and thinking processes, enabling them to take on roles traditionally reserved for human experts while offering a cost-effective solution that can be effortlessly scaled to meet increasing evaluation demands. For instance, the use of LLM-as-a-Judge in academic peer review1 offers a potential means to address the sharp growth in submissions while sustaining expert-level judgments. Before the era of LLMs, finding a balance between comprehensive and scalable evaluation posed a persistent challenge. On the one hand, widely used subjective methods like expert-driven assessments [38, 126] integrate holistic reasoning and fine-grained contextual understanding, making them the gold standard in comprehensiveness. However, these approaches are costly, difficult to scale, and susceptible to inconsistency. On the other hand, objective assessment methods, such as automatic metrics, offer strong scalability and consistency. For example, tools such as BLEU [109] or ROUGE [85] can rapidly evaluate machine-generated translations or summaries against reference texts without human intervention. However, these metrics, which heavily rely on surface-level lexical overlaps, often fail to capture deeper nuances, resulting in poor performance in tasks like story generation or instructional texts [122]. As a solution to this persistent dilemma, “LLM-as-a-Judge” has emerged as a promising idea to combine the strengths of the above two evaluation methods. Recent studies have shown that this idea can merge the scalability of automatic methods with the detailed, context-sensitive reasoning found in expert judgments [18, 79, 162, 213, 222]. Moreover, LLMs may become sufficiently flexible to handle multimodal inputs [17] under appropriate prompt learning or fine-tuning [62]. These advantages suggest that the LLM-as-a-Judge approach could serve as a novel and broadly applicable paradigm for addressing complex and open-ended evaluation problems. LLM-as-a-Judge holds significant potential as a scalable and adaptable evaluation framework comparedtotheaforementionedtwotraditional methods [158]. However, its widespread adoption is hindered by two key challenges. The first challenge lies in the absence of a systematic review, which highlights the lack of formaldefinitions, fragmented understanding, and inconsistent usagepractices in the relevant studies. As a result, researchers and practitioners struggle to fully understand and apply effectively. The second challenge concerns reliability [189], as merely employing LLM-as-aJudge does not ensure accurate evaluations aligned with established standards. These challenges emphasize the need for a deeper assessment of the outputs generated by LLM-as-a-Judge, as well as a crucial investigation into the question: How to build reliable LLM-as-a-Judge systems? To address these challenges, this paper provides a systematic review of research on LLM-as-aJudge. It offers a comprehensive overview of the field and explores strategies for building reliable LLM-as-a-Judge systems. We begin by defining LLM-as-a-Judge through both formal and informal definitions, answering the foundational question: "What is LLM-as-a-Judge?" Next, we categorize existing methods and approaches, exploring "How to use LLM-as-a-Judge?". Following this, to tackle the critical question: "How to build reliable LLM-as-a-Judge systems?", we explore two core aspects:
1 서론
판단이란 특수한 것을 보편적인 것 아래에 포함시켜 사고하는 능력이다. 이는 규칙 아래에 어떤 것을 종속시키는 능력, 즉 주어진 규칙에 어떤 것이 해당되는지를 구분하는 능력을 포함한다.
——칸트, 『판단력 비판』 [59], 서론 IV, 5:179; 『순수이성비판』 [58], A132/B171.
최근 대형 언어 모델(LLM)은 수많은 분야에서 놀라운 성과를 거두고 있다[178]. 기술 분야[142, 191, 210]부터 인문학[55, 100, 113, 217], 사회과학[45, 127, 164, 177]에 이르기까지 매우 폭넓은 영역에서 두각을 나타내고 있다. 이러한 관심의 증가는 LLM이 인간과 유사한 추론 및 사고 과정을 모방할 수 있는 능력에서 비롯되며, 이를 통해 전통적으로 인간 전문가에게 맡겨졌던 역할을 수행하면서도 비용 효율적이고 대규모 확장이 용이한 솔루션을 제공할 수 있게 되었다.
예를 들어, 학술 논문 심사에서 LLM-as-a-Judge를 활용하는 것은 급격히 증가하는 투고 논문 수를 감당하면서도 전문가 수준의 판단을 유지할 수 있는 잠재적 방안으로 주목받고 있다¹. LLM 이전 시대에는 포괄적(comprehensive) 이면서도 확장 가능(scalable)한 평가 사이의 균형을 찾는 것이 지속적인 난제로 남아 있었다. 한편으로는 전문가 주도의 주관적 평가[38, 126]와 같은 방법이 전체론적 추론과 세밀한 맥락 이해를 통합하여 포괄성 면에서 금본위제(gold standard)로 여겨졌다. 그러나 이러한 방법은 비용이 많이 들고, 확장성이 떨어지며, 일관성 부족에 취약하다는 단점이 있다.
다른 한편으로는 BLEU[109]나 ROUGE[85]와 같은 자동 평가 지표와 같은 객관적 방법은 뛰어난 확장성과 일관성을 제공한다. 이들 지표는 인간의 개입 없이 참조 텍스트와 비교하여 기계가 생성한 번역이나 요약을 빠르게 평가할 수 있다. 그러나 표면적인 어휘 중첩에 크게 의존하기 때문에 이야기 생성이나 지시문 작성과 같이 깊은 뉘앙스가 중요한 과제에서는 성능이 매우 떨어지는 한계를 보인다[122].
이러한 오랜 딜레마를 해결하는 방안으로 “LLM-as-a-Judge”라는 아이디어가 유망한 대안으로 부상하였다. 최근 연구들은 이 접근법이 자동 평가 방식의 확장성과 전문가 판단이 가진 세밀하고 맥락에 민감한 추론 능력을 동시에 결합할 수 있음을 보여주고 있다[18, 79, 162, 213, 222]. 게다가 적절한 프롬프트 학습이나 미세조정을 통해 다중모달 입력까지 유연하게 처리할 가능성도 제시되고 있다[17, 62].
이러한 장점들은 LLM-as-a-Judge가 복잡하고 개방형 평가 문제를 해결할 수 있는 새롭고 광범위하게 적용 가능한 패러다임이 될 수 있음을 시사한다.
LLM-as-a-Judge는 앞서 언급한 두 전통적 평가 방식에 비해 확장 가능하고 적응력이 뛰어난 평가 프레임워크로서 큰 잠재력을 지니고 있다[158]. 그러나 본격적인 보편적 채택에는 두 가지 주요 장애물이 존재한다.
첫 번째는 체계적인 종합 리뷰의 부재로 인해, 해당 분야에 공식적인 정의가 부족하고, 연구들 간의 이해가 파편화되어 있으며, 사용 관행 또한 일관되지 않다는 점이다. 이로 인해 연구자와 실무자들이 이 개념을 충분히 이해하고 효과적으로 적용하는 데 어려움을 겪고 있다.
두 번째는 신뢰성(reliability) 문제이다[189]. 단순히 LLM-as-a-Judge를 사용하는 것만으로는 기존의 확립된 기준과 일치하는 정확한 평가를 보장할 수 없다.
이러한 과제들은 LLM-as-a-Judge가 생성하는 출력에 대한 보다 심층적인 평가와, 무엇보다도 핵심 질문에 대한 철저한 탐구가 필요함을 강조한다: 어떻게 신뢰할 수 있는 LLM-as-a-Judge 시스템을 구축할 수 있는가?
이러한 도전 과제를 해결하기 위해, 본 논문은 LLM-as-a-Judge 연구에 대한 체계적인 리뷰를 제공한다. 이 분야의 포괄적인 개요를 제시하고, 신뢰할 수 있는 LLM-as-a-Judge 시스템 구축 전략을 탐구한다.
우리는 먼저 LLM-as-a-Judge에 대한 정식(formal) 및 비정식(informal) 정의를 제시함으로써 가장 기초적인 질문인 “LLM-as-a-Judge란 무엇인가?” 에 답한다.
이어 기존 방법론과 접근 방식을 분류하여 “LLM-as-a-Judge를 어떻게 사용하는가?” 를 탐구한다.
그 다음, 가장 중요한 질문인 “어떻게 신뢰할 수 있는 LLM-as-a-Judge 시스템을 구축할 것인가?” 에 대응하기 위해 두 가지 핵심 측면을 다룬다.
(1) strategies to enhance the reliability of LLM-as-a-Judge systems and (2) methodologies for evaluating the reliability of these systems. For the first aspect, we review key strategies to optimize the performance of LLM-as-a-Judge. For the second aspect, we examine the metrics, datasets, and methodologies used to evaluate LLM-as-a-Judge systems, highlighting potential sources of bias and methods for their mitigation. Building on this, we introduce a novel benchmark specifically designed for evaluating LLM-as-a-Judge systems. Finally, we discuss future research directions, emphasizing key areas for improving reliability, scalability, and applicability. The contributions of this study can be summarized as follows: (1) At the definitional level, we establish both formal and informal definitions of LLM-as-aJudge, thereby delineating the conceptual boundaries of this emerging paradigm. We also introduce a contextualized definition of reliability, which incorporates input variability, model characteristics, and contextual dependencies, providing a principled foundation for theorizing and building reliable systems. (2) At the framework level, we conduct a systematic reorganization of fragmented literature into a unified conceptual structure. Specifically, we map prior work to four foundational questions: what it is, how to use it, how to improve it, and how to evaluate it—framing reliability as the unifying thread across these dimensions. (3) At the empirical level, we perform comparative analyses of existing approaches and further propose a meta-evaluation benchmark specifically tailored for evaluating LLM-as-a-Judge systems. This benchmark facilitates systematic reliability assessment, uncovering key tradeoffs such as robustness versus sensitivity, and offering actionable insights for constructing trustworthy evaluation frameworks. (4) At the perspective level, we offer a comprehensive analysis that integrates the applications, challenges, and future directions of LLM-as-a-Judge, providing a roadmapthatextendsbeyond the scope of existing surveys. By systematically reviewing its applications in core machine learning and high-stakes domains, we identify domain-specific reliability requirements and underexplored challenges such as meta-evaluation and long-term consistency. Building on these findings, we articulate a forward-looking agenda that emphasizes theoretically grounded methodologies, systematic benchmarks, and hybrid human–AI frameworks for constructing reliable and socially trustworthy systems. The rest of this survey is organized as Figure 1. Specifically, Section 2 provides an overview of the LLM-as-a-Judge field, including its definitions and categorization of existing methods. For a quick guide on the implementation of an LLM as a judge for specific scenarios, you can find answers in Quick Practice (2.5). Strategies for enhancing and evaluating the reliability of LLM-as-a-Judge systems are discussed in Sections 3 and 4 respectively. Notably, in Section 7.1, we discuss the synergy between LLM-as-a-Judge and Reasoning-Centric enhancement, where dynamic feedback is used to optimize reasoning paths and significantly improve the model’s ability to solve complex problems. Section 5 explores practical applications, while Sections 6 and 7 address challenges and outline future research directions. Finally, Section 8 presents our conclusions
(1) LLM-as-a-Judge 시스템의 신뢰성을 향상시키기 위한 전략과
(2) 이러한 시스템의 신뢰성을 평가하기 위한 방법론
첫 번째 측면에서는 LLM-as-a-Judge의 성능을 최적화하기 위한 주요 전략들을 검토합니다.
두 번째 측면에서는 LLM-as-a-Judge 시스템의 신뢰성을 평가하기 위해 사용되는 지표, 데이터셋, 방법론들을 살펴보고, 잠재적인 편향의 원인과 이를 완화하는 방법들을 강조합니다. 이를 바탕으로, 본 연구에서는 LLM-as-a-Judge 시스템 평가를 위해 특별히 설계된 새로운 벤치마크를 제안합니다.
마지막으로, 신뢰성·확장성·적용 가능성을 개선하기 위한 핵심 영역을 중심으로 향후 연구 방향을 논의합니다. 본 연구의 주요 기여는 다음과 같이 요약할 수 있습니다:
정의적 수준
LLM-as-a-Judge에 대한 공식적·비공식적 정의를 모두 확립함으로써 이 새롭게 부상하는 패러다임의 개념적 경계를 명확히 하였습니다. 또한 입력 변동성, 모델 특성, 맥락 의존성을 포함하는 맥락화된 신뢰성(reliability)의 정의를 제안하여, 신뢰할 수 있는 시스템 이론화와 구축을 위한 원칙적 토대를 마련하였습니다.
프레임워크 수준
지금까지 파편적으로 흩어져 있던 문헌들을 체계적으로 재구성하여 통합된 개념적 구조로 정리하였습니다. 구체적으로 기존 연구들을 네 가지 근본 질문
- 무엇인가(what it is),
- 어떻게 사용하는가(how to use it),
- 어떻게 개선하는가(how to improve it),
- 어떻게 평가하는가(how to evaluate it)
으로 매핑하였으며, 신뢰성을 이 네 차원을 관통하는 통합적 주제로 위치지었습니다.
실증적 수준
기존 접근법들에 대한 비교 분석을 수행하고, LLM-as-a-Judge 시스템 전용 메타-평가(meta-evaluation) 벤치마크를 새롭게 제안하였습니다. 이 벤치마크는 체계적인 신뢰성 평가를 가능하게 하며, 견고성(robustness) vs 민감도(sensitivity) 등 주요 트레이드오프를 드러내고, 신뢰할 수 있는 평가 프레임워크 구축을 위한 실질적인 통찰을 제공합니다.
관점적 수준
LLM-as-a-Judge의 응용 분야, 도전 과제, 미래 방향을 통합적으로 분석하여 기존 설문조사들의 범위를 넘어서는 로드맵을 제시합니다. 핵심 머신러닝 과제와 고위험(high-stakes) 도메인에서의 적용 사례를 체계적으로 검토함으로써 도메인별 신뢰성 요구사항과 아직 충분히 탐구되지 않은 과제(메타-평가, 장기 일관성 등)를 도출하였습니다. 이를 바탕으로 이론적 기반이 탄탄한 방법론, 체계적인 벤치마크, 인간–AI 하이브리드 프레임워크를 강조하는 미래지향적 연구 어젠다를 제시합니다.
본 설문조사의 나머지 구성은 그림 1과 같습니다.
그림 1
구체적으로, 섹션 2에서는 LLM-as-a-Judge 분야의 개요, 정의, 기존 방법들의 분류를 제공합니다.
특정 시나리오에서 LLM을 판사(judge)로 구현하는 방법에 대한 빠른 가이드는 **Quick Practice (2.5)**에서 확인할 수 있습니다.
섹션 3과 섹션 4에서는 각각 LLM-as-a-Judge의 신뢰성 향상 전략과 평가 방법론을 다룹니다. 특히 섹션 7.1에서는 LLM-as-a-Judge와 추론 중심 강화(Reasoning-Centric enhancement) 간의 시너지를 논의하며, 동적 피드백을 활용해 추론 경로를 최적화함으로써 복잡한 문제 해결 능력을 크게 향상시키는 방안을 다룹니다.
섹션 5에서는 실제 응용 사례를 탐구하고, 섹션 6과 섹션 7에서는 주요 도전 과제와 향후 연구 방향을 다룹니다. 마지막으로 섹션 8에서 결론을 제시합니다.
2 BACKGROUND AND METHOD
The capacity of LLMs to emulate human reasoning and evaluate specific inputs against a set of predefined rules has paved the way for "LLM-as-a-Judge." Existing studies indicate that LLM’s scalability, adaptability, and cost-effectiveness make them well-suited for a growing number of evaluative tasks that were traditionally done by humans. These abilities are key in utilizing LLMs f lexibly across various evaluation scenarios and objectives. As a result, the adoption of LLM in evaluation has progressed rapidly in practice. Initially, the primary focus of LLMs was on language generation and comprehension. With advancements in training paradigms like Reinforcement Learning from Human Feedback (RLHF) [108], LLMs became increasingly aligned with human values and reasoning processes. This alignment has allowed LLMs to transition from generative tasks to evaluation. At its core, LLM-as-a-Judge denotes the use of LLMs to evaluate objects, actions, or decisions based on predefined rules, criteria, or preferences. It encompasses a broad spectrum of roles, including: Graders [28, 150], Evaluators/Assessors [80, 197], Critics [61, 111, 174], Verifiers [88, 128, 165], Examiners [8], Reward/Ranking Models [98, 136, 179, 193], etc. Currently, the definition of how to effectively use LLM-as-a-Judge for evaluation tasks is largely informal or vague, lacking a clear and formal expression. Therefore, we will start with a formal definition of LLM-as-a-Judge as follows: E ← PLLM (⊕ C) • E: The final evaluation obtained from the whole LLM-as-a-Judge process in the expected manner. It could be a score, a choice, a label or a sentence, etc. • PLLM:Theprobability function defined by the corresponding LLM, and the generation is an auto-regressive process. • The input data in any available types (text, image, video), which waiting to be evaluated. • C: The context for the input which is often prompt template or combined with history information in dialogue. • ⊕: The combination operator combines the input with the context C, and this operation can vary depending on the context, such as being placed at the beginning, middle, or end. The formulation of LLM-as-a-Judge reflects that LLM is a type of auto-regressive generative model, which generates subsequent content based on the context to obtain target evaluation. It illustrates how we utilize LLM for evaluation tasks, encompassing input design, model selection, and training, as well as output post-processing. The basic approaches of implementing LLM-as-a-Judge can be classified by the formulation: In-Context Learning, Model Selection, Post-processing Method, and Evaluation Pipeline in Figure 2. By following this pipeline, one can build a basic LLM-as-a-Judge for evaluation. A quick practice guide is available in section 2.5. However, the basic definition alone does not guarantee the reliability of evaluations. To explicitly highlight and address reliability, we further propose the following enhanced formal definition: R ←(PLLM,C) • R:The evaluation explicitly designed to ensure consistency, robustness, and alignment with human judgment. This reliability is verified through additional validation, calibration, and standardization steps beyond the basic pipeline.
2 배경 및 방법
대규모 언어 모델(LLM)이 인간의 추론을 모방하고, 미리 정의된 규칙 집합에 따라 특정 입력을 평가할 수 있는 능력은 “LLM-as-a-Judge”라는 개념의 등장으로 이어졌다. 기존 연구들은 LLM의 확장성(scalability), 적응성(adaptability), 비용 효율성(cost-effectiveness)이 인간이 전통적으로 수행하던 다양한 평가 작업에 매우 적합하다는 점을 보여주고 있다. 이러한 능력들은 LLM을 다양한 평가 시나리오와 목적에 유연하게 활용할 수 있게 하는 핵심 요소이다. 그 결과, 실제 현장에서 LLM을 평가 도구로 사용하는 사례는 매우 빠르게 증가하고 있다. 초기에는 LLM의 주요 초점이 언어 생성과 이해에 맞춰져 있었다. 그러나 인간 피드백 강화학습(Reinforcement Learning from Human Feedback, RLHF) [108]과 같은 훈련 패러다임의 발전으로 LLM은 점차 인간의 가치와 추론 과정에 더 잘 맞춰지게 되었다. 이러한 정렬(alignment)은 LLM이 생성(generation) 중심 작업에서 평가(evaluation) 작업으로 자연스럽게 전환할 수 있는 기반을 마련해 주었다. LLM-as-a-Judge의 핵심은 LLM을 활용하여 미리 정의된 규칙, 기준, 또는 선호도에 따라 객체, 행동, 결정 등을 평가하는 것을 의미한다. 이 개념은 매우 넓은 범위의 역할을 포괄하며, 다음이 그 예이다:
Graders [28, 150], Evaluators/Assessors [80, 197], Critics [61, 111, 174], Verifiers [88, 128, 165], Examiners [8]
,Reward/Ranking Models [98, 136, 179, 193] 등
현재 LLM-as-a-Judge를 평가 작업에 효과적으로 활용하는 방법에 대한 정의는 대부분 비공식적이거나 모호한 수준에 머물러 있으며, 명확하고 형식적인 표현이 부족한 실정이다. 이에 따라 본 논문에서는 LLM-as-a-Judge에 대한 다음과 같은 형식적 정의를 제안한다:
- E ← Pₗₗₘ (I ⊕ C)
- E: 전체 LLM-as-a-Judge 과정을 통해 기대하는 방식으로 얻어지는 최종 평가 결과 (점수, 선택지, 레이블, 문장 등 다양한 형태 가능)
- Pₗₗₘ: 해당 LLM이 정의하는 확률 함수 (자동회귀 autoregressive 생성 과정)
- I: 평가 대상이 되는 입력 데이터 (텍스트, 이미지, 비디오 등 모든 가능한 형태)
- C: 입력 I에 대한 맥락(context)으로, 주로 프롬프트 템플릿 또는 대화 이력 정보 등이 포함됨
- ⊕: 입력 I와 맥락 C를 결합하는 연산자로, 맥락에 따라 맨 앞·중간·맨 뒤 등 다양한 위치에 배치될 수 있음
위 공식은 LLM이 본질적으로 자동회귀 생성 모델(autoregressive generative model)이라는 점을 반영하며, 주어진 맥락을 바탕으로 다음 내용을 생성하여 목표 평가를 도출하는 과정을 보여준다. 이는 입력 설계, 모델 선택, 훈련, 출력 후처리 등 LLM을 평가 작업에 활용하는 전반적인 방식을 포괄한다. LLM-as-a-Judge의 기본 구현 접근법은 위 공식에 따라 다음과 같이 분류할 수 있다 (그림 2 참조):
- In-Context Learning
- Model Selection
- Post-processing Method
- Evaluation Pipeline
이 파이프라인을 따르면 기본적인 LLM-as-a-Judge 평가 시스템을 구축할 수 있다. 구체적인 빠른 실습 가이드는 섹션 2.5에서 확인할 수 있다. 그러나 위의 기본 정의만으로는 평가의 **신뢰성(reliability)**을 보장할 수 없다. 이를 명시적으로 강조하고 해결하기 위해, 우리는 다음과 같은 향상된 형식적 정의를 추가로 제안한다:
- R ← fr(Pₗₗₘ, x, C)
R: 일관성(consistency), 견고성(robustness), 인간 판단과의 정합성(alignment)을 명시적으로 보장하도록 설계된 평가 결과 이 신뢰성은 기본 파이프라인을 넘어 추가적인 검증(validation), 보정(calibration), 표준화(standardization) 단계를 거쳐 확인된다
• fr : A series of constraints and validation methods applied systematically to the basic LLMas-a-Judge framework to enhance evaluation reliability. These include methods to mitigate biases, control variability, and confirm robustness against adversarial inputs.
2.1 In-Context Learning
To apply LLM-as-a-Judge, evaluation tasks are typically specified using In-Context Learning methods, which provide instructions and examples to guide the model’s reasoning and judgment. This process involves two key aspects: input design and prompt design. For input design, it is important to consider the type of variables to be evaluated (such as text, image, or video), the manner of input (e.g., individually, in pairs, or in batches), and its position (e.g., at the beginning, middle, or end). For the prompt design, four different methods can be adopted, as illustrated in Figure 2. These methods include generating scores, solving true/false questions, conducting pairwise comparisons, and making multiple-choice selections. Further details will be presented in the following sections.
2.1.1 Generating scores.
It is quite intuitive to represent an evaluation using a corresponding score, shown in Figure 3. What requires more careful consideration, however, is the nature and range of the score used for evaluation. The score can be discrete, with common ranges like 1-3, 1-5 [56], or 1-10 [79, 222]. Alternatively, it can be continuous, ranging from 0 to 1 or 0 to 100 [174]. The simplest way to score is through the context, setting the range of scores and the main criteria for scoring. For example, "Please rate the helpfulness, relevance, accuracy, level of details of their responses. Eachassistant receives an overall score on ascale of1to10,whereahigherscoreindicates better overall performance" [222]. A slightly more complex way is to provide more detailed scoring criteria. More complex scoring situations can be as Language-Model-as-an-Examiner [8], which use Likert scale scoring functions as an absolute evaluative measure. The evaluator assigns scores to a given response along predefined dimensions, including accuracy, coherence, factuality, and comprehensiveness. Each of these dimensions is scored on a scale of 1 to 3, ranging from worst to best. The evaluator is also asked to provide an overall score ranging from 1 to 5, based on the scores assigned to the previous 4 dimensions. This score serves as an indicator of the overall quality of the answer.
f: 기본 LLM-as-a-Judge 프레임워크에 체계적으로 적용되는 일련의 제약 조건과 검증 방법들로, 평가의 신뢰성을 향상시키기 위해 사용됩니다. 여기에는 편향 완화 방법, 변동성 통제, 적대적 입력(adversarial inputs)에 대한 견고성 확인 등이 포함됩니다.
2.1 In-Context Learning
LLM-as-a-Judge를 적용할 때, 평가 과제는 대개 In-Context Learning 방식을 통해 지정됩니다.이 방식은 모델의 추론과 판단을 안내하기 위해 지시사항(instructions)과 예시(examples)를 제공하는 것을 의미합니다. 이 과정은 크게 두 가지 핵심 측면으로 나뉩니다: **입력 설계(input design)**와 **프롬프트 설계(prompt design)**입니다. 입력 설계에서는 다음 사항들을 고려하는 것이 중요합니다:
- 평가 대상 변수의 유형 (텍스트, 이미지, 비디오 등)
- 입력 방식 (개별적으로, 쌍으로, 배치로 등)
- 입력의 위치 (맨 앞, 중간, 맨 뒤 등)
프롬프트 설계에서는 그림 2에 나타난 바와 같이 네 가지 주요 방법을 채택할 수 있습니다:
- 점수 생성(Generating scores)
- 참/거짓 질문 해결(True/False)
- 쌍대 비교(Pairwise comparison)
- 다지선다 선택(Multiple-choice selection)
이에 대한 보다 구체적인 내용은 이후 섹션에서 다룹니다.
2.1.1 점수 생성 (Generating scores)
평가를 점수로 표현하는 것은 매우 직관적인 방법이며, 그림 3에 예시가 나타나 있습니다. 그러나 신중하게 고려해야 할 부분은 바로 사용되는 점수의 성격과 범위입니다.점수는 크게 두 가지 형태로 나뉩니다:
이산형(discrete) 점수
흔히 사용되는 범위: 13, 15 [56], 1~10 [79, 222] 등
연속형(continuous) 점수
01 또는 0100 [174] 등
가장 간단한 점수 부여 방식은 맥락(context)을 통해 점수 범위와 주요 평가 기준을 명시하는 것입니다.
예시: "응답의 도움이 되는 정도(helpfulness), 관련성(relevance), 정확성(accuracy), 세부 수준(level of details)을 평가해 주세요. 각 어시스턴트는 전체 성능을 나타내는 1~10점 척도의 종합 점수를 받습니다. 점수가 높을수록 전반적인 성능이 우수함을 의미합니다." [222]
조금 더 복잡한 방식으로는 보다 상세한 점수 기준을 제공하는 방법이 있습니다.더 복잡한 점수 부여 사례로는 Language-Model-as-an-Examiner [8] 접근법이 대표적입니다. 이 방법은 Likert 척도를 절대적 평가 척도로 사용하여, 주어진 응답을 미리 정의된 여러 차원에서 점수화합니다. 주요 평가 차원은 다음과 같습니다:
- 정확성(accuracy)
- 일관성(coherence)
- 사실성(factuality)
- 포괄성(comprehensiveness)
각 차원은 13점 척도로 평가되며 (1: 최악 ~ 3: 최상), 이후 평가자는 앞의 4개 차원 점수를 종합하여 전체 품질을 나타내는 **15점**의 종합 점수를 부여하게 됩니다. 이 종합 점수는 답변의 전반적인 품질을 나타내는 지표로 활용됩니다.
Evaluation Prompt Templates from Gao et al. [38]
Likert Scale Scoring: Evaluate the quality of summaries written for a news article. Rate each summary on four dimensions: {Dimension_1}, {Dimension_2}, {Dimension_3}, and {Dimension_4}. You should rate on a scale from 1 (worst) to 5 (best).
Article: {Article}
Summary: {Summary}
Pairwise Comparison:
Given a new article, which summary is better? Answer "Summary 0" or "Summary 1". You do not need to explain the reason.
Article: {Article}
Summary 0: {Summary_0}
Summary 1: {Summary_1}
2.1.2 Solving Yes/No questions.
A Yes/No question requires a judgment on a given statement, focusing solely on its accuracy. This type of question is simple and direct, providing only two fixed responses—yes or no, true or false—without any additional comparisons or choices. This type of evaluation is often utilized in intermediate processes, creating the conditions for a feedback loop. For example, it promotes a self-optimization cycle, as seen in Reflexion [128], which generates verbal self-reflections to provide valuable feedback for future attempts. In scenarios with sparse reward signals, such as a binary success status (success/fail), the self-reflection model uses the current trajectory and persistent memory to generate nuanced and specific feedback. Similarly, in self-improvement contexts [145], Yes/No questions can be employed to evaluate custom phrases, such as "Modification needed." and "No modification needed.", facilitating entry into the next cycle. Moreover, these evaluations are common for testing knowledge accuracy and assessing whether statements align with established facts [135], like "Given a question and the associated retrieved knowledge graph triples (entity, relation, entity), you are asked to answer whether it’s sufficient for you to answer the question with these triples and your knowledge (Yes or No)." A detailed and specific example can be seen in the Figure 4
리커트 척도 평가 (Likert Scale Scoring)
뉴스 기사에 대해 작성된 요약문의 품질을 평가합니다. 각 요약문을 다음 네 가지 차원({Dimension_1}, {Dimension_2}, {Dimension_3}, {Dimension_4})으로 평가하되, 1점(매우 낮음)부터 5점(매우 높음)까지의 점수를 부여하세요.
기사: {Article}
요약: {Summary}
쌍별 비교 (Pairwise Comparison)
주어진 기사에 대해 두 요약문 중 더 나은 것을 선택하세요. "Summary 0" 또는 "Summary 1"로 답변하며, 이유는 설명하지 않아도 됩니다.
기사: {Article}
Summary 0: {Summary_0}
Summary 1: {Summary_1}
2.1.2 예/아니오 질문 해결
예/아니오 질문은 주어진 진술의 정확성에 대한 판단을 요구합니다. 이 유형의 질문은 단순하고 직접적이며, 추가적인 비교나 선택 없이 "예" 또는 "아니오", "참" 또는 "거짓"과 같은 두 가지 고정된 응답만을 제공합니다. 이러한 평가 방식은 중간 과정에서 자주 사용되며, 피드백 루프를 위한 조건을 마련합니다.
예를 들어, Reflexion [128]에서 볼 수 있듯, 이 방법은 향후 시도에 유용한 피드백을 제공하기 위해 구두 자기 반성(self-reflection)을 생성함으로써 자기 최적화 사이클을 촉진합니다. 희소한 보상 신호가 있는 시나리오(예: 성공/실패와 같은 이진 결과)에서 자기 반성 모델은 현재 궤적과 지속적인 기억을 활용해 구체적이고 세부적인 피드백을 생성합니다.
또한, 자기 개선(self-improvement) 맥락 [145]에서 예/아니오 질문은 "수정 필요" 또는 "수정 불필요"와 같은 사용자 정의 구문을 평가하는 데 활용될 수 있으며, 이를 통해 다음 단계로의 진입이 용이해집니다.
이러한 평가 방식은 지식의 정확성을 테스트하거나, 특정 진술이 확립된 사실과 일치하는지 여부를 판단하는 데에도 널리 사용됩니다 [135]. 예를 들어, "주어진 질문과 관련된 검색된 지식 그래프 트리플(엔티티, 관계, 엔티티)을 바탕으로, 이 트리플과 당신의 지식만으로 질문에 답할 수 있는지 여부를 판단하세요(예/아니오)."와 같은 질문이 가능합니다. 자세한 예시는 그림 4에서 확인할 수 있습니다.
'업무 > 데이터과학' 카테고리의 다른 글
| Apache Jena + Spring Boot 온톨로지 SPARQL API [클로드 코드] 정리 (0) | 2026.04.23 |
|---|---|
| 정형 + 비정형 데이터를 활용한 이상 탐지/예측 ML 시스템 아키텍처 설계 [클로드 코드] 정리 (0) | 2026.04.22 |
| Self-corrective RAG(control flow) (0) | 2025.12.23 |
| Improving Language Understanding by Generative Pre-Training (0) | 2025.09.12 |
| 프롬프트 엔지니어링은 무엇일까? (2) | 2025.06.15 |