2026. 4. 14. 11:20ㆍ정리/책 정리
1장. 지식그래프(Knowledge Graph)란 무엇인가?
1. 지식그래프의 정의와 구성 요소
지식그래프는 데이터를 개체(Entity) 단위로 분해하고, 개체들 사이의 의미론적 관계(Relation)를 그래프 구조로 표현한 지식 네트워크입니다. 단순한 점과 선이 아닌, 지식을 시각적으로 구조화하여 데이터를 더 잘 이해하고 활용할 수 있게 해줍니다.
기본 단위: Triple (주어-관계-목적어)
주요 구성 요소 4가지:
| 노드 | 사람, 장소, 사물, 개념 등 개체 | 삼성, 메모리, 와인 |
| 엣지 | 노드 간 의미 있는 관계 | 생산하다, 수입하다 |
| 속성 | 노드·엣지에 부여되는 세부 정보 | 가격, 생산연도, 주소 |
| 라벨 | 노드와 엣지의 유형 태그 | 회사, 제품, RedWine |
온톨로지(Ontology): 지식그래프의 설계도(청사진) 특정 도메인에서 어떤 개체가 존재하고, 어떤 관계와 속성이 가능한지를 체계적으로 정의합니다.
예시 (와인 도메인):
- hasOrigin (Wine → Country)
- hasType (Wine → WineType)
- pairedWith (Wine → Food)
2. 인공지능과 지식그래프
인공지능의 역사는 기호기반과 통계·연결주의 기반 두 흐름으로 발전해 왔습니다.
- 기호기반 AI: 지식을 명시적으로 정의하고 추론 규칙을 적용 → 1970년대 의미망(Semantic Networks)과 프레임(Frame)이 지식그래프의 기초가 됨
- 지식그래프는 기호기반 AI의 현대적 진화 형태로, 노드·엣지·속성을 통해 지식을 구조화합니다.
3. 거대언어모형(LLM)과 지식그래프
LLM과 지식그래프를 결합하면 다음과 같은 효과를 기대할 수 있습니다:
- 사실 기반 정확한 응답
- 의미 기반 추론 강화
- 용어 모호성 해소
- 사용자 질문 명확화
- 설명 가능한 AI(XAI) 구현
통합 3가지 프레임워크:
- KG 강화 LLM — LLM의 환각(hallucination)을 지식그래프로 보완
- LLM 증강 KG — LLM으로 개체·관계 자동 추출, KG 구축·완성
- 시너지형 (LLM + KG) — 추천, 질의응답, 지식 검색 등에서 최고 성능
LLM 활용 분야:
- KG 구축: 개체 추출, 관계 분류, 개체 연결
- KG 관리: 누락 정보 완성, 자동 업데이트, 오류 수정, 자연어 질의응답
4. 지식그래프의 가치와 출발점
지식그래프는 기업이 보유한 형식지(Explicit Knowledge)뿐만 아니라 암묵지(Tacit Knowledge)와 그 표출 과정(회의록, 메일, 메모 등)까지 하나의 구조로 통합할 수 있습니다.
지식 전환 과정: 암묵지 → 중간지식 → 형식지 → 온톨로지와 지식그래프를 통해 정리·구조화하면 흩어진 데이터를 전략적 자산으로 전환할 수 있습니다.
3장. 온톨로지: 지식그래프의 청사진
1. 온톨로지의 역할과 목적
온톨로지는 지식그래프의 설계도(청사진)입니다. 지식그래프 구축 초기 단계에서 정보의 구조와 의미를 정의하며, 다음과 같은 목적을 가집니다:
- 의미 명확화: 개체 유형, 속성, 관계에 명확한 의미 부여
- 구조 정의: 데이터 일관성 보장
- 데이터 통합: 다양한 소스 데이터를 공통 온톨로지에 매핑
- 추론 기반 마련: 하위 클래스, 속성 특성 등을 통해 자동 추론 가능
잘 설계된 온톨로지는 지식그래프의 품질, 활용성, 확장성을 결정짓는 핵심 요소입니다.
2. 온톨로지의 개념
스탠포드 대학 그루버 교수의 정의: “공유된 개념화의 정형화되고 명시적인 명세” → 구성원 간 합의된 개념(공통 어휘)과 관계를 컴퓨터가 이해할 수 있는 형식으로 표현한 것.
주요 구성 요소:
- 클래스(Class): 개념의 범주 (예: Performance, Artist)
- 인스턴스(Instance): 구체적인 개체 (예: “Cats” 뮤지컬)
- 속성(Property): 특성이나 값 (hasTitle, hasPrice)
- 관계(Relation): 클래스 간 상호작용
스키마 vs 온톨로지 비교
| 목적 | 데이터 구조 정의, 무결성 유지 | 의미론적 지식 표현 + 추론 |
| 대상 | 데이터 자체 | 개념과 개념 간 관계 |
| 표현 방식 | RDB 스키마, 그래프 스키마 | OWL, RDF, RDFS |
| 예시 | 고객 테이블 (이름, 나이) | “고객은 사람의 하위 클래스” |
Neo4j는 ‘스키마’라는 용어를 사용하지만, 온톨로지 기법을 차용하면 표현력과 활용성이 크게 향상됩니다.
3. 온톨로지의 활용
- 지식 공유·재사용 촉진
- 시스템 간 데이터 통합 및 상호운용성 향상
- 논리적 추론으로 새로운 지식 도출
- 주요 적용 분야: 지식 관리, 정보 검색, 자연어 처리, 의료 정보학, AI·머신러닝
장점: 의미 명확화, 재사용성, 추론 능력 단점: 복잡한 도메인일수록 설계·유지보수가 어렵고, 주기적 업데이트 필요
4. 온톨로지 구축 과정 (Ontology Development 101 기준 8단계)
- 도메인 이해 – 전문가 인터뷰, 문서 분석, 기존 온톨로지 검토
- 범위 결정 – 활용 목적 정의 + 역량 질문(Competency Questions) 작성
- 개체 탐색 – 핵심 용어 수집, 동의어 정리, Top-down / Bottom-up / Middle-out 접근
- 클래스 및 속성 정의 – 클래스 계층(subClassOf), 데이터 속성(DatatypeProperty), 객체 속성(ObjectProperty), domain/range 지정
- 관계 정의 – 속성 특성(함수적, 역함수적, 이행적, 대칭적 등), 카디널리티 제약, propertyChainAxiom
- 표현 및 구현 – OWL 2 언어 선택, Turtle / Manchester Syntax 등 구문 사용, Protege 도구 활용
- 검증 및 평가 – 일관성(추론기: HermiT, Pellet), 완전성, 정확성, 품질 기준(Gruber 원칙) 평가
- 배포 및 유지보수 – 트리플 스토어 로드, 문서화, 버전 관리(Git), 지속적 업데이트(ODK 도구 활용)
5. 온톨로지 편집 도구
- Protege: 가장 널리 사용되는 무료 오픈소스 도구 (웹 버전 WebProtege 포함)
- 기타: TopBraid Composer, OWLGrEd 등
Protege 주요 개념 매핑:
- Class → 클래스
- Individual → 인스턴스
- Property (Object / Data) → 관계 / 속성
4장. 지식그래프의 생명주기
지식그래프는 일회성 구축이 아니라 순환적·지속적 관리가 필요한 전략적 자산입니다. 전체 라이프사이클은 다음과 같은 4단계로 구성됩니다.
1. 구축 (Construction)
지식그래프를 처음 만드는 단계. 다양한 데이터 소스에서 정보를 추출·구조화합니다.
- 온톨로지 설계 또는 선택
- 원본 데이터를 RDF 등 그래프 형태로 변환
- 데이터 소스와 온톨로지 간 매핑 규칙 정의
- 초기 데이터 주석 및 품질 보증
2. 저장 및 호스팅 (Storage / Hosting)
생성된 그래프를 효율적으로 저장하고 접근할 수 있게 하는 단계. 주요 저장 방식 비교
| 데이터 모델 | (주어, 술어, 객체) 트리플 | 노드 + 관계 + 속성 + 레이블 |
| 쿼리 언어 | SPARQL | Cypher, Gremlin, GQL |
| 강점 | 표준화, 강력한 추론, 상호운용성 | 직관적 모델링, 고성능 탐색 |
| 약점 | 속성 표현 복잡, 학습 곡선 | 내장 추론 약함, 표준화 미흡 |
| 대표 시스템 | GraphDB, Stardog, Neptune, Jena | Neo4j, NebulaGraph, Amazon Neptune |
3. 관리 및 큐레이션 (Management / Curation)
지식그래프의 품질을 지속적으로 유지·개선하는 핵심 단계. 주요 활동:
- 품질 평가 (정확성, 완전성, 일관성, 최신성)
- 정제 (오류·불일치 수정)
- 보강·완성 (누락 정보 추가, 중복 병합, 링크 예측)
- 스키마(온톨로지) 관리 및 검증 (SHACL, ShEx)
- 버전 관리
- 보안 및 접근 통제
4. 활용 및 추론 (Utilization / Inference)
그래프를 실제 서비스에 적용하고 새로운 지식을 도출하는 단계.
- 활용: 시맨틱 검색, 추천 시스템, 질의응답(QA), 의사결정 지원 등
- 추론: 명시되지 않은 사실·관계를 자동 발견
추론 기법 비교
| 규칙 기반 | 논리 규칙 (RDFS, OWL) | 높음 | 낮음 | 명확하고 해석 쉬움 |
| 임베딩 기반 | 벡터 공간 학습 (TransE, DistMult 등) | 낮음 | 높음 | 대규모 데이터에 강함 |
| 신경-기호 | 규칙 + 임베딩 결합 | 중간 | 중간 | 최근 주류, 장점 보완 |
전체 특징
- 단계들은 순환적으로 진행 (활용 중 새로운 요구 → 다시 구축으로 회귀)
- 성공 핵심: 초기 구축만큼 지속적인 관리·큐레이션이 중요
- 기업은 인력·도구·예산을 투입하고, 명확한 거버넌스를 수립해야 함
한 줄 요약 지식그래프 생명주기는 구축 → 저장 → 관리·큐레이션 → 활용·추론의 순환 과정으로, 단순 기술 파이프라인이 아닌 장기적인 전략 자산으로 운영해야 합니다.
'정리 > 책 정리' 카테고리의 다른 글
| 오버씽킹 [벳시 홈버그] 요약정리 (1) | 2026.04.14 |
|---|---|
| 타이탄의 도구들 [1만 시간의 법칙을 깬 거인들의 61가지 전략] 요약 정리 (1) | 2026.04.14 |
| 9장 RDFS-Plus 요약 (0) | 2026.04.14 |
| 8장 핵심 요약: RDF 스키마(RDFS)란? (1) | 2026.04.12 |
| 온톨로지 [데이터의 무질서를 권력으로 바꾸는 기술] [이현종] 요약 정리 (0) | 2026.04.11 |