정형 + 비정형 데이터를 활용한 이상 탐지/예측 ML 시스템 아키텍처 설계 [클로드 코드] 정리

2026. 4. 22. 23:02ㆍ업무/데이터과학

728x90

[Claude]

이제 각 레이어의 핵심 결정 사항을 정리해 드릴게요.
- 정형 데이터
  - 관계형 DB(PostgreSQL, MySQL), CSV 파일, 애플리케이션 로그 등 정형화된 데이터를 배치 또는 CDC(Change Data Capture) 방식으로 수집합니다.
- 비정형 데이터
  - 텍스트 로그, 이미지, 센서 데이터 등 비정형 데이터는 전처리 전 원본 형태로 저장합니다. OCR, NLP 파이프라인이 추가될 수 있습니다.
- 실시간 스트림
  - Kafka, AWS Kinesis 등 메시지 브로커를 통해 실시간으로 이벤트를 수신합니다. 낮은 지연 이상 탐지에 핵심입니다.
- 데이터 레이크
  - 모든 원본 데이터를 저비용 오브젝트 스토리지(S3, GCS)에 보존합니다. 나중에 재처리하거나 감사 목적으로 활용합니다.
- 스트리밍 버퍼
  - 실시간 스트림 데이터를 짧은 시간 버퍼링하여 소비자가 순서대로 처리할 수 있게 합니다.
- 데이터 정제
  - 결측값 대체, 이상값 클리핑, 스케일 정규화(MinMax, Z-score)를 수행합니다. 데이터 품질이 모델 성능의 핵심입니다.
- 피처 엔지니어링
  - 원시 데이터를 모델 입력으로 변환합니다. 텍스트는 임베딩, 시계열은 롤링 통계, 이미지는 CNN 특징 벡터로 변환합니다.
- 레이블링
  - 이상 탐지에서 레이블 확보가 어렵습니다. 반지도 학습이나 능동 학습(Active Learning)으로 레이블 비용을 줄입니다.
- 비지도 이상 탐지
  - 레이블 없이 정상 분포를 학습한 뒤, 벗어난 데이터를 이상으로 탐지합니다. Isolation Forest, Autoencoder, One-Class SVM이 대표적입니다.
- 지도 예측 모델
  - 과거 이상 레이블이 있을 때 사용합니다. XGBoost는 정형 데이터, LSTM은 시계열, Transformer는 복합 패턴에 강합니다.
- 모델 레지스트리
  - 학습된 모델 버전을 관리하고 A/B 배포를 지원합니다. MLflow, AWS SageMaker Model Registry가 대표적입니다.
- 배치 추론
  - 수 분~수 시간 주기로 대용량 데이터를 일괄 처리합니다. 정기 리포트나 야간 분석에 적합합니다.
- 실시간 추론
  - API 요청 시 수십 ms 내에 이상 점수를 반환합니다. 결제 사기 탐지, 실시간 센서 모니터링에 사용합니다.
- 임계값 엔진
  - 모델이 반환한 이상 점수에 임계값을 적용해 알림 여부를 결정합니다. 동적 임계값이나 다중 임계값(경고/위험)을 설정할 수 있습니다.
- 알람/대시보드
  - 이상 탐지 결과를 Slack, PagerDuty로 알리고, Grafana 대시보드에서 시각화합니다. 심각도별 채널 분리를 권장합니다.
- 휴먼 피드백
  - 운영자가 알림을 '오탐'으로 표시하면 재학습 데이터로 활용합니다. 이 루프가 모델 정확도를 지속적으로 향상시킵니다.
- 모델 모니터링
  - 배포 후 데이터 분포 변화(드리프트), 정밀도/재현율 저하를 추적합니다. 임계치 초과 시 자동 재학습을 트리거합니다.
레이어별 주요 선택지
- 정형(DB/CSV) + 비정형(텍스트/이미지) 두 종류를 다루기 때문에, 파이프라인이 두 갈래로 시작한 뒤 피처 엔지니어링 단계에서 합쳐지는 구조가 일반적입니다.
- 이상 탐지/예측 시스템의 가장 큰 도전은 레이블 부족 문제입니다. 실제 이상 데이터는 드물기 때문에, 보통 두 모델을 함께 운영합니다. 비지도 모델(Isolation Forest, Autoencoder)로 레이블 없이 이상을 탐지하면서, 시간이 지나 레이블이 쌓이면 지도 모델(XGBoost, LSTM)로 정확도를 높이는 방식입니다.
스택 추천 (빠르게 시작하려면)
- 수집은 Apache Kafka(실시간) + Airflow(배치), 저장은 S3 + Parquet 포맷, 전처리는 Spark 또는 pandas, 모델 관리는 MLflow, 서빙은 FastAPI + Docker, 모니터링은 Grafana + Evidently AI 조합이 팀 규모나 클라우드 제약 없이 무난하게 시작할 수 있는 구성입니다.

[OpenAI]

1. 전체 아키텍처 개요

[데이터 수집]
 ├─ 정형 데이터 (DB, 로그, 트랜잭션)
 ├─ 비정형 데이터 (텍스트, 이미지, 음성)
 ↓
[데이터 저장]
 ├─ Data Lake (원천 데이터)
 ├─ Data Warehouse (정형 데이터)
 ↓
[전처리 & Feature Engineering]
 ├─ 정형 Feature
 ├─ 비정형 Embedding
 ↓
[Feature Store]
 ↓
[모델 학습]
 ├─ 이상 탐지 모델
 ├─ 예측 모델
 ↓
[모델 서빙]
 ├─ 실시간 추론
 ├─ 배치 추론
 ↓
[모니터링 & 피드백 루프]

2. 데이터 수집 계층 (Ingestion Layer)

✔ 정형 데이터

RDBMS (예: 고객 거래, 센서 값)
로그 데이터 (Clickstream, 시스템 로그)

✔ 비정형 데이터

텍스트 (상담 내용, 리뷰)
이미지 (CCTV, 품질 검사)
음성 (콜센터)

👉 핵심 포인트

스트리밍: Apache Kafka
배치: ETL (Airflow 등)

3. 데이터 저장 계층

✔ Data Lake

원천 데이터 저장 (정형 + 비정형)
예: S3, HDFS

✔ Data Warehouse

분석용 정형 데이터
예: BigQuery, Snowflake

👉 중요한 설계 포인트

Schema-on-read vs Schema-on-write 분리
비정형 데이터는 가공 전 상태로 유지

4. Feature Engineering (핵심 구간)

이 단계가 전체 성능의 70%를 결정합니다.

(1) 정형 데이터 처리

결측치 처리
스케일링
시계열 feature 생성 (lag, rolling)

(2) 비정형 데이터 처리

텍스트 → NLP 임베딩
- BERT
- Sentence-BERT
이미지 → CNN feature
- ResNet
음성 → Spectrogram + embedding

👉 핵심 개념

비정형 데이터는 “raw → vector(embedding)”으로 변환

5. Feature Store

정형 + 비정형 feature를 통합 저장
online / offline 분리

대표 도구:

Feast

👉 왜 중요한가?

학습/서빙 간 feature mismatch 방지

6. 모델링 전략

(1) 이상 탐지 모델

✔ 정형 중심

Isolation Forest
XGBoost

✔ 비정형 포함

Autoencoder
Multimodal 모델

👉 핵심 접근:

재구성 오류 기반 (reconstruction error)
확률 기반 (density estimation)

(2) 예측 모델 (Forecasting / Classification)

시계열 예측 (LSTM, Transformer)
이벤트 예측 (Fraud detection 등)

👉 멀티모달 모델 구조

[정형 feature] ─┐
 ├─> Dense Layer → 결합 → Output
[텍스트 embedding] ─┤
[이미지 embedding] ─┘

7. 모델 서빙 (Serving Layer)

✔ 실시간 (Online)

API 기반 추론
예: Fraud detection, 장애 탐지

✔ 배치 (Offline)

하루/시간 단위 이상 탐지

대표 도구:

TensorFlow Serving
KServe

8. 모니터링 & 피드백

이 단계 없으면 시스템은 반드시 망가집니다.

✔ 모니터링 대상

데이터 drift
concept drift
모델 성능

✔ 도구

Prometheus
Evidently AI

9. 핵심 설계 패턴 (중요)

1. 멀티모달 통합

early fusion vs late fusion 전략

2. Lambda / Kappa 아키텍처

실시간 + 배치 통합

3. Feature 일관성

training-serving skew 제거

4. Explainability

SHAP, LIME 활용

10. 실무에서 자주 발생하는 문제

❌ 흔한 실패 패턴

비정형 데이터 처리 비용 과소평가
Feature Store 없이 바로 모델링
실시간 vs 배치 혼합 설계 미흡
데이터 품질 관리 부재

✔ 해결 방향

embedding 파이프라인을 독립 서비스화
데이터 계약(Data Contract) 도입
점진적 배포 (Canary)

11. 한 줄 핵심 요약

“정형 데이터는 규칙을 만들고, 비정형 데이터는 맥락을 만든다.
이상 탐지는 이 둘을 결합할 때 가장 강력해진다.”

[Gemini]

정형 데이터(Tabular)와 비정형 데이터(Text, Image, Log 등)를 결합하여 이상 탐지(Anomaly Detection) 및 예측(Prediction)을 수행하는 ML 시스템은 멀티모달(Multimodal) 학습 아키텍처를 기반으로 설계해야 합니다.

현대적인 클라우드 네이티브 환경을 기준으로 한 아키텍처 가이드를 정리해 드립니다.

1. 시스템 통합 아키텍처 개요

전체 시스템은 크게 데이터 수집 → 전처리 및 특징 추출 → 모델 학습 및 서빙 → 모니터링의 4단계로 구성됩니다.

데이터 파이프라인 레이어

정형 데이터: 센서 데이터(IoT), DB 로그, 트랜잭션 기록. (주로 Kafka, Spark Streaming 활용)
비정형 데이터: 장비 사진(이미지), 고객 상담 기록(텍스트), 서버 시스템 로그(Raw Log). (주로 S3, GCS 등 Object Storage 활용)

2. 하이브리드 특징 추출 (Feature Engineering)

두 데이터의 성격이 다르므로, 각각에 최적화된 임베딩 과정을 거쳐 하나의 벡터 공간에서 결합해야 합니다.

데이터 타입	주요 처리 방식	추출 모델 (Backbone)
정형	Scaling, Encoding, Windowing	MLP, TabNet, XGBoost (Features)
비정형 (Text)	Tokenization, Embedding	BERT, RoBERTa, FastText
비정형 (Image)	Resizing, Augmentation	ResNet, ViT (Vision Transformer)
비정형 (Log)	Parsing, Template Matching	LogSig, Drain

3. 이상 탐지 ML 모델링 전략

두 데이터를 융합하는 방식에 따라 크게 두 가지 경로로 나뉩니다.

A. Late Fusion (의사결정 수준 융합)

정형 데이터용 모델과 비정형 데이터용 모델을 따로 운영하고, 각각의 **이상 점수(Anomaly Score)**를 산출한 뒤 가중 합산하여 최종 판단합니다.

장점: 모델별 독립적 업데이트 가능, 설명 가능성(Explainability) 확보 용이.

B. Early/Intermediate Fusion (특징 수준 융합)

정형 데이터와 비정형 데이터의 임베딩 벡터를 Concatenation(연결) 하여 하나의 거대한 신경망(Deep Learning)에 입력합니다.

핵심 모델: * Autoencoder: 정상 데이터만 학습하여 재구성 오차($Reconstruction Error$)가 큰 데이터를 이상치로 판별.
- Transformer-based: 시계열 데이터와 텍스트 로그의 상관관계를 Attention 메커니즘으로 파악.

4. 추천 기술 스택 및 구성도

코드 스니펫

graph LR
    subgraph "Data Source"
        A[RDB/NoSQL] --> D[Structured]
        B[Images/Logs] --> E[Unstructured]
    end

    subgraph "Feature Store"
        D --> F[Feature Processing]
        E --> G[Embedding Extraction]
    end

    subgraph "Model Serving"
        F --> H{Model Engine}
        G --> H
        H --> I[Anomaly Score / Prediction]
    end

    subgraph "Feedback Loop"
        I --> J[Alerting System]
        J --> K[Human-in-the-loop Labeling]
        K --> H
    end

5. 핵심 고려 사항

데이터 동기화 (Time-sync): 정형 센서 데이터와 비정형 로그 데이터의 발생 타임스탬프를 정밀하게 정렬하는 것이 가장 중요합니다.
설명 가능한 AI (XAI): "왜 이상이라고 판단했는가?"에 대해 정형 데이터의 기여도와 비정형 데이터(예: 로그의 특정 키워드)의 근거를 시각화해야 현업에서 신뢰할 수 있습니다. (SHAP, LIME 활용)
Cold Start 문제: 비정형 데이터는 초기 레이블링 비용이 큽니다. Self-supervised Learning을 통해 레이블 없이 사전 학습된 모델을 활용하는 것을 권장합니다.