한국어 임베딩 정리
2025. 6. 15. 12:01ㆍ수집/IT
728x90
반응형
https://www.yes24.com/Product/Goods/78569687
한국어 임베딩 - 예스24
자연어 처리 모델의 성능을 높이는 핵심 비결, 『한국어 임베딩』임베딩(embedding)은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을
www.yes24.com
- 표현력이 무한한 언어를 컴퓨터가 연산할 수 있는 숫자로 바꿀 수는 있는 걸까?
- 자연어 처리 분야에서 임베딩이란, 사람이 쓰는 자연어를 기계가 이해할수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정전체를 의미한다.
- 단어-문서 행렬 (행은 단어, 열은 문서)
- Word2Vec (단어들을 벡터로 바꾸는 방법)
- 단어벡터들 사이의 유사도 계산 가능 (코사인 유사도)
- t-SNE 차원축소 기법을 통한 시각화 확인 가능
- 의미/문법 정보 함축 (사칙 연산가능, 단어 유추 평가)
- 전이학습 (임베딩을 다른 딥러닝 모델의 입력값으로 쓰는 기법, 문서분류)
- 개선된 버전 (FastText, Glove)
- 임베딩 풀질이 좋으면 수행하려는 태스크의 성능 역시 올라간다 (임베딩이 중요한 이유)
- 임베딩 기법의 역사와 종류
- 통계 기법
- 잠재 의미 분석 (Latent Semantic Analysis) : 단어 사용 빈도 등 말뭉치의 통계량 정보가 들어 있는 커다란 행렬에 특이값 분해 (Singular Value Decomposition) 등 수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소하는 방법
- TF-IDF 행렬 (Term Frequency-Inverse Document Frequency)
- 단어-문맥 행렬 (Word-Context Matrix)
- 점별 상호 정보량 행렬 (Pointwise Mutual Information Matrix)
- 잠재 의미 분석 (Latent Semantic Analysis) : 단어 사용 빈도 등 말뭉치의 통계량 정보가 들어 있는 커다란 행렬에 특이값 분해 (Singular Value Decomposition) 등 수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소하는 방법
- 뉴럴 네트워크 기반의 임베딩 기법
- 단어 (NPLM, Word2Vec, Glove, FastText, Swivel) 임베딩 기법은 각각의 벡터에 해당 단어의 문맥적 의미를 함축한다. 하지만 단어의 형태가 같다면 동일한 단어로 보고, 모든 문맥 정보를 해당 단에 벡터에 투영하기 때문이다.
- 문장 (ELMo (Embeddings from Language Models), BERT(Bidirectional Encoder Representations from Transformer), GPT (Generative Pre-Training)) 수준 임베딩 기법은 개별 단어가 아닌 단어 시퀀스 전체의 문맥적 의미를 함축하기 때문에 단어 임베팅 기법 보다 전이 학습 효과가 좋은 것으로 알려져 있다.
- 룰 (피처 직접 추출) -> 엔드투엔드(시퀀스투 시퀀스 모델) -> 프리트레인(대 규모 말뭉치로 임베딩)/파인 튜닝 (모델 전체 업데이트 (GPT, BERT, ELMo))
- 다운스트림 태스크 (품사판별 (Part Of Speech tagging), 개체명 인식 (Named Entity Recognition), 의미역 분석 (Semantic Role Labeling), 의존 관계 분석, 상호 참조 해결)
- 업스트림 태스크는 다운스트림 태스크에 앞서 해결해야 할 과제인 단어/문장 임베딩을 프리트레인하는 작업
- 통계 기법
- 임베딩의 종류와 성능
- 행렬분해: 말뭉치 정보가 들어 있는 원래 행렬을 두 개 이상의 작은 행렬로 쪼개는 방식의 임베딩 기법으로 분해한 이후엔 둘 중 하나의 행렬만 쓰거나 둘을 더하거나 이어 붙여 임베딩으로 사용
- Glove, Swivel
- 예측: 어떤 단어 주변에 특정 단어가 나타날지 예측하거나, 이전 단어들이 주어졌을 때 다음 단어가 무엇일지 예측하거나, 문장 내 일부 단어를 지우고 해당 단어가 무엇일지 맞추는 과정에서 학습한 방법
- Word2Vec, FastText, BERT, ELMo, GPT
- 토픽기반: 주어진 문서에 잠재된 주제 (Latent Topic)를 추론하는 방식으로 임베딩을 수행하는 기법
- LDA (잠재 디리클레 할당 (Latent Dirichlet Allocation)) : 각 문서가 어떤 주제 분포를 갖는지 확률 벡터 형태로 반환
- 행렬분해: 말뭉치 정보가 들어 있는 원래 행렬을 두 개 이상의 작은 행렬로 쪼개는 방식의 임베딩 기법으로 분해한 이후엔 둘 중 하나의 행렬만 쓰거나 둘을 더하거나 이어 붙여 임베딩으로 사용
- cpu 환경 도커 컨테이너 띄우기
docker pull ratsgo/embedding-cpu
docker run -it --rm ratsgo/embedding-cpu bash
728x90
반응형
'수집 > IT' 카테고리의 다른 글
| The Prompt Report: A Systematic Survey of Prompt Engineering Techniques 정리 (0) | 2026.06.02 |
|---|---|
| 만들면서 배우는 생성 AI 정리 중 (2) | 2025.06.15 |
| 데이터 과학자 원칙 정리 (3) | 2025.06.15 |
| 행동 데이터 분석 정리 중 (0) | 2025.06.15 |
| 고객 니즈가 보이는 데이터 분석 with 파이썬 정리 (4) | 2025.06.15 |