한국어 임베딩 정리

2025. 6. 15. 12:01수집/IT

728x90
반응형

https://www.yes24.com/Product/Goods/78569687

 

한국어 임베딩 - 예스24

자연어 처리 모델의 성능을 높이는 핵심 비결, 『한국어 임베딩』임베딩(embedding)은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을

www.yes24.com

  • 표현력이 무한한 언어를 컴퓨터가 연산할 수 있는 숫자로 바꿀 수는 있는 걸까?
  • 자연어 처리 분야에서 임베딩이란, 사람이 쓰는 자연어를 기계가 이해할수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정전체를 의미한다.
    1. 단어-문서 행렬 (행은 단어, 열은 문서)
    2. Word2Vec (단어들을 벡터로 바꾸는 방법)
      • 단어벡터들 사이의 유사도 계산 가능 (코사인 유사도)
      • t-SNE 차원축소 기법을 통한 시각화 확인 가능
      • 의미/문법 정보 함축 (사칙 연산가능, 단어 유추 평가)
      • 전이학습 (임베딩을 다른 딥러닝 모델의 입력값으로 쓰는 기법, 문서분류)
      • 개선된 버전 (FastText, Glove)
      • 임베딩 풀질이 좋으면 수행하려는 태스크의 성능 역시 올라간다 (임베딩이 중요한 이유)
    3. 임베딩 기법의 역사와 종류
      • 통계 기법 
        1. 잠재 의미 분석 (Latent Semantic Analysis) : 단어 사용 빈도 등 말뭉치의 통계량 정보가 들어 있는 커다란 행렬에 특이값 분해 (Singular Value Decomposition) 등 수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소하는 방법
          1. TF-IDF 행렬 (Term Frequency-Inverse Document Frequency)
          2. 단어-문맥 행렬 (Word-Context Matrix)
          3. 점별 상호 정보량 행렬 (Pointwise Mutual Information Matrix)
      • 뉴럴 네트워크 기반의 임베딩 기법
        1. 단어 (NPLM, Word2Vec, Glove, FastText, Swivel) 임베딩 기법은 각각의 벡터에 해당 단어의 문맥적 의미를 함축한다. 하지만 단어의 형태가 같다면 동일한 단어로 보고, 모든 문맥 정보를 해당 단에 벡터에 투영하기 때문이다.
        2. 문장 (ELMo (Embeddings from Language Models), BERT(Bidirectional Encoder Representations from Transformer), GPT (Generative Pre-Training)) 수준 임베딩 기법은 개별 단어가 아닌 단어 시퀀스 전체의  문맥적 의미를 함축하기 때문에 단어 임베팅 기법 보다 전이 학습 효과가 좋은 것으로 알려져 있다.
      • 룰 (피처 직접 추출) -> 엔드투엔드(시퀀스투 시퀀스 모델) -> 프리트레인(대 규모 말뭉치로 임베딩)/파인 튜닝 (모델 전체 업데이트 (GPT, BERT, ELMo))
      • 다운스트림 태스크 (품사판별 (Part Of Speech tagging), 개체명 인식 (Named Entity Recognition), 의미역 분석 (Semantic Role Labeling), 의존 관계 분석, 상호 참조 해결)
      • 업스트림 태스크는 다운스트림 태스크에 앞서 해결해야 할 과제인 단어/문장 임베딩을 프리트레인하는 작업
    4. 임베딩의 종류와 성능
      1. 행렬분해: 말뭉치 정보가 들어 있는 원래 행렬을 두 개 이상의 작은 행렬로 쪼개는 방식의 임베딩 기법으로 분해한 이후엔 둘 중 하나의 행렬만 쓰거나 둘을 더하거나 이어 붙여 임베딩으로 사용
        • Glove, Swivel
      2. 예측: 어떤 단어 주변에 특정 단어가 나타날지 예측하거나, 이전 단어들이 주어졌을 때 다음 단어가 무엇일지 예측하거나, 문장 내 일부 단어를 지우고 해당 단어가 무엇일지 맞추는 과정에서 학습한 방법
        •  Word2Vec, FastText, BERT, ELMo, GPT
      3. 토픽기반: 주어진 문서에 잠재된 주제 (Latent Topic)를 추론하는 방식으로 임베딩을 수행하는 기법
        • LDA (잠재 디리클레 할당 (Latent Dirichlet Allocation)) : 각 문서가 어떤 주제 분포를 갖는지 확률 벡터 형태로 반환
  • cpu 환경 도커 컨테이너 띄우기
docker pull ratsgo/embedding-cpu
docker run -it --rm ratsgo/embedding-cpu bash
728x90
반응형