본문 바로가기
인공지능/머신러닝

Word Embedding( 단어 임베딩)

by hihijh826 2024. 6. 15.
728x90
반응형
SMALL

📍단어 임베딩(Word Embedding)의 의미

- 단어를 수치화된 벡터로 표현하는 기법
- 단어의 의미, 문맥, 관계 등을 숫자로 나타내어 기계 학습 모델에서 활용할 수 있도록 함

 


📍단어 임베딩 방법

1. One-hot Encoding:

- 특정 말뭉치 (corpus)에 속한 단어를 숫자로 구성된 vector로 표현

- 단어를 고유한 정수 인덱스로 표현하는 방식
- 단어 사전 크기만큼의 길이를 가진 벡터에서 해당 단어의 인덱스에 1을 표시하고 나머지는 0으로 표현
- 단순하지만 단어 간 관계를 반영하지 못하는 단점

2. Distributed Representation:

 


- 단어가 사용된 context를 고려

–>양쪽 옆에 사용된 단어가 무엇인지에 따라서 해당 단어의 벡터 원소 값을 결정

- 비슷한 문맥에서 사용된 단어 = 비슷한 단어라는 가정에 근거

- Vector의 각 원소의 구체적인 값은 큰 의미가 없음


- ex) Word2Vec
- Word2Vec은 단어의 주변 문맥을 고려하여 단어 간 유사도를 반영한 벡터를 학습합니다.
- 단어 간 관계를 잘 포착할 수 있으며, 기계 학습 모델에서 효과적으로 활용 가능 

 

 

☑️word2vec 

• 신경망 모델 Neural network (one hidden layer)을 사용

3 basic parts (layers)

 (Input layer, Hidden layer, Output layer)

지도학습의 일종

 

Classification problem과 유사

 

 종속변수 (=categorical variable)

취하는 값: 특정 단어 (context word)

 

독립변수: target word

 

[두가지 모델]

- Skip-gram과 CBOW의 차이는 입출력 층의 구조가 반대

 

Skip-gram: 특정 단어로부터 전체 context의 분포(확률)을 예측하는 것

Target word가 input layer에

Context words가 output layer에

 

 

CBOW (continuous bag of words): 특정 context로부터 특정 단어를 예측하는 것

Target word가 output layer에

Context words가 input layer에




☑️LDA(Latent Dirichlet Allocation) 모델

- 문서 내 잠재된 토픽 구조를 발견하고, 문서-토픽, 토픽-단어 간의 관계를 모델링하는 대표적인 확률적 생성 모형.

1. 확률적 생성 모형
   - 문서 내 단어 분포가 특정 토픽 분포에 따라 생성된다고 가정
   - 이를 통해 문서 내 잠재된 토픽 구조를 발견할 수 있음

2. Bayesian 통계 기반
   - 문서-토픽, 토픽-단어 분포를 Dirichlet 분포(lda 모델에서 두가지 확률 분포를 모델링하는 데 사용 )로 모델링
   - 이를 통해 불확실성을 고려할 수 있음

3. 두 가지 확률 분포
   - 문서-토픽 분포( 문서별 주제) : 각 문서가 여러 토픽을 포함하고 있다고 가정

 

예: corpus를 구성하고 있는 전체 주제의 수가 3이라고 가정하는 경우

문서1 = [topic1: 20%, topic2: 40%, topic3: 40%]

문서2 = [topic1: 50%, topic2: 30%, topic3: 30%]


   - 토픽-단어 분포(주제별 단어): 각 토픽이 특정 단어들을 포함하고 있다고 가정

 

예: 전체 단어가 5개라고 가정

Topic1 = [word1: 10%, word2: 50%, word3: 20%, word4: 10%, word5: 10%]

Topic2 = [word1: 10%, word2: 10%, word3: 60%, word4: 15%, word5: 5%]



4. 역추정
   - 실제 문서-단어 데이터를 바탕으로 문서-토픽, 토픽-단어 분포를 추정
   - 이를 통해 문서와 토픽, 토픽과 단어 간의 관계를 파악할 수 있음

728x90
반응형
LIST

'인공지능 > 머신러닝' 카테고리의 다른 글

Text analysis  (0) 2024.06.14
딥 뉴럴 네트워크(Deep Neural Network, DNN)  (0) 2024.06.12
KNN 알고리즘  (0) 2024.06.12
Model Evaluation  (0) 2024.06.09