Word Embedding( 단어 임베딩)

728x90

SMALL

📍단어 임베딩(Word Embedding)의 의미

- 단어를 수치화된 벡터로 표현하는 기법
- 단어의 의미, 문맥, 관계 등을 숫자로 나타내어 기계 학습 모델에서 활용할 수 있도록 함

📍단어 임베딩 방법

1. One-hot Encoding:

- 특정 말뭉치 (corpus)에 속한 단어를 숫자로 구성된 vector로 표현

- 단어를 고유한 정수 인덱스로 표현하는 방식
- 단어 사전 크기만큼의 길이를 가진 벡터에서 해당 단어의 인덱스에 1을 표시하고 나머지는 0으로 표현
- 단순하지만 단어 간 관계를 반영하지 못하는 단점

2. Distributed Representation:

- 단어가 사용된 context를 고려

–>양쪽 옆에 사용된 단어가 무엇인지에 따라서 해당 단어의 벡터 원소 값을 결정

- 비슷한 문맥에서 사용된 단어 = 비슷한 단어라는 가정에 근거

- Vector의 각 원소의 구체적인 값은 큰 의미가 없음

- ex) Word2Vec
- Word2Vec은 단어의 주변 문맥을 고려하여 단어 간 유사도를 반영한 벡터를 학습합니다.
- 단어 간 관계를 잘 포착할 수 있으며, 기계 학습 모델에서 효과적으로 활용 가능

☑️word2vec

• 신경망 모델 Neural network (one hidden layer)을 사용

• 3 basic parts (layers)

(Input layer, Hidden layer, Output layer)

• 지도학습의 일종

• Classification problem과 유사

종속변수 (=categorical variable)

✓ 취하는 값: 특정 단어 (context word)

독립변수: target word

[두가지 모델]

- Skip-gram과 CBOW의 차이는 입출력 층의 구조가 반대

• Skip-gram: 특정 단어로부터 전체 context의 분포(확률)을 예측하는 것

✓ Target word가 input layer에

✓ Context words가 output layer에

• CBOW (continuous bag of words): 특정 context로부터 특정 단어를 예측하는 것

✓ Target word가 output layer에

✓ Context words가 input layer에

☑️LDA(Latent Dirichlet Allocation) 모델

- 문서 내 잠재된 토픽 구조를 발견하고, 문서-토픽, 토픽-단어 간의 관계를 모델링하는 대표적인 확률적 생성 모형.

1. 확률적 생성 모형
   - 문서 내 단어 분포가 특정 토픽 분포에 따라 생성된다고 가정
   - 이를 통해 문서 내 잠재된 토픽 구조를 발견할 수 있음

2. Bayesian 통계 기반
   - 문서-토픽, 토픽-단어 분포를 Dirichlet 분포(lda 모델에서 두가지 확률 분포를 모델링하는 데 사용 )로 모델링
   - 이를 통해 불확실성을 고려할 수 있음

3. 두 가지 확률 분포
   - 문서-토픽 분포( 문서별 주제) : 각 문서가 여러 토픽을 포함하고 있다고 가정

• 예: corpus를 구성하고 있는 전체 주제의 수가 3이라고 가정하는 경우

• 문서1 = [topic1: 20%, topic2: 40%, topic3: 40%]

• 문서2 = [topic1: 50%, topic2: 30%, topic3: 30%]

- 토픽-단어 분포(주제별 단어): 각 토픽이 특정 단어들을 포함하고 있다고 가정

• 예: 전체 단어가 5개라고 가정

• Topic1 = [word1: 10%, word2: 50%, word3: 20%, word4: 10%, word5: 10%]

• Topic2 = [word1: 10%, word2: 10%, word3: 60%, word4: 15%, word5: 5%]

4. 역추정
- 실제 문서-단어 데이터를 바탕으로 문서-토픽, 토픽-단어 분포를 추정
- 이를 통해 문서와 토픽, 토픽과 단어 간의 관계를 파악할 수 있음

728x90

LIST

'인공지능 > 머신러닝' 카테고리의 다른 글

Text analysis (0)	2024.06.14
딥 뉴럴 네트워크(Deep Neural Network, DNN) (0)	2024.06.12
KNN 알고리즘 (0)	2024.06.12
Model Evaluation (0)	2024.06.09

codiary

Word Embedding( 단어 임베딩)

📍단어 임베딩(Word Embedding)의 의미

📍단어 임베딩 방법

☑️word2vec

☑️LDA(Latent Dirichlet Allocation) 모델

'인공지능 > 머신러닝' 카테고리의 다른 글

티스토리툴바

Word Embedding( 단어 임베딩)

📍단어 임베딩(Word Embedding)의 의미

📍단어 임베딩 방법

☑️word2vec

☑️LDA(Latent Dirichlet Allocation) 모델

'인공지능 > 머신러닝' 카테고리의 다른 글

관련글

티스토리툴바