📍단어 임베딩(Word Embedding)의 의미
- 단어를 수치화된 벡터로 표현하는 기법
- 단어의 의미, 문맥, 관계 등을 숫자로 나타내어 기계 학습 모델에서 활용할 수 있도록 함
📍단어 임베딩 방법
1. One-hot Encoding:
- 특정 말뭉치 (corpus)에 속한 단어를 숫자로 구성된 vector로 표현
- 단어를 고유한 정수 인덱스로 표현하는 방식
- 단어 사전 크기만큼의 길이를 가진 벡터에서 해당 단어의 인덱스에 1을 표시하고 나머지는 0으로 표현
- 단순하지만 단어 간 관계를 반영하지 못하는 단점
2. Distributed Representation:
- 단어가 사용된 context를 고려
–>양쪽 옆에 사용된 단어가 무엇인지에 따라서 해당 단어의 벡터 원소 값을 결정
- 비슷한 문맥에서 사용된 단어 = 비슷한 단어라는 가정에 근거
- Vector의 각 원소의 구체적인 값은 큰 의미가 없음
- ex) Word2Vec
- Word2Vec은 단어의 주변 문맥을 고려하여 단어 간 유사도를 반영한 벡터를 학습합니다.
- 단어 간 관계를 잘 포착할 수 있으며, 기계 학습 모델에서 효과적으로 활용 가능
☑️word2vec
• 신경망 모델 Neural network (one hidden layer)을 사용
• 3 basic parts (layers)
(Input layer, Hidden layer, Output layer)
• 지도학습의 일종
• Classification problem과 유사
종속변수 (=categorical variable)
✓ 취하는 값: 특정 단어 (context word)
독립변수: target word
[두가지 모델]
- Skip-gram과 CBOW의 차이는 입출력 층의 구조가 반대
• Skip-gram: 특정 단어로부터 전체 context의 분포(확률)을 예측하는 것
✓ Target word가 input layer에
✓ Context words가 output layer에
• CBOW (continuous bag of words): 특정 context로부터 특정 단어를 예측하는 것
✓ Target word가 output layer에
✓ Context words가 input layer에
☑️LDA(Latent Dirichlet Allocation) 모델
- 문서 내 잠재된 토픽 구조를 발견하고, 문서-토픽, 토픽-단어 간의 관계를 모델링하는 대표적인 확률적 생성 모형.
1. 확률적 생성 모형
- 문서 내 단어 분포가 특정 토픽 분포에 따라 생성된다고 가정
- 이를 통해 문서 내 잠재된 토픽 구조를 발견할 수 있음
2. Bayesian 통계 기반
- 문서-토픽, 토픽-단어 분포를 Dirichlet 분포(lda 모델에서 두가지 확률 분포를 모델링하는 데 사용 )로 모델링
- 이를 통해 불확실성을 고려할 수 있음
3. 두 가지 확률 분포
- 문서-토픽 분포( 문서별 주제) : 각 문서가 여러 토픽을 포함하고 있다고 가정
• 예: corpus를 구성하고 있는 전체 주제의 수가 3이라고 가정하는 경우
• 문서1 = [topic1: 20%, topic2: 40%, topic3: 40%]
• 문서2 = [topic1: 50%, topic2: 30%, topic3: 30%]
- 토픽-단어 분포(주제별 단어): 각 토픽이 특정 단어들을 포함하고 있다고 가정
• 예: 전체 단어가 5개라고 가정
• Topic1 = [word1: 10%, word2: 50%, word3: 20%, word4: 10%, word5: 10%]
• Topic2 = [word1: 10%, word2: 10%, word3: 60%, word4: 15%, word5: 5%]
4. 역추정
- 실제 문서-단어 데이터를 바탕으로 문서-토픽, 토픽-단어 분포를 추정
- 이를 통해 문서와 토픽, 토픽과 단어 간의 관계를 파악할 수 있음
'인공지능 > 머신러닝' 카테고리의 다른 글
Text analysis (0) | 2024.06.14 |
---|---|
딥 뉴럴 네트워크(Deep Neural Network, DNN) (0) | 2024.06.12 |
KNN 알고리즘 (0) | 2024.06.12 |
Model Evaluation (0) | 2024.06.09 |