본문 바로가기

데이터 다루기/Textmining

[Text mining] 3. Word2vec (2) Skip-gram

728x90
반응형

안녕하세요. 이번포스팅에서는 지난 포스팅에 이어서 Word2vec의 학습에 대해서 배워볼려고 합니다.

이번에는 Skip-gram 방법입니다.

CBOW 방법과 학습과정은 굉장히 유사하니 앞 포스팅을 꼭 읽어주세요!

2020/01/01 - [데이터 다루기/Textmining] - [Text mining] 2. Word2vec (1) CBOW

 

 

Skip-gram 은 CBOW 방법과 반대로, 중심 단어로부터 주변 단어들을 학습하는 것입니다.

CBOW와 마찬가지로 Look-up table을 사용해, 원하는 차원으로 embedding 합니다.

그리고 이번에는 중심단어로 부터, 주변 단어를 예측해야 하므로 window size = 2 일 때, 총 4번의 학습을 진행합니다.

즉, W`의 파라미터들을 4번의 학습을 통해, Cross-entropy를 최소화 하는 방향으로 학습합니다.

일반적으로 CBOW는 하나의 중심단어에 대해서 단 한 번 파라미터가 업데이트되지만, Skip-gram은 window size만큼 학습이 되므로, 더 좋은 성능을 보여주는 것으로 알려져있습니다.

하지만 Word2vec에는 큰 한계점이 있습니다.

그것은 바로 학습이 너무 무겁다는 것입니다.

모든 단어에 대해서 학습이 진행되면, 계산량이 엄청나며, 속도가 느립니다.

그렇기 때문에 실제로 이를 개선하기 위한 여러가지 방법이 알려져 있습니다.

다음 포스팅에서는 이러한 Word2vec의 단점을 보안한 아이디어들에 대해서 소개해볼게요.

반응형