wpm1 [NLP] Subword tokenizer - WordPiece Model (WPM) 자연어처리 분야를 공부하다 보면 Pre-trained Language Model 중에 하나인 2018년에 제안된 BERT (Bidirectional Encoder Representations from Transformers) 모델을 들어보고 직접 사용해봤을 거 같습니다. 본 포스팅에서는 BERT 모델에서 사용한 Subword tokenizer 중에 하나인 WordPiece tokenizer에 대해서 공부하면서 스스로 던졌던 질문들을 정리하려고 합니다. WordPiece Model (WPM) WordPiece Model은 Byte Pair Encoder (BPE)의 변형 알고리즘입니다. 이하 WPM으로 명칭하겠습니다. BPE 알고리즘은 빈도수를 기반하여 가장 많이 등장한 token의 쌍을 병합하지만, WP.. 2021. 9. 8. 이전 1 다음