SentencePiece和 WordPiece tokenization 的含义和区别
SentencePiece 和 WordPiece 都是常用的分词(tokenization)技术,主要用于自然语言处理(NLP)中的文本预处理,尤其是在处理大规模文本数据时。它们都基于子词(subword)单元,能够将未登录词(out-of-vocabulary, OOV)拆分成已知的子词单位,从而改善语言模型的鲁棒性和处理能力。
1. WordPiece Tokenization
WordPiece 是由 Google 提出的分词方法,最初用于其 BERT 模型。它的核心思想是通过一个词汇表将词语分解成更小的单元(子词)。其工作原理如下:
- 构建词汇表:首先,从大量的文本数据中统计所有的词频。然后,通过一个合并操作(通常是基于最大似然估计)将最频繁的字符对(char-pairs)合并成新的子词单元。例如,将 “low”