BERT(Bidirectional Encoder Representations from Transformers)详解
BERT 是由 Google AI 在 2018 年提出的一种双向 Transformer 预训练语言模型,在 NLP 领域取得了革命性的突破。它通过双向学习和掩码语言模型(Masked Language Model, MLM),显著提升了自然语言理解(NLU)任务的表现。
1. BERT 的背景
在 BERT 之前,许多 NLP 预训练方法(如 Word2Vec、GloVe)都是基于单向语言模型或无上下文的词向量,导致模型无法充分利用句子中的全局信息。例如:
- Word2Vec:同一个单词在不同上下文中的表示相同,无法区分 “bank”(银行)和 “bank”(河岸)。
- RNN/LSTM 语言模型