embedding模型是一种将数据映射到低维空间的模型,常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型:
- Word2Vec:
- CBOW(Continuous Bag-of-Words):通过上下文预测中心词。
- Skip-Gram:通过中心词预测上下文。
- GloVe(Global Vectors for Word Representation):结合了词频统计和Word2Vec的优点,通过全局词频信息学习词向量。
- FastText:
- 利用子词信息,通过字符级别的n-gram来表示词。
- BERT(Bidirectional Encoder Representations from Transformers):
- 利用Transformer的双向编码器,通过预训练来学习语言表示。
- Transformer:通过自注意力机制来学习序列数据的深层次表示。
- ELMO(Embeddings from Language Models):结合了浅层双向LSTM和预训练的词向量。
- Sentence-BERT(SBERT):为句子生成embedding,可以用于计算句子之间的相似度。
- Doc2Vec