05.AI搭建preparationの(transformers01)BertTokenizer实现分词编码

一、下载

bert-base-chinese镜像下载

二、简介作用：

模型	每个参数占用的字节大小	模型大小	模型大小	层数	头数
GPT-1	4 个字节的 FP32 精度浮点数	117M	446MB	12	12
GPT-2	2 个字节的 FP16	1.5亿到1.75亿	0.5GB到1.5GB	48	16
GPT-3	2 个字节的 FP16	1.75万亿（17500亿）	350GB	175	96个头

BERT（Bidirectional Encoder Representations from Transformers）

针对中文语言，HuggingFace 团队推出了 bert-base-chinese 模型，提供语言处理能力。

Transformers提供两大类的模型架构，一类用于语言生成NLG任务，比如GPT、GPT-2、Transformer-XL、XLNet和XLM，

另一类主要用于语言理解任务，如Bert、DistilBert、RoBERTa、XLM.

三、环境依赖

pip install transformers==4.20.0

transformers · PyPI

四、实践

1、 vocab.txt 是已经设定好的词表

2、分词编码

利用transformers库中的BertTokenizer实现分词编码

from transformers import BertTokenizer#111
bert_name = './bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(bert_name)
text = '窗前明月光，'
input_ids = tokenizer.encode(text,#需要编码的文本；
add_special_tokens=True,#是否添加特殊token，即CLS分类token和SEP分隔token；
max_length=128,#文本的最大长度
truncation=True,#使用truncation=True来明确地将示例截断为最大长度。
padding='max_length',#将批次中所有序列填充到最长序列的长度
return_tensors='pt'# 返回的tensor类型，有4种为 [‘pt’, ‘tf’, ‘np’, ‘jax’] 分别代表 pytorch tensor、tensorflow tensor、int32数组形式和 jax tensor；
)
print('text:\n', text)
print('text字符数:', len(text))
print('input_ids:\n', input_ids)
print('input_ids大小:', input_ids.size())