大家好,我是微学AI,今天给大家介绍一下大模型的实践应用5-百川大模型(Baichuan-13B)的模型搭建与模型代码详细介绍,以及快速使用方法。 Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。
本文将对模型的搭建与代码做详细介绍,主要代码地址为:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat/blob/main/modeling_baichuan.py
一、百川大模型的快速使用
2023年9月6日,百川智能召开大模型发布会,正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本,并且均为免费可商用。百川智能此次还开源了模型训练的Check Point,并宣布将发布Baichuan 2技术报告,详细介绍Baichuan 2的训练细节,帮助大模型学术机构、开发者和企业用户更深入地了解其训练过程。
以下是百川大模型的快速使用方法:
import torch
from transformers import