使用FastChat部署Baichuan2

1. 引言

近来,大型语言模型的市场需求呈现出蓬勃发展的态势。然而,仅仅掌握模型的数据准备和训练是不够的,模型的部署方法也变得至关重要。在这篇文章中,我们将以Baichuan2为例,利用FastChat进行模型部署的实战操作。

2. 提前准备

除了按照FastChat的github给出的安装条件:

还需要安装pytorch:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

以及其他依赖项:

pip install transformers
pip install acclerate
pip install sentencepiece

另外,也请下载好Baichuan2的模型到本地来:

3. 使用方式

3.1 框架代码解读

既然我们都上手使用FastChat了,如果仅仅是直接运行,那基本上5分钟就过了。我们目的是要了解整个FastChat的运行机制,大家喜欢看源码的,可以直接去github上看一下。

FastChat的推理架构还是比较规范的,用的是FastAPI这个非常简洁方便的python框架,整体架构是一个Controller-Worker的架构,可扩展性更强,可以将框架、模型和用户接口分离开,可以说是非常优秀的设计。(在没有FastChat之前,我们也是这样想的构建。)

在这里插入图片描述
这里借用一个Controller-Worker架构模式图,更容易的展示出整个架构,可以看到在一个程序中,只会有一个Controller用于协调所有worker的工作情况以及与client的交互,因此首先需要将其构建起来,然后就是各个worker的构建,在FastChat中,worker则是模型加载后的实体,它的目的就是将来到的信息进行一个推理,把结果返回给controller。最后粉红色的Client有3种方式可以实现,第一种是最简单的CLI,第二种则是常用的WebGUI, 第三种则是比较高级的API调用。

3.1.1 controller.py解读

整个代码太长,可以看一下源代码。
大致内容如下:

代码中使用了FastAPI框架来搭建Web服务,通过HTTP接口与客户端进行通信。主要的功能模块如下:
DispatchMethod 枚举类定义了两种调度方法:LOTTERY 和 SHORTEST_QUEUE,分别表示抽签法和最短队列法。
WorkerInfo 是一个数据类,用于存储工作节点的相关信息,包括模型名称、速度、队列长度、心跳检测等。
Controller 类是任务调度器的核心类,用于注册和管理工作节点。它包含了注册工作节点、获取工作节点状态、选择工作节点等方法。
heart_beat_controller 函数是一个线程函数,用于定期检测工作节点的心跳信息,并移除超时未发送心跳的节点。
app 是一个 FastAPI 应用实例,定义了各个接口的处理函数。
create_controller 函数用于创建任务调度器的实例,并解析命令行参数。
main 部分,通过调用 create_controller 函数创建了一个 Controller 实例,并根据命令行参数选择是否启用 SSL 加密。最后使用 uvicorn 启动了 Web 服务。

3.1.2 model_worker.py解读

整个代码太长,可以看一下源代码。
大致内容如下:

主要功能模块如下:
BaseModelWorker 类是工作节点的基类,定义了一些共用的方法和属性,包括注册到控制器、发送心跳信息等。
ModelWorker 类继承自 BaseModelWorker,是具体的模型工作节点类。它包含了模型加载、生成文本、获取嵌入向量等方法。在初始化时会加载指定的模型,并根据命令行参数进行配置。
heart_beat_worker 函数是一个线程函数,用于定期发送心跳信息给控制器。
app 是一个 FastAPI 应用实例,定义了各个接口的处理函数。
create_background_tasks 函数用于创建后台任务,用于释放工作节点的信号量。
main 部分,通过调用 create_model_worker 函数创建了一个 ModelWorker 实例,并解析命令行参数。最后使用 uvicorn 启动了 Web 服务。

3.1.3 两个部分如何配合运行

这两个部分是通过网络通信进行协调工作的。
在代码中,控制器 (controller.py) 和工作节点 (worker.py) 都是通过 HTTP 协议进行通信的。工作节点会向控制器注册自己,并定期发送心跳信息告知控制器自己的状态。控制器可以根据工作节点的状态和负载情况,将任务分配给合适的工作节点。
具体的协调过程如下:

  1. 工作节点启动后,会调用 register_to_controller 方法向控制器注册自己,包括工作节点的名称、心跳检测和当前状态等信息。
  2. 工作节点会定期调用 send_heart_beat 方法发送心跳信息给控制器,告知自己的状态。心跳信息中包括工作节点的名称、队列长度等信息。
  3. 控制器会接收到工作节点发送的心跳信息,并根据工作节点的状态和负载情况,决定是否需要重新注册工作节点。
  4. 控制器可以根据需要向工作节点发送任务请求,包括生成文本任务和获取嵌入向量任务等。
  5. 工作节点接收到任务请求后,会执行相应的任务,并将结果返回给控制器。
    通过这样的协调和通信机制,控制器和工作节点可以相互配合,实现任务的分发和执行。控制器负责调度和管理工作节点,而工作节点负责执行具体的模型任务。

因此,无论是使用那种用户接口,首先都要先启动Controller,然后启动Worker,最后再启动各种Client。

3.2 执行步骤

正如刚才所说的,无论哪一种Client,都需要首先启动controller和worker,遵循下面的指令:

启动controller

python3 -m fastchat.serve.controller

然后我们启动worker:

python3 -m fastchat.serve.model_worker --model-path <model_path>

3.2.1 使用CLI

CLI全称是command-line interface,意思是命令行交互,一般都是用于测试使用。当你需要做一个简单的演示的时候,可以使用此命令

python3 -m fastchat.serve.cli --model-path <model_path>

3.2 使用Web GUI

Web GUI作为最方便的接口自然也是不可缺少的:

python3 -m fastchat.serve.gradio_web_server

在这里插入图片描述

3.1 使用RESTful API

如果想把它也作为像ChatGPT一样调用的模型,那么只需要起一个RESTful API Server即可:

python3 -m fastchat.serve.openai_api_server --host localhost --port 8000

执行完后调用的方式也很简单:

import openai
# to get proper authentication, make sure to use a valid key that's listed in
# the --api-keys flag. if no flag value is provided, the `api_key` will be ignored.
openai.api_key = "EMPTY"
openai.api_base = "http://localhost:8000/v1"model = "Model name"
prompt = "Once upon a time"# create a completion
completion = openai.Completion.create(model=model, prompt=prompt, max_tokens=64)
# print the completion
print(prompt + completion.choices[0].text)# create a chat completion
completion = openai.ChatCompletion.create(model=model,messages=[{"role": "user", "content": "Hello! What is your name?"}]
)
# print the completion
print(completion.choices[0].message.content)

如果需要更加复杂的描述,可以参见一下openai_api。

4. 小结

本文介绍了使用FastChat部署Baichuan2的步骤和使用方式。通过FastChat的Controller-Worker架构和不同的客户端接口,我们可以高效地部署和使用Baichuan2模型。

在使用前,我们需要按照FastChat的安装条件进行准备,并安装pytorch和其他必要的依赖项。同时,还需要下载Baichuan2的模型文件到本地。

通过阅读源代码,我们了解了FastChat的运行机制。Controller负责任务调度和与客户端的交互,而Worker则是具体的模型工作节点,负责加载模型并执行各种任务。

在使用过程中,我们可以选择不同的客户端接口。CLI提供了命令行交互的方式,适用于快速测试和演示。Web GUI则提供了友好的图形界面,方便用户进行交互。而RESTful API则使我们可以像调用ChatGPT一样使用模型。

通过本文所介绍的步骤和方式,我们可以轻松地部署和使用Baichuan2模型,为我们的应用程序和项目增添强大的语言生成能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/140227.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

两种常见矩形框旋转方法推导及其C++实现

在已知矩形中心点、长宽和旋转角度&#xff08;定义为矩形最长边与X轴正方向的夹角&#xff09;&#xff0c;如何确定矩形四个顶点的坐标&#xff0c;通常有以下两种处理方法。 法一&#xff1a;直接对顶点进行旋转 比如下图虚线框矩形是实线框矩形绕矩形中心点旋转后得到。在…

深度学习实战基础案例——卷积神经网络(CNN)基于Xception的猫狗识别|第2例

文章目录 一、环境准备二、数据预处理三、构建模型四、实例化模型五、训练模型5.1 构建训练函数5.2 构建测试函数5.3 开始正式训练 六、可视化精度和损失七、个体预测总结 今天使用轻量级的一个网络Xception做一个简单的猫狗识别案例&#xff0c;我的环境具体如下&#xff1a; …

记一次STM32F4 HAL IAP开发过程踩坑

第一次在HAL库上做IAP&#xff0c;不太熟悉库结构&#xff0c;被坑了一早上… MCU上做了一个shell&#xff0c;实现了goto命令跳转到APP区执行&#xff08;只是为了开发时方便&#xff09;。跳转到APP前和以前一样清理了所有初始化过的外设&#xff0c;也对中断进行了处理&…

MySQL数据库的索引和事务

目录 一、索引 1.1Mysql索引 1.2索引的作用 1.3 创建索引的依据 1.4 普通索引 修改表方式创建索引 删除索引 1.5 唯一索引 修改表方式创建 删除索引 1.6 主键索引 修改表方式创建 1.7 组合索引 1.8 全文索引 1.9查看索引 二、事务 2.1事务概念 2.2事务的ACID特…

rocketmq-spring-boot-starter 2.1.0 事务消息移除参数txProducerGroup

statrer引入 <dependency><groupId>org.apache.rocketmq</groupId><artifactId>rocketmq-spring-boot-starter</artifactId><version>2.2.3</version></dependency> starter 2.0.2对应rocketmq 4.4.0 starter 2.1.0对应rocke…

NSDT 3D孪生场景搭建:阵列摆放详解

阵列摆放概念 阵列摆放是指将物体、设备或元件按照一定的规则和间距排列组合的方式。在工程和科学领域中&#xff0c;阵列式摆放常常用于优化空间利用、提高效率或增强性能。 阵列摆放通常需要考虑间距、角度、方向、对称性等因素&#xff0c;以满足特定的要求和设计目标。不同…

Seata流程源码梳理下篇-TC

我们上篇简单梳理了下TM、RM的一些流程&#xff08;离现在过得挺久的了&#xff0c;这篇我们这篇来梳理下TC的内容。 TC (Transaction Coordinator) - 事务协调者 维护全局和分支事务的状态&#xff0c;驱动全局事务提交或回滚。 TM (Transaction Manager) - 事务管理器 定…

C++ Primer 第5章 语句

C Primer 第5章 语句 5.1 简单语句一、空语句二、别漏写分号&#xff0c;也别多写分号三、复合语句&#xff08;块&#xff09; 5.2 语句作用域5.3 条件语句5.3.1 if语句一、使用if else语句二、嵌套if语句三、注意使用花括号四、悬垂else五、使用花括号控制执行路径 5.3.2 swi…

Oracle分区的使用详解:创建、修改和删除分区,处理分区已满或不存在的插入数据,以及分区历史数据与近期数据的操作指南

一、前言 什么是表分区: Oracle的分区是一种将表或索引数据分割为更小、更易管理的部分的技术。它可以提高查询性能、简化维护操作,并提供更好的数据组织和管理。 表分区和表空间的区别和联系: 在Oracle数据库中,表空间(Tablespace)是用于存储表、索引和其他数据库对…

Baichuan2 技术报告笔记

文章目录 预训练预训练数据模型架构TokenizerPositional EmbeddingsAcitivations and NormalizationsOptimizations 对齐Supervised Fine-TuningRLHF 安全性预训练阶段对齐阶段 参考资料 对Baichuan2技术报告阅读后的笔记 Baichuan2 与其他大模型的对比如下表 预训练 预训练数…

【Java开发】Redis位图实现统计日活周活月活

最近研究了使用 Redis 的位图功能统计日活周活等数据&#xff0c;特来和大家分享下&#xff0c;Redis 位图还可用于记录用户签到情况、判断某个元素是否存在于集合中等。 1 Redis 位图介绍 Redis 位图是一种特殊的数据结构&#xff0c;它由一系列位组成&#xff0c;每个位只能…

洛谷P8815:逻辑表达式 ← CSP-J 2022 复赛第3题

【题目来源】https://www.luogu.com.cn/problem/P8815https://www.acwing.com/problem/content/4733/【题目描述】 逻辑表达式是计算机科学中的重要概念和工具&#xff0c;包含逻辑值、逻辑运算、逻辑运算优先级等内容。 在一个逻辑表达式中&#xff0c;元素的值只有两种可能&a…

Appilot发布:打造面向DevOps场景的开源AI助手

今日&#xff0c;数澈软件Seal &#xff08;以下简称“Seal”&#xff09;宣布推出面向 DevOps 场景的 AI 助手 Appilot&#xff0c;这款产品将充分利用 AI 大语言模型的能力为用户提供变革性的部署和应用管理体验。Seal 此次发布的 Appilot 项目&#xff0c;可以让用户直接输入…

leetcode 22. 括号生成

2023.9.24 看到组合两个字&#xff0c;想到了回溯。 大致思路是将所有可能的组合列出来&#xff0c;通过中止条件筛选掉无效的括号。 第一个中止条件&#xff1a;如果右括号数量大于左括号&#xff0c;那括号肯定无效。 第二个中止条件&#xff1a;当左右括号数量相等&#x…

古代有没有电子元器件?

手机&#xff0c;电脑&#xff0c;电视等等电子产品&#xff0c;无时无刻充斥在我们的生活中&#xff0c;如果有一天突然没有了这些功能多样的电子产品&#xff0c;估计大部分人都会一时之间难以适应。 这就好比正在上网&#xff0c;结果突然被人断了网&#xff0c;导致无网络连…

Go语言入门篇

目录 一、基础数据类型 1.1 变量的定义方式 1.2 用%T输出变量的类型 二、复合数据类型 2.1 数组 2.1.2、数组的遍历 2.1.3 数组传参 2.2. 切片slice 2.2.1. 初始化切片 2.2.2. append向切片中追加元素 2.2.3. 切片的截取 2.3. map 2.3.1. map初始化 2.3.2. 添加和…

操作系统权限提升(三十)之数据库提权-SQL Server sp_oacreate+sp_oamethod(dba权限)提权

SQL Server sp_oacreate+sp_oamethod(dba权限)提权 sp_oacreate+sp_oamethod介绍 在xp_cmdshell被删除或不能利用是可以考虑利用sp_oacreate,利用前提需要sqlserver sysadmin账户服务器权限为system(sqlserver2019默认被降权为mssql)。sp_oacreate 是一个存储过程,可以…

【无标题】mysql 普通用户连接报错: MySql server has gone away

1、mysql 普通用户连接报错&#xff1a; MySql server has gone away 2、进入mysql错误日志位置查看输出日志显示错误为&#xff1a; [Warning] [MY-013130] [Server] Aborted connection 47 to db: unconnected user: tjcx host: 10.195.11.4 (init_connect command failed; …

基于docker进行Grafana + prometheus实现服务监听

基于docker进行Grafana Prometheus实现服务监听 Grafana安装Prometheus安装Jvm监控配置服务器主机监控(基础cpu&#xff0c;内存&#xff0c;磁盘&#xff0c;网络) Grafana安装 docker pull grafana/grafanamkdir /server/grafanachmod 777 /server/grafanadocker run -d -p…

汽车OTA

汽车OTA&#xff08;Over-The-Air&#xff09;技术是指通过无线网络对汽车进行软件升级、数据传输和远程诊断等功能的技术。随着汽车行业的数字化和智能化发展&#xff0c;OTA技术在汽车领域的应用越来越广泛&#xff0c;对于提高汽车性能、降低维修成本和提升用户体验具有重要…