基于 LlamaFactory 的 LoRA 微调模型支持 vllm 批量推理的实现

背景

LlamaFactory 的 LoRA 微调功能非常便捷，微调后的模型，没有直接支持 vllm 推理，故导致推理速度不够快。

LlamaFactory 目前支持通过 VLLM API 进行部署，调用 API 时的响应速度，仍然没有vllm批量推理的速度快。

如果模型是通过 LlamaFactory 微调的，为了确保数据集的一致性，建议在推理时也使用 LlamaFactory 提供的封装数据集。

简介

在上述的背景下，我们使用 LlamaFactory 原生数据集，支持 lora的 vllm 批量推理。
完整代码如下：

import json
import os
from typing import Listfrom vllm import LLM, SamplingParams
from vllm.lora.request import LoRARequestfrom llamafactory.data import get_dataset, get_template_and_fix_tokenizer
from llamafactory.extras.constants import IGNORE_INDEX
from llamafactory.hparams import get_train_args
from llamafactory.model import load_tokenizerdef vllm_infer():model_args, data_args, training_args, finetuning_args, generating_args = (get_train_args())tokenizer = load_tokenizer(model_args)["tokenizer"]template = get_template_and_fix_tokenizer(tokenizer, data_args)eval_dataset = get_dataset(template, model_args, data_args, training_args, finetuning_args.stage, tokenizer)["eval_dataset"]prompts = [item["input_ids"] for item in eval_dataset]prompts = tokenizer.batch_decode(prompts, skip_special_tokens=False)labels = [list(filter(lambda x: x != IGNORE_INDEX, item["labels"]))for item in eval_dataset]labels = tokenizer.batch_decode(labels, skip_special_tokens=True)sampling_params = SamplingParams(temperature=generating_args.temperature,top_k=generating_args.top_k,top_p=generating_args.top_p,max_tokens=2048,)if model_args.adapter_name_or_path:if isinstance(model_args.adapter_name_or_path, list):lora_requests = []for i, _lora_path in enumerate(model_args.adapter_name_or_path):lora_requests.append(LoRARequest(f"lora_adapter_{i}", i, lora_path=_lora_path))else:lora_requests = LoRARequest("lora_adapter_0", 0, lora_path=model_args.adapter_name_or_path)enable_lora = Trueelse:lora_requests = Noneenable_lora = Falsellm = LLM(model=model_args.model_name_or_path,trust_remote_code=True,tokenizer=model_args.model_name_or_path,enable_lora=enable_lora,)outputs = llm.generate(prompts, sampling_params, lora_request=lora_requests)if not os.path.exists(training_args.output_dir):os.makedirs(training_args.output_dir, exist_ok=True)output_prediction_file = os.path.join(training_args.output_dir, "generated_predictions.jsonl")with open(output_prediction_file, "w", encoding="utf-8") as writer:res: List[str] = []for text, pred, label in zip(prompts, outputs, labels):res.append(json.dumps({"prompt": text, "predict": pred.outputs[0].text, "label": label},ensure_ascii=False,))writer.write("\n".join(res))

vllm.yaml 示例:

## model
model_name_or_path: qwen/Qwen2.5-7B-Instruct
# adapter_name_or_path: lora模型### method
stage: sft
do_predict: true
finetuning_type: lora### dataset
dataset_dir: 数据集路径
eval_dataset: 数据集
template: qwen
cutoff_len: 1024
max_samples: 1000
overwrite_cache: true
preprocessing_num_workers: 16### output
output_dir: output/
overwrite_output_dir: true### eval
predict_with_generate: true

程序调用:

python vllm_infer.py vllm.yaml

程序运行速度：

Processed prompts: 100%|█| 1000/1000 [01:56<00:00,  8.60it/s, est. speed input: 5169.35 toks/s, output: 811.57

总结

本方案在原生 LlamaFactory 数据集的基础上，支持 LoRA 的 vllm 批量推理，能提升了推理效率。

进一步阅读

如果微调模型后，发现使用vllm模型批量效果不太好，可以参考下述文章：

基于 LLamafactory 的异步API高效调用实现与速度对比.https://blog.csdn.net/sjxgghg/article/details/144176645

亲测，LLamafactory 部署模型，然后使用 Async API 调用后评估效果会好一些。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/482567.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

基于 LlamaFactory 的 LoRA 微调模型支持 vllm 批量推理的实现

背景

简介

总结

进一步阅读

相关文章

《如何使用Unity的Avatar人偶以及启动重定向-实现2个或多个人物模型使用同一个动画片段》

windows 应用 UI 自动化实战

百度文心一言 vs 阿里通义千问哪个好？

基于协同推荐的黔醉酒业白酒销售系统

解决jupyter notebook 新建或打开.ipynb 报500 : Internal Server Error（涉及jinja2兼容性问题）

Kali Linux系统一键汉化中文版及基础使用详细教程

LLaMA-Factory 上手即用教程

使用PyQt5开发一个GUI程序的实例演示

【开源免费】基于Vue和SpringBoot的校园资料分享平台（附论文）

LocalDateTime序列化（跟redis有关）

32 从前序与中序遍历序列构造二叉树

【韩顺平老师Java反射笔记】

Python实现2048小游戏

基于树莓派3B+的简易智能家居小项目（WiringPi库 + C语言开发）

MacOS安装MySQL数据库和Java环境以及Navicat

【论文笔记】Towards Online Continuous Sign Language Recognition and Translation

手机控制载货汽车一键启动无钥匙进入广泛应用

「Mac畅玩鸿蒙与硬件34」UI互动应用篇11 - 颜色选择器

【解决安全扫描漏洞】---- 检测到目标站点存在 JavaScript 框架库漏洞

IDEA Maven 打包找不到程序包错误或找不到符号,报错“程序包不存在“