微调Whisper语音识别模型和加速推理

前言

OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。

  • openai/whisper-tiny
  • openai/whisper-base
  • openai/whisper-small
  • openai/whisper-medium
  • openai/whisper-large
  • openai/whisper-large-v2

源码地址:Whisper-Finetune

使用环境:

  • Anaconda 3
  • Python 3.8
  • Pytorch 1.13.1
  • Ubuntu 18.04
  • GPU A100-PCIE-40GB*1

项目主要程序介绍

  1. aishell.py:制作AIShell训练数据。
  2. finetune.py:微调模型。
  3. merge_lora.py:合并Whisper和Lora的模型。
  4. evaluation.py:评估使用微调后的模型或者Whisper原模型。
  5. infer_tfs.py:使用transformers直接调用微调后的模型或者Whisper原模型预测,只适合推理短音频。
  6. infer_ct2.py:使用转换为CTranslate2的模型预测,主要参考这个程序用法。
  7. infer_gui.py:有GUI界面操作,使用转换为CTranslate2的模型预测。
  8. infer_server.py:使用转换为CTranslate2的模型部署到服务器端,提供给客户端调用。

模型测试表

  1. 原始模型字错率测试表。
使用模型指定语言aishell_testtest_nettest_meeting下载地址CTranslate2GGML
whisper-tinyChinese0.318980.404820.75332点击下载点击下载点击下载
whisper-baseChinese0.221960.304040.50378点击下载点击下载点击下载
whisper-smallChinese0.138970.184170.31154点击下载点击下载点击下载
whisper-mediumChinese0.095380.135910.26669点击下载点击下载点击下载
whisper-largeChinese0.089690.129330.23439点击下载点击下载点击下载
whisper-large-v2Chinese0.088170.123320.26547点击下载点击下载点击下载
  1. 微调数据集后字错率测试表。
使用模型指定语言数据集aishell_testtest_nettest_meeting下载地址CTranslate2GGML
whisper-tinyChineseAIShell0.130430.44630.57728点击下载点击下载点击下载
whisper-baseChineseAIShell0.089990.330890.40713点击下载点击下载点击下载
whisper-smallChineseAIShell0.054520.198310.24229点击下载点击下载点击下载
whisper-mediumChineseAIShell0.036810.130730.16939点击下载点击下载点击下载
whisper-large-v2ChineseAIShell0.031390.122010.15776点击下载点击下载点击下载
whisper-tinyChineseWenetSpeech0.210090.293520.41506点击下载点击下载点击下载
whisper-large-v2ChineseWenetSpeech0.053720.100870.19834点击下载点击下载点击下载
  1. 未加速和加速后的推理速度测试表,使用GPU为GTX3090(24G)。
使用模型原生模型实时率(float16)转换CTranslate2加速后实时率(float16)转换CTranslate2加速后实时率(int8_float16)
whisper-tiny0.030.060.06
whisper-base0.040.060.06
whisper-small0.080.080.08
whisper-medium0.130.100.10
whisper-large-v20.190.120.12
  1. 经过处理的数据列表,添加标点符号的模型为PunctuationModel。
数据列表处理方式AiShellWenetSpeech
添加标点符号点击下载点击下载
添加标点符号和时间戳点击下载点击下载

重要说明:

  1. 在评估的时候移除模型输出的标点符号,并把繁体中文转成简体中文。
  2. aishell_test为AIShell的测试集,test_nettest_meeting为WenetSpeech的测试集。
  3. RTF= 所有音频总时间(单位秒) / ASR识别所有音频处理时间(单位秒)。
  4. 测试速度的音频为dataset/test.wav,时长为8秒。
  5. 训练数据使用的是带标点符号的数据,字错率高一点。

安装环境

  • 首先安装的是Pytorch的GPU版本,如果已经安装过了,请跳过。
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia
  • 安装所需的依赖库。
python -m pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

准备数据

训练的数据集如下,是一个jsonlines的数据列表,也就是每一行都是一个JSON数据,数据格式如下。Whisper是支持有标点符号的,所以训练的数据集中可以带有标点符号。本项目提供了一个制作AIShell数据集的程序aishell.py,执行这个程序可以自动下载并生成如下列格式的训练集和测试集,注意: 这个程序可以通过指定AIShell的压缩文件来跳过下载过程的,如果直接下载会非常慢,可以使用一些如迅雷等下载器下载该数据集,然后通过参数--filepath指定下载的压缩文件路径,如/home/test/data_aishell.tgz如果不使用时间戳训练,可以不包含sentences部分的数据

{"audio": {"path": "dataset/0.wav"},"sentence": "近几年,不但我用书给女儿压岁,也劝说亲朋不要给女儿压岁钱,而改送压岁书。","sentences": [{"start": 0,"end": 1.4,"text": "近几年,"},{"start": 1.42,"end": 8.4,"text": "不但我用书给女儿压岁,也劝说亲朋不要给女儿压岁钱,而改送压岁书。"}],"duration": 7.37
}

微调模型

准备好数据之后,就可以开始微调模型了。训练最重要的两个参数分别是,--base_model指定微调的Whisper模型,这个参数值需要在HuggingFace存在的,这个不需要提前下载,启动训练时可以自动下载,当然也可以提前下载,那么--base_model指定就是路径,同时--local_files_only设置为True。第二个--output_path是是训练时保存的Lora检查点路径,因为我们使用Lora来微调模型。如果想存足够的话,最好将--use_8bit设置为False,这样训练速度快很多。其他更多的参数请查看这个程序。

单卡训练

单卡训练命令如下,Windows系统可以不添加CUDA_VISIBLE_DEVICES参数。

CUDA_VISIBLE_DEVICES=0 python finetune.py --base_model=openai/whisper-tiny --output_dir=output/

多卡训练

多卡训练有两种方法,分别是torchrun和accelerate,开发者可以根据自己的习惯使用对应的方式。

  1. 使用torchrun启动多卡训练,命令如下,通过--nproc_per_node指定使用的显卡数量。
torchrun --nproc_per_node=2 finetune.py --base_model=openai/whisper-tiny --output_dir=output/
  1. 使用accelerate启动多卡训练,如果是第一次使用accelerate,要配置训练参数,方式如下。

首先配置训练参数,过程是让开发者回答几个问题,基本都是默认就可以,但有几个参数需要看实际情况设置。

accelerate config

大概过程就是这样:

----------------------------------In which compute environment are you running?
This machine
----------------------------------Which type of machine are you using? 
multi-GPU
How many different machines will you use (use more than 1 for multi-node training)? [1]:
Do you wish to optimize your script with torch dynamo?[yes/NO]:
Do you want to use DeepSpeed? [yes/NO]:
Do you want to use FullyShardedDataParallel? [yes/NO]:
Do you want to use Megatron-LM ? [yes/NO]: 
How many GPU(s) should be used for distributed training? [1]:2
What GPU(s) (by id) should be used for training on this machine as a comma-seperated list? [all]:
----------------------------------Do you wish to use FP16 or BF16 (mixed precision)?
fp16 

配置完成之后,可以使用以下命令查看配置。

accelerate env

开始训练命令如下。

accelerate launch finetune.py --base_model=openai/whisper-tiny --output_dir=output/

输出日志如下:

{'loss': 0.9098, 'learning_rate': 0.000999046843662503, 'epoch': 0.01}                                                     
{'loss': 0.5898, 'learning_rate': 0.0009970611012927184, 'epoch': 0.01}                                                    
{'loss': 0.5583, 'learning_rate': 0.0009950753589229333, 'epoch': 0.02}                                                  
{'loss': 0.5469, 'learning_rate': 0.0009930896165531485, 'epoch': 0.02}                                          
{'loss': 0.5959, 'learning_rate': 0.0009911038741833634, 'epoch': 0.03}

合并模型

微调完成之后会有两个模型,第一个是Whisper基础模型,第二个是Lora模型,需要把这两个模型合并之后才能之后的操作。这个程序只需要传递两个参数,--lora_model指定的是训练结束后保存的Lora模型路径,注意如何不是最后的checkpoint-final后面还有adapter_model文件夹,第二个--output_dir是合并后模型的保存目录。

python merge_lora.py --lora_model=output/checkpoint-final --output_dir=models/

评估模型

执行以下程序进行评估模型,最重要的两个参数分别是。第一个--model_path指定的是合并后的模型路径,同时也支持直接使用Whisper原模型,例如直接指定openai/whisper-large-v2,第二个是--metric指定的是评估方法,例如有字错率cer和词错率wer提示: 没有微调的模型,可能输出带有标点符号,影响准确率。其他更多的参数请查看这个程序。

python evaluation.py --model_path=models/whisper-tiny-finetune --metric=cer

预测

执行以下程序进行语音识别,这个使用transformers直接调用微调后的模型或者Whisper原模型预测,只适合推理短音频,长语音还是参考infer_ct2.py的使用方式。第一个--audio_path参数指定的是要预测的音频路径。第二个--model_path指定的是合并后的模型路径,同时也支持直接使用Whisper原模型,例如直接指定openai/whisper-large-v2。其他更多的参数请查看这个程序。

python infer_tfs.py --audio_path=dataset/test.wav --model_path=models/whisper-tiny-finetune

加速预测

众所周知,直接使用Whisper模型推理是比较慢的,所以这里提供了一个加速的方式,主要是使用了CTranslate2进行加速,首先要转换模型,把合并后的模型转换为CTranslate2模型。如下命令,--model参数指定的是合并后的模型路径,同时也支持直接使用Whisper原模型,例如直接指定openai/whisper-large-v2--output_dir参数指定的是转换后的CTranslate2模型路径,--quantization参数指定的是量化模型大小,不希望量化模型的可以直接去掉这个参数。

ct2-transformers-converter --model models/whisper-tiny-finetune --output_dir models/whisper-tiny-ct2 --copy_files tokenizer.json --quantization float16

执行以下程序进行加速语音识别,--audio_path参数指定的是要预测的音频路径。--model_path指定的是转换后的CTranslate2模型。其他更多的参数请查看这个程序。

python infer_ct2.py --audio_path=dataset/test.wav --model_path=models/whisper-tiny-ct2

输出结果如下:

{"language": "zh","duration": 8.39,"results": [{"start": 0.0,"end": 8.39,"text": "近几年不但我用书给女儿压岁也劝说亲朋友不要给女儿压岁钱而改送压岁书"}],"text": "近几年不但我用书给女儿压岁也劝说亲朋友不要给女儿压岁钱而改送压岁书"
}

GUI界面预测

这里同样是使用了CTranslate2进行加速,转换模型方式看上面文档。--model_path指定的是转换后的CTranslate2模型。其他更多的参数请查看这个程序。

python infer_gui.py --model_path=models/whisper-tiny-ct2

启动后界面如下:
在这里插入图片描述

Web部署

Web部署同样是使用了CTranslate2进行加速,转换模型方式看上面文档。--host指定服务启动的地址,这里设置为0.0.0.0,即任何地址都可以访问。--port指定使用的端口号。--model_path指定的是转换后的CTranslate2模型。--num_workers指定是使用多少个线程并发推理,这在Web部署上很重要,当有多个并发访问是可以同时推理。其他更多的参数请查看这个程序。

python infer_server.py --host=0.0.0.0 --port=5000 --model_path=models/whisper-tiny-ct2 --num_workers=2

接口文档

目前提供两个接口,普通的识别接口/recognition和流式返回结果/recognition_stream,注意这个流式是指流式返回识别结果,同样是上传完整的音频,然后流式返回识别结果,这种方式针对长语音识别体验非常好。他们的文档接口是完全一致的,接口参数如下。

字段是否必须类型默认值说明
audioFile要识别的音频文件
to_simpleint1是否繁体转简体
remove_punint0是否移除标点符号
taskStringtranscribe识别任务类型,支持transcribe和translate

为了方便理解,这里提供了调用Web接口的Python代码,下面的是/recognition的调用方式。

import requestsresponse = requests.post(url="http://127.0.0.1:5000/recognition", files=[("audio", ("test.wav", open("dataset/test.wav", 'rb'), 'audio/wav'))],json={"to_simple": 1, "remove_pun": 0, "task": "transcribe"}, timeout=20)
print(response.text)

下面的是/recognition_stream的调用方式。

import json
import requestsresponse = requests.post(url="http://127.0.0.1:5000/recognition_stream",files=[("audio", ("test.wav", open("dataset/test_long.wav", 'rb'), 'audio/wav'))],json={"to_simple": 1, "remove_pun": 0, "task": "transcribe"}, stream=True, timeout=20)
for chunk in response.iter_lines(decode_unicode=False, delimiter=b"\0"):if chunk:result = json.loads(chunk.decode())text = result["result"]start = result["start"]end = result["end"]print(f"[{start} - {end}]:{text}")

提供的测试页面如下:

首页http://127.0.0.1:5000/ 的页面如下:
在这里插入图片描述

文档页面http://127.0.0.1:5000/docs 的页面如下:
在这里插入图片描述

Android部署

安装部署的源码在AndroidDemo目录下。

转换模型

  1. 首先要克隆Whisper原生的源码,因为需要它的一些文件,请在Whisper-Finetune项目根目录下执行下面命令。
git clone https://github.com/openai/whisper.git
  1. 然后开始转换模型,请在Whisper-Finetune项目根目录下执行convert-ggml.py程序,把模型转换为Android项目所需的ggml格式的模型,需要转换的模型可以是原始的Transformers模型,也可以是微调的模型。
python convert-ggml.py --model_dir=models/whisper-tiny-finetune/ --whisper_dir=whisper/ --output_path=models/ggml-model.bin
  1. 把模型放在Android项目的app/src/main/assets/models目录下,然后就可以使用Android Studio打开项目了。

编译说明

  1. 默认使用的NDK版本是25.2.9519653,如果下面修改其他版本,要修改app/build.gradle里面的配置。
  2. 注意,在真正使用时,一定要发布release的APK包,这样推理速度才快。
  3. 本项目已经发布了release的APK包,请在Whisper-Finetune项目主页的最后扫码下载。

效果图


Android效果图 Android效果图 Android效果图 Android效果图

Windows桌面应用

程序在WhisperDesktop目录下。该程序是使用Whisper翻译得的,源码可以前面该项目查看。该程序使用的模型格式是GGML格式,跟Android部署的一样,所以需要转换模型格式才能使用。

转换模型

  1. 首先要克隆Whisper原生的源码,因为需要它的一些文件,请在Whisper-Finetune项目根目录下执行下面命令。
git clone https://github.com/openai/whisper.git
  1. 然后开始转换模型,请在Whisper-Finetune项目根目录下执行convert-ggml.py程序,把模型转换为Android项目所需的ggml格式的模型,需要转换的模型可以是原始的Transformers模型,也可以是微调的模型。
python convert-ggml.py --model_dir=models/whisper-tiny-finetune/ --whisper_dir=whisper/ --output_path=models/whisper-tiny-finetune-ggml.bin

效果图

效果图如下:

Windows桌面应用效果图
图1:加载模型页面
Windows桌面应用效果图
图2:选择音频文件转录
Windows桌面应用效果图
图3:录音转录

参考资料

  1. https://github.com/huggingface/peft
  2. https://github.com/guillaumekln/faster-whisper
  3. https://github.com/ggerganov/whisper.cpp
  4. https://github.com/Const-me/Whisper

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29417.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【回答问题】ChatGPT上线了!给我推荐20个比较流行的nlp预训练模型

目录 给我推荐20个比较流行的nlp预训练模型给我推荐20个比较流行的nlp预训练模型源码给我推荐20个比较流行的nlp预训练模型 BERT (谷歌) GPT-2 (OpenAI) RoBERTa (Facebook) ALBERT (谷歌) ELECTRA (谷歌) XLNet (谷歌/纽约大学) T5 (OpenAI) Transformer-XL (谷歌/香港中文大…

真实世界的人工智能应用落地——OpenAI篇 ⛵

💡 作者:韩信子ShowMeAI 📘 深度学习实战系列:https://www.showmeai.tech/tutorials/42 📘 本文地址:https://www.showmeai.tech/article-detail/414 📢 声明:版权所有,转…

谈谈ChatGPT是否可以替代人

起初我以为我是搬砖的,最近发现其实只是一块砖,哪里需要哪里搬。 这两天临时被抽去支援跨平台相关软件开发,帮忙画几个界面。有了 ChatGPT 之后就觉得以前面向 Googel 编程会拉低我滴档次和逼格,于是全部面向 ChatGPT 编程了。 我…

处理Element 日期选择器el-date-picker 限制时间跨度一年

处理Element 日期选择器el-date-picker 限制时间跨度一年 。 主要通过pickerOptions里的disabledDate来控制禁止选中的日期。实现思想就是,当选中第一个开始日期时,拿到该时间戳计算时间范围,然后控制接下来选中时间在一年以内,超…

elementui 中 DatePicker 日期选择器 设置仅能选今日之前 且展示是上个月到这个月的日期

使用了elementui组件的DatePicker组件,设置了日期选择范围为当前日期后,效果如图,右侧面板是灰色的,使用体验感不太好 而我想要实现的是这种效果:一点击出来,展示的就是上个月到这个月的日期 仔细翻阅了官…

vue+elementui 日期选择器

// 这个日期选择器的规则是开始的日期不能超过当天的日期 // 结束的日期不能超过开始的日期并且只能选开始日期选择的这一年的日期 结束的日期默认年份是开始日期选择的年份<el-form:model"DateTimeModel"ref"DateTimeRef":rules"DateTimeRules&qu…

elementui选择月份范围,限制只能选前后1年范围内

需求&#xff1a; 选中2022-2月之后可选范围为2021-2月~2023-2月&#xff0c;其余的月份禁用 代码&#xff1a; <el-form :model"queryParams" ref"queryForm" :inline"true"><el-form-item label"时间范围"><el-date-…

element plus 限制时间范围选择器,开始日期和结束日期不能超过一年

1.限制开始日期和结束日期不能超过一年 <el-date-pickerclass"date-timeselect"v-model"timeValue"type"daterange"value-format"YYYY-MM-DD"format"YYYY-MM-DD"range-separator"至"start-placeholder"开…

vue2 + elementui 日期时间选择器 禁止选择当前时间之前的日期及时间,并添加相应校验规则

项目里有这样一个需求&#xff1a;文章设置的预发布时间不得早于当前时间&#xff08;包括日期和时分秒时间&#xff09;。 具体实现如下&#xff1a; 1、在日期时间选择其中设置禁止选中&#xff08;包括日期和时间&#xff09; &#xff08;1&#xff09;在html&#xff0…

vue Element ui日期插件的使用设置日期选择范围是当前时间到一年

<li> <p class"input_date"><el-date-pickerv-model"value1"type"date"placeholder"选择日期"prefix-icon" "format"yyyy-MM-dd"value-format"yyyy-MM-dd":picker-options"pickerO…

ElementUI 日期选择器 datepicker选择范围限制

ElementUI 日期选择器 datepicker选择范围限制 在使用 el-date-picker 的时候&#xff0c;经常会对选择的时间进行一定限制&#xff0c;所以今天就总结了一些范围 1、第一步 给 el-date-picker 组件添加 picker-options 属性&#xff0c;并绑定 对应数据 pickerOptions 2、对…

elementUI 日期选择器限制时间范围

elementUI 日期选择器限制时间范围 &#xff08;借鉴或根据自己需求修改&#xff0c;纯用于自己记录使用并学习&#xff09; 产品需求&#xff0c;新建任务的时候&#xff0c;选择一个名称&#xff0c;然后返回该名称的有效日期&#xff0c;只能在有限日期内选择任务的时间 使…

html 手机扁平化范围选择日历控件,ElementUI 日期选择器 datepicker 选择范围限制

在使用elementUI中日期选择器时,经常会遇到这样的需求——对可选择的时间范围有一定限制,比如我遇到的就是:只能选择今天以前的一年以内的日期。 查阅官方文档,我们发现它介绍的并不详细,下面我们就来详细介绍一下: 1.给 el-date-picker 组件添加 picker-options 属性,并…

Pandas+ChatGPT强强结合诞生PandasAI,数据分析师行业要变天了?

大家好,我是千与千寻,可以叫我千寻,我自己主要的编程语言是Python和Java。 说到Python编程语言,使用Python语言主要使用的是数据科学领域的从业者。 Python编程语言之所以在数据科学领域十分火热,源于Python语言的三大数据科学工作包,NumPy,Pandas,SciPy。 以下是三…

Springboot前后端分离国际化实现-chatgpt

前言 Springboot国际化可以帮助使用者在不同语言环境中构建应用程序&#xff0c;这样应用程序可以有效地适应不同语言文化背景下的用户需求。 此外&#xff0c;Springboot国际化也可以方便多语言应用程序重用和维护&#xff0c;从而减少了系统部署的时间成本和维护的费用。 要实…

以 ChatGPT 为代表的「大模型」会是多大的技术革命?如果要发生技术革命需要具备哪些条件?...

AI大模型在具体场景下的多样价值 AI大模型相当于是通过积累大量知识&#xff0c;最后形成的一个有泛化知识的个体。它跟原来传统意义上的小模型之间的差异&#xff0c;就相当于一个经过了大量通用题库训练的大学生&#xff0c;和一个只在特定专业受训练的技校生的差异。 放眼整…

元宇宙场景下的实时互动RTI技术能力构建

元宇宙可谓是处在风口浪尖&#xff0c;无数的厂商都对元宇宙未来抱有非常美好的憧憬。正因如此&#xff0c;许许多多厂商都在用他们自己的方案&#xff0c;为元宇宙更快、更好的实现&#xff0c;在自己的领域贡献力量。LiveVideoStack 2022北京站邀请到了 ZEGO 即构科技的解决方…

STM32的国产替代,盘点下我知道的国产MCU

电子元件涨价和缺货是多少嵌入式工程师的痛&#xff0c;一年内上游厂家晶圆产能告急能有数十次之多。而MCU更是重灾区&#xff0c;且不说国内有超75%的市场都是被国外产品占据&#xff0c;就是本国内的代理和供应商也是漫天要价&#xff0c;而交期更是长达7个月之久&#xff0c…

为什么说程序员做外包没前途?

之前做过不到3个月的外包&#xff0c;2020的第一天就被释放了&#xff0c;2019年还剩1天&#xff0c;我从外包公司离职了。我就谈谈我个人的看法吧。首先我们定义一下什么是有前途 稳定的工作环境 不错的收入 能够在项目中不断提升自己的技能&#xff08;ps&#xff1a;非技术…