一、介绍
F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术。。这一系统能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。 F5-TTS 支持多语言合成,包括中文和英文,且能在长文本上进行有效的语音合成。此外,F5-TTS 还具备情感控制功能,能根据文本内容调整合成语音的情感表现,并支持速度控制,允许用户根据需要调整语音的播放速度。系统在 10 万小时的大规模数据集上进行训练,展现出了卓越的性能和泛化能力。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT) 、 ConvNeXt V2 文本表示改进、 Sway Sampling 策略以及端到端的系统设计。 F5-TTS 的应用场景广泛,包括有声读物、语音助手、语言学习、新闻播报、游戏配音等,为各种商业和非商业用途提供强大的语音合成能力。
二、部署流程
环境推荐配置
系统:Ubuntu22.04,
显卡:4090,
显存:24G,cuda11.8
1. 基础环境
查看系统是否有Miniconda3的虚拟环境
conda -V
如果输入命令没有显示Conda版本号,则需要安装。
2.更新系统命令
输入下列命令将系统更新及系统下载
apt-get update && apt-get install ffmpeg libsm6 libxext6 -y
3.创建虚拟环境
创建名称为“f5-tts”的虚拟环境
conda create -n f5-tts python=3.10 -y
激活“f5-tts"虚拟环境
conda activate f5-tts
4.下载Pytorch
输入下列命令:
pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
耐心等待,直到出现以“Successfully”开头的提示,则下载结束:
4.下载模型
输入下列命令下载F5-TTS模型同时进入项目中
git clone https://github.com/SWivid/F5-TTS.git;cd F5-TTS
5.下载模型依赖包
输入下列命令:
pip install -e .
耐心等待,直到出现以“Successfully”开头的提示,则下载结束:
三、网页演示
在本地运行 gradio 应用程序,使用下列命令运行项目呈现模型的成功界面
f5-tts_infer-gradio --port 8080 --host 0.0.0.0
打开网址: