语音合成工具Coqui TTS安装及体验

先介绍两种免费的语音合成工具

balabolka

官网
http://balabolka.site/balabolka.htm
是一种基于微软Speech API (SAPI)的免费语音合成工具,只是简单的发音合成,效果比较生硬

Coqui TTS

官网
https://coqui.ai/
是基于深度学习的语音合成软件,效果较好

Windows下安装Coqui TTS

安装环境
要求python运行环境:https://www.python.org/downloads/windows/
本文基于版本:python-3.8.10-amd64.exe,并且自行更新并设置好pip安装源

pip安装Coqui TTS

pip install tts

会安装机器学习库torch,以及大量相关组件包,大约1G多

Successfully installed Babel-2.12.1 Jinja2-3.1.2 MarkupSafe-2.1.2 TTS-0.11.1 Wer
kzeug-2.2.3 anyascii-0.3.1 audioread-3.0.0 backports.zoneinfo-0.2.1 certifi-2022
.12.7 cffi-1.15.1 charset-normalizer-3.1.0 click-8.1.3 colorama-0.4.6 coqpit-0.0
.17 cython-0.29.28 dateparser-1.1.7 decorator-5.1.1 docopt-0.6.2 flask-2.2.3 fss
pec-2023.3.0 g2pkk-0.1.2 gruut-2.2.3 gruut-ipa-0.13.0 gruut_lang_de-2.0.0 gruut_
lang_en-2.0.0 idna-3.4 importlib-metadata-6.0.0 importlib_resources-5.12.0 infle
ct-5.6.0 itsdangerous-2.1.2 jamo-0.4.1 jieba-0.42.1 joblib-1.2.0 jsonlines-1.2.0librosa-0.8.0 llvmlite-0.38.1 mecab-python3-1.0.5 networkx-2.8.8 nltk-3.8.1 num
2words-0.5.12 numba-0.55.1 numpy-1.21.6 pandas-1.5.3 platformdirs-3.1.1 pooch-1.
7.0 protobuf-3.19.6 psutil-5.9.4 pycparser-2.21 pynndescent-0.5.8 pypinyin-0.48.
0 pysbd-0.3.4 python-crfsuite-0.9.9 pytz-2022.7.1 pytz-deprecation-shim-0.1.0.po
st0 pyyaml-6.0 regex-2022.10.31 requests-2.28.2 resampy-0.4.2 scikit-learn-1.2.2scipy-1.10.1 soundfile-0.12.1 tensorboardX-2.6 threadpoolctl-3.1.0 torch-1.13.1torchaudio-0.13.1 tqdm-4.65.0 trainer-0.0.20 typing-extensions-4.5.0 tzdata-202
2.7 tzlocal-4.2 umap-learn-0.5.1 unidic-lite-1.0.8 urllib3-1.26.15 zipp-3.15.0

安装完之后就能直接在命令行使用tts工具(要求系统环境变量path中包含Python User安装目录:Python38\Scripts)
查看本地所有模型

tts --list_models

执行测试命令

tts --text "Hello world." --out_path aaa.wav

这时会下载模型列表中第一项:https://coqui.gateway.scarf.sh/v0.10.1_models/tts_models–multilingual–multi-dataset–your_tts.zip,然而这个链接我这边从来没有成功下载过
只能手动从github下载
https://github.com/coqui-ai/TTS/releases/tag/v0.10.1_models
下载其中的tts_models–zh-CN–baker–tacotron2-DDC-GST.zip,这是YourTTS的多人训练模型,里边只有英语、法语、西班牙语
下载之后解压缩到

%USERPROFILE%\AppData\Local\tts

再次使用命令:–list_models,就能看到第一条模型已经下载,理论上到这里就能正确输出语音了,但是我这边又遇到两个问题

缺少avdevice-58.dll

在这里插入图片描述这是因为缺少ffmpeg运行环境,访问官网:https://ffmpeg.org/download.html,查看可知libavdevice 58要求的版本是4.4.3
从官网引导找到:https://github.com/BtbN/FFmpeg-Builds/releases/tag/autobuild-2023-03-13-12-46
下载其中的:ffmpeg-n4.4.3-3-gb48951bd29-win64-lgpl-shared-4.4.zip
解压缩其中以下几个dll拷贝到Python User安装目录:Python38\Scripts,即可
在这里插入图片描述还有一种更简单的方案,如果系统中已经安装微信、QQ,直接复制其安装目录下的avdevice-58.dll到Python38\Scripts同样也可以

_MeCab: 找不到指定的模块。

这个就奇了怪了,试过很多方法包括从
https://github.com/ikegami-yukino/mecab/releases/tag/v0.996.2
安装:mecab-64-0.996.2.exe,拷贝libmecab.lib、libmecab.dll,更新vsruntime都无法解决
后来看到一个issue:https://github.com/coqui-ai/TTS/issues/711
在这里插入图片描述得到启发,虽然我用的版本不同,但方法类似,通过查找到python tts目录下使用MeCab的地方
在这里插入图片描述添加注释#,关闭MeCab引用,就能顺利运行tts了

下载中文语音模型

由于tts默认下载连接总是不成功,所以还是手动下载:https://github.com/coqui-ai/TTS/releases/tag/v0.6.1_models
下载其中:tts_models–zh-CN–baker–tacotron2-DDC-GST.zip
同样解压缩到

%USERPROFILE%\AppData\Local\tts

合成中文语音

进过一番折腾,终于能够顺利合成中文语音,命令中需要指定中文模型

tts --text "知是行之始,行是知之成。" --out_path aaa.wav --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST

在python中使用中文语音合成

from TTS.api import TTS
tts=TTS("tts_models/zh-CN/baker/tacotron2-DDC-GST")
tts.tts_to_file(text="知是行之始,行是知之成。", file_path="aaa.wav")

参考

https://github.com/coqui-ai/TTS
https://tts.readthedocs.io/en/latest/index.html
https://github.com/Edresson/YourTTS
https://github.com/SamuraiT/mecab-python3/issues/46
https://blog.csdn.net/Haulyn5/article/details/126770543
https://blog.csdn.net/ZYXpaidaxing/article/details/81913708
https://blog.csdn.net/weixin_43816759/article/details/119277486

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26866.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

音视频进阶教程|如何实现游戏中的实时语音

1 游戏实时语音功能简介 1.1 游戏实时语音概念解释 范围:收听者接收音频的范围。方位:指收听者在游戏世界坐标中的位置和朝向,详情可参考 5.5 初始化设置 中的“步骤 1”。收听者:房间内接收音频的用户发声者:房间内…

通过实时语音驱动人像模拟真人说话

元宇宙的火热让人们对未来虚拟世界的形态充满了幻想,此前我们为大家揭秘了声网自研的 3D 空间音频技术如何在虚拟世界中完美模拟现实听觉体验,增加玩家沉浸感。今天我们暂时离开元宇宙,回到现实世界,来聊聊声网自研的 Agora Lipsy…

聊天语音APP开发|聊天语音软件开发-实时音视频技术

聊天语音软件的开发应该是一个以视频和语音直播为核心的社交系统。对于用户来说,更好的视频和语音直播功能可以增强用户的接受感,让用户持续使用。为了方便视频和语音直播的采用体验,减少直播的延时,聊天语音软件的开发将采用实时…

拿到offer提出离职,公司拖30天才放人,但下家公司等不了30天,怎么办?

拿到offer想跳槽,向公司提出了离职,但公司要拖30天才放人,新公司又等不了30天,offer可能就没有了,这就是一位网友面临的两难局面,这种情况有没有什么解决的好办法呢? 有人安慰楼主,下…

怎么说离职原因新的公司比较能接受?

怎么说离职原因新的公司比较能接受? 我来提供一些格式化的应对方法; 1.实际原因:原单位工资太少。离职原因:我认为我自己已经具备了一定的积累,希望可以迈向一个新的台阶。 2.实际原因:跟同事出不来。离…

我提了离职,公司给我涨薪了,还能待下去吗?

金三银四到了,相信不少同学又开始在物色新的公司。 不少同学反映,在提出离职后,公司给自己加了薪,虽然不多。 那“在职员工,提出辞职被挽留,应该留下吗?” 为什么想要离职? 这个问…

是的,我离职了

终于可以敞开说这件事情了,年后的这一个月,我彻底停更了,并不是偷懒了,而是我要找工作。大家也都知道18年的寒冬,很多大厂开始裁员,所以我要更加认真的学习,毕竟跟大厂出来的相比,自…

办理离职手续流程的详细流程(离职交接的标准流程)

1、正式员工办理离职手续流程 若员工自离,需提前一个月向部门领导提出辞职申请(即时聊天工具或邮件)和《解除劳动合同申请》。 1)面谈:一般领导都会先谈话,确定你离职的时间及安排交接人员进行工作交接。 2…

程序员新公司入职被拒 只因离职证明多了一句话!

程序猿(微信号:imkuqin) 猿妹 整编 新闻报道来自:成都商报 近日,成都一名程序员被新应聘的公司通知入职,然而因为原公司给他出具的一份离职证明上,记载了一句“该员工在项目未完成情况下因个人原…

提交辞职申请时,领导极力挽留,还答应加薪,要不要留下来?

提交辞职申请时,领导极力挽留,还答应加薪,要不要留下来?张工是一名程序员,最近他向领导提交了辞职申请表后,却被领导极力挽留,领导不仅打感情牌,还打加薪牌。就是希望张工能够留下来…

医学影像处理与识别,应用AI模型,探索疾病辅助诊断!

关注公众号,发现CV技术之美 今天(2023.1.9) arXiv.CV 上有7篇医学影像处理与识别相关论文。不过粗略看来,医学影像类的论文,很多都是直接使用已有模型(甚至都不是最先进的模型),加以…

【react从入门到精通】初识React

文章目录 人工智能福利文章前言React技能树什么是 React?安装和配置 React创建 React 组件渲染 React 组件使用 JSX传递属性(Props)处理组件状态(State)处理用户输入(事件处理)组合和嵌套组件写…

JWT续期问题,ChatGPT解决方案

JWT(JSON Web Token)通常是在用户登录后签发的,用于验证用户身份和授权。JWT 的有效期限(或称“过期时间”)通常是一段时间(例如1小时),过期后用户需要重新登录以获取新的JWT。然而&…

可用数据存量不足,还能怎样向AI模型注入人类智能?

作者 | 王昊 出品 | IDEA研究院 在深度学习发展的第三波浪潮中, ChatGPT引发了人们对人工智能前所未有的关注。它的出现意味着基于指令学习和人类反馈的AI技术成为人工智能领域的关键。然而,当前所展示的能力还远不是AI的最终形态,无论是产业…

玩转ChatGPT:基于Mucloud建立本地知识库

一、写在前面 人们普遍认为GPT有潜力颠覆教育行业,然而这种颠覆会以何种方式呈现呢? 在刘慈欣的科幻世界中,三体人拥有知识遗传的能力,这使得他们的技术迭代成本降至最低。然而,我们人类并未具备这样的特性&#xff…

GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion

1.多模态GPT-4正式发布:支持图像和文本输入,效果超越ChatGPT OpenAI的里程碑之作GPT-4终于发布,这是一个多模态大模型(接受图像和文本输入,生成文本)。主要能力有: GPT-4可以更准确地解决难题&a…

AI炒股:用Claude来分析A股2023年中报业绩预告

Claude是和ChatGPT类似的AI大模型,据测试 AI 的水平能力接近 GPT-4,支持高达 100K token 的上下文。Claude只需要到官方网站注册账号后就可以直接免费使用。不过,目前智能美国和英国的 IP 可以注册和使用。 Claude支持上传文档功能&#xff…

NLP还能做什么?多机构联合发布百页论文,系统阐述后ChatGPT技术链

深度学习自然语言处理 分享来自:机器之心 一切都要从 ChatGPT 的横空出世说起...... 曾经一片祥和的 NLP 社区,被这个突如其来的 “怪物” 吓到了!一夜之间,整个 NLP 圈发生了巨大的变化,工业界迅速跟进,资…

NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链

夕小瑶科技说 分享 来源 | 机器之心 一切都要从 ChatGPT 的横空出世说起… 曾经一片祥和的 NLP 社区,被这个突如其来的 “怪物” 吓到了!一夜之间,整个 NLP 圈发生了巨大的变化,工业界迅速跟进,资本 “狂飙”&#…

chatgpt赋能python:Python量化数据来源-介绍

Python量化数据来源 - 介绍 Python在金融量化分析领域中得到了广泛的应用,这部分应用通常被称为Python量化金融。Python量化数据来源是Python量化金融分析的基础,只有良好的数据来源才能保证分析的准确性和有效性。 Python具有以其代码简洁易懂、强大的…