谷歌文本转语音（gtts）批量转换

1. 测试环境
2. 谷歌云平台注册
3. gtts 使用
- 3.1. 基本介绍
- 3.2. 准备工作
- 3.3. 本地环境变量设置
- 3.4. 安装python包
4. 测试

最近工作中要将文本转换成多国语音，试了下gtts，效果不错，来记录下

1. 测试环境

项目	版本
操作系统	Ubuntu20.04
python	3.8
Google Cloud Platform	试用版

注意：
1、由于需要试用谷歌云平台，所以需要能够访问谷歌的方法，在此不在赘述

2、为了申请谷歌云平台账号，需要拥有VISA信用卡或者PayPal账号，用于注册时的验证

2. 谷歌云平台注册

点击谷歌云平台，转到谷歌云平台，申请账号，注册流程按照提示来就可以，但是必须要有前文提到的东西，注册成功后，会有90天的免费体验时间。

在这里插入图片描述

3. gtts 使用

3.1. 基本介绍

gtts(google text to speech)使用由 Google 的 AI 技术提供支持的 API 将文字转换为自然而逼真的语音。可以在这个页面看到一些官方的使用文档，本文也在该文档指导下进行。

在这里插入图片描述

3.2. 准备工作

从基本介绍可以看出，gtts是通过API调用的方式实现的，因此我们必须先启用谷歌云平台中的gtts api功能。为了能够成功开启该功能，具体操作步骤如下：

登录到云控制台，新建一个项目，这里设置名字为txt2wav
确认待使用项目已启用结算选项。这个是谷歌收费的，当前我们是免费使用期间，正常跳转到结算页后，是能找到我的结算账号的，如果出现没有结算账号的情况，按照这里的说明进行操作。
开启gtts API。在产品搜索框内输入speech，进行搜索，并打开 Cloud Text-to-Speech API 页面，之后选择启用 API。注意该操作是启用当前激活项目的 gtts API（Google Cloud Platform后面显示的即为当前激活项目）。
创建服务账号。必须通过服务账号才能访问 API，相当于认证，创建一个服务账号，可选项都可不填。注意该操作是在当前激活项目中创建服务账号（Google Cloud Platform后面显示的即为当前激活项目）。
创建完成后，点击服务账号的电子邮件信息，会打开配置页面，添加新密钥，正常添加即可，最后会选择密钥格式，这里选择json格式并进行下载。

3.3. 本地环境变量设置

设置用于身份验证的本地环境变量。本地每次调用 API 时，都会使用该变量指向的密钥进行身份认证，具体命令如下，将该命令添加到~/.bashrc中，并将KEYPATH换成你的密钥存储位置，具体到文件本身如/home/rsa/aaa.json

export GOOGLE_APPLICATION_CREDENTIALS="${KEY_PATH}"

3.4. 安装python包

本次测试使用的是系统自带的python3.8，也可以使用虚拟环境，使用以下指令安装gtts的python包。

pip3 install --upgrade google-cloud-texttospeech

4. 测试

注意：测试过程中，要保证能够正常访问谷歌。

本次测试样例的功能为：读取txt内文本信息，转换为语音后，保存。文本内格式如下，每一行由保存文件名称和待转换文字组成，如第一行，将会将i love you转换为语音，并保存为iloveyou.wav

测试源码如下，部分代码进行了注释，gtts转换后的音频够实现指定采样率、通道、格式等信息，具体API使用手册参见这里

#!/bin/env pythonfrom google.cloud import texttospeech
import waveclient = texttospeech.TextToSpeechClient()voice = texttospeech.VoiceSelectionParams(```转换的语言码 en-US 代表美国，支持的语言查看 https://cloud.google.com/text-to-speech/docs/voices```language_code="en-US", ```语音播报性别选择```ssml_gender=texttospeech.SsmlVoiceGender.FEMALE
)audio_config = texttospeech.AudioConfig(```输出语音文件的编码方式，可以选择mp3、wav（LINEAR16）等```audio_encoding=texttospeech.AudioEncoding.LINEAR16,```输出语音文件的采样率```sample_rate_hertz = 8000
)index = 0
filenames = []
with open("test.txt", "r") as f:for line in f.readlines():line = line.strip('\n')filename, text = line.split(",", 1)filename = filename.strip(" ")filenames.append(filename)text = text.strip(" ")synthesis_input = texttospeech.SynthesisInput(text=text)response = client.synthesize_speech(input=synthesis_input, voice=voice, audio_config=audio_config)with open(filename, "wb") as out:out.write(response.audio_content)out.close()f.close()