前言

最近尝试用python实现给一个视频添加字幕和语音，查了很多博客后有了一个拼拼凑凑的方法：

使用"pyttsx3"来实现“文字到音频”的转换；
使用"pydub"来对得到的音频进行加工和处理；
使用"moviepy"来合成字幕和语音文件。

（注：本篇仅作为个人小白的学习记录）

一、"pyttsx3"实现“文字到音频”的转换

pyttsx3是一个很方便的实现从“文字”到“语音”的库，安装和使用都很简单，windows下安装只需要：

	pip install pyttsx3

如果要简单实现“文字段”的语音播放也很简单：

import pyttsx3
#	语音模块初始化
engine = pyttsx3.init()
#	设置要播报的字符串
text = "哈哈哈哈哈哈"
engine.say(text)
#	等待运行
engine.runAndWait()

还可以在这基础上将音频文件保存下来:

outFile = "output.aiff"
engine.save_to_file(text, outFile)
#	注意下面这句不能少，否则无法正常生成音频文件
engine.runAndWait()

这里需要注意的一点是，使用pyttsx3能够将文字转为音频，但是其编码格式特殊，保存下来的文件也是"aiff"格式的音频文件，所以如果要使用"MP3"格式则需要pydub中的AudioSegment模块来对其进行更改：

AudioSegment.from_file(outFile).export("Python.mp3", format="mp3")

当然，我也尝试了强行利用“save_to_file”将文件保存为“MP3”格式，虽然能够正常播放，但是这个文件是存在问题的(比如后面使用pydub进行处理的时候会因为无法读入而报错)

参考博客：https://blog.csdn.net/qq_19394437/article/details/97567298?spm=1001.2014.3001.5506

二、"pydub"处理音频

1.安装

pip install pydub

安装完pydub之后还需要安装ffmpeg，可以选择去github下载安装包，我这里给出网盘分享(某位老哥分享了网盘链接，我找不到原文链接了抱歉)

链接: https://pan.baidu.com/s/1dsE8p9YL-ji48Mg0vTfaMA
提取码: irxi

解压后在bin文件夹下有以下三个文件：
在这里插入图片描述
复制bin文件路径，添加到环境变量中，然后在cmd窗口运行如下命令:

ffmpeg -version

若正常输出则代表安装完了
在这里插入图片描述
(当然这里安装完了，在后面实际使用的时候还可能会出问题)

2.测试

from pydub import AudioSegment#	读入MP3音频文件
audio = AudioSegment.from_mp3('Python.mp3')#	简单加一段空白(静音)片段
X = 2000	#ms
silent = AudioSegment.silent(duration=X)
new_audio = silent + audio#	保存文件
new_audio.export("new_Python.mp3", format="mp3")

代码运行到这里一般都会报错，类似于"RuntimeWarning: Couldn’t find ffmpeg or avconv - defaulting to ffmpeg, but may not work warn(“Couldn’t find ffmpeg or avconv - defaulting to ffmpeg, but may not work”, RuntimeWarning)”，或者是"RuntimeWarning: Couldn’t find ffprobe or …"

我也不知道具体为什么，可能是因为环境路径的问题？
直接给出解决办法：

报错应该会给一个"pydub"中的一个叫“utils.py”文件的路径，
第一步：找到该文件
第二步：找到一个叫"which(program)"的函数
第三步：添加前面下载的"ffmpeg"的“bin”文件路径
第四步：重启电脑

补充(第三步实例):
在这里插入图片描述
重启后应该能够正常运行了。

三、“moviepy”合成字幕和音频

1.安装

pip install moviepy
#	实际上安装moviepy的时候会自动安装下面两个库
pip install imageio
pip install imageio-ffmpeg

另外需要单独安装ImageMagick软件并添加到环境变量中

2.测试

from moviepy.editor import *def videocaption(src_mp4, dst_mp4, dottemp):# input:#   src_mp4: the path of wait-to-dispose video#   dst_mp4: the path of after-dispose video#	dottemp--字幕列表['text1','text2','text3',...]#	加载视频video = VideoFileClip(src_mp4)# 逐句添加字幕time = [2,2,2,...]	#	字幕持续时间，自行设置start = [4,6,8,10,...]	#	字幕开始时间，自行设置position = ['bottom','center',...]	#	显示位置，自行设置txts = []for si,sentence in enumerate(dottemp):txt = (TextClip(sentence, fontsize=40,font='SimHei', size=(1900, 40),align='center', color='red').set_position(position[si]).set_duration(time[si]).set_start(start[si]))txts.append(txt)# 合成字幕video = CompositeVideoClip([video, *txts])# 合成音频videos = video.set_audio(AudioFileClip('Python.mp3'))# 保存视频，注意加上参数audio_codec='aac'，否则音频无声音videos.write_videofile(dst_mp4, audio_codec='aac')if __name__ == '__main__':#	输入输出路径src_mp4 = r'input.mp4'dst_mp4 = r'output.mp4'#	字幕列表dottemp = ['test1','test2','test3']#	合成视频videocaption(src_mp4,dst_mp4,dottemp)