OpenAI Whisper + FFmpeg + TTS:动态实现跨语言视频音频翻译

本文作者系360奇舞团前端开发工程师

摘要:

本文介绍了如何结合 OpenAI Whisper、FFmpeg 和 TTS(Text-to-Speech)技术,以实现将视频翻译为其他语言并更换声音的过程。我们将探讨如何使用 OpenAI Whisper 进行语音识别和翻译,然后使用 FFmpeg 提取视频音轨和处理视频,最后使用 TTS 技术生成新的语音并替换原视频的音轨。通过这种方式,我们可以为视频添加新的语言版本,同时保持其原始视觉内容。

引言:

现如今,全球范围内的视频内容正在迅速增长,跨语言传播和多语言支持成为了一个重要的需求。但是,手动为视频添加不同语言的字幕或配音可能非常耗时且昂贵。本文将介绍一种利用 OpenAI Whisper、FFmpeg 和 TTS 技术的方法,使我们能够将视频翻译为其他语言并更换声音,以满足多语言需求,同时降低成本和时间。

  1. OpenAI Whisper:是一种强大的语音识别模型,能够将语音转换为文本,并支持多种语言。我们将使用 Whisper 将视频中的原始语音提取为文本,并通过翻译服务将其转换为目标语言的文本。

  2. FFmpeg:处理视频和音轨提取接下来,我们使用 FFmpeg 工具处理视频和提取音轨。FFmpeg 是一款功能强大的多媒体处理工具,它支持各种音视频处理操作。我们可以使用 FFmpeg 提取原视频的音轨,以便稍后替换为新生成的语音。

  3. TTS 技术:生成新的语音为了替换原视频的音轨,我们需要生成新的语音。这里我们使用 TTS(Text-to-Speech)技术,将先前翻译得到的目标语言文本转换为对应语言的语音。TTS 技术基于深度学习模型,可以生成自然流畅的语音,使其与原视频的内容相匹配。

  4. 结合 Whisper、FFmpeg 和 TTS:实现视频翻译和更换声音最后,我们将 Whisper 生成的目标语言文本与 TTS 生成的新语音结合起来,并使用 FFmpeg 将新语音替换到原视频的音轨中。通过使用 FFmpeg 的音轨替换功能,我们可以确保新语音与视频内容同步,并生成具备目标。

结果展示

  • 原视频:https://caining0.github.io/statichtml.github.io/test.mp4

  • 转换后视频:https://caining0.github.io/statichtml.github.io/output.mp4

前提与依赖

pip3 install openai-whisper
pip3 install ffmpeg-python
brew install ffmpeg
pip3 install TTS//https://github.com/coqui-ai/TTS

openai-whisper用法

命令行用法

以下命令将使用medium模型转录音频文件中的语音:

whisper audio.flac audio.mp3 audio.wav --model medium

默认设置(选择模型small)适用于转录英语。要转录包含非英语语音的音频文件,您可以使用以下选项指定语言--language

whisper japanese.wav --language Japanese

添加--task translate会将语音翻译成英文:

whisper japanese.wav --language Japanese --task translate

运行以下命令以查看所有可用选项:

whisper --help

Python 用法

import whispermodel = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

例子

whisper test.mp4 --language Chinese --task translate
[00:00.000 --> 00:03.400]  If the Chinese people come to design a new building, it will be like this
[00:03.400 --> 00:06.360]  A new building that has been rebuilt by a Chinese city
[00:06.360 --> 00:09.480]  This is a real city, maybe it's your hometown
[00:09.480 --> 00:12.640]  Let's take a short film with us and show its real face
[00:12.640 --> 00:14.480]  The opening is a one-minute long lens
[00:14.480 --> 00:16.520]  First, the time has changed, the new season has no shadow
[00:16.520 --> 00:18.680]  A sense of depression is born
[00:18.680 --> 00:20.400]  We randomly saw the red tail of it
[00:20.400 --> 00:22.120]  This is the new building in the hundreds of square kilometers
[00:22.120 --> 00:24.480]  The blue protective tent inside the blue sky city in the front
[00:24.480 --> 00:26.080]  As in the front of the crystal ball
[00:26.080 --> 00:28.360]  The back is a larger environmental structure
[00:28.360 --> 00:29.800]  This is the shadow of the new building
[00:29.800 --> 00:30.600]  The lens is far away
[00:30.600 --> 00:32.040]  We see that there is a bandage
[00:32.040 --> 00:33.560]  It is passing through a huge star
[00:33.560 --> 00:35.240]  Those are the stars of the stars
[00:35.240 --> 00:37.280]  The stars do not affect the shape of the bandage
[00:37.280 --> 00:39.240]  This means that their motivation is super
[00:39.240 --> 00:42.040]  At this time, the lens enters the blue protective tent inside the first crystal ball

TTS

from TTS.api import TTS
model_name = TTS.list_models()[0]
tts = TTS(model_name)
tts.tts_to_file(text="Hello world!", speaker=tts.speakers[0], language=tts.languages[0], file_path="output.wav")
#实践中需要把text更换为whisper提取内容

ffmpeg

  • 提取无音频视频

ffmpeg -i /Users/cnn/Downloads/test.mp4 -an -y output_new.mp4
  • 去噪

ffmpeg -y -i output_new.wav -af "anlmdn=ns=20" output_clean.wav
  • 合并与剪切

ffmpeg -i merge1.wav -i a_p1.wav -filter_complex "[0:0] [1:0] concat=n=2:v=0:a=1 [a]" -map [a] -y merge0.wav
  • 其他问题,由于tts生成语音,实际时长与原视频时长不一样,需要动态调整

# 思路为,获取视频时长和原视频时间的比例,并设置,调整语速
ffmpeg -y -i output.wav -filter:a "atempo=0.8" output_new.wav

前景

结合 OpenAI Whisper、FFmpeg 和 TTS 技术的跨语言视频翻译与语音本地化应用具有广阔的前景与市场潜力。随着全球化的推进,多语言视频内容需求日益增加,教育、媒体、娱乐和商务等领域都需要提供多语言支持。这种应用可以帮助内容创作者快速将视频本地化,满足全球受众的需求,同时降低成本和时间投入。在教育领域,多语言支持可以促进全球学习交流与合作;媒体和娱乐行业可以通过本地化的视频内容吸引更广泛的受众市场。此外,企业在跨国业务和跨文化交流中也可以利用这种应用进行语音本地化,促进全球团队合作和商务沟通。未来,这种应用有望成为视频内容创作工具与服务的一部分,提供高效、自动化的跨语言翻译和语音本地化功能。总之,这种应用在满足多语言视频需求的同时,为各个行业带来商业机会,并推动全球化交流与合作的发展。

不足

  • TTS略有杂音,后续优化,或者考虑收费版本,如Polly:https://aws.amazon.com/cn/polly/,

引用

  • https://github.com/openai/whisper

  • https://github.com/coqui-ai/TTS

  • https://ffmpeg.org/

- END -

关于奇舞团

奇舞团是 360 集团最大的大前端团队,代表集团参与 W3C 和 ECMA 会员(TC39)工作。奇舞团非常重视人才培养,有工程师、讲师、翻译官、业务接口人、团队 Leader 等多种发展方向供员工选择,并辅以提供相应的技术力、专业力、通用力、领导力等培训课程。奇舞团以开放和求贤的心态欢迎各种优秀人才关注和加入奇舞团。

90fae4332479d2e0b1894a676ba2fab5.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39367.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有哪些翻译视频声音的软件?1分钟教会你视频翻译的技巧

平常喜欢追美剧或韩剧的小伙伴们,是不是会因为没有中文字幕而烦恼呢,其实我们可以借助一些软件将视频内容翻译成中文或其他熟悉的语言,这样也能提高我们的效率。那么,你知道视频翻译软件哪个好吗?今天安利三个日常必备…

视频配音软件免费的有哪些?这三个软件轻松搞定怎么给视频配音

现在越来越多的人选择加入制作短视频的行列当中,一个好的视频往往离不开好的配音,有一个适合的配音是视频的加分项,这个时候我们会选择借助一些软件帮助我们给视频配音,但是市面上的视频配音软件大多数都需要付费,有小…

TTS英文版语音合成(免费),可以用于为paper的视频配音

paper视频配音 1 TTS网址2 方法3 mp3获取的土办法4 captura缺少FFMPEG怎么办?5 参考文献 1 TTS网址 https://www.nuance.com/omni-channel-customer-engagement/voice-and-ivr/text-to-speech.html#! 2 方法 点2中play,就可以播放。 3 mp3获取的土办法 我是采用…

怎么给视频配音?教你四种简单好用的视频配音方法

怎么给视频配音呢?通过配音,我们可以为视频中的视觉效果添加更多的细节和信息。例如,如果视频中有一些场景需要解释,可以添加配音来提供更多的上下文和背景信息。有时候,视频可能需要强调某些重点,以确保观…

码住这些视频配音软件,一键完成配音

随着时代的发展,短视频逐渐在互联网有了一席之地,许多人纷纷涌入了各大视频平台,借短视频来获取关注。但想要在众多视频中出圈,就得提升视频的质量。许多自媒体博主在制作视频时,需要注重的环节之一,就是给…

给你的视频配音,只需这3款免费软件工具(文字转语音)!

想要制作抖音,快手上的短视频,可自己的普通话却不标准,录制出来的语音也不好听,硬邦邦的。对于很多自媒体新手小白来说,平常可以多看看优秀的经典视频创作,把一些觉得还不错的配音案例整理下来,…

视频声音怎么翻译?这几个办法教你实现视频声音翻译成中文

现如今刷视频已经成为我们的日常生活中不可缺少的一部分了,例如有时我们看到一些有用的教学视频,可能会想要把这些视频保存下来,但有些视频却都是英文的,有些小伙伴可能英语基础不好,查看起来不方便,这个时…

你知道怎么给视频配音?视频配音在线教学

随着互联网的发展,越来越多人加入到了制作短视频的行列,选择拍摄一些创意短视频或者分享日常的视频等到短视频平台上,想要让自己的视频效果更好,可以加入自己喜欢的音乐等,那怎么给视频配音呢?教大家三个方…

怎么给视频配音?视频配音软件有哪些?

视频配音在日常生活中被广泛应用,比如在电影解说、游戏解说、纪录片视频等领域,可以帮助创作者更好地表达自己的视频内容,提高视频的吸引力和感染力。很多小伙伴也想学习怎么给视频配音,但不清楚视频配音教程哪个好?没…

英文视频字幕生成和翻译工具、AI拟声工具

文章目录 一、Autosub-ahk:英文视频字幕生成工具二、VideoSrt:英文视频字幕生成和翻译工具三、SubtitleEdit:字幕编辑工具四、PotPlayer:视频播放器(可导入字幕)五、MockingBird:AI拟声工具 一、…

为什么公司宁愿花15K招新人,也不愿花10K留老员工?!!

推荐专门分享AI技术的公众号 关注后,回复:ChatGPT ,领取账号 来源丨AI技术指南 https://mp.weixin.qq.com/s/SbirzT_omxySZ9UChxG5Fg 很多公司宁愿高价招个新人,也不愿意给老员工加薪,相信这是很多IT圈朋友都遇到过的问…

第一批AIGC独角兽开始裁员了

本文源自:量子位公众号 AIGC创业投融资火爆推进,一则裁员公告却从天而降引爆关注: 公告来自首批AIGC明星独角兽Jasper。 早在ChatGPT爆火之前,AIGC也还不是大家耳熟能详的概念时,这家公司就已经背靠GPT-3&#xff0c…

未来的彩电,彩电的未来

疫情后的首个线上大促已经结束,“史上投入最大618”也没能抵住彩电市场整体的需求疲软。 根据奥维云网线上推总数据,2023年618期间,中国彩电线上市场零售量规模为249.9万台,同比下降12.9%;零售额规模为79.7亿元&#…

最新工资价位表发布了!你的工资属于哪一档...

上一篇:最惨中年失业三件套,你中招了么? 最新工资价位表来了。 人社部6月25日发布2022年企业薪酬调查信息,公布了不同职业企业从业人员工资价位、不同岗位等级企业从业人员工资价位数据。 分职业中类企业从业人员工资价位&#xf…

注意力机制详解(Attention详解)

注意力机制与人眼类似,例如我们在火车站看车次信息,我们只关注大屏的车次信息,而忽略大屏外其他内容,从而导致钱包被偷。。。 注意力机制只关注重点信息,忽略不重要的信息,关注最核心的内容。 主要就是这…

Attention:何为注意力机制?

本文来自公众号“AI大道理” 人类利用有限的注意力资源从大量信息中快速筛选出高价值信息,这是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。 attention从注意力模型的命名方式看,借鉴了…

小红书如何营销?各大品牌小红书运营投放营销策划方案合集(13份)

传统企业如何通过短视频进行营销?短视频营销策划方案合集 我是 左木杨,我的营销知识库已经收集了10000品牌营销方案,欢迎全国对营销感兴趣的朋友一起加入进来。 今天为大家精选了13份知名品牌小红书营销策划方案: 涵盖&#xf…

小红书内容营销的必读推荐 小红书运营策划方案上海氖天

小红书内容营销是指以小红书为载体,运用内容开展营销活动,主要包括生产吸引人的内容、分享珍贵的内容、借助小红书各类工具宣传内容、吸引更多用户等。 1,做内容,就是针对某一群体,提供懒人版问题解决方法,…

小红书新媒体运营推广策略

小红书是以美妆、时尚穿搭内容为主的产品种草社区,也是很多年轻人愿意使用的平台,随着更多领域的开放,其他专业领域的博主也是快速入驻,成熟领域的头部账号相对饱和,没有丰富的专业知识储备和别具一格的表现方式最好不…

小红书整体框架及玩法

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 小红书爆文笔记进阶指南 最新亲测国内可用ChatGPT使用教程(3分钟搞定) 2023全域用户经营白皮书 ChatGPT的发展历程、原理、…