【工具】音视频翻译工具基于Whisper+ChatGPT

OpenAI推出的开源语音识别工具Whisper,以其卓越的语音识别能力,在音频和视频文件处理领域大放异彩。与此同时,ChatGPT也在翻译领域崭露头角,其强大的翻译能力备受赞誉。因此,一些字幕制作团队敏锐地捕捉到了这两者的结合潜力,开始尝试将它们应用于影视字幕的翻译工作中。

在这个创新的翻译流程中,Whisper扮演着至关重要的角色。它能够将音频或视频文件中的语音内容精准地转录成字幕文本,为后续的翻译工作奠定了坚实的基础。而一旦字幕文本生成完毕,字幕组便会调用ChatGPT、Google Translate等翻译软件,将字幕文本翻译成观众所需的语言。

这种结合Whisper与ChatGPT的翻译方式,不仅提高了字幕翻译的准确性,还极大地提升了工作效率。它让字幕制作团队能够更加轻松、高效地完成影视字幕的翻译工作,为观众带来更加优质的观影体验。

目录

实现流程

SubtitleEdit Online​​​​​​​

Buzz

N46Whisper

Subs AI

PyAutoSRT

caption2text


实现流程

  1. 调用Whsiper转录音频/视频文件,得到带时间轴的文本字幕 。
  2. 人工校对审核相应的文本字幕
  3. 使用ChatGPT、Google Translate、DeepL等将文本字幕翻译为指定语言

SubtitleEdit Online​​​​​​​

Nikse.dkicon-default.png?t=O83Ahttps://www.nikse.dk/subtitleedit/onlineSubtitleEdit Online是一个功能全面的在线字幕编辑工具,专为视频制作者、翻译者和字幕爱好者设计。SubtitleEdit Online支持包括SubRip (SRT)、MicroDVD、Advanced Sub Station Alpha (ASS)、Sub Station Alpha (SSA)、D-Cinema等在内的多种字幕格式,几乎涵盖了市面上所有常见的字幕格式。用户可以轻松创建新的字幕行,并对现有字幕行的内容和时间进行调整,以满足不同的字幕编辑需求。

SubtitleEdit Online集成了DirectShow、VLC媒体播放器或MPlayer,方便用户在编辑字幕时预览视频,实现字幕与视频的完美匹配。通过提供波形和/或频谱图显示,用户可以更准确地同步字幕与音频内容,确保字幕的准确性和流畅性。编辑完成后,用户可以将字幕导出为所需的格式,以便在其他平台或设备上使用。

 

Buzz

https://github.com/chidiwilliams/buzzicon-default.png?t=O83Ahttps://github.com/chidiwilliams/buzz

  • ​​​​​​​导入音频和视频文件并将转录文本导出为 TXT、SRT 和 VTT
  • 从计算机的麦克风转录和翻译为文本(资源密集型,可能不是实时的,演示)
  • 支持 Whisper、Whisper.cpp、Faster Whisper、Whisper 兼容的 Hugging Face 模型和 OpenAI Whisper API
  • 命令行界面
  • 适用于 Mac、Windows 和 Linux

Buzz 在 App Store 上表现更好。获取 Mac 原生版本的 Buzz,具有更简洁的外观、音频播放、拖放导入、转录文本编辑、搜索等功能。

​​​​​​​

N46Whisper

https://github.com/Ayanaminn/N46Whispericon-default.png?t=O83Ahttps://github.com/Ayanaminn/N46Whisper

N46Whisper 是基于 Google Colab 的应用。开发初衷旨在提高乃木坂46字幕组的工作效率,适于许多日语视频的字幕制作。此应用基于AI语音识别模型 Whisper的优化部署 faster-whisper.

在输出方面,N46Whisper生成的字幕文件采用了ass格式,并内置了特定字幕组的字幕格式规范,用户只需将生成的字幕文件直接导入Aegisub软件,即可轻松进行后续的翻译及时间轴校正工作,极大地简化了字幕制作的流程。

应用现在可以使用AI翻译工具对转录的文本进行逐行翻译。用户也可以单独上传srt或ass文件来使用翻译模块。目前支持chatGPT 的翻译。

翻译后的文本将于原文合并在一行,以 /N分割,生成双语对照字幕。

例如:

QQ截图20230312155700

双语字幕效果为:

QQ截图20230312160015​​​​​​​

Subs AI

​​​​​​​https://github.com/abdeladim-s/subsaiicon-default.png?t=O83Ahttps://github.com/abdeladim-s/subsai

Subs AI是一个强大的开源工具,它结合了OpenAI的Whisper模型及其变体,提供了网页界面(Web-UI)、命令行接口(CLI)以及Python包,致力于自动化字幕生成。Subs AI由abdeladim-s发起和维护,是一个基于GitHub的开源项目。

​​​​​​​Subs AI集成了whisper.cpp和faster-whisper等高效率的推理引擎,实现了更快更节省资源的模型运行。除了基础的字幕生成外,Subs AI还具备字幕修改、翻译、同步调整等多种辅助功能,一站式解决字幕处理问题。

PyAutoSRT

GitHub - botbahlul/PyAutoSRT: PySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio filePySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio file - botbahlul/PyAutoSRTicon-default.png?t=O83Ahttps://github.com/botbahlul/PyAutoSRT

PyAutoSRT是一个基于PySimpleGUI的桌面应用程序,它利用免费的Google Speech Recognition API自动生成字幕文件,并可使用非官方的在线Google Translate API将字幕文件翻译成其他语言。

​​​​​​​

caption2text

https://github.com/F-loat/caption2texticon-default.png?t=O83Ahttps://github.com/F-loat/caption2text​​​​​​​PWA 版字幕转换为文本工具,支持 ass 及 srt 格式,可批量导出为 word 及 text 文件​​​​​​​

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/446027.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx UI 一个可以管理Nginx的图形化界面工具

Nginx UI 是一个基于 Web 的图形界面管理工具,支持对 Nginx 的各项配置和状态进行直观的操作和监控。 Nginx UI 的功能非常丰富: 在线查看服务器 CPU、内存、系统负载、磁盘使用率等指标 在线 ChatGPT 助理 一键申请和自动续签 Let’s encrypt 证书 在…

Flink 批作业如何在 Master 节点出错重启后恢复执行进度?

摘要:本文撰写自阿里云研发工程师李俊睿(昕程),主要介绍 Flink 1.20 版本中引入了批作业在 JM failover 后的进度恢复功能。主要分为以下四个内容: 背景解决思路使用效果如何启用 一、背景 在 Flink 1.20 版本之前&am…

react antd redux 全局状态管理 解决修改菜单状态 同步刷新左侧菜单

npm i react-redux1.src新建两个文件 globalState.js 全局状态定义 store.js 全局存储定义 2.globalState.js import { createSlice } from "reduxjs/toolkit";export const globalState createSlice({name: "globalState",initialState: { data: {} },r…

rpa批量发送邮件如何通过编辑器编发邮件?

rpa批量发送邮件的技巧?怎么使用rpa邮箱群发助手? 手动发送邮件变得越来越繁琐且效率低下。为了解决这一问题,越来越多的企业开始采用RPA技术来批量发送邮件。AokSend将详细探讨如何通过编辑器来实现rpa批量发送邮件的功能,从而提…

微信小程序处理交易投诉管理,支持多小程序,一键授权模式

大家好,我是小悟 1、问题背景 玩过微信小程序生态的,或许就有这种感受,如果收到投诉单,不会及时通知到手机端,而是每天早上10:00向小程序的管理员及运营者推送通知。通知内容为截至前一天24时该小程序账号内待处理的交…

计算机视觉之YOLO算法基本原理和应用场景

YOLO算法基本原理 整体流程 YOLO 将目标检测问题转化为一个回归问题。它将输入图像划分成多个网格单元,每个网格单元负责预测中心点落在该网格内的目标。对于每个网格单元,YOLO 预测多个边界框以及这些边界框中包含目标的类别概率。边界框通常由中心点坐…

前端开发笔记--css 黑马程序员1

文章目录 1. css 语法规范2.css的书写风格3.基础选择器选择器的分类标签选择器类选择器类选择器的特殊使用--多类名 id 选择器 字体属性常见字体字体大小字体粗细字体倾斜字体的复合简写字体属性总结 文本属性文本颜色文本对齐装饰文本文本缩进文本间距文本属性总结 css的引入方…

【机器学习】知识总结1(人工智能、机器学习、深度学习、贝叶斯、回归分析)

目录 一、机器学习、深度学习 1.人工智能 1.1人工智能概念 1.2人工智能的主要研究内容与应用领域 1.2.1主要研究内容: 1.2.2应用领域 2.机器学习 2.1机器学习的概念 2.2机器学习的基本思路 2.3机器学习的分类 3.深度学习 3.1深度学习的概念 3.2人工智能…

Java体系中的泛型

1. 泛型 一般的类和方法,只能够使用基本类型,要么是自定义的类,如果要编写可以应用于多种数据类型的代码,这种刻板的限制对代码的约束就会很大,那么如何实现可应用于多种数据类型的代码,而不局限于单一一种…

服务器数据恢复—EMC存储RAID5磁盘阵列数据恢复案例

服务器数据恢复环境: 一台EMC某型号存储设备,该存储中有一组由12块(包括2块热备盘)STAT硬盘组建的raid5阵列。 服务器故障: 该存储在运行过程中突然崩溃,raid瘫痪。数据恢复工程师到达现场对故障存储设备进…

肺结节分割与提取系统(基于传统图像处理方法)

Matlab肺结节分割(肺结节提取)源程序,GUI人机界面版本。使用传统图像分割方法,非深度学习方法。使用LIDC-IDRI数据集。 工作如下: 1、读取图像。读取原始dicom格式的CT图像,并显示,绘制灰度直方图; 2、图像…

欧科云链研究院深掘链上数据:洞察未来Web3的隐秘价值

目前链上数据正处于迈向下一个爆发的重要时刻。 随着Web3行业发展,公链数量呈现爆发式的增长,链上积聚的财富效应,特别是由行业热点话题引领的链上交互行为爆发式增长带来了巨量的链上数据,这些数据构筑了一个行为透明但与物理世…

extern “C“ 的作用、C++ 和 C 编译的不同、C++ 编译过程的五个主要阶段

在 C 中,如果需要从 C 语言导入函数或与 C 代码交互,需要使用 extern "C" 关键字。这是因为 C 和 C 在编译过程中的 符号命名机制(即 "名称修饰" 或 "name mangling")不同。 1. extern "C&qu…

MokeJs使用实例

文章目录 MokeJs使用实例介绍使用安装配置文件导入配置到main.js使用 axios 发送网络请求测试(如果不会axios,具体可以见上篇文章axios)启动示例 MokeJs使用实例 介绍 使用 安装 npm install mockjs --save-dev # 或者 yarn add mockj…

【超详细】基于YOLOv11的PCB缺陷检测

主要内容如下: 1、数据集介绍 2、下载PCB数据集 3、不同格式数据集预处理(Json/xml),制作YOLO格式训练集 4、模型训练及可视化 5、Onnxruntime推理 运行环境:Python3.8(要求>3.8)&#xff…

matlab不小心删除怎么撤回

预设项——>删除文件——>移动至临时文件夹 tem临时文件夹下

【RabbitMQ】初识 RabbitMQ

🥰🥰🥰来都来了,不妨点个关注叭! 👉博客主页:欢迎各位大佬!👈 文章目录 1. MQ 是什么?1.1 MQ 本质1.2 系统间通信 2. MQ的作用是什么?2.1 异步解耦2.2 流量削…

【ProtoBuf】ProtoBuf基础与安装

本篇文章介绍 C 使用方向 文章目录 ProtoBuf简介ProtoBuf安装WindowsLinux ProtoBuf简介 ProtoBuf(全称为 Protocol Buffer)是一种序列化结构数据的方法 序列化是将对象转换为可存储的或传输的格式的过程,通常用于数据交换或持久化存储。我们在C/Java中编写的类不…

2.13寸电子墨水屏HINK-E0213+esp8266

记录好数字 2.13寸电子墨水屏HINK-E0213esp8266 声明:大部分资料来源于微雪电子http://微雪电子-官网 https://www.waveshare.net/ 前言 很久以前买的一块电子墨水屏,运气很好,这个型号HINK-E0213资料很全,而且微雪官网也有相关电路资料http://2.13inch e-Paper HAT - Waves…

【GaussDB】产品简介

产品定位 GaussDB 200是一款具备分析及混合负载能力的分布式数据库,支持x86和Kunpeng硬件架构,支持行存储与列存储,提供PB(Petabyte)级数据分析能力、多模分析能力和实时处理能力,用于数据仓库、数据集市、实时分析、实时决策和混…