【开源工具】使用Whisper提取视频、语音的字幕

这里写目录标题

  • 一、语音转字幕操作步骤
    • 1、下载安装包Assets\WhisperDesktop.zip[^2]
    • 2、加载模型
      • 2.1 下载模型
        • 2.1.1 进入Hugging Face[^3]的仓库
        • 2.1.2 选择需要下载的模型
        • 2.1.3 配置模型路径
    • 3、语音转字幕
    • 4、实时语言转录功能
  • 二、相关简介[^1]
    • 特点
    • 开发人员指南
      • 构建说明
      • 其他注意事项
      • 绩效说明
      • 进一步优化
      • 缺少的功能
      • 结尾语

一、语音转字幕操作步骤

1、下载安装包Assets\WhisperDesktop.zip1

2、加载模型

运行WhisperDesktop.exe,
启动后加载模型“load model,please wait…”,等待其将模型加载到内存。

2.1 下载模型

刚开始是没有模型的,需要到Hugging Face2的仓库里面下载模型并配置相关路径

2.1.1 进入Hugging Face2的仓库

点击ggerganov/whisper.cpp进入Hugging Face仓库

2.1.2 选择需要下载的模型

在Hugging Face仓库,选择Files and versions,选择以下两种模型:

  • ggml-large.bin
  • ggml-medium.bin
    在这里插入图片描述

2.1.3 配置模型路径

在Load Whisper Model 页,Model Path选择好模型的路径D:\WhisperDestop\ggml-whisper.bin,点击OK,等待其将模型加载到内存。

3、语音转字幕

在Transcribe Audio File页面:

  1. Language:Chinese(视频或语音说话使用的语种)
  2. Translate: (把识别出来的文本给翻译成英文输出)
  3. Transcribe File:C:\xxx.mp4(选择你要提取字幕的视频、音频等)
  4. Output Format:SubRip subtitles(输出格式)
    • None:
    • Text file:纯文本
    • Text with timestamps
    • SubRip subtitles:字幕(标准的字幕格式 时段+文字)
      可以将后缀改为.srt格式,这样的文件可以直接拖放到剪辑软件里面,他会自动给你排列好,像这样的字幕是不需要咱们来对时间的
    • WebVTT subtitles

4、实时语言转录功能

开启实时语言转录之后,你对它说话的话,他会自动把你说的话转换成文字并记录下来

二、相关简介3

特点

  • 基于DirectCompute的供应商无关GPGPU;该技术的另一个名称是“Direct3D 11中的计算着色器”

  • 简单的C++实现,除了基本的操作系统组件之外没有运行时依赖项

  • OpenAI的实现快得多。
    在我的台式电脑上,使用GeForce 1080Ti GPU,中等型号,用PyTorchCUDA转录3:24分钟的语音需要45秒,但我的实现和DirectCompute只需要19秒。
    有趣的是:这是9.63 GB的运行时依赖项,而Whisper.dll431 KB

  • 混合F16/F32精度:自D3D v10.0版本起,Windows需要支持R16_FLOAT缓冲区

  • 内置性能探查器,用于测量单个计算着色器的执行时间

  • 内存使用率低

  • 用于音频处理的Media Foundation支持大多数音频和视频格式(Ogg Vorbis除外),以及大多数在Windows上工作的音频捕获设备(一些专业设备除外,它们只实现ASIO API)。

  • 用于音频捕获的语音活动检测。
    该实现基于Mohammad MoattarMahdi Homayoonpoor 2009年的文章“一种简单但高效的实时语音活动检测算法”。

  • 易于使用的COM型APInuget上提供了惯用的C#包装。1.10版引入了对PowerShell 5.1的脚本支持,这是Windows上预装的旧版本“Windows PowerShell”

  • 可用的预构建二进制文件

唯一支持的平台是64位 Windows
应该在Windows 8.1或更新版本上工作,但我只在Windows 10上测试过。
该库需要一个支持Direct3D 11.0GPU,在2023年,它的意思只是“任何硬件GPU”。最新的不支持D3D 11.0GPU2011年的Intel Sandy Bridge

CPU方面,库需要AVX1F16C支持。

开发人员指南

构建说明

  1. 克隆此存储库

  2. Visual Studio 2022中打开WhisperCpp.sln。我使用的是免费软件社区版,版本17.4.4

  3. 切换到Release 配置

  4. 在解决方案的Tools子文件夹中生成并运行CompressShaders C#项目。要运行该项目,请在visual studio中右键单击“设置为启动项目”,然后在VS的主菜单中单击“调试/启动而不调试”。成功完成后,您应该会看到一个控制台窗口,其中有一行如下所示:
    压缩的46个计算着色器,123.5 kb->18.0 kb

5.构建Whisper项目以获得本机DLL,或用于C#包装器和nuget包的WhisperNet或示例。

其他注意事项

如果你要在使用Visual C++2022或更新版本构建的软件中使用该库,你可能会以.msm合并模块或vc_redist.x64.exe二进制文件的形式重新分发Visual C++运行时DLL

如果你这样做,右键单击Whisper项目、属性、C/C++、代码生成,将“Runtime Library”设置从Multi-threaded (/MT)切换到Multi-threaded DLL (/MD),然后重建:二进制文件将变得更小。

该库包括RenderDoc GPU调试器集成。
RenderDoc启动程序时,按住F12键以捕获计算调用。

如果要调试HLSL着色器,请使用DLL的调试构建,其中包括着色器的调试构建。您将在调试器中获得更好的用户体验。
该存储库包括许多仅用于开发的代码:耦合替代模型实现、一些计算着色器的兼容FP64版本、调试跟踪和比较跟踪的工具等。

这些东西被预处理器宏constexpr标志禁用了,我希望保留在这里没问题。

绩效说明

我在办公地点选择了几款GPU进行有限的测试。

具体来说,我已经为英伟达 1080TiRyzen 7 5700G内部的Radeon Vega 8Ryzen 5 5600U内部的Radeon Vega 7进行了优化。

总结如下。

英伟达为大型型号提供了5.8的相对速度,为中型型号提供了10.6的相对速度。

AMD Ryzen 5 5600U APU为中型型号提供了约2.2的相对速度。不太好,但仍然比实时快得多。

我也在英伟达 1650上测试过:比1080Ti慢,但很好,比实时快得多。

我还测试了酷睿i7-3612QM内部的Intel HD Graphics 4000,中等型号的相对速度为0.14,小型型号为0.44。这比实时慢得多,但我很高兴发现我的软件即使在2012年推出的集成移动GPU上也能工作。

我不确定离散AMD GPU或集成Intel GPU的性能是否理想,它们没有专门针对它们进行优化。
理想情况下,它们可能需要两个最昂贵的计算着色器(mulMatTiled.hlslmulMatByRowTiled.hlsl)的稍微不同的构建。
也许还有其他调整,比如Whisper/D3D/device.h头文件中的useReshapedMatMul()值。

我不知道如何衡量,但我有一种感觉,瓶颈是内存,而不是计算。
黑客新闻上有人测试了3060Ti,即带有GDDR6内存的版本。与1080Ti相比,该GPU具有1.3倍FP32 FLOPS,但具有0.92倍VRAM带宽。该应用程序在3060Ti上慢了约10%。

进一步优化

我只花了几天时间优化这些着色器的性能。
也许可以做得更好,以下是一些想法。

  • 与FP32相比,Radeon Vega或nVidia 1650等较新的GPU具有更高的FP16性能,但我的计算着色器仅使用FP32数据类型。
    一半的细致,两倍的乐趣

  • 在当前版本中,FP16张量使用着色器资源视图向上转换加载的值,使用无序访问视图向下转换存储的值。
    切换到字节地址缓冲区,加载/存储完整的4字节值,并使用f16t32/f32-tof16内部函数在HLSL中进行上变频/下变频可能是个好主意。

  • 在当前版本中,所有着色器都是脱机编译的,Whisper.dll包含DXBC字节码。
    HLSL编译器D3DCompiler_47.dll是一个操作系统组件,速度非常快。对于昂贵的计算着色器,最好提供HLSL而不是DXBC,并在启动时使用宏的特定于环境的值进行编译。

  • 将整个东西从D3D11升级到D3D12可能是个好主意。
    较新的API更难使用,但它包含了D3D11没有的潜在有用功能:wave intrinsic和explicit FP16.。

缺少的功能

未实现自动语言检测。
在当前版本中,实时音频捕获的延迟很高。
具体而言,根据语音检测,该数字约为5-10秒。
至少在我的测试中,当我提供的音频片段太短时,模型并不满意。

我已经增加了延迟并结束了这一天,但理想情况下,这需要一个更好的解决方案来优化用户体验。

结尾语

在我看来,这是一个无偿的业余项目,我在2022-23年的寒假里完成了。

代码可能有一些bug。

软件是“原封不动”提供的,没有任何形式的担保。

感谢Georgi Gerganov实现了whisper.cpp以及GGML二进制格式的模型。

我不会编写Python程序,也对ML生态系统一无所知。

如果没有一个好的C++参考实现来测试我的版本,我甚至不会启动这个项目。

whisper.cpp项目有一个例子,它使用相同的GGML实现来运行另一个OpenAI的模型GPT-2。

用这个项目中已经实现的计算着色器和相关基础设施来支持ML模型应该不难。

如果你觉得这很有用,如果你考虑向“Come Back Alive”基金会捐款,我将不胜感激。


  1. http://github.xiaoc.cn/Const-me/Whisper/releases/tag/1.11.0 ↩︎

  2. https://www.huggingface.co/ggerganov/whisper.cpp ↩︎ ↩︎

  3. http://github.xiaoc.cn/Const-me/Whisper ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36444.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用剪映将无字幕的英文视频翻译成中文字幕(附教程+软件)

点击上方蓝字"优派编程"选择“加为星标”,第一时间关注原创干货 原文地址 https://www.fang1688.cn/ziyuan/2886.html 简介: 剪映字幕翻译及SRT字幕导出功能:剪映字幕翻译及SRT字幕导出功能,更加方便的制作视频&#xf…

语音视频自动生成字幕功能介绍

语音视频自动生成字幕功能介绍 中国站点 https://aismartvip.com 香港站点 https://hk.aismartvip.com 语音视频识别,自动生成字幕,支持全球120种语音/视频识别: 中文、普通话(中国简体)、中文、普通话(台湾繁体)、中…

【解决方案】如何把视频内的声音和文字翻译成新的字幕或者配音

一、视频翻译的几种情况 根据视频的声音进行翻译并生成字幕 一般来说,我们使用自动语音识别(ASR)技术对视频的声音进行翻译并生成字幕的步骤如下: 选择翻译软件:首先,选择一个支持ASR技术的翻译软件。 上…

视频翻译字幕的软件哪个好?看完你就知道了

以前给自己的视频翻译字幕,是一项难度非常高的工作,但如今不一样了,随着科技地不断发展,现在出现了很多软件能够帮助我们轻松去实现视频字幕的提取与翻译,而且操作难度也不会太难,翻译效率也能得到保障&…

视频翻译成中文工具哪个好?3招教你视频翻译字幕

最近,上大学的表妹向我求助,大概内容就是:她是学生会记者团的小记者,某天她接到任务,要写一篇关于科学讲座的报道,结果部长给的材料是无字幕的全英讲座视频,表妹听了一天都翻译不出来。其实不用…

免费将中文视频转换为英文视频并添加中英双语字幕

免费将中文视频转换为英文视频并添加中英双语字幕 背景 女朋友需要找关于《不要随意喂养动物园的动物》的英语视频,因为限定是英语类的视频,所以在国内的视频平台基本无法找到。虽然我是个程序员,但在女友的眼里,只要关于电脑的…

Youtube——如何将视频中的英文字幕转换成中文字幕

Youtube——如何将视频中的英文字幕转换成中文字幕 1、正常的英文字幕2、点击右下角的设置-Subtitles/CC(2)3、点击Auto-translate4、选择Chinese(Simplified),此时可以看到已经翻译成中文了 1、正常的英文字幕 2、点击右下角的设置-Subtitles/CC(2) 3、点击Auto-tr…

20230720今天youtube上的中文字幕自动翻译成为英文的功能失效!

20230720今天youtube上的中文字幕自动翻译成为英文的功能失效! 2023/7/20 12:42 ?做YouTube挣钱吗? 115网盘 满了。最新 张家界 旅游的视频 放到 youtube就是 60岁/老了的时候的回忆! 放到 大陆不保险! 如需使用自动翻…

数据分析可视化常用图介绍以及相关代码实现(箱型图、Q-Q图、Kde图、线性回归图、热力图)

文章目录 前言一、箱型图是什么?1-1、箱型图介绍1-2、箱型图的作用1-3、实战 二、Q-Q图是什么?2-1、Q-Q图(分位数-分位数图:quantile-quantile plot)介绍2-2、实战2-3、为什么要使数据呈现正态分布以及出现了正态分布&…

教你体验目前最火AI - 在craft AI assistant使用AI助手

chatGPT大火之后,很多人都想体验一把,今天为大家推荐一种免费方式,体验一下chatGPT同款内核的AI助手。 craft AI assistant Craft 推出的 AI 助手产品 Craft AI Assistant,并且现在就可以使用。根据 Craft 官方介绍,…

Express实战个人订阅号实现网站登录

今天我们来实现一个使用个人订阅号实现网站的功能,后端使用的是 express 。其它框架原理基本一致,只是定义路由或返回响应数据部分代码跟 express 有所出入。先来一波效果图: 1. 前言 20 年 3 月在掘金写过一篇文章,介绍了使用 e…

推荐四个phpstorm酷炫实用插件 让你写代码的时候不在孤单!

程序员写代码很孤独,每天只能和电脑屏幕交流,想要一个程序员鼓励师妹子,老板又不给配,如何让自己写代码的时候不再孤单呢?今天给大家分享的这四个插件,既实用又好玩,还能提高开发效率&#xff0…

风控业务中的信用与欺诈的定义区别

风险控制是指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或者减少风险事件发生时造成的损失。 小额现金贷的风控为弱风控,主要包括欺诈风险和信用风险2方面: 欺诈风险的识别,核心手段是信息核…

风控数据分析-反欺诈

python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId1005214003&utm_campaigncommission&utm_sourcecp-400000000398149&utm_mediumshare 目前贷款的风控因为每一个样本的收集都需要放款…

Facebook第三方登录对接

一、背景调研 1、什么是第三方登录? 第三方登录是基于用户在第三方平台上已有的账号和密码来快速完成己方应用的登录或者注册的功能。而这里的第三方平台,一般是已经拥有大量用户的平台,国外的比如Facebook,Twitter等&#xff0…

原来支付宝、财付通每天都是这样对账、风控的!

为了可以更好地解释支付结算系统对账过程,我们先把业务从头到尾串起来描述一下场景,帮助大家理解:一个可能得不能再可能的场景,请大家深刻理解里面每个角色做了什么,获取了哪些信息: 某日阳光灿烂&#xff…

虚拟机网络发生错误,需要运行NetworkManager

虚拟机网络发生错误,需要运行NetworkManager 你只需要在root用户中输入systemctl start NetworkManager.service这一条简单的指令就行

VCSA7.0访问提示no healthy upstream故障解决方案

打开vCenter网页显示no healthy upstream报错,报错如图 解决办法: 1、使用SSH访问VSCA主机。 2、输入如下命令,检查证书有效期,发现__MACHINE_CERT证书到期。 for i in $(/usr/lib/vmware-vmafd/bin/vecs-cli store list); do …

PG数据库提示: FATAL: sorry, too many clients already

目录 场景: idea启动提示如下错误 翻译: 连接数相关查询: 原因分析: 解决方法: 场景: idea启动提示如下错误 org.postgresql.util.PSQLException: FATAL: sorry, too many clients alreadyat org.pos…

vCenter Server出现no healthy upstream的解决方法

一天,访问vCenter,浏览器报:no healthy upstream,其他什么也没有 该 网上找了一些故障原因,诸如:vCenter Server部分服务没有运行,或者运行出现错误;vCenter Server设置的DNS服务器出…