5 分钟,看完没有人比你更懂“语音识别”!

奶酪对“语音识别”的研究,

最早是想把自己喜欢的视频文案保存起来,因为视频内容不仅占用空间大,还没办法全文索引。

将视频的内容“文本化”,我们就能提炼出视频的关键信息,而且还能获得视频细小处的一些遣词用字

20GB 的视频,压缩为 2MB 的文本。

这在以前是断不敢想像的事情,然而现在有了人工智能的加持,这一切都变得触手可及。


一、在线转录

国内最早免费开放在线语音转文字的应用,是网易见外

它不但是速度快,准确率还超出了人们预期,真正做到了一键转录,被盛赞业界良心,然后没多久,它就下架了。

而现在接棒的是——飞书妙记

1.1、飞书妙记

飞书妙记是抖音旗下产品,注册登陆后就直接上传音频和视频,即使不需要介绍,你也一看就知道怎么用。

地址:https://www.feishu.cn/product/minutes

1.2、使用体验

速度:快,10 分钟视频只花费了 1分 25 秒

准确率:绝大部分内容都能正确识别,而且能区分不同说话人。

特色功能:支持中英日 3 种语言,能自动添加标点符号和章节分段,支持免费导出为 TXT 和 SRT 格式。

1.3、同类产品

如果要说有什么缺点的话,那就飞书妙记的免费用存储空间,从原来的 100G 变成 2G,一下子就寒酸了许多。

但和同类产品相比,飞书妙记仍然是更好的选择。

比如讯飞听见、钉钉闪记、阿里云、百度云等产品,它们要么免费额度少,要么需要申请 API,使用门槛高。

而飞书妙记,你可以将视频转换为音频来缩小体积,又或者通过删除已经转写的内容来释放空间。

换句话说,你还是可以无限白票


二、软件转录

如果你需要转录的内容很多,又或者很长,那么,使用桌面软件来操作会更加方便。

而在这个领域的佼佼者是 —— 剪映

2.1、剪映

剪映也是是抖音旗下产品,它是一款桌面视频剪辑软件,但同时提供了识别语音功能,使用时需要联网使用

使用方法也很简单,点击导航栏“文本”,然后选择“智能字幕”,即可一键生成字幕。

地址:https://www.capcut.cn

2.2、使用体验

同样是抖音系产品,剪映的准确率也很高,转录速度更是极奇的快,同样 10 分钟的视频,剪映只用 32 秒

而且,我们不用像“飞书妙记”那样担心空间不够用。

因为抖音不担心自己的语音识别技术被白票,它们担心的,是没有人上传视频到抖音。

抖音推出剪映的目的,是为了降低用户制作视频门槛,让更多的人参与到视频制作来,抖音的收益在别处罢了。

2.3、同类产品

目前国内能与剪映对标的,当属 B 站推出的“必剪”。

它的产品逻辑一样,也是为了方便用户创作视频,然后上传到 B 站

然而在免费额度上,必剪远不如剪映,必剪只支持 15 分钟的音频转录,而剪映最大支持 2 小时且不限使用次数

而且,剪映现在还支持导出字幕,你可以将导出的字幕用在其它软件上,抖音格局大了

应该说,剪映是视频创作者的必备。


三、离线转录

上面的两款应用都需要联网使用,如果你比较在意隐私的问题,那么你需要一款离线的语音识别工具

OpeanAI 推出的 Whipser 语音识别模型,绝对是目前最好的选择,没有之一

对,它和 ChatGPT 是同门师兄弟。

3.1、Whisper

Whipser 多语言语音识别模型,通过了 68 万小时的语音数据训练,支持 99 种语言,对英文的表现更是强无敌。

更重要的是,它开源免费,在电脑上就能离线使用。

地址:https://github.com/openai/whisper

在速度方面。

为应对不同的语音转录需求,Whipser 推出了 tiny、base、small、medium、large 5 个档次的模型。

转录效果依次增加,但相应花费的时间也会增加。

3.2、使用方法

Whisper 使用了 Python 开发,安装后,在文件所在目录打开终端,运行 whisper audio.mp3 即可进行转录。

想要自定义设置的话,则可以在后面追加命令参数,具体包括:

whisper audio.mp3 --命令参数

--task

指定转录方式,默认使用 --task transcribe 转录模式,--task translate 则为翻译模式,目前只支持英文

--model

指定使用模型,默认使用 --model small,Whisper 还有英文专用模型,就是在名称后加上 .en,这样速度更快。

--language

指定转录语言,默认会截取 30 秒来判断语种,但最好指定为某种语言,比如指定中文是 --language Chinese。

--device

指定硬件加速,默认使用 auto 自动选择,--device cuda 则为显卡,cpu 就是 CPU, mps 为苹果 M1 芯片。

3.3、WhisperDesktop

如果使用 Python 命令行这种形式,门槛太高了,那么图形化软件 WhisperDesktop 会是一个简单的方案。

地址:https://github.com/Const-me/Whisper

使用方法分为两步:下载软件 + 载入模型

下载 WhisperDesktop 后,点击运行,然后加载模型文件,最后选择文件即可进行转录。

由于支持 GPU 硬解,转录速度非常的快,我测试了一个 2 分钟的视频,使用 medium 模型,花费不到 20 秒

PS:具体还得看显卡的性能。

3.4、Buzz

另一款基于 Whisper 的图形化软件是 Buzz,相比 WhipserDesktop,Buzz 支持 Windows、macOS、Linux。

官方地址:https://github.com/chidiwilliams/buzz

使用方法也是:安装软件 + 下载模型

Buzz 的安装包体积稍大,同时 Buzz 使用的是 .pt 后缀名的模型文件,运行后软件会自动下载模型文件

但最好是提前下好模型文件,然后放在指定的位置。

Mac:~/.cache/whisper
Windows:C:\Users\<你的用户名>\.cache\whisper

但 Buzz 使用的是 CPU 软解 ,目前还不支持 GPU 硬解

同样一个 2 分钟的视频,使用 medium 模型,耗时花费了 2 分 30 秒,比例大概 1:1.2花费时间还是挺长的


四、语音识别对比

下面我们对飞书妙记、剪映、Whisper 这三款语音识别工具进行一下对比。

4.1、准确性对比

就准确性而言。

三款产品里,飞书和剪映在中文识别上的效果更好,大体与 Whipser 的 large 模型相当。

飞书妙记甚至还有标点符号、文章分段、智能纠错等功能,在测试中,飞书也是唯一个能正确转录“谷爱凌”的。

原因是联网转录,“云词库”会自动选择更符合上下文的同音词

Whisper 的音频数据只有 1/3 来自非英语,在准确性方面,Whisper 对英文的识别错误率为 4.2,中文则为 14.7

如果转录的内容是英文,那么用 samll 模型就能保证绝大多数正确。

而如果转录的内容是中文,那么至少要用 medium 模型,才能保证绝大多数正确。

Whisper 强在多语言支持,还有超高的英语识别率。

4.2、速度对比

在转录速度方面。

飞书妙记和剪映都需要联网上传,其中剪映的速度最快,而 Whisper 的转录速度,极度依赖显卡的加持

下面是使用显卡加速,同一段 10 分钟视频的速度对比。


五、语音识别技巧

而无论怎样,任何一款语音识别工具都没办法保证 100% 准确,我们还需要有一定的技巧。

5.1、纯净输入

如果转录的是歌曲,又或者有嘈音,背景音乐很大,使用人声分离工具,突出人声,那么识别效果将大大提高。

这样的工具很多,可以选择在线应用,也可以选择免费开源的 UVR5

在线应用:https://vocalremover.org

UVR5:https://ultimatevocalremover.com

5.2、字幕翻译

Whisper 有时转录出来的文本是繁体中文,又或者你想把字幕翻译为英语来做双语字幕。

一个简单的方法,就是将字幕文件在 Chrome 浏览器中打开,使用自带的翻译功能,即可一键翻译为想要的语言。

或者,你也可以选择更专业的字幕工具,比如 Subtitle Edit

地址:https://github.com/SubtitleEdit/subtitleedit

当然,使用 ChatGPT 翻译工具 Subtitle Translator 会更加准确, 不过前提是你有 ChatGPT 的 API Key

地址:https://github.com/gnehs/subtitle-translator-electron

5.3、标点符号

除了飞书外,其它转录工具都没有标点符号,而且也没有章节分段,如果你想把语音识别后的文本,保存为文章

一个简单的方法,是利用 ChatGPT 来重新排版,只需要前置输入“提示词”就可以了。

具体是:“修复下面这段文章的标点符号并分成段落:<文本内容>”。

需要注意的是,GPT-3.5 输出的最大限制是 777 个字符,所以每一次输入最好不要超过 777 个中文。

但如果你用的是 GPT-4 的话,就没有这个限制。

5.4、一键转录

如果我有大量的视频转文字,还有视频字幕生成需求,有没有办法一键转录?

有的!

奶酪研究出了一套方法,只需要一个 .bat 文件即可一键转录,具体我会在下期《A25 - 语音一键识别》中介绍。

5.5、实时转录

除了转录视频,有没有办法实时转录直播或者播放中的视频?

当然也有!

我们同样可以利用 Whisper 来实现同声传译,具体我们在下下期《A28 - 同声传译》中再做介绍。


结尾

OpenAI 发布的 Whisper 多语言语音识别模型,绝对算得上是一个“游戏改变者”。

在可预见的未来。

首先,语音识别将会彻底免费,并成为一项公共服务。

其次,视频的语言屏障将会彻底打破,视频一键生成字幕,甚至自动生成字幕,已经成为现实。

还有,视频也将转向文字化,一个 20GB 的视频内容,可以被压缩为 2MB 的文本内容,并且能全文索引

最后,Whisper 的入场,也会加速人工智能从单模态到多模态的发展。

动动嘴皮就能拍出一部电影的魔幻场景,也正在发生!

强人工智能时代的我们,太幸福啦!

资源下载:

https://www.123pan.com/s/7bzA-rupOd.html


专栏介绍

本专栏「人工智能指南」致力于提高“人工智能领域”的姿势水平。

特点是:“原创新鲜、系统连贯、给渔授渔”。

力求一篇文章,讲清楚一个主题,争取每篇文章都是该主题下的 Top3,甚至 Top1。

看完记得:

点赞,点赞是免费的,但却能激励我保持创作,还能帮助更多的人看到这篇文章。

留言,有任何问题,都可以在评论区留言,我会尽可能回复。

关注,关注我,这样可以第一时间获取更新。

以上!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2780.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI工具分享第二期:11款国内外AI绘画提示词工具整理

工具整理自未来百科AI工具箱&#xff0c;更多提示词工具可自行寻找 Midjourney中文教程 Midjourney 学习导航 PromptHero 描述 通过 DALL-E、Stable Diffusion、Midjourney 等 AI 模型搜索数以百万计的艺术图像… PromptDen AI 在线社区促使爱好者联系、协作和分享想法。 …

AI:大模型领域最新算法SOTA总结、人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略

AI&#xff1a;大模型领域最新算法SOTA总结、人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略 导读&#xff1a;由于ChatGPT、GPT-4近期火爆整个互联网&#xff0c;掀起了人工智能相关的二…

AI宝典:AI超强工具大整合

&#x1f604;&#x1f604;个人介绍 光子郎.进行开发工作七年以上&#xff0c;目前涉及全栈领域并进行开发。会经常跟小伙伴分享前沿技术知识&#xff0c;java后台、web前端、移动端&#xff08;Android&#xff0c;uniapp&#xff0c;小程序&#xff09;相关的知识以及经验体…

王炸!ChatGPT 推出插件功能,互联网时代要变天

点击关注公众号&#xff0c;Java干货及时送达 推荐阅读&#xff1a; 学习 Spring Cloud 微服务的正确姿势&#xff01; ChatGPT 这次赢麻了。。。 出品 | OSC开源社区&#xff08;ID&#xff1a;oschina2013) OpenAI 宣布已经在 ChatGPT 中实现了对插件的初步支持。 插件 (Plug…

chatgpt的150个指令大全

chatGPT输出结果的质量高低&#xff0c;和你使用什么样质量的输入内容有关。 在外网有大佬们已经整理出一些标准的问话模板&#xff0c;直接拿来使用后&#xff0c;效果极佳&#xff01; 把已经过验证的优质问法可以直接拿来用&#xff0c;希望可以帮到你更好地入手chatGPT&a…

AI 真要成精了?ChatGPT 上手体验

能力 2022 年&#xff0c;人工智能 (AI) 在很多领域发挥了威力。相信你已经看到或听到不少新闻了。 例如说绘画&#xff0c;现在这样的图片&#xff0c;人工智能都能根据你的要求绘制出来。 &#xff08;资料来源&#xff1a;t.ly/8VUL&#xff09; 很多插画师总是抱怨自己要失…

ChatGPT深度研究:细探商业模式与供给端决定因素

来源&#xff1a;&#xff08;报告出品方/作者&#xff1a;海通国际&#xff09; 1.ChatGPT&#xff1a;以GPT-3.5架构革新AI对话模型&#xff0c;商业化前景仍需探索 ChatGPT 是美国 OpenAI 公司研发的对话 AI 模型&#xff0c;是由人工智能技术支持的自然语言 处理&#xff0…

最火爆ChatGPT知识星球分享,开启与GPT的神奇之旅

今天给大家介绍的是一个讲解ChatGPt的知识星球&#xff0c;这个星球是专门为ChatGPT爱好者和AI绘画感兴趣的朋友们打造的。这个知识星球主题是关于ChatGPT的&#xff0c;旨在提供一个交流、学习和探索GPT的平台。 这里有一个强大的阵容&#xff0c;汇集了许多对人工智能和自然…

太帅了!3分钟用ChatGPT生成一个美队的Logo图标!

ChatGPT是目前最火最出圈的产品&#xff0c;各路大佬云集发车&#xff0c;我们菜鸟团队也在第一时间分享了很多玩法&#xff01;&#xff08;我们公众号已经分享了十几篇原创干货&#xff0c;翻翻历史文章哈)。如果到现在还不知道GPT赶紧去面壁思过吧&#xff01; 从玩文字问答…

解锁ChatGPT超高级玩法,展示动态图片,纯干货分享!

文 / 韩彬&#xff08;微信公众号&#xff1a;量子论&#xff09; 这段时间在玩ChatGPT&#xff0c;总是文字&#xff0c;我有点玩腻了&#xff0c;突然想让ChatGPT返回一张图片&#xff0c;可是它却答复&#xff1a; 很抱歉&#xff0c;作为一个语言模型&#xff0c;我无法展示…

ChatGPT桌面应用【保姆级教程、亲测可用】mac、windows双系统推荐

今天给大家分享一下mac和windows系统下各自可用的ChatGPT桌面应用&#xff0c;按照文章操作即可完成&#xff0c;如有其他问题无法安装&#xff0c;我在文章末尾留下获取方式&#xff0c;包含关键字和安装包。 目录 1.mac系统ChatGPT桌面应用推荐2.windows系统ChatGPT桌面应用…

手把手教你个性化修改ChatGPT账号头像,纯干货,超简单

文 / 韩彬&#xff08;微信公众号&#xff1a;量子论&#xff09; 上一篇文章《该为 GPT-4 降温了》的结尾&#xff0c;我提了一个问题&#xff0c;如何修改ChatGPT账号头像&#xff1f; 比如&#xff0c;在与ChatGPT对话时&#xff0c;显示的头像是两个字母。 我想同下图一样&…

google kaptcha 验证码组件使用简介

kaptcha 是一个非常实用的验证码生成工具。有了它&#xff0c;你可以生成各种样式的验证码&#xff0c;因为它是可配置的。kaptcha工作的原理是调用 com.google.code.kaptcha.servlet.KaptchaServlet&#xff0c;生成一个图片。同时将生成的验证码字符串放到 HttpSession中。 …

发现一个开源的Chatgpt-web应用,前端使用vue编写,后端也是nodejs代码编写的。

1&#xff0c;项目地址&#xff1a; https://github.com/Chanzhaoyu/chatgpt-web ChatGPTAPI 使用 gpt-3.5-turbo-0301 通过官方OpenAI补全API模拟ChatGPT&#xff08;最稳健的方法&#xff0c;但它不是免费的&#xff0c;并且没有使用针对聊天进行微调的模型&#xff09; Ch…

chatgpt赋能python:Python获取短信验证码:想省时省力,就得尝试!

Python获取短信验证码&#xff1a;想省时省力&#xff0c;就得尝试&#xff01; 作为一名有10年python编程经验的工程师&#xff0c;我深知其中的难点和麻烦。很多人甚至会担心&#xff0c;网络上关于Python的短信验证码获取有很多风险&#xff0c;这一点当然不能忽略。但在我…

chatgpt赋能python:Python短信验证码:安全、高效、便捷

Python短信验证码&#xff1a;安全、高效、便捷 作为一种普遍且方便易用的验证方式&#xff0c;短信验证码拥有广泛的应用场景&#xff0c;从注册登录到快捷支付等各种领域都能看到短信验证码的身影。而在实现短信验证码的过程中&#xff0c;Python编程语言提供了安全、高效、…

基于kaptcha生成验证码

基于spring boot应用做的演示&#xff0c;先引入如下起步依赖&#xff1a; <dependency><groupId>com.baomidou</groupId><artifactId>kaptcha-spring-boot-starter</artifactId><version>1.1.0</version></dependency>新建ka…

chatgpt赋能python:Python绕过验证码实现登录

Python 绕过验证码实现登录 随着互联网的发展&#xff0c;验证码已经成为一种常见的安全措施&#xff0c;用于防止恶意程序或者网络爬虫的攻击。但是对于一些开发者来说&#xff0c;他们需要快速地获取特定网站的数据&#xff0c;因此需要绕过验证码实现登录。在本文中&#x…

关于 reCAPTCHA 验证码

原帖地址&#xff1a;http://jandan.net/2013/02/17/recaptcha.html 国外很多下载站用到下面这种验证码&#xff0c;它其实是 Google 提供的 reCAPTCHA 服务(link)&#xff0c;可以免费申请和使用。 # Jimmy Liye 同学翻译了 Google reCAPTCHA 的部分说明(原文&#xff1a;放…

Kaptcha验证码实现

文章目录 实现流程用户认证 实现流程 1.先引用了google的验证码生成器(Kaptcha) <dependency><groupId>com.github.axet</groupId><artifactId>kaptcha</artifactId><version>0.0.9</version></dependency>2.编写Kaptcha的配…