whisper:robust speech recognition via large-sacle weak supervision

OpenAI Whisper 精读【论文精读·45】_哔哩哔哩_bilibili更多论文:https://github.com/mli/paper-reading, 视频播放量 68331、弹幕量 327、点赞数 2332、投硬币枚数 1192、收藏人数 983、转发人数 394, 视频作者 跟李沐学AI, 作者简介 ,相关视频:自动识别讲座、访谈录音 ——Python开源whisper语音识别,ChatGPT原理剖析 李宏毅,(强推)李宏毅2021/2022春机器学习课程,Transformer论文逐段精读【论文精读】,博一研究生 求偶视频,在线求偶|26岁985副教授,本科生如何发表一作Nature子刊,在讲 OpenAI Whisper 前先做了一个剪视频小工具【论文精读·44】,算法领域的“大力出奇迹”:ChatGPT!李宏毅教授重磅解读ChatGPT的底层逻辑!感兴趣的同学赶紧收藏学习了!,46 语义分割和数据集【动手学深度学习v2】https://www.bilibili.com/video/BV1VG4y1t74x/?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22

语音模型的预训练,自监督的方式,这篇文章还是很有意思的,它实际上是之前nlp上bert那一套在语音识别领域的应用。

        在网上爬了70w带标号的语音的数据,然后直接训练了一个transformer的模型。没有标号的语音数据,使用对比学习预训练的模型,这些预训练好的语音的编码器,能够学习到比较高质量的特征表示,但是没有一个很好的编码器,如果想用的话还是得找一个标号数据,微调,其实就是训练一个decoder,但是whisper觉得微调是比较复杂的。这个思路和之前的bert是一样的,bert是双向的,用的transformer中的encoder模块,本质上一个预训练的大语言模型,训练时使用的完形填空或者预测下一个句子这种预训练的任务,这个gpt是有不同的,gpt是生成式的,用的transformer中的deocder模块,它本身就是一个解码器,不需要bert那样后续还需要微调一个解码器。但是为什么不在语音识别上使用gpt这种模式呢?因为语音信号是一个声波,放到gpt后只能预测下一秒钟,但是预测声波本身和预测单词是不同的,中间还需要一个将语音信号转成文本信号,因此这一步还是需要标号数据,也就是说即便是无监督任务,后续还是要一个微调。不过当然也可以一步到位,但是在特定数据上微调总是不够鲁棒的,最好还是zero shot。

        作者做了一个弱监督数据集,虽然是监督的,但是数据质量相对是较差的,有68w小时,用了一个大型的transformer,当模型足够大时,对多语言多任务是有益的。这种方式不需要自监督方式,以往自监督数据往往在100w小时以上,然后使用4w有监督来微调,现在whisper直接将4w标号数据扩展成68w弱监督数据,效果非常好。这个目前来看和sam是如何的相似,图像领域也可以这么做。

        whisper完全依赖sequence to sequence方式,预测原始文本。不过对网上爬取的数据还是要做一些预处理,首先如果爬取的数据中有asr机器生成的语音文本对,这个要删除掉。将所有的数据切成30s一个区间做训练数据。

        whisper使用带有编码器和解码器的transformer,数据输入是对音频采样到16000Hz,然后把它变成一个80通道的log scale mel spectrogram,16000Hz就是每个时间里16000个点,每个时间点会有一个数值,做一个傅里叶变形,将时序变到频谱上,log scale对频谱维度做一下log变成db,mel是因为每个人对不同频率的响应是不一样的,一般对低频响应好一点,对高频响应差一点,mel就是频谱图,但是把高频的分辨率做低一点,低频分辨率做高一点。也就是说一个时序的信号变成了2d的频率图,每个时间点抽一个特征,80维表示每个时间点,抽了一个80维的特征,每一次向前滑动10ms,切出来是30s一段,那么一个30s的语音信号最后变成一个3000个数据点,每一维是80维度。

网络模型结构:

模型参数:

 多语言结果:

中文效果一般,左图是单词错误率,横轴是训练数据,zh中文数据多但是错误率还是挺高的,右图是翻译,翻译都是翻英文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15790.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《通义听悟能这么用?大佬语音面试音频通义AI总结》

此文章更适用与:有会议记录、直播记录、面试记录的朋友和知识内容博主等 1、把录音视频文件上传到电脑 2、上传音视频入口 3、上传音视频 4、选择语言是否翻译 5、选择是否区分发言人 我这里是某大佬的语音面试音频文件,选择了2人对话。 6、效果展示 总…

强到离谱!2023年必备的21款AI工具

2022年是AI技术大发展的一年,特别是ChatGPT的很空出世,让AI工具迎来大爆发,今天就给大家整理出21款免费且实用的AI工具推荐,无论是做设计还是日常学习工作都能用得到。2023年已经开始,让这些AI工具帮你提升生产效率&am…

《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

简介: OpenAI的chatGPT非常火爆,其实OpenAI旗下的另一个模型实力也十分强大,它就是开源免费的Whisper语音转文本模型,目前为止它是较为顶尖的语音转文本模型 当前github上也有许多出色的开发者根据此模型开发出桌面版语音转文字应…

用GitChat赚钱的6种方法

先说下GitChat这个平台,其主页是:https://gitbook.cn/ 。 GitChat是针对技术人的知识付费平台,创始人是谢工,中途被CSDN收购,现在属于CSDN,不过依然是以独立品牌在运作。目前已完成和CSDN的衔接&#xff0c…

ChatGPT帮你梳理最全Java多线程编程知识

目录 引言 引入多线程编程的重要性和应用场景 介绍多线程的优势和挑战 什么是多线程? 线程与进程的区别 线程的创建与生命周期管理 线程的创建方式 …

ChatGPT、Midjourney不香了吗,New Bing 已向全球个人开放

文章目录 1. 前言2. 教程3. 开始 Bing AI 以上图片均由Bing AI生成。(后文给出第一幅图的关键字) 本文没有任何广告,放心食用,并且手把手教你怎么配置new bing,有需要的耐心看完哦,不懂的可私信我~ 1. 前…

胎教级培训手册:两步让ChatGPT成为小红书标题大师

文 / 高扬(微信公众号:量子论) 上篇介绍了如何编写小红书爆款笔记的内容部分,今天重点介绍给小红书内容起标题。 最近做小红书,我发现一个规律,要想做爆款,除了内容优秀,除了首图亮眼…

关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力

在微软、百度、阿里、腾讯、小米纷纷宣布入局之后,ChatGPT 再次被送上科技头条。 图源:Financial Times 互联网公司们的争相表态,让大家似乎看到了 ChatGPT 落地应用的曙光。相比去年底,关于 ChatGPT 的讨论,也从技术…

打破创作界限,1天创作1000篇精品小红书带货笔记!chatgpt超级写手机器人创作流程介绍。

【Chatgpt超级写手机器人教程】 1天创作1000篇精品小红书带货笔记!✨ 难听的真话:做运营不用RPA好比猴子不用工具。RPA就是非技术人最佳自动化利器,学三个月Python不如学一周RPA 我是RPA帮创始人阿愚呱呱,特会玩赚RPA的运营人。[R…

胎教级培训手册:四步让ChatGPT成为小红书爆款大师

文 / 高扬(微信公众号:量子论) 最近公众号更新有些慢,因为我在配合陈楚(chenchu727)做小红书。 ChatGPT用在小红书上具有天然优势,然后再接合AI绘画,更是绝配。 AI绘画,陈…

DNS配置与爬虫原理——Dialogue with ChatGPT

本文记录一次与ChatGPT的有趣对话 PS:劳资自下而上,只差应用层了~~ 不对,还不知道ARP欺骗怎么辨别和防止 PS2:问过校园网mac了,应该没有ARP欺骗 学这个有什么用,好玩吗? 写一个爬取对方QQ好友的小程序 很抱…

RK3566-视频话机智慧校园主板方案

RK3566 是一款专为消费类行业应用打造的通用型 SoC。CPU 采用 4 核 A55 架构处理器,集成 G52 图形处理器,且内置独立 NPU,算力为 0.8Tops,运行安卓 11 或 Linux 系统。 基本参数 SOC RK3566,4*A55处理器&#xff0c…

校园网搭建3.0分享梳理,测试还没完成

几个有意思的网络拓扑图先瞧瞧 🐼:网吧网速是流畅到每一秒钟的 步入正题 在某学院校园网目前的实际情况在充分调研的基础上,结合目前技术的发展方向和用户的实际需求,制订了学院校园校园网建设的整体设计方案。通过校园网的设计与…

学术会议盘点!2023年发表SCI的绝佳机会

◆ChatGPT热潮带来的行业革新大行其道,相关区块链、信息安全、视觉、机器学习....产业必将带来诸多变革。 本文为大家梳理了近期可投的4则EI检索的国际会议,均可推荐发表SCI,还有超多IEEE Fellow主讲,不仅涵盖计算机各个学科方向&…

征文 | 吸引铁粉?成为CSDN明星!

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 征文 | 吸引铁粉?成为CSDN明星! 导读 当今数字时代,社交媒体和在线社区成为了人们交流和分享的主要平台之一,CSDN就是其…

有奖征文丨AIGC + Cocos 社区征稿全面开启

AIGC游戏开发,已经发展到何种恐怖地步? 晓衡做了一个视频,介绍了社区大佬,也是晓衡的朋友、老师(之一)——孙二喵,最近的AIGC研究,真的是让人有种瑟瑟发抖的感觉! 视频中…

Git Bash 上传本地文件到Gitee(AI助力解决问题)

#[端午特别征文]探索技术极致,未来因你出“粽”# 前言 消失了将近一个月,预祝大家端午节快乐! 这篇文章主要介绍下在上传本地项目到gitee时出现的问题,以及借助AI解决问题。 Gitee是一个基于 Git 的代码托管和开发协作平台&…

2023年上半年部分团队的总结

把各个环节连起来 从我加入 CSDN 后不久,我就开始公开地总结我们的工作,我分管的团队留下了不少的总结和思考: 这是 2022 年下半年的汇报 这是 2022 年上半年的汇报 这是 2021 年年底的汇报 经过这些思考改进迭代的团队,是不是…

Chatgpt在程序员领域的革新:分析好处与挑战

#【端午特别征文】 探索技术极致,未来因你出“粽”# 前言: 总所周知,当前非常流行的Chatgpt对我们的生活冲击力巨大,那么,今天跟着小编一起来深入了解下这项技术给我们生活带来了哪些便利和困扰。 目录 前言 1、Chatg…

chatgpt赋能python:Python如何优化做题效率?

Python如何优化做题效率? 介绍 Python语言是当前互联网最热门的编程语言之一,全球甚至有将近百分之九十的公司都在使用它。它的简洁、易读以及强大的数据分析能力都得到了广泛的认可。但是,很少有人意识到Python也是一个很好的做题语言。在…