如何使用OpenAI的whisper

文章目录

  • 一、安装ffmpeg
  • 二、安装torch等相关组件
  • 三、安装Whisper
  • 四、下载模型
  • 五、测试效果
  • 六、cpu与gpu解码的耗时对比
  • 参考文献

一、安装ffmpeg

yum localinstall --nogpgcheck https://download1.rpmfusion.org/free/el/rpmfusion-free-release-7.noarch.rpm
yum install ffmpeg ffmpeg-devel

二、安装torch等相关组件

conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
conda install pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 cudatoolkit=10.2 -c pytorch

三、安装Whisper

pip install git+https://github.com/openai/whisper.git

如果上述报错,就改为下面的方法:

pip install --upgrade pip
git clone git@github.com:openai/whisper.git
cd whisper/
pip install setuptools-rust
pip install -r requirements.txt
python setup.py develop

四、下载模型

import whisper
model = whisper.load_model("large")  # 此处会下载模型

模型的默认下载路径在:~/.cache/whisper/large-v2.pt
如果网速不佳,可以先在网速好的服务器上先下载好模型,再拷贝到本机

五、测试效果

从下面cpu的结果看,tiny模型的结果不忍直视,而large_model的耗时,也无法忍受。

模型名称cpu执行时间结果gpu执行时间占显存
large_model15.5456秒喂 王阳 能听到我说话吗 今天天气怎么样超过16G超16G
medium_model9.1108秒喂,王阳,想听到我说话吗?今天天气怎么样?1.7336秒10G
small_model3.2420秒喂,完了,那听到我说话吗?今天天气怎么样?1.1716秒3.3G
base_model1.5984秒喂 王雅能聽到我說話嗎今天天氣怎麼樣0.3483秒1.6G
tiny_model1.0238秒喂 玩呀那听到我说话吗今天听见怎么样0.2637秒1.3G

六、cpu与gpu解码的耗时对比

在这里插入图片描述

参考文献

  • https://www.assemblyai.com/blog/how-to-run-openais-whisper-speech-recognition-model/
  • https://github.com/AppleHolic/chatgpt-streamlit
  • https://github.com/openai/whisper
  • https://github.com/Joooohan/audio-recorder-streamlit

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54827.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全覆盖路径规划——ccpp

在路径规划方法中,有一种是点到点的路径规划,这一类例如dijstra,或者A*这类算法,关注的是点到点的最短路径,偏向一种最优的选择。还有一种是全覆盖是路径规划,这一类路径规划关注的是遍历整个地图&#xff…

2021高考仙桃中学成绩查询,仙桃2020高考最高分出炉!汇总仙桃各大中学喜报

高考结束, 已经放榜, 不论结果如何,至少曾经放手一搏过! 我们来看看仙桃这些高中, 今年的喜报吧! 仙桃一中喜报:全市文科最高分 文科刘佳琪652分, 全市文科最高分, 稳居湖…

免费创造你的专属数字人!

现在数字人已经不是什么新鲜事物啦,所谓数字人(Digital Human / Meta Human),是运用数字技术创造出来的、与人类形象接近的数字化人物形象。未来数字人ChatGPT可以取代很多现在很多的一些应用场景,例如客服、主播等。以…

运营人常备的8个营销模型一、SWOT分析二、PEST分析三、3C

运营人常备的8个营销模型 一、SWOT分析 二、PEST分析 三、3C战略模型 四、STP理论 五、波特五力模型 六、波士顿矩阵 七、GE矩阵 八、商业模式画布 内容如下: 一、SWOT分析 1.strengths是优势 2.weaknesses是劣势 3.opportunities是机会 4.threats是威胁 二、PEST分…

286 亿元!败了的 Google 是否会为 Android 交最贵罚单?

聚光灯下的 Google,再一次“失利”。 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 屈指算来,Google 遭到欧盟反垄断调查已有 12 年时间。在此多年间,调查主要是围绕 Google 的搜索引擎、Android、AdWords&#x…

微软正式将GPT-4引入网络安全,安全行业颠覆似乎来了

北京时间3月28日23:30,微软安全开启全球直播,重磅推出Microsoft Security Copilot——正式宣布将GPT-4引入网络安全。 据微软称,Security Copilot将不断学习和改进,提供对最先进的OpenAI模型的持续访问,以支持要求苛刻…

腾讯云数据安全中台保护方案获“首届全国商用密码应用优秀案例”

近日,工业和信息化部密码应用研究中心发起的“首届全国商用密码应用优秀案例”评选活动正式结束,腾讯云数据安全中台保护方案凭借优异技术和实践表现获评优秀案例。 (首届全国商用密码应用优秀案例名单) 本次优秀案例征集涵盖电子政务、信息…

阿里贾扬清:新一轮AI爆发的推动机制是工程化和开源 | MEET2023

羿阁 整理自 MEET2023量子位 | 公众号 QbitAI 随着Stable Diffusion、ChatGPT的爆火,AI在今年迎来了大爆发。 这不禁让人想问,这些创新背后的推动机制究竟是什么? 在MEET2023智能未来大会上,阿里巴巴集团副总裁、阿里云计算平台事…

教你在Android手机上使用全局代理!

FBI Warning:欢迎转载,但请标明出处:http://blog.csdn.net/codezjx/article/details/8872071,未经本人同意请勿用于商业用途,感谢支持! 前言:在Android上使用系统自带的代理,限制灰常…

这才是计算机科学_人工智能

人工智能 一、前言二、ML2.1 分类2.1.1 决策树2.2.2 支持向量机2.2.3 人工神经网络 三、计算机视觉3.1 Prewitt算子3.2 Viola-Jones 人脸检测算法3.3 卷积神经网络 四、自然语言处理4.1 知识图谱4.2 语音识别 一、前言 之前讲了计算机从发展到现在的过程,计算机很适…

【ChatGPT】《chatGPT Box现已全平台上线,全面整合并以MIT协议开源》- 知识点目录

《chatGPT Box现已全平台上线,全面整合并以MIT协议开源》 这个视频主要介绍的是一款基于ChatGPT的开源工具【ChatGPT Box】; ChatGPTBox插件在chrome应用商店已经上线; 1. 右键菜单呼出对话框 & 位置可以拖拽调整 2. 文字选中问答 2.1 …

Stable Diffusion 母公司开源大语言模型,代号「StableLM」!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 昨天晚上 11 点,Stable Diffusion 的母公司 Stability AI 重磅宣布,正式开源一款全新的大语言模型:StableLM。 该模型的 Alpha 版本有 30 亿和 70 亿参数…

Stable Diffusion 母公司开源大语言模型StableLM

4月19号晚上 11 点,Stable Diffusion 的母公司 Stability AI 重磅宣布,正式开源一款全新的大语言模型:StableLM。 该模型的 Alpha 版本有 30 亿和 70 亿参数,并将于后续开放 150 亿和 650 亿的参数模型。 Stability AI 的创始人…

科研人论文必备神器(软件、网站、插件等)

科研人论文必备神器(软件、网站、插件等) 仅真实地推荐高效、有用的内容,无广告 文章目录 科研人论文必备神器(软件、网站、插件等)文献查找1.谷歌学术2.Web of Science(WOS)3.PubMed4.知网5.百…

2023年3月份报告合辑 附下载

把坚持当成一种习惯,别人光鲜的背后都有加倍的付出。没有谁比谁更容易,只有谁比谁更努力,三月已经成了过去,四月继续加油! 十二月报告 3.1:2023智慧会议技术白皮书 2023智慧会议技术白皮书 产业分析&#x…

java利用jdbc连接近远程MySQL数据库详细步骤+数据库封装类 --菜鸟小回

java利用jdbc连接近程MySQL数据库详细步骤数据库封装类 ChatGPT点击直接对话:小回公益GPT 文章目录 java利用jdbc连接近程MySQL数据库详细步骤数据库封装类 ChatGPT点击直接对话:[小回公益GPT](https://gpt.huijia.cf/)一、导入驱动包二、连接数据库1. 加…

国内信息安全行业常见法律法规介绍及个人理解

国内信息安全行业常见法律法规介绍及个人理解 前言网络安全法等保分保数据安全法 前言 法律法规,尤其是上位法(相对)是咬文嚼字、晦涩难懂的,常常阅读过后无法得到清晰、明确的理解。 但作为IT从业人员,无论是乙方争取项目机会、实施或设计过…

语音识别综述

语音识别的基本单位 Phoneme: 音位,音素 a unit of sound 是声音的最基本单位**,每个词语token的声音由多个 phoneme 组成** Grapheme(字位) smallest unot of a writing system 每个单词书写最基本的单位&#xff…

语音信号处理常用语料库下载地址

Noise92噪声库 Noise92是一个噪声的语料库,包括一些语音增强中常用到的噪声,每个文件持续235秒,其中噪声的采样率均为19.98KHz,可以通过下采样得到想要采样频率的噪声,上面的文件都是.mat格式,可以利用MAT…

语音信号处理的过程及其应用

一、语音信号处理的过程 在信号处理领域,信息加工和处理的一般流程下图所示。 在语音信号的具体情况下,信息源就是说话的人,通过观察和测量得到的就是语音的波形。信号处理包括以下几个内容,首先根据一个给定的模型得到这一信号的…