whisper 语音识别AI 声音To文字

whisper介绍

Whisper 是一个由 OpenAI 训练并开源的神经网络,功能是语音识别,能把语音转换为文字,在英语语音识别方面的稳健性和准确性接近人类水平。

1、Whisper支持语音转录和翻译两项功能并接受各种语音格式,模型中、英、法、德、意、日等主流语言上取得85%以上的准确率,完全符合工业准确率标准,未来有望打开商业化空间;

2、Whisper模型根据参数量和语言不同,共有9种版本,可适应不同使用者的需求。在中文语料测试下,模型在语音识别、语气识别、自动断句等方面表现出色,可满足各类使用场景需求;

3、目前 Whisper 模型只能对语音识别后,转换为对应语言的文本,或将其翻译为英语,则意味着在翻译这一层面,最终无法实现由英语转换为其他语言。

C++版开源地址

https://github.com/ggerganov/whisper.cpp

.bin 模型下载地址

https://huggingface.co/ggerganov/whisper.cpp

python版开源地址

https://github.com/openai/whisper

桌面客户端 WhisperDesktop.exe 下载地址

https://github.com/Const-me/Whisper/releases

通过它直接调用模型

显存占用


 

.pt格式模型下载地址

_MODELS = {
"tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
"tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
"base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
"base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
"small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
"small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
"medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
"medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
"large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
"large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
"large": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
}


language目前支持99种语言,如下:

 transcribe函数的


"en": "english",
"zh": "chinese",
"de": "german",
"es": "spanish",
"ru": "russian",
"ko": "korean",
"fr": "french",
"ja": "japanese",
"pt": "portuguese",
"tr": "turkish",
"pl": "polish",
"ca": "catalan",
"nl": "dutch",
"ar": "arabic",
"sv": "swedish",
"it": "italian",
"id": "indonesian",
"hi": "hindi",
"fi": "finnish",
"vi": "vietnamese",
"he": "hebrew",
"uk": "ukrainian",
"el": "greek",
"ms": "malay",
"cs": "czech",
"ro": "romanian",
"da": "danish",
"hu": "hungarian",
"ta": "tamil",
"no": "norwegian",
"th": "thai",
"ur": "urdu",
"hr": "croatian",
"bg": "bulgarian",
"lt": "lithuanian",
"la": "latin",
"mi": "maori",
"ml": "malayalam",
"cy": "welsh",
"te": "telugu",
"fa": "persian",
"lv": "latvian",
"bn": "bengali",
"sr": "serbian",
"az": "azerbaijani",
"sl": "slovenian",
"kn": "kannada",
"et": "estonian",
"mk": "macedonian",
"br": "breton",
"eu": "basque",
"is": "icelandic",
"hy": "armenian",
"ne": "nepali",
"mn": "mongolian",
"bs": "bosnian",
"kk": "kazakh",
"sq": "albanian",
"sw": "swahili",
"gl": "galician",
"mr": "marathi",
"pa": "punjabi",
"si": "sinhala",
"km": "khmer",
"sn": "shona",
"yo": "yoruba",
"so": "somali",
"af": "afrikaans",
"oc": "occitan",
"ka": "georgian",
"be": "belarusian",
"tg": "tajik",
"sd": "sindhi",
"gu": "gujarati",
"am": "amharic",
"yi": "yiddish",
"lo": "lao",
"uz": "uzbek",
"fo": "faroese",
"ht": "haitian creole",
"ps": "pashto",
"tk": "turkmen",
"mt": "maltese",
"lb": "luxembourgish",
"my": "myanmar",
"bo": "tibetan",
"tl": "tagalog",
"mg": "malagasy",
"as": "assamese",
"tt": "tatar",
"haw": "hawaiian",
"ln": "lingala",
"ha": "hausa",
"ba": "bashkir",
"jw": "javanese",
"su": "sundanese",

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59287.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能:通过Python实现语音合成的案例

今天给大家介绍一下基于百度的AI语音技术SDK实现语音合成的案例,编程语言采用Python,希望对大家能有所帮助! 注册百度AI平台应用 百度AI开放平台-全球领先的人工智能服务平台 首先登陆自己的百度账户,打开百度的AI开发平台页面 搜…

2023年,这几个AIOps新趋势不容忽视

文源自于公众号——布博士(擎创科技资深产品专家) 前言: 近年来,人工智能技术的研究和行业应用急剧上升。即使看起来人工智能技术似乎只是一种来自电影中的幻想,但无可否认的是人工智能技术已经在我们生活的各个方面得…

移动端(iOS,android)上那些炒股软件的K线图,分时图,都是怎么实现的?

具体回答网址: http://www.zhihu.com/question/30989362 类似的K线图有没有开源的控件?可以参考腾讯的自选股,百度股市通这两个进行说明。 添加评论 分享 按投票排序 按时间排序 7 个回答 20赞同 反对,不会显示你的姓名 臧其龙…

K线形态识别_下探上涨

写在前面: 1. 本文中提到的“K线形态查看工具”的具体使用操作请查看该博文; 2. K线形体所处背景,诸如处在上升趋势、下降趋势、盘整等,背景内容在K线形态策略代码中没有体现; 3. 文中知识内容来自书籍《K线技术分析》…

HQChart使用教程30-K线图如何对接第3方数据1

K线图如何对接第3方数据1 数据接口NetworkFilter说明K线图网路协议列表周期和复权全部使用后台数据小程序,及第3放app平台对接注意事项httpA股数据对接教程(付费文章)HQChart代码地址 数据接口 HQChart 提供一个网络协议过滤接口, HQChart请求数据前会调用这个网络…

Tradingview使用心得和使用教程 k线图的好工具

Tradingview是用来开发k线图的好工具,功能非常强大。此文章记录一些心得和坑。TradingView允许您在自己的网站上使用自己的图表库,并拥有自己的数据源。 1、vue集成jsapi和传统的html集成jsapi,代码逻辑上是不一样的。 2、如果开启了preset…

K线买入信号有哪些?

K线组合方式多种多样,对于国际现货贵金属投资者而言,如果能找到实战价值最高的看涨K线组合,就能更有效地捕捉到上涨行情中的做多机会。接下来,小编将分享了七种投资者必须知道的K线看涨的买入信号,肯定对大家盘感的增强…

房产中介、房屋租赁、房屋买卖APP(H5)

房产APP(H5),包含管理后台、移动端APP(H5) 后台管理模块包含功能 客户管理 客户列表,设置、查询客户基本信息等。 小区管理 小区列表,设置、查询小区基本信息,上传小区详情图&a…

房地产中介在未来会被取代吗?

房地产中介,既是一个劳动密集型行业,又是一个信息密集型行业。 “劳动密集”与“信息密集”貌似是一对儿矛盾的概念,可在房地产中介这里却和谐地统一在了一起。试想,当购房者面对、筛选令人眼花缭乱的海量房地产信息时&#xff0c…

技术专家的成功创业秘籍:怎样成为百万(美元)富翁?

曾经撰写过《Windows System Services》等专业技术书的 Marshal Bain,其实是位极为多才多艺的老兄。他创办的 How Stuff Works早已成为著名的内容型网站,获奖无数,而且成功为大公司收购,创业成功。他写的少儿科普图书 The Teen…

支付软件Venmo的101亿美元是怎么赚来的?

全文共3674字,预计学习时长10分钟 图源:unsplash 认真回顾近来的生活,我发现,似乎我使用Venmo来支付的情况比使用现金或信用卡还多。我用这个应用来支付房租、水电费、还朋友的钱,甚至都不用带现金。 从前,我只用信用卡。实际上,当确实需要用现金买东西的时候,我会觉…

1个人6种变现途径收入130万美金在2020年 - 人物志21篇

一个国外的独立变现创作者如何在业余时间实现了这样的复合性收入呢? $135k - 广告 $177k - 推广佣金 $182k - 赞助 $470k - 自学课程 $295k - 订阅课程 $71k - 社区 今天为大家介绍的Ali Abdaal(AliAbdaal),他主业是一名医生,业余时间做Youtu…

2011年遭VC疯狂追捧的13家科技创业公司

12月22日消息,据国外媒体报道,虽然2011年科技IPO市场走势低迷,但是对少数创业公司而言却是个好年头。VC们大手笔押注少数具有独特创意的公司,下文将盘点2011年最受VC追捧的科技创业公司。 1.照片分享和设计网站Pinterest(http://…

OpenAI的创始人World Coin项目介绍

🎯 在一个崇高的目标支持下,不停地工作,即使慢,也一定会获得成功。—— 爱因斯坦 如果你对项目感兴趣请联系v:weixin605405145 一、项目速览 项目背景 Worldcoin由OpenAI的创始人Sam Altman于2019年创立,就…

高频交易巨头GETCO的发达史

2012年8月1日,对美国的资本市场是“惊魂一天”,开盘后短短的45分钟内,许多股票都被不停地以高价买入,低价卖出,到收盘的时候,消息传来,骑士资本因软件技术故障,向纽交所发送大量错误…

Transformer作者出走谷歌创业,专攻通用人工智能,已获得6500万美元投资

丰色 发自 凹非寺量子位 | 公众号 QbitAI 最近,一家AI初创公司引起了不少人的注意。 在推特上宣布成立之时,有不少人为其点赞和转发。 一上来就要搞通用人工智能,什么来头? 我们看了一下它的创始人名单: Ashish Vaswan…

BCA Network&加密艺术NFT交易平台MetaOpus获200万美元天使融资

BCA Network及旗下加密艺术NFT交易平台MetaOpus(www.metaopus.co)获200万美元天使轮融资,由分布式资本和Zonff Partners领投,水滴资本和多位天使投资人跟投。 BCA Network是集加密艺术创作、交易、投资收藏和加密文化教育输出为一…

【Handshake】引发全硅谷投资机构额度大战的传奇项目

Handshake中文社区是由国内关注Handshake项目的爱好者自发组成的社区,旨在为大家提供Handshake最新资讯、技术的分享,您可以在这里自由的讨论以及交流。 ※ 项目名称 Handshake ※ 项目概念 去中心化域名认证协议 ※ 项目简介 Handshake是一条公链,专注于去中心化…

红杉资本合伙人Maguire:Crypto将是未来30年最大趋势 |链捕手

红杉资本合伙人Maguire在接受采访时表示,加密货币将成为未来 20-30 年最大的趋势。为此,红杉资本调整基金结构并成立独立的加密基金,以确保抓住这一时代趋势。 实际上,红杉资本之外,还有Tiger Global、Accel、Insight …

朋友创业2年,估值已达10亿,正招贤纳士,不错的机会

公司主要成员是来自高通中国的IC创业团队,公司成立两年,估计已经达到10亿人民币,成长速度惊人。 截止目前,公司全职员工约60人,预计2022年底公司将成长至100人规模,团队成员中80%以上有硕士或博士学历。其中…