Python实现语音识别(基于百度语音识别)

我是一名2016级电子信息工程的学生,这是第一次发博客,因为经常在这里查资料 ,自己也应该贡献一点经验吧,也可以当是记录自己学习的过程吧。

最近在自学python,然后18年9月份正好python加入计算机二级,再然后我趁这个机会就混过了。

百度了一下语音识别,有很许多厂商提供语音识别服务,比如:阿里云、百度AI平台、腾讯云、讯飞AI…

大家可以尝试一下其他的免费平台,我这里选择的是百度语音识别,当然需要注册一个百度云平台的账号,附上网址点击直达

支持的语音格式

原始 PCM 的录音参数必须符合 8k/16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。
我这里采用的是采样率为16KHz、单声道、wav格式的录音参数。

附上录音的源代码
这里需要pyaudio和wave库
LuYin(5, ‘test.wav’)表示录音5秒,文件名为test.wav

import pyaudio
import wave
def LuYin(Time,filename):CHUNK = 1024              #wav文件是由若干个CHUNK组成的,CHUNK我们就理解成数据包或者数据片段。FORMAT = pyaudio.paInt16  #这个参数后面写的pyaudio.paInt16表示我们使用量化位数 16位来进行录音。CHANNELS = 1              #代表的是声道,这里使用的单声道。RATE = 16000              # 采样率16kRECORD_SECONDS = Time     #采样时间WAVE_OUTPUT_FILENAME = filename   #输出文件名p = pyaudio.PyAudio()stream = p.open(format=FORMAT,channels=CHANNELS,rate=RATE,input=True,frames_per_buffer=CHUNK)print("* 录音开始")frames = []for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):data = stream.read(CHUNK)frames.append(data)print("* 录音结束")stream.stop_stream()stream.close()p.terminate()wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')wf.setnchannels(CHANNELS)wf.setsampwidth(p.get_sample_size(FORMAT))wf.setframerate(RATE)wf.writeframes(b''.join(frames))wf.close()

注意事项

如果需要使用实时识别、长语音、唤醒词、语义解析等其它语音功能,请使用Android或者iOS SDK 或 Linux C++ SDK 等。

请严格按照文档里描述的参数进行开发,特别请关注原始录音参数以及语音压缩格式的建议,否则会影响识别率,进而影响到产品的用户体验。

目前系统支持的语音时长上限为60s,请不要超过这个长度,否则会返回错误。(摘自官方文档)

获取tokent

tokent(鉴权认证机制)相当于是自己的身份,有个这个合格的身份平台才会给你提供服务。
可以把tokent获取出来直接使用,不用每一次都获取,但是这个tokent隔一段时间会失效,我感觉是一个月左右/笑哭

import requests
import json
def Gettokent():baidu_server = "https://openapi.baidu.com/oauth/2.0/token?"grant_type = "client_credentials"#API Keyclient_id = "你的API Key"#Secret Keyclient_secret = "你的Secret Key"#拼urlurl = 'https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id={}&client_secret={}'.format(client_id, client_secret)#print(url)#获取tokenres = requests.post(url)#print(res.text)token = json.loads(res.text)["access_token"]print(token)

上传识别

后两项参数为非必须(摘自官方文档)
主要参数

dev_pid 参数列表(摘自官方文档)
dev_pid 参数列表

语音识别 返回数据参数详情(摘自官方文档)
在这里插入图片描述

返回样例(摘自官方文档)
在这里插入图片描述

错误码解释(摘自官方文档)
错误码解释

直接附上程序
参数为本地文件的地址
附一个示例音频文件16k.wav

import pyaudio
import wave
import requests
import json
import base64
import os
def BaiduYuYin(fileurl):try:RATE = "16000"                  #采样率16KHzFORMAT = "wav"                  #wav格式CUID = "wate_play"DEV_PID = "1536"                #无标点普通话token = '你的token'# 以字节格式读取文件之后进行编码with open(fileurl, "rb") as f:speech = base64.b64encode(f.read()).decode('utf8')size = os.path.getsize(fileurl)headers = {'Content-Type': 'application/json'}url = "https://vop.baidu.com/server_api"data = {"format": FORMAT,"rate": RATE,"dev_pid": DEV_PID,"speech": speech,"cuid": CUID,"len": size,"channel": 1,"token": token,}req = requests.post(url, json.dumps(data), headers)result = json.loads(req.text)return result["result"][0][:-1]except:return '识别不清'

第一次写博客,希望大家多多指正,有什么问题请留言,一定及时回复。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/43529.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转百度语音识别,就是这么简单

http://www.cnblogs.com/bigdataZJ/p/SpeechRecognition.html 明后两天就是公司一年一度的Fedex Day了。我的理解就是技术界的头脑风暴,idea喷如泉涌的盛大节日。 对于这次活动每个人或者两三个人一组需要有个idea,针对当前的产品现状,提出自…

语音-小度自定义技能

文章目录 前言一、学习简介二、代码快速开发三、官网配置3.1 百度云CFC配置3.2 小度官网配置 四、测试4.1连接技能4.2 意图测试4.3 断开技能 前言 主要是为了记录下学习小度自定义技能的过程 一、学习简介 参考官网解释 自定义技能简介 二、代码快速开发 快速开发java 我…

人人都是绘画大师!微软必应接入DALL·E模型,文字生成图像!

机器之心编辑部 微软必应完善文字生成图像能力,Adobe 今日也发布 Firefly,杀入生成式 AI 这场游戏。 今晚实在是有些热闹。 一边英伟达 GTC 正在进行中,一边谷歌正式开放了 Bard 的测试,这里微软必应也不甘寂寞。 今日&#xff0c…

对比编程语言的四种错误处理方法,哪种才是最优方案?

△点击上方“Python猫”关注 ,回复“1”领取电子书 作者:Andrea Bergia 译者:豌豆花下猫Python猫 英文:Error handling patterns 转载请保留作者及译者信息! 错误处理是编程的一个基本要素。除非你写的是“hello world…

巴比特 | 元宇宙每日必读:不再盲目迷信硬件掘金,大厂XR集体后撤,业内人士建议多条腿走路,生态和内容才有更广阔市场...

摘要:据极点商业报道,元宇宙凉热之间,大厂集体收缩XR业务。是舆论定调的风口已过,还是如业内人士所言,进入理智探索时代?为何短短半年时间内,大厂们态度就发生了截然不同的变化?“与…

学会这些思维模型,窥见查理·芒格的致胜秘笈(二)

目录 导语 模型五:SCQA模型 模型六:问题树模型 模型七:MECE原则 模型八:SWOT分析 模型九:波特五力模型 模型十:波斯顿矩阵 导语 读者朋友们好,在我上一篇文章介绍了几个最核心和底层的模…

产品读书《穷查理宝典:查理.芒格智慧箴言录》

要通过提升自己,来强化对世界的感知,内在的能力才能增长,和世界的大趋势才能互相匹配。这种匹配度提高了,无论你是用来投资、创业,还是做其他事情,都会无往而不利。 查理芒格在书中反复强调的4点内容有&a…

芒格最新演讲:中国的水有些聪明人已经蹚进去了,时候到了更多人会进场

图文来源:雪球 译者:RanRan 我们在说某个人有常识的时候,我们其实是说,他具备平常人没有的常识。人们都以为具备常识很简单,其实很难。 2月14日,95岁的芒格参加了Daily Journal 公司年会,发表了…

站在大模型新风口的云知声:十一年创业之路引领智能语音技术变革

AGI的目标是实现人类般的通用智能,这意味着AI可以像人类一样理解任意通用任务,并以人类的智力水平执行完成。基本上,除了自我意识的生成,AGI就是人类对人工智能的终极梦想了。在AGI曙光照进现实之际,云知声化身为那位站…

在MT4上使用KDJ指标

KDJ指标就是随机指标,由K线、D线和J线这三条曲线共同构成,通过分析图表,我们可以得出,K、D、J分别用不同的颜色线条来表示,所谓的K线是指快速确认线,D线就是指慢速主干线,而J线则为方向明暗线。…

同花顺资金监测精鹰指标公式源码 通过资金监测强弱

使用方法&#xff1a; 指标不含未来,是通过资金监测强弱,资金是不会骗人 当红柱有粉色帽子或红柱上方金色线均表示资金流入 源代码&#xff1a; VAR1:VOL/((HIGH-LOW)*2-ABS(CLOSE-OPEN)); 主动买盘:IF(CLOSE>OPEN,VAR1*(HIGH-LOW),IF(CLOSE<OPEN,VAR1*((HIGH-OPEN)(…

django中使用auth.authenticate在用户名和密码都正确的情况下返回值依然为None的可能原因

毕业设计做了一个系统&#xff0c;其中涉及到用户修改密码&#xff0c;然后发现密码改完之后即使输入了也登不上去&#xff0c;最终定位到问题出在auth.authenticate上&#xff0c;它返回的是None&#xff0c;在csdn上找了好久&#xff0c;全都是说在创建的时候使用django自带的…

美国公司裁员潮可视化;GitHub + Kaggle + InfoQ:3份报告回顾中国开发者的2022 | ShowMeAI每周通讯 #005-01.07

这是ShowMeAI每周通讯的第5期。通讯聚焦AI领域本周热点&#xff0c;及其在各圈层泛起的涟漪&#xff1b;关注AI技术进步&#xff0c;并提供我们的商业洞察。欢迎关注与订阅&#xff01; 导读&#xff1a;2023年第1周&#xff0c;美国科技大厂的裁员信息&#xff0c;终于还是来了…

如何转换图片格式?教你三招一键轻松转换图片格式

之前有朋友跟我吐槽说&#xff0c;有时候保存到电脑上的图片原来是正常的&#xff0c;结果保存下来以后就打不开了&#xff0c;搞的他非常苦恼。其实这个问题也很好解决&#xff0c;一般这种问题都是由于图片格式导致的&#xff0c;只需要将图片格式转换成jpg、png等常见格式就…

手把手教你免费、批量转换HEIC图片到JPG

iPhone手机更新IOS11系统后&#xff0c;相机拍摄的文件格式为HEIC格式&#xff0c;很多软件都无法打开。找了半天也是各种收费&#xff0c;就比如某款软件居然收费&#xff0c;还有年费88块&#xff01;你们怎么好意思收费的&#xff1f; 要么就是在线的转换&#xff0c;一张张…

PS把变成人物照片插画效果

算不算插画不是很懂&#xff0c;又有点类似&#xff0c;效果就是下图的这样&#xff0c;使用陌鱼社区动作&#xff1a;简单时尚手绘人物插画效果PS动作&#xff0c;下面是一些效果图&#xff0c;喜欢的可以试一下 01、双击图案&#xff08;.pat&#xff09;&#xff0c;Adobe P…

通过python我实现了照片转化为动漫模式,媳妇儿再也不用愁没有好看的头像了~

​ 最近某音上的动漫特效特别火&#xff0c;很多人都玩着动漫肖像&#xff0c;我媳妇儿也不例外。看着她这么喜欢这个特效&#xff0c;我决定做一个图片处理工具&#xff0c;这样媳妇儿的动漫头像就有着落了。 编码 为了快速实现我们的目标&#xff0c;我们就不自己写图片处理程…

将照片转换成漫画风格的API推荐

这段时间休息的时候发现了一个很有意思的API——将照片转换成漫画风格API&#xff0c;是在 APISpace 这个接口服务平台发现的。它里面的很多接口都非常的好用&#xff0c;使用起来也很方便&#xff0c;所有的接口都可以提供免费的试用&#xff0c;有需要的同学可以去看看~ 效果…

APISpace 将照片转化成漫画风格API

APISpace 的 将照片转化成漫画风格API&#xff0c;会自动为你将照片转换成漫画风格&#xff0c;无须使用Photoshop 等图片编辑软件、无须任何技术基础。输入图片的url&#xff0c;即可得到漫画风格的图片。 APISpace 上面还多各种各样的API&#xff0c;包括常见的短信、物流、…

Photo2Cartoon,照片图片批量转漫画

当你宅在家里冲浪&#xff0c;当你和驴友出行&#xff0c;当你打开自己的相册。。。。有没有想过让自己的照片换个样子。照片转漫画是一个不错的idea&#xff0c;换个角度欣赏会获得更多的意想不到&#xff0c;不是吗&#xff1f;试试看&#xff01; 首先&#xff0c;进入“图…