百度语音识别API的简单应用

1. prepare

根据百度开发文档的提示可以知道,API仅能处理特定格式的语音文件。

由于底层识别使用的是pcm,因此推荐直接上传pcm文件。如果上传其它格式,会在服务器端转码成pcm,调用接口的耗时会增加。

语音识别仅支持以下格式 :pcm(不压缩)、wav(不压缩,pcm编码)、amr(有损压缩格式);8k/16k 采样率 16bit 位深的单声道。即:

pcm wav amr 格式三选一。 正常情况请使用pcm。其中wav格式需要使用pcm编码。
采用率二选一 8000 或者 16000。正常情况请使用16000
单声道

这就以为着需要对语音文件进行解码,修改,重新编码。
特别的,如果我希望能够提供视屏的字幕,就需要对音屏文件进行提取,然后进行语音识别。

ffmpeg

简介

FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。

需要注意一点:因为FFmpeg默认只支持mp3的解码,不支持mp3编码。如果想把提取出来的音频保存为mp3格式肯定就需要mp3格式的编码库。因此,想输出mp3文件,需要借助第三方的mp3编码库。这里采用LAME编码库,即Lame Aint an MP3 Encoder(A high quality MP3 encoder).

Ubuntu安装的比较简单粗暴:

sudo apt-get install lame
sudo apt-get install ffmpeg

使用

输入音频参数
wav amr 与mp3格式都自带头部, 含有采样率 编码 多声道等信息。而pcm为原始音频信息,没有类似头部。 wav(pcm编码)格式,仅仅在同样参数的pcm文件加了个几百k的文件头。

输入 wav amr 及mp3格式:

-i  test.wav # 或test.mp3 或者 test.amr

输入 pcm格式: pcm需要额外告知编码格式,采样率,单声道信息,-f fmt 强迫采用格式fmt,-ac 2(声道数1或2),-ar (声音的采样频率),s16le (PCM signed 16-bit little-endian)

-f s16le -ac 1 -ar 16000 -i 8k.pcm

单声道 16000 采样率 16bits编码 pcm文件

输出音频参数
在原始采样率 大于或者接近16000的时候,推荐使用16000的采样率。 8000的采样率会降低识别效果。 输出wav和amr格式时,如果不指定输出编码器的haunt,ffmpeg会选取默认编码器。

输出pcm音频

-f s16le -ac 1 -ar 16000 16k.pcm  

单声道 16000 采样率 16bits编码 pcm文件
输出wav 音频:

-ac 1 -ar 16000 16k.wav 

单声道 16000 采样率的wav文件。

what a wav looks like?

# -*- coding: utf-8 -*-
import wave
import pylab as pl
import numpy as np# 打开WAV文档
#‘rb’,读取文件;
#‘wb’,写入文件;
f = wave.open(r"/home/vedio/test.wav", "rb")# 读取格式信息
# (nchannels, sampwidth, framerate, nframes, comptype, compname)
params = f.getparams()
nchannels, sampwidth, framerate, nframes = params[:4]# 读取波形数据
str_data = f.readframes(nframes)
f.close()#将波形数据转换为数组
wave_data = np.fromstring(str_data, dtype=np.short)
wave_data.shape = -1, 2
wave_data = wave_data.T
time = np.arange(0, nframes) * (1.0 / framerate)# 绘制波形
pl.subplot(211) 
pl.plot(time, wave_data[0])
pl.subplot(212) 
pl.plot(time, wave_data[1], c="g")
pl.xlabel("time (seconds)")
pl.show()

这里写图片描述


待续

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23965.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是CatGPT-使用效果如何-

个人使用效果,评分优,足以满足教学和填表。 程序媛借助CatGPT(ChatGPT更佳),基本上可以秒杀不用此类工具的程序猿(男)!!! 问:为什么使用AIGC能大幅…

OpenAI ChatGPT3.5 completion API 入门指南

官方介绍 ChatGPT 由 OpenAI 最先进的语言模型 gpt-3.5-turbo 提供支持。 使用 OpenAI API,您可以使用 GPT-3.5-turbo 构建自己的程序来做一些如下的事情: 起草电子邮件或其他书面文件编写 Python 代码回答关于一组文档的问题创建对话代理程序为你的软件…

英语二-电子邮件邀请短文写作

1. 邮件模板 Dear 邀请人, Hope you have a great day. I am writing this email to invite you to attend 主题. Please kindly find the following information for your reference: Time: 时间 Address: 地点 We hope that nothing will prevent you from coming, as…

怎样收智商税

智商税的历史源远流长,史上最著名的案例,是 1313 年起天主教会开始发售的“赎罪券”:教皇宣称教徒购买此券,可以赦免罪罚,其宣传是“金币投进柜子当啷一响时,灵魂就可以升天堂了”。此案例诠释了智商税的几…

AIGC周报|让AI来画《海贼王》;苹果限制员工使用ChatGPT;李彦宏:不担心大模型会让工作消失

AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 DallE 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。 …

谷歌正式开放智能 AI 机器人 Bard 迎战 ChatGPT,附申请教程

随着 ChatGPT 掀起了 AI 时代的浪潮之后,微软必应 Bing Chat 机器人、Office 以及百度的“文心一言”等都已经离开实验室,正式在公众的赛道上比拼了。3月21日周二,美国科技巨头谷歌公司推出了 AI 聊天机器人 Bard 的测试版本,以期…

吴恩达 ChatGPT Prompt Engineering for Developers 系列课程笔记--01 Introduction

01课程介绍Introduction 1) 两种LLM(Large Language Models) Base LLM:根据训练数据自动预测下一个单词。例如:给定"Once upon a time, there was a unicorn",LLM会自动生成下面的文章"that lived in a magical forrest with…

计算机考研复试面试系列 计算机专业英语篇

计算机考研复试面试系列 计算机专业英语篇 在复习过程中,我用心查阅并整理了在考研复试面试中可能问到的大部分问题,并分点整理了答案,可以直接理解背诵并加上自己的语言润色!极力推荐打印下来看,效率更高! 此系列一共…

AI时代的三类人:探索掌握AIGC,引领未来的人才之路

(本文阅读时间:6 分钟) 1 AI时代:ChatGPT引领AIGC技术革命 对于那些热衷于探索新技术的小伙伴而言,ChatGPT早已超越了抽象的概念,我们对其能力已有所了解。那么,ChatGPT究竟能够做些什么呢&…

AGI 大模型创业时代的创业公司新形态:11 人的 Midjourney 不是偶然 | 同为开发绘画AI的团队,Midjourney是怎么取得今天的成就的呢?

同为开发绘画AI的团队,Midjourney是怎么取得今天的成就的呢? 目录 同为开发绘画AI的团队,Midjourney是怎么取得今天的成就的呢?</

Web开发课程实验(二):Servlet+DAO实现数据库基本交互

实验内容&#xff1a; 使用servletDAO实现基本数据库交互 具体要求 编写一个静态网页&#xff0c;网页命名&#xff1a;student.html 编写一个Servlet&#xff0c;命名&#xff1a;StudentServlet 创建hit数据库&#xff08;PostgreSQL或MySQL均可&#xff09;&#xff0c;其…

占有统治地位的Transformer究竟是什么

讲个有趣的小故事 我高二那年从乙班考入了甲班&#xff0c;对于那时的我 偏科英语最高只有108班级平均英语成绩125暴躁难为人女英语老师&#xff0c;使我上英语课时战战兢兢。英语老师很时尚&#xff0c;喜欢搞花里胡哨的词语让我们放松&#xff0c;也很尊重我虽然暴躁但维护着…

8 Surprising Things You Can Do With ChatGPT 你可以用 ChatGPT 做的 8 件令人惊讶的事情

If you’ve heard about ChatGPT and think it’s just a fancy chatbot, you might be underestimating the range of what it can do. Here are some surprising things you can do with ChatGPT, whether you want to write a resume or have it dungeon-master an epic rol…

千万别错过!C/C++实现经典围棋大战,秒杀挫败柯洁的AlphaGo

在现实生活中想下围棋就必须要有棋子和棋盘&#xff0c;但是棋子好携带&#xff0c;但棋盘携带的话就和不方便了&#xff0c;所以很多人突然有雅兴想下围棋但奈何没有棋盘&#xff0c;但是随着围棋软件的出现就很好的解决了这个问题了&#xff0c;它可以让你随时随地都能过把手…

又一次输了人机大战,柯洁反复说着这两个词......

一场27日在福州与“星阵”的对决让柯洁的名字再度与“人机大战”联系在一起&#xff0c;而尽管中盘告负的结果让他“深感无力”&#xff0c;但柯洁表示未来与人工智能的对阵仍是不可避免&#xff0c;他也希望尽早出台相应的规则&#xff0c;防止未来可能利用人工智能作弊的现象…

柯洁直播中为何大笑不止 围棋人胜AI重现曙光?

新浪体育2023/05/02 柯洁直播中开心不已 4月30日&#xff0c;柯洁在b站的直播中分享了人类棋手“偷袭”击败AI的棋谱&#xff0c;坦言如果在人机大战的时候知道这个bug的话&#xff0c;或许有赢的可能。 2016&#xff0c;2017两次人机大战后&#xff0c;人与人工智能在围棋上的…

柯洁食言:明年四月,再战AI

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI “我说不再跟AI下棋&#xff0c;现在食言了。” 刚刚&#xff0c;人类围棋第一人柯洁九段宣布&#xff1a;明年4月&#xff0c;将再次与围棋AI交锋。 对话柯洁&#xff1a;我喜欢自我挑战 今年4月的乌镇&#xff0c;与AlphaGo的第…

今天,给柯洁老师打电话

问耕 发自 凹非寺量子位 出品 | 公众号 QbitAI △ 配图来自柯洁微博 如果你看到这一篇推送&#xff0c;即使没有号码&#xff0c;也希望你给柯洁老师打电话。 可以热烈一点~ 因为&#xff0c;他成功复仇了&#xff01; 柯洁战胜了不久前刚刚碾压了他的腾讯围棋AI绝艺&#xff0…

人工智能统治围棋?棋士一文不值?

全文共3057字,预计学习时长9分钟 来源: tuxi 韩国围棋大师李世石最近宣布退出职业围棋比赛。 为什么? 他觉得无论他多么努力,他都不会打败像AlphaGo这样的AI-Go玩家。这是他在与谷歌DeepMind的AlphaGo竞争中历史性失败的一个相当悲哀的决定。 李世石的退出颇具戏剧性。然而,…

【求投票】博客之星投票

麻烦请走过路过的兄弟姐妹们&#xff0c;动动你们的小手指&#xff0c;帮忙投个票。 投票方法&#xff1a;点开链接https://bbs.csdn.net/topics/603959652&#xff0c;如下图&#xff1a;点亮5星即可