PyAudio库基本知识详解——为自制PCM音频播放器做准备

前言

结合前段时间我们做的音频编解码器,这样我们就可以将获取到的ADPCM数据,转换成PCM数据,然后播放出来,得到一个完整的音频数据,因此,接下来几篇文章中,我们想做一个播放PCM格式的音频播放器。待到音频编解码器完成,播放器完成,或许我们就能做一个语音识别功能模块,通过一个小收音器的BLE蓝牙连接,连接到电脑上,实时完成音频传输,解码,以及识别的整套流程。可以完成语音写入文本,不仅彻底解放双手,还能解放双脚,让你离开电脑桌也能输入文本(不过也是作者的美好幻想, 先挖个坑,距离实现遥遥无期,尽请期待!)

在此之前呢,我们先脚踏实地的,了解一下我们必要的第三方库,PyAudio

前置知识

在介绍PyAudio库之前我们需要先了解一点点前置内容

  • 采样率:采样率是指机器每秒采样的次数,是音频处理中的重要参数。如:采样率为44100,即1秒钟采样44100次,常见的采样率为44100、48000,在小型设备中,如只专注语音的识别,不在乎音质,通常会选用更小的采样率,如8000、16000等,换取硬件设备的成本优势
  • 音频格式:指的是每个采样点的长度,如:paInt16,表示每个采样点为16比特,一次采样获取的数据为16比特,常见的采样点大小为8、16、32等。单位为比特。通常采样率与采样点大小即可确定一定时间内,采样获取的数据大小,如:当音频格式为paInt16,采样率为8KHz,那么1s中,将采样到 8000 * 16bit = 128kb的数据。
  • 通道:指的是声道,麦克风拾音的过程。分为单声道,多声道,立体声,联合立体声等。
  • 块:块是指数据块,在PyAudio可以实时处理动态音频数据,也就是音频流,而处理音频流实际上也是将连续的(实际上并非连续)输入以数据块的形式处理,并不是来一个字节处理一个字节,可以理解为缓冲区buffer的概念。

稍稍理解这些概念,以便后续阅读中看懂PyAudio的参数,如果没懂,可以返回来反复阅读。

PyAudio

PyAudio 是一个用于在 Python 中进行音频处理的库,它为我们提供了跨平台的接口,用于录音、播放和处理音频流。PyAudio 封装了 PortAudio 库,PortAudio 是一个跨平台的音频库,支持多种操作系统(如 Windows、macOS、Linux)。

PyAudio的常见用途

  1. 录音(Recording Audio):可以从麦克风获取音频数据。
  2. 播放音频(Playing Audio):可以播放 WAV 或其他格式的音频文件。
  3. 实时音频处理:处理音频数据流(例如,分析麦克风输入,实时音效等)。

安装 PyAudio

首先需要安装 PyAudio。可以使用 pip 来安装:

pip install pyaudio

PyAudio的核心概念

  1. 流(Stream): PyAudio 的核心概念是“流”(Stream)。流是数据的一个持续流动的通道,用于音频输入或输出。你可以创建一个输入流(录音)或输出流(播放音频),然后使用流来传输音频数据。
  2. 音频格式和数据: PyAudio 支持多种音频格式,例如 paInt16(16 位整数格式)和 paFloat32(32 位浮点格式)。音频数据通常是原始的字节流数据,可以通过 NumPy 数组或其他方式进行处理。
  3. 回调函数: 在实时音频流的场景中,通常使用回调函数来处理音频数据。回调函数会在每次采集到一块音频数据时被调用。

主要功能

  1. 录音示例: 以下是一个使用 PyAudio 录音的简单示例:

    import pyaudio
    import wave# 设置录音参数
    FORMAT = pyaudio.paInt16  # 音频格式
    CHANNELS = 1              # 单声道
    RATE = 44100              # 采样率
    CHUNK = 1024              # 每次读取的数据块大小
    RECORD_SECONDS = 5        # 录音时长
    OUTPUT_FILENAME = "output.wav"  # 输出文件p = pyaudio.PyAudio()# 开启输入流
    stream = p.open(format=FORMAT,channels=CHANNELS,rate=RATE,input=True,frames_per_buffer=CHUNK)print("开始录音...")frames = []# 录制数据
    for _ in range(0, int(RATE * RECORD_SECONDS / CHUNK)):data = stream.read(CHUNK)frames.append(data)print("录音结束...")# 停止流并关闭
    stream.stop_stream()
    stream.close()
    p.terminate()# 将录音保存为WAV文件
    wf = wave.open(OUTPUT_FILENAME, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()
    

    这里有值得一提的一个点:

    # 录制数据
    for _ in range(0, int(RATE * RECORD_SECONDS / CHUNK)):data = stream.read(CHUNK)frames.append(data)
    

    这个循环的主要目的是从流中读取数据,并添加到frams列表中,可以看到RATE * RECORD_SECONDS采样率 * 录音时长,这可以得到在本次录音中一共采样的次数,/ CHUNK表明采样的数据被分块读取并写入frames。这里其实隐式的处理了采样格式,即paInt16

  2. 播放音频示例: 以下是一个播放 WAV 文件的简单示例:

    import pyaudio
    import wave# 打开WAV文件
    wf = wave.open('output.wav', 'rb')p = pyaudio.PyAudio()# 打开输出流
    stream = p.open(format=pyaudio.paInt16,channels=wf.getnchannels(),rate=wf.getframerate(),output=True)# 读取文件并播放
    chunk = 1024
    data = wf.readframes(chunk)
    while data:stream.write(data)data = wf.readframes(chunk)# 关闭流
    stream.stop_stream()
    stream.close()
    p.terminate()
    

PyAudio的高级功能

  • 回调模式(Callback Mode): PyAudio 提供了回调模式来处理音频流。在这种模式下,你可以通过定义回调函数来实时处理录制或播放的音频数据。例如,你可以实时对音频数据进行处理或应用某些效果(如滤波、增益等)。

    示例:

    import pyaudiodef callback(in_data, frame_count, time_info, status):# 处理音频数据print("Recording...")return (in_data, pyaudio.paContinue)p = pyaudio.PyAudio()# 打开输入流
    stream = p.open(format=pyaudio.paInt16,channels=1,rate=44100,input=True,frames_per_buffer=1024,stream_callback=callback)stream.start_stream()# 等待流结束
    while stream.is_active():passstream.stop_stream()
    stream.close()
    p.terminate()
    

PyAudio的应用场景

  1. 音频录制与播放:用来创建简单的音频应用程序,进行声音的录制和回放。
  2. 语音识别:结合其他语音识别库(如 speech_recognition)可以实现语音识别功能。
  3. 实时音频处理:可以实时分析、修改或增强音频数据。
  4. 声音特效处理:可以在录制或播放过程中加入音效,如回声、变调等。

PyAudio与其他音频库对比

  • vs. wave: wave 模块主要用于处理静态的音频文件,而 PyAudio 支持音频流,能够进行实时录音与播放。
  • vs. soundfile: soundfile 更适用于处理已保存的音频文件的读写操作,而 PyAudio 更擅长实时音频流的处理。

注意事项

  • 在不同平台上安装 PyAudio 可能需要额外的步骤。例如,Windows 上可能需要安装 PortAudio 的依赖项。
  • PyAudio 并不支持直接播放 MP3 等压缩音频格式。如果需要播放其他格式的音频,可能需要使用其他库如 pygamepydub

小结

总的来说,PyAudio 是一个非常强大的库,适合用于音频处理和实时音频应用,尤其在需要直接与麦克风或扬声器交互时,提供了非常简洁的接口。

stop_stream与start_stream

可能会有同学好奇,在上面的示例代码中,为什么只看见stream.stop_stream而没有看见stream.start_stream呢,如果只有停止流的操作,为什么没有开启流的操作,流在哪里被开启了呢?

PyAudio 中的 stream.start_stream()stream.stop_stream() 是两个重要的流控制方法,用于控制音频流的开始和停止。

PyAudio 的流(Stream)中,start_stream()stop_stream() 方法实际上是可选的,它们的行为是与音频流的实际使用场景有关的。让我们详细解释一下这两个方法,以及为什么在某些情况下,可能看不到显式调用 start_stream()

1. stream.start_stream() 的作用

start_stream() 方法用于启动音频流,开始录制或播放音频。它是用来显式告诉程序 “现在开始处理音频数据”。

2. stream.stop_stream() 的作用

stop_stream() 方法用于停止音频流,表示录制或播放过程结束。这对于需要显式控制音频流的结束时机的程序非常有用。

为什么 start_stream() 有时没被显式调用

  1. 回调模式(Callback Mode): 如果使用了回调模式(即通过设置 stream_callback 参数来传递回调函数),那么在调用 open() 方法时,音频流已经自动开始了。回调机制会在后台处理音频数据的输入和输出。因此,在这种模式下,start_stream() 是不必要的,因为流会自动启动。

    例如:

    import pyaudiodef callback(in_data, frame_count, time_info, status):# 处理音频数据print("Recording...")return (in_data, pyaudio.paContinue)p = pyaudio.PyAudio()# 打开输入流并设置回调函数
    stream = p.open(format=pyaudio.paInt16,channels=1,rate=44100,input=True,frames_per_buffer=1024,stream_callback=callback)# 注意: 这里不需要显式调用 start_stream()
    stream.start_stream()  # 这行可以省略,回调模式会自动启动# 等待流结束
    while stream.is_active():passstream.stop_stream()
    stream.close()
    p.terminate()
    

    在这个例子中,start_stream() 虽然可以显式调用,但在使用回调模式时,可以省略,因为 PyAudio 会在底层自动处理流的启动和停止。

  2. 默认自动启动(在非回调模式下): 在非回调模式(例如通过 stream.read()stream.write() 进行音频数据的读取和写入)中,start_stream() 也是隐式调用的。在创建音频流时,open() 方法会自动启动流,并开始数据的录制或播放。

    import pyaudiop = pyaudio.PyAudio()# 设置流参数
    stream = p.open(format=pyaudio.paInt16,channels=1,rate=44100,input=True,frames_per_buffer=1024)# 此时,流已经自动启动
    data = stream.read(1024)  # 录音
    stream.stop_stream()
    stream.close()
    p.terminate()
    

    在这个例子中,open() 已经自动启动了流,调用 stream.read() 只是触发音频数据的读取过程,而不需要显式调用 start_stream()

小结

  • 回调模式:当你使用回调函数时,PyAudio 会自动管理音频流的开始和停止。因此,通常不需要显式调用 start_stream(),而只需要设置 stream_callback 并开始流的处理。
  • 非回调模式:即便是非回调模式,open() 方法有时也会自动开始音频流,尤其是在调用 stream.read()stream.write() 时,不需要显式调用 start_stream()

但是,在一些场景下,尤其是自定义更复杂的音频控制时,start_stream()stop_stream() 还是很有用的,特别是当你需要手动控制音频流的启动与停止时。

谁开启的麦克风或扬声器

在上面的示例代码中,敏锐的读者可能会发现,似乎没有发现那里调用了麦克风或扬声器,合理猜测,直接告诉我们,应该是PyAudio库调用了硬件设备,但真是如此吗,如果是,那么又是怎么调用的呢?

我们以上面的代码为例,究竟是谁调用了麦克风,开启了录音

音频的录制是通过 pyaudio 库来实现的,调用麦克风硬件的部分是由 pyaudio 库中的 PyAudio 类和它的 open() 方法来完成的。具体的过程是这样的:

调用麦克风硬件的关键步骤:

  1. pyaudio.PyAudio(): 这个步骤创建了一个 PyAudio 对象。这个对象是与音频硬件交互的主要接口,它会管理音频流(包括录音流和播放流),并负责配置音频设备。

  2. p.open(): open() 方法是用来打开一个音频流的,这个流可以是输入流(例如录音)或者输出流(例如播放音频)。在上面的代码中,p.open() 被用来打开一个输入流,用于录制音频。

    stream = p.open(format=FORMAT,channels=CHANNELS,rate=RATE,input=True,frames_per_buffer=CHUNK)
    

    关键参数:

    • format=FORMAT:指定音频数据的格式,通常为 16 位 PCM 编码(pyaudio.paInt16)。
    • channels=CHANNELS:指定录音的通道数,1 表示单声道,2 表示立体声。
    • rate=RATE:指定采样率,通常选择 44100 Hz,这是 CD 音质的标准采样率。
    • input=True:这告诉 pyaudio 创建一个输入流,也就是通过麦克风录音。如果将其设置为 False,则会创建输出流,用于播放音频。
    • frames_per_buffer=CHUNK:指定每次读取的音频块的大小,通常是 1024 或 2048。

    此时,pyaudio 会通过系统的音频接口与麦克风硬件进行连接,并开始接收音频数据。具体而言,pyaudio 会通过操作系统调用音频驱动程序来访问麦克风硬件。操作系统(如 Windows、Linux、macOS)会提供接口给 pyaudio 来处理与硬件的交互。

  3. stream.read(CHUNK): stream.read(CHUNK) 方法是用来从音频流中读取音频数据的。这里的 CHUNK 表示每次读取的音频数据的大小,也就是说它会以一定的时间间隔(根据 CHUNK 的大小)从麦克风捕捉音频数据。

    通过连续调用 stream.read(),程序不断地从麦克风获取音频数据,并将这些数据存储到 frames 列表中。

总结:

  • 谁调用了麦克风硬件?
    实际上是 pyaudio 库调用了麦克风硬件。pyaudio 作为一个高层的音频处理库,封装了与操作系统音频接口的交互。操作系统的音频驱动程序在幕后管理与麦克风硬件的连接和数据传输。
  • 如何调用的?
    • 通过 pyaudio.PyAudio() 创建的 PyAudio 实例。
    • 使用 p.open() 方法创建音频输入流(input=True),并通过该流接收来自麦克风的音频数据。
    • 最终使用 stream.read() 不断地从麦克风获取音频样本。

这样,pyaudio 库就可以通过操作系统和驱动程序,控制麦克风硬件进行录音了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/498607.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络基础知识(7)中科大郑铨老师笔记

协议层次及服务模型 计算机网络的分层设计方法,将复杂的网络功能分解为多个层次,每一层实现特定的功能。 互联网中的TCP/IP协议族,包括物理层、链 路层、网络层、传输层和应用层的功能。然后,数据传输的 过程,从应用层…

Microsoft word@【标题样式】应用不生效(主要表现为在导航窗格不显示)

背景 随笔。Microsoft word 2013基础使用,仅做参考和积累。 问题 Microsoft word 2013,对段落标题文字应用【标题样式】不生效(主要表现为在导航窗格不显示)。 图1 图2 观察图1和图2,发现图1的文字在应用【标题一】样…

TP 钱包插件版本的使用

目前 TokenPocket 的几个平台中,以 ios 和 安卓版本最为常见,其实很少有人知道,浏览器上有一个插件版本的 Tp, 用电脑多的话,这也是一个挺好的选择。 最新版本现在支持Chrome、Brave 浏览器、Edge(Firefox及Opera正在…

微信流量主挑战:三天25用户!功能未完善?(新纪元4)

🎉【小程序上线第三天!突破25用户大关!】🎉 嘿,大家好!今天是我们小程序上线的第三天,我们的用户量已经突破了25个!昨天还是16个,今天一觉醒来竟然有25个!这涨…

【AndroidAPP】权限被拒绝:[android.permission.READ_EXTERNAL_STORAGE],USB设备访问权限系统报错

一、问题原因 1.安卓安全性变更 Android 12 的安全性变更,Google 引入了更严格的 PendingIntent 安全管理,强制要求开发者明确指定 PendingIntent 的可变性(Mutable)或不可变性(Immutable)。 但是&#xf…

打印进度条

文章目录 1.Python语言实现(1)黑白色(2)彩色:蓝色 2.C语言实现(1)黑白颜色(2)彩色版:红绿色 1.Python语言实现 (1)黑白色 import sys import timedef progress_bar(percentage, width50):"""打印进度条:param percentage: 当前进度百分比…

ubuntu 使用samba与windows共享文件[注意权限配置]

在Ubuntu上使用Samba服务与Windows系统共享文件,需要正确配置Samba服务以及相应的权限。以下是详细的步骤: 安装Samba 首先,确保你的Ubuntu系统上安装了Samba服务。 sudo apt update sudo apt install samba配置Samba 安装完成后&#xff0c…

数据结构(哈希表)

背景 在对数据的日常处理中,查找是一项基本操作。通常,查找算法都是基于对比的,比如在一条链表中有n个节点,要找到其中的某个节点,最基本的思路就是从头到尾依次遍历每个节点,依次对比每个节点是否是想要的…

【每日学点鸿蒙知识】模拟器开启网络、长时任务、兼容性测试支持、丢帧定位、SO中访问rawfile等

1、模拟器如何开启网络? 模拟器使用的是电脑本身的网络,不通过代理即可访问网络。 2、创建子window后,锁屏很短时间内,应用会被杀死? 没开长时任务,锁屏和退后台保活要开长时任务。 应用退至后台后&…

如何解决Eigen和CUDA版本不匹配引起的错误math_functions.hpp: No such file or directory

Apollo9针对RTX40的docker环境里的Eigen库版本是3.3.4,CUDA是11.8: 编译我们自己封装模型的某些component代码时没问题,编译一个封装occ模型的component代码时始终报错: In file included from /usr/include/eigen3/Eigen/Geometry:11:0, …

Mac连接云服务器工具推荐

文章目录 前言步骤1. 下载2. 安装3. 常用插件安装4. 连接ssh测试5. 连接sftp测试注意:ssh和sftp的区别注意:不同文件传输的区别解决SSL自动退出 前言 Royal TSX是什么: Royal TSX 是一款跨平台的远程桌面和连接管理工具,专为 mac…

python修改ppt中的文字部分及插入图片

批量修改ppt中的某个模块,或者批量制作奖状等场景会用到; import os import pandas as pd from pptx import Presentation from pptx.util import Inchesfilepath/Users/kangyongqing/Documents/kangyq/202303/分析模版/批量制作/file1时段预警_副本.pp…

从0到机器视觉工程师(一):机器视觉工业相机总结

目录 相机的作用 工业相机 工业相机的优点 工业相机的种类 工业相机知名品牌 光源与打光 打光方式 亮暗场照明 亮暗场照明的应用 亮暗场照明的区别 前向光漫射照明 背光照明 背光照明的原理 背光照明的应用 同轴光照明 同轴光照明的应用 总结 相机的作用 相机…

gesp(C++一级)(7)洛谷:B3863:[GESP202309 一级] 小明的幸运数

gesp(C一级)(7)洛谷:B3863:[GESP202309 一级] 小明的幸运数 题目描述 所有个位数为 k k k 的正整数,以及所有 k k k 的倍数,都被小明称为“ k k k 幸运数”。小明想知道正整数 L L L 和 R R R 之间&a…

风力涡轮机缺陷检测数据集,86.6%准确识别率,11921张图片,支持yolo,PASICAL VOC XML,COCO JSON格式的标注

风力涡轮机缺陷检测数据集,86.6%准确识别率,11921张图片,支持yolo,PASICAL VOC XML,COCO JSON格式的标注 数据集下载 yolov11: https://download.csdn.net/download/pbymw8iwm/90206849 yolov…

力扣-数据结构-8【算法学习day.79】

前言 ###我做这类文章一个重要的目的还是给正在学习的大家提供方向(例如想要掌握基础用法,该刷哪些题?建议灵神的题单和代码随想录)和记录自己的学习过程,我的解析也不会做的非常详细,只会提供思路和一些关…

FreeRTOS的内存管理(选择heap4.c文件的理由)

目录 1. 了解FreeRTOS内存管理 2. 了解内存碎片 3.了解各个heap.c的内存分配方法 1.heap1.c 2.heap2.c 3.heap3.c 4.heap4.c 5.heap5.c 总结: 内存管理是一个系统基本组成部分,FreeRTOS 中大量使用到了内存管理,比如创建任务、信号量…

WPF中的Microsoft XAML Behaviors包功能详解

什么是XAML Behaviors(行为) XAML Behaviors 提供了一种简单易用的方法,能以最少的代码为 Windows UWP/WPF 应用程序添加常用和可重复使用的交互性。 但是Microsoft XAML Behaviors包除了提供常用的XAML Behaviors之外,还提供了一些Trigger&#xff08…

一文学习SpringBoot

一、SpringBoot介绍 (一)SpringBoot简介 Spring Boot 是由 Pivotal 团队提供的一个用于简化 Spring 应用初始搭建以及开发过程的框架。它基于 Spring 框架,旨在通过减少配置和简化开发流程来加速应用的开发和部署。Spring Boot 提供了嵌入式的 Tomcat、Jetty 或 Un…

本地小主机安装HomeAssistant开源智能家居平台打造个人AI管家

文章目录 前言1. 添加镜像源2. 部署HomeAssistant3. HA系统初始化配置4. HA系统添加智能设备4.1 添加已发现的设备4.2 添加HACS插件安装设备 5. 安装cpolar内网穿透5.1 配置HA公网地址 6. 配置固定公网地址 前言 大家好!今天我要向大家展示如何将一台迷你的香橙派Z…