Speech | 语音处理,分割一段音频(python)

本文主要是关于语音数据在处理过程中的一些脚本文件以及实例,所有代码只需要更改所需处理的文件路径,输出路径等,全部可运行。

目录

所需环境

方法1:将一整段音频按时间批量切成一个一个音频

方法2:将一整段音频按语句停顿批量切成一个一个音频

方法3:将一个文件夹内的几整段音频批量切成一个一个音频

3.1.数据格式:一个文件夹下的长几分多的音频(wav文件)按固定秒数切割

3.2.数据格式:一个文件夹下的长几分多的音频(mp3文件)按固定秒数切割

3.3.数据格式:一个文件夹下的长几分多的音频(wav文件)按语句停顿切割

扩展

将pcm文件批量处理成wav文件

Linux下查询文件夹中文件数量的方法

使用ls命令和wc命令

WAV格式文件详解


所需环境

本文环境:Linux

pydub(安装:pip3 install pydub)

ffmpeg(apt install ffmpeg)

方法1:将一整段音频按时间批量切成一个一个音频

数据格式:一个长三分五十秒的音频

# split_wav_time.py
from pydub import AudioSegment
from pydub.utils import make_chunksaudio = AudioSegment.from_file("his_one/1.wav", "wav")#size = 10000  #切割的毫秒数 10s=10000
size = 60000  #切割的毫秒数 60s=60000chunks = make_chunks(audio, size)  #将文件切割为60s一个for i, chunk in enumerate(chunks):chunk_name = "new-{0}.wav".format(i)print(chunk_name)chunk.export(chunk_name, format="wav")

运行命令:

python split_wav_time.py

 结果:

方法2:将一整段音频按语句停顿批量切成一个一个音频

数据格式:一个长几分多的音频

利用split_on_silence(sound,min_silence_len,   silence_thresh,    keep_silence=400)函数

第一个参数为待分割音频,第二个为多少秒“没声”代表沉默,第三个为分贝小于多少dBFS时代表沉默,第四个为为截出的每个音频添加多少ms无声

from pydub import AudioSegment
from pydub.silence import split_on_silencesound = AudioSegment.from_mp3("his_one/1.wav")
loudness = sound.dBFS
#print(loudness)chunks = split_on_silence(sound,# must be silent for at least half a second,沉默半秒min_silence_len=430,# consider it silent if quieter than -16 dBFSsilence_thresh=-45,keep_silence=400)
print('Len:', len(chunks))# 放弃长度小于2秒的录音片段
for i in list(range(len(chunks)))[::-1]:if len(chunks[i]) <= 2000 or len(chunks[i]) >= 10000:chunks.pop(i)
print('取有效分段(大于2s小于10s):', len(chunks))'''
for x in range(0,int(len(sound)/1000)):print(x,sound[x*1000:(x+1)*1000].max_dBFS)
'''for i, chunk in enumerate(chunks):chunk.export("cutwav_{0}.wav".format(i), format="wav")#print(i)

  结果:

方法3:将一个文件夹内的几整段音频批量切成一个一个音频

3.1.数据格式:一个文件夹下的长几分多的音频(wav文件)按固定秒数切割

from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re# # 循环目录下所有文件
for each in os.listdir("/workspace/tts/PolyLangVITS/history"): #循环目录filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后缀的文件名print(each)if each:# filename[0] += '.wav'# print(filename[0])mp3 = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav") # 打开mp3文件
#         # # mp3[17*1000+500:].export(filename[0], format="mp3") #size = 15000  # 切割的毫秒数 10s=10000chunks = make_chunks(mp3, size)  # 将文件切割为15s一块for i, chunk in enumerate(chunks):chunk_name = "{}-{}.wav".format(each.split(".")[0],i)print(chunk_name)chunk.export('/workspace/tts/PolyLangVITS/preprodata/his_out/{}'.format(chunk_name), format="wav")

 结果

3.2.数据格式:一个文件夹下的长几分多的音频(mp3文件)按固定秒数切割

from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re
# #
# # 循环目录下所有文件
for each in os.listdir("D:/纯音乐"): #循环目录filename = re.findall(r"(.*?)\.mp3", each) # 取出.mp3后缀的文件名print(each)if each:# filename[0] += '.wav'# print(filename[0])mp3 = AudioSegment.from_file('D:/纯音乐/{}'.format(each), "mp3") # 打开mp3文件
#         # # mp3[17*1000+500:].export(filename[0], format="mp3") #size = 15000  # 切割的毫秒数 10s=10000chunks = make_chunks(mp3, size)  # 将文件切割为15s一块for i, chunk in enumerate(chunks):chunk_name = "{}-{}.mp3".format(each.split(".")[0],i)print(chunk_name)chunk.export('D:/纯音乐分解/{}'.format(chunk_name), format="mp3")```

 3.3.数据格式:一个文件夹下的长几分多的音频(wav文件)按语句停顿切割

 

# @ Elena
# @ Date : 23.9.4import os, re
from pydub import AudioSegment
from pydub.silence import split_on_silence# # 循环目录下所有文件
for each in os.listdir("/workspace/tts/PolyLangVITS/history"): filename = re.findall(r"(.*?)\.wav", each) # 取出.wav后缀的文件名print(each)if each:sound = AudioSegment.from_file('/workspace/tts/PolyLangVITS/history/{}'.format(each), "wav")loudness = sound.dBFS#print(loudness)chunks = split_on_silence(sound,# must be silent for at least half a second,沉默半秒min_silence_len=430,# consider it silent if quieter than -16 dBFSsilence_thresh=-45,keep_silence=400)print('Len:', len(chunks))# 放弃长度小于1秒的录音片段for i in list(range(len(chunks)))[::-1]:if len(chunks[i]) <= 1000 or len(chunks[i]) >= 10000:chunks.pop(i)print('Len (1s~10s wav file):', len(chunks))'''for x in range(0,int(len(sound)/1000)):print(x,sound[x*1000:(x+1)*1000].max_dBFS)'''for i, chunk in enumerate(chunks):chunk_name = "{}-{}.wav".format(each.split(".")[0],i) chunk.export("/workspace/tts/PolyLangVITS/preprodata/his_out/{}".format(chunk_name), format="wav")#print(i)

结果

使用 file 查询  wav

(WAV文件格式是Microsoft的RIFF规范的一个子集,用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成,分别为: RIFF WAVE Chunk,Format Chunk,Fact Chunk(可选),Data Chunk。具体格式如下:)

扩展

将pcm文件批量处理成wav文件

import wave
import osfilepath = "data/"  # 添加路径
filename = os.listdir(filepath)  # 得到文件夹下的所有文件名称
#f = wave.open(filepath + filename[1], 'rb')
#print(filename)
for i in range(len(filename)):with open("data/"+failename[i], 'rb') as pcmfile:pcmdata = pcmfile.read()with wave.open("data/"+filename[i][:-3] + '.wav', 'wb') as wavfile:wavfile.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))wavfile.writeframes(pcmdata)

Linux下查询文件夹中文件数量的方法

使用ls命令和wc命令

使用ls命令的-l选项和管道操作符|结合wc命令来统计文件数量:

查询当前文件夹下带有“wav”的文件数量

ls -l | grep "wav" | wc -l

 

WAV格式文件详解

WAV文件格式是Microsoft的RIFF规范的一个子集,用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成,分别为: RIFF WAVE Chunk,Format Chunk,Fact Chunk(可选),Data Chunk。具体格式如下:

音频文件参数简介
对于形如44100HZ 16bit stereo 或者 22050HZ 8bit mono参数描述的音频文件,其蕴含的文件参数包括:

采样率:声音信号在“模→数”转换过程中单位时间内采样的次数。
采样值(采样精度):每一次采样周期内声音模拟信号的积分值。
同时,每个采样数据记录的是振幅, 而采样精度取决于储存空间的大小。
对于单声道(mono)文件,采样数据为8位的短整数,同时其采样精度有:

1 字节(8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
2 字节(16bit) 可以细到 65536 个数, 即为 CD 标准;
4 字节(32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了。
对于双声道立体声(stereo)文件,每次采样数据为一个16位的整数(int),且采样是双份的,也为单声道文件的两倍。采样数据中高八位(左声道)和低八位(右声道)分别代表两个声道。

由于wav格式文件本质上为音频文件,即可根据文件的大小、采样频率和采样大小估算文件的播放长度。
更多可查看Microsoft WAVE soundfile format (sapp.org)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/125072.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++的类型转换

前言 我们都知道C是兼容C语言的在C语言中存在两种方式的类型转换&#xff0c;分别是隐式类型转换和显示类型转换&#xff08;强制类型转换&#xff09;&#xff0c;但是C觉得C语言的这套东西是够好&#xff0c;所以在兼容C语言的基础上又搞了一套自己的关于类型转换的东西。 目…

2023高教社杯数学建模C题思路代码 - 蔬菜类商品的自动定价与补货决策

# 1 赛题 在生鲜商超中&#xff0c;一般蔬菜类商品的保鲜期都比较短&#xff0c;且品相随销售时间的增加而变差&#xff0c; 大部分品种如当日未售出&#xff0c;隔日就无法再售。因此&#xff0c; 商超通常会根据各商品的历史销售和需 求情况每天进行补货。 由于商超销售的蔬菜…

mysql创建用户

创建用户 创建 -- 创建用户 itcast , localhost只能够在当前主机localhost访问, 密码123456; create user test01localhost identified by 123456;使用命令show databases;命令&#xff0c;只显示一个数据库&#xff0c;因为没有权限 -- 创建用户 test02, 可以在任意主机访问…

Stream API

Stream API执行流程 Stream API(java.util.stream)把真正的函数式编程风格引入到Java中,可以极大地提高程序员生产力&#xff0c;让程序员写出高效、简洁的代码 实际开发中项目中多数数据源都是来自MySQL、Oracle等关系型数据库,还有部分来自MongDB、Redis等非关系型数据库 …

vue3路由跳转params传参接收不到

import { useRouter } from "vue-router";const router useRouter(); // 提现记录 const withdrawalClick (item) > {router.push({ name: "Devwithdrawal", params: { name: 123 } }); };//跳转页面接收参数 import { useRoute } from "vue-rou…

网络是如何进行通信

网络是如何进行通信的 简介 在现代社会中&#xff0c;网络已经成为我们生活中不可或缺的一部分。从上网搜索信息、在线购物到远程工作和社交媒体&#xff0c;我们几乎无时无刻不与网络保持着联系。但是&#xff0c;网络究竟是个什么玩意&#xff0c;它是如何工作的呢&#xf…

Web服务器简介及HTTP协议

一、Web Server&#xff08;网页服务器&#xff09; 一个 Web Server 就是一个服务器软件&#xff08;程序&#xff09;&#xff0c;或者是运行这个服务器软件的硬件&#xff08;计算机&#xff09;。其主要功能是通过 HTTP 协议与客户端&#xff08;通常是浏览器&#xff08…

python可视化模块—快速利用matplot绘制图表

文章目录 一、Matplotlib基本介绍二、两种绘图方式区别&#xff08;plt.*** 和ax.***&#xff09;三、如何使用Matplotlib绘图1、画布—绘画的画板2、配置—更个性化的绘图全局配置局部配置面向对象绘图过程&#xff1a;ax代表子图变量过程式绘图过程 四、常用绘图图形如何选择…

配电房能源监测系统

配电房能源监测系统是一种能够实时监测和管理配电房能源消耗的系统&#xff0c;有助于企业更好地管理能源使用&#xff0c;降低能源成本&#xff0c;提高能源利用效率。本文将详细介绍配电房能源监测系统的组成、功能和优点。 一、配电房能源监测系统的组成 配电房能源监测系统…

网络通信深入解析:探索TCP/IP模型

http协议访问web 你知道在我们的网页浏览器的地址当中输入url&#xff0c;未必是如何呈现的吗&#xff1f; web浏览器根据地址栏中指定的url&#xff0c;从web服务器获取文件资源&#xff08;resource&#xff09;等信息&#xff0c;从而显示出web页面。web使用HTTP&#xff08…

OpenHarmony 使用 ArkUI Inspector 分析布局

● 摘要&#xff1a;视图的嵌套层次会影响应用的性能&#xff0c;开发者应该移除多余的嵌套层次&#xff0c;缩短组件刷新耗时。本文会介绍如何使用 ArkUI Inspector 工具分析布局&#xff0c;提示应用响应性能。 ● 关键字&#xff1a;列举本文相关的关键字&#xff1a;OpenH…

vue3:3、项目目录和关键文件

关于vsvode的更改 <!-- 加上setup允许在script中直接编写组合式api --> <script setup> // 组件引入后直接用 import HelloWorld from ./components/HelloWorld.vue import TheWelcome from ./components/TheWelcome.vue</script><!-- 1、js放在最上面&am…

Mavan进阶之多模块(聚合)

文章目录 Maven 多模块&#xff08;聚合&#xff09;非父子关系的多模块项目 Maven 多模块&#xff08;聚合&#xff09; Maven 继承和聚合是 2 个独立的概念。工程与工程之间可能毫无关系&#xff0c;也可能是继承关系&#xff0c;也可能是聚合关系&#xff0c;也可能既是继承…

美客多选品趋势分析,美客多选品时的注意事项

都知道选品的重要性&#xff0c;美客多这个平台也一样&#xff0c;选品选对了肯定事半功倍&#xff0c;本文介绍了美客多选品趋势分析&#xff0c;美客多选品时的注意事项&#xff0c;一起来了解下吧。、 美客多选品趋势分析 1、墨西哥站&#xff1a;跨境支付高&#xff0c;偏…

CSS---flex布局

主要记录flex布局的要点以及实例 flex flex父标签的6个属性flex-direction: flex布局的方向flex-wrap: 是否可以换行flex-flow: flex-direction 和 flex-wrap 一起写justify-content&#xff1a;横向对齐方式align-items: 纵向对齐方式align-content: 有换行情况下的纵向对齐方…

【MySQL系列】MySQL的事务管理的学习(一)_ 事务概念 | 事务操作方式 | 事务隔离级别

「前言」文章内容大致是MySQL事务管理。 「归属专栏」MySQL 「主页链接」个人主页 「笔者」枫叶先生(fy) 目录 一、事务概念二、事务的版本支持三、事务提交方式四、事务常见的操作方式4.1 事务正常操作4.2 事务异常验证 五、事务隔离级别5.1 查看与设置隔离性5.2 读未提交&…

jmeter 准确的吞吐量定时器 Precise Throughput Timer

准确的吞吐量定时器使用实例 提取码&#xff1a;gpex&#xff1a; 说明&#xff1a;配置10个线程&#xff0c;每个线程请求200次&#xff0c;通过准确地的定时器模拟QPS为20的场景 配置测试接口参考链接 配置jmeter测试脚本&#xff0c;主要关注准确的吞吐量定时器参数配置 目…

OpenCV(二十六):边缘检测(二)

目录 1.Laplacian算子边缘检测 原理&#xff1a; Laplacian边缘检测函数Laplacian() 示例代码&#xff1a; 2.Canny算子边缘检测 原理&#xff1a; Canny算法函数Canny() 示例代码&#xff1a; 1.Laplacian算子边缘检测 原理&#xff1a; Laplacian算子的原理基于图像…

uniapp分包 解决分多个包的问题

1. 分包可以分很多个, 但是在"optimization": { "subPackages": true } 里面只能写一个, 2. 想分多个包 , 在 pages.json 里面 的 subPackages 里面继续加 第三个 第四个即可 3. 保存之后 创建页面就可以看见多个包了

固定资产台账怎么管理

固定资产台账是指企业对固定资产进行登记、分类、统计和管理的账簿。云呐固定资产管理系统是一款专业的固定资产管理软件&#xff0c;可以帮助企业实现资产全生命周期管理&#xff0c;包括资产采购、入库、领用、归还、维修、报废等环节。系统具有实时监控、预警提醒、报表分析…