听歌识曲--用python实现一个音乐检索器的功能

作者:唯心不易 字体:[增加 减小] 类型:转载 时间:2016-11-15 我要评论

本篇文章中主要介绍了用python实现一个音乐检索器,类似于QQ音乐的摇一摇识曲,有兴趣的同学可以了解一下。

听歌识曲,顾名思义,用设备“听”歌曲,然后它要告诉你这是首什么歌。而且十之八九它还得把这首歌给你播放出来。这样的功能在QQ音乐等应用上早就出现了。我们今天来自己动手做一个自己的听歌识曲

我们设计的总体流程图很简单:

-----
录音部分
-----

我们要想“听”,就必须先有录音的过程。在我们的实验中,我们的曲库也要用我们的录音代码来进行录音,然后提取特征存进数据库。我们用下面这样的思路来录音

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# coding=utf8
import wave
import pyaudio
class recode():
  def recode( self , CHUNK = 44100 , FORMAT = pyaudio.paInt16, CHANNELS = 2 , RATE = 44100 , RECORD_SECONDS = 200 ,
     WAVE_OUTPUT_FILENAME = "record.wav" ):
   '''
   :param CHUNK: 缓冲区大小
   :param FORMAT: 采样大小
   :param CHANNELS:通道数
   :param RATE:采样率
   :param RECORD_SECONDS:录的时间
   :param WAVE_OUTPUT_FILENAME:输出文件路径
   :return:
   '''
   p = pyaudio.PyAudio()
   stream = p. open ( format = FORMAT ,
       channels = CHANNELS,
       rate = RATE,
       input = True ,
       frames_per_buffer = CHUNK)
   frames = []
   for i in range ( 0 , int (RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)
   stream.stop_stream()
   stream.close()
   p.terminate()
   wf = wave. open (WAVE_OUTPUT_FILENAME, 'wb' )
   wf.setnchannels(CHANNELS)
   wf.setsampwidth(p.get_sample_size( FORMAT ))
   wf.setframerate(RATE)
   wf.writeframes(''.join(frames))
   wf.close()
if __name__ = = '__main__' :
  a = recode()
  a.recode(RECORD_SECONDS = 30 , WAVE_OUTPUT_FILENAME = 'record_pianai.wav' )

我们录完的歌曲是个什么形式?

如果只看一个声道的话,他是一个一维数组,大概长成这个样子

我们把他按照索引值为横轴画出来,就是我们常常看见的音频的形式。

音频处理部分

我们在这里要写我们的核心代码。关键的“如何识别歌曲”。想想我们人类如何区分歌曲? 是靠想上面那样的一维数组吗?是靠歌曲的响度吗?都不是。

我们是通过耳朵所听到的特有的频率组成的序列来记忆歌曲的,所以我们想要写听歌识曲的话,就得在音频的频率序列上做文章。

复习一下什么是傅里叶变换。博主的《信号与系统》的课上的挺水,不过在课上虽然没有记下来具体的变换形式,但是感性的理解还是有的。

傅里叶变换的实质就是把时域信号变换成了频域信号。也就是原本X,Y轴分别是我们的数组下标和数组元素,现在变成了频率(这么说不准确,但在这里这样理解没错)和在这个频率上的分量大小。

怎么理解频域这个事情呢?对于我们信号处理不是很懂的人来说,最重要的就是改变对音频的构成的理解。我们原来认为音频就是如我们开始给出的波形那样,在每一个时间有一个幅值,不同的幅值序列构成了我们特定的声音。而现在,我们认为声音是不同的频率信号混合而成的,他们每一个信号都自始至终存在着。并且他们按照他们的投影分量做贡献。

让我们看看把一首歌曲转化到频域是什么样子?

我们可以观察到这些频率的分量并不是平均的,差异是非常大的。我们可以在一定程度上认为在图中明显凸起的峰值是输出能量大的频率信号,代表着在这个音频中,这个信号占有很高的地位。于是我们就选择这样的信号来提取歌曲的特征。

但是别忘了,我们之前说的可是频率序列,傅里叶变换一套上,我们就只能知道整首歌曲的频率信息,那么我们就损失了时间的关系,我们说的“序列”也就无从谈起。所以我们采用的比较折中的方法,将音频按照时间分成一个个小块,在这里我每秒分出了40个块。

在这里留个问题:为什么要采用小块,而不是每秒一块这样的大块?

我们对每一个块进行傅里叶变换,然后对其求模,得到一个个数组。我们在下标值为(0,40),(40,80),(80,120),(120,180)这四个区间分别取其模长最大的下标,合成一个四元组,这就是我们最核心的音频“指纹”。

我们提取出来的“指纹”类似下面这样

(39, 65, 110, 131), (15, 66, 108, 161), (3, 63, 118, 146), (11, 62, 82, 158), (15, 41, 95, 140), (2, 71, 106, 143), (15, 44, 80, 133), (36, 43, 80, 135), (22, 58, 80, 120), (29, 52, 89, 126), (15, 59, 89, 126), (37, 59, 89, 126), (37, 59, 89, 126), (37, 67, 119, 126)

音频处理的类有三个方法:载入数据,傅里叶变换,播放音乐。
如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
# coding=utf8
import os
import re
import wave
import numpy as np
import pyaudio
class voice():
  def loaddata( self , filepath):
   '''
   :param filepath: 文件路径,为wav文件
   :return: 如果无异常则返回True,如果有异常退出并返回False
   self.wave_data内储存着多通道的音频数据,其中self.wave_data[0]代表第一通道
   具体有几通道,看self.nchannels
   '''
   if type (filepath) ! = str :
    print 'the type of filepath must be string'
    return False
   p1 = re. compile ( '\.wav' )
   if p1.findall(filepath) is None :
    print 'the suffix of file must be .wav'
    return False
   try :
    f = wave. open (filepath, 'rb' )
    params = f.getparams()
    self .nchannels, self .sampwidth, self .framerate, self .nframes = params[: 4 ]
    str_data = f.readframes( self .nframes)
    self .wave_data = np.fromstring(str_data, dtype = np.short)
    self .wave_data.shape = - 1 , self .sampwidth
    self .wave_data = self .wave_data.T
    f.close()
    self .name = os.path.basename(filepath) # 记录下文件名
    return True
   except :
    print 'File Error!'
  def fft( self , frames = 40 ):
   '''
   :param frames: frames是指定每秒钟分块数
   :return:
   '''
   block = []
   fft_blocks = []
   self .high_point = []
   blocks_size = self .framerate / frames # block_size为每一块的frame数量
   blocks_num = self .nframes / blocks_size # 将音频分块的数量
   for i in xrange ( 0 , len ( self .wave_data[ 0 ]) - blocks_size, blocks_size):
    block.append( self .wave_data[ 0 ][i:i + blocks_size])
    fft_blocks.append(np. abs (np.fft.fft( self .wave_data[ 0 ][i:i + blocks_size])))
    self .high_point.append((np.argmax(fft_blocks[ - 1 ][: 40 ]),
          np.argmax(fft_blocks[ - 1 ][ 40 : 80 ]) + 40 ,
          np.argmax(fft_blocks[ - 1 ][ 80 : 120 ]) + 80 ,
          np.argmax(fft_blocks[ - 1 ][ 120 : 180 ]) + 120 ,
          # np.argmax(fft_blocks[-1][180:300]) + 180,
          )) # 提取指纹的关键步骤,没有取最后一个,但是保留了这一项,可以想想为什么去掉了?
  def play( self , filepath):
   '''
   用来做音频播放的方法
   :param filepath:文件路径
   :return:
   '''
   chunk = 1024
   wf = wave. open (filepath, 'rb' )
   p = pyaudio.PyAudio()
   # 打开声音输出流
   stream = p. open ( format = p.get_format_from_width(wf.getsampwidth()),
       channels = wf.getnchannels(),
       rate = wf.getframerate(),
       output = True )
   # 写声音输出流进行播放
   while True :
    data = wf.readframes(chunk)
    if data = = "":
     break
    stream.write(data)
   stream.close()
   p.terminate()
if __name__ = = '__main__' :
  p = voice()
  p.loaddata( 'record_beiyiwang.wav' )
  p.fft()

这里面的self.high_point是未来应用的核心数据。列表类型,里面的元素都是上面所解释过的指纹的形式。

数据存储和检索部分

因为我们是事先做好了曲库来等待检索,所以必须要有相应的持久化方法。我采用的是直接用mysql数据库来存储我们的歌曲对应的指纹,这样有一个好处:省写代码的时间

我们将指纹和歌曲存成这样的形式:
顺便一说:为什么各个歌曲前几个的指纹都一样?(当然,后面肯定是千差万别的)其实是音乐开始之前的时间段中没有什么能量较强的点,而由于我们44100的采样率比较高,就会导致开头会有很多重复,别担心。

我们怎么来进行匹配呢?我们可以直接搜索音频指纹相同的数量,不过这样又损失了我们之前说的序列,我们必须要把时间序列用上。否则一首歌曲越长就越容易被匹配到,这种歌曲像野草一样疯狂的占据了所有搜索音频的结果排行榜中的第一名。而且从理论上说,音频所包含的信息就是在序列中体现,就像一句话是靠各个短语和词汇按照一定顺序才能表达出它自己的意思。单纯的看两个句子里的词汇重叠数是完全不能判定两句话是否相似的。我们采用的是下面的算法,不过我们这只是实验性的代码,算法设计的很简单,效率不高。建议想要做更好的结果的同学可以使用改进的DTW算法。

我们在匹配过程中滑动指纹序列,每次比对模式串和源串的对应子串,如果对应位置的指纹相同,则这次的比对相似值加一,我们把滑动过程中得到的最大相似值作为这两首歌的相似度。

举例:

曲库中的一首曲子的指纹序列:[fp13, fp20, fp10, fp29, fp14, fp25, fp13, fp13, fp20, fp33, fp14]

检索音乐的指纹序列: [fp14, fp25, fp13, fp17]

比对过程:


最终的匹配相似值为3

存储检索部分的实现代码

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
# coding=utf-8
import os
import MySQLdb
import my_audio
class memory():
  def __init__( self , host, port, user, passwd, db):
   '''
   初始化存储类
   :param host:主机位置
   :param port:端口
   :param user:用户名
   :param passwd:密码
   :param db:数据库名
   '''
   self .host = host
   self .port = port
   self .user = user
   self .passwd = passwd
   self .db = db
  def addsong( self , path):
   '''
   添加歌曲方法,将指定路径的歌曲提取指纹后放到数据库
   :param path:路径
   :return:
   '''
   if type (path) ! = str :
    print 'path need string'
    return None
   basename = os.path.basename(path)
   try :
    conn = MySQLdb.connect(host = self .host, port = self .port, user = self .user, passwd = self .passwd, db = self .db,
          charset = 'utf8' )
    # 创建与数据库的连接
   except :
    print 'DataBase error'
    return None
   cur = conn.cursor()
   namecount = cur.execute( "select * from fingerprint.musicdata WHERE song_name = '%s'" % basename)
   # 查询新添加的歌曲是否已经在曲库中了
   if namecount > 0 :
    print 'the song has been record!'
    return None
   v = my_audio.voice()
   v.loaddata(path)
   v.fft()
   cur.execute( "insert into fingerprint.musicdata VALUES('%s','%s')" % (basename, v.high_point.__str__()))
   # 将新歌曲的名字和指纹存到数据库中
   conn.commit()
   cur.close()
   conn.close()
  def fp_compare( self , search_fp, match_fp):
   '''
   指纹比对方法。
   :param search_fp: 查询指纹
   :param match_fp: 库中指纹
   :return:最大相似值 float
   '''
   if len (search_fp) > len (match_fp):
    return 0
   max_similar = 0
   search_fp_len = len (search_fp)
   match_fp_len = len (match_fp)
   for i in range (match_fp_len - search_fp_len):
    temp = 0
    for j in range (search_fp_len):
     if match_fp[i + j] = = search_fp[j]:
      temp + = 1
    if temp > max_similar:
     max_similar = temp
   return max_similar
  def search( self , path):
   '''
   从数据库检索出
   :param path: 需要检索的音频的路径
   :return:返回列表,元素是二元组,第一项是匹配的相似值,第二项是歌曲名
   '''
   v = my_audio.voice()
   v.loaddata(path)
   v.fft()
   try :
    conn = MySQLdb.connect(host = self .host, port = self .port, user = self .user, passwd = self .passwd, db = self .db,
          charset = 'utf8' )
   except :
    print 'DataBase error'
    return None
   cur = conn.cursor()
   cur.execute( "SELECT * FROM fingerprint.musicdata" )
   result = cur.fetchall()
   compare_res = []
   for i in result:
    compare_res.append(( self .fp_compare(v.high_point[: - 1 ], eval (i[ 1 ])), i[ 0 ]))
   compare_res.sort(reverse = True )
   cur.close()
   conn.close()
   print compare_res
   return compare_res
  def search_and_play( self , path):
   '''
   跟上个方法一样,不过增加了将搜索出的最优结果直接播放的功能
   :param path: 带检索歌曲路径
   :return:
   '''
   v = my_audio.voice()
   v.loaddata(path)
   v.fft()
   # print v.high_point
   try :
    conn = MySQLdb.connect(host = self .host, port = self .port, user = self .user, passwd = self .passwd, db = self .db,
          charset = 'utf8' )
   except :
    print 'DataBase error'
    return None
   cur = conn.cursor()
   cur.execute( "SELECT * FROM fingerprint.musicdata" )
   result = cur.fetchall()
   compare_res = []
   for i in result:
    compare_res.append(( self .fp_compare(v.high_point[: - 1 ], eval (i[ 1 ])), i[ 0 ]))
   compare_res.sort(reverse = True )
   cur.close()
   conn.close()
   print compare_res
   v.play(compare_res[ 0 ][ 1 ])
   return compare_res
if __name__ = = '__main__' :
  sss = memory( 'localhost' , 3306 , 'root' , 'root' , 'fingerprint' )
  sss.addsong( 'taiyangzhaochangshengqi.wav' )
  sss.addsong( 'beiyiwangdeshiguang.wav' )
  sss.addsong( 'xiaozezhenger.wav' )
  sss.addsong( 'nverqing.wav' )
  sss.addsong( 'the_mess.wav' )
  sss.addsong( 'windmill.wav' )
  sss.addsong( 'end_of_world.wav' )
  sss.addsong( 'pianai.wav' )
  sss.search_and_play( 'record_beiyiwang.wav' )

总结

我们这个实验很多地方都很粗糙,核心的算法是从shazam公司提出的算法吸取的“指纹”的思想。希望读者可以提出宝贵建议。

本文转载于:http://www.cnblogs.com/chuxiuhong/p/6063602.html


From: http://www.jb51.net/article/97305.htm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24860.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

教你如何用Python抓取QQ音乐歌单及分析

学了python也有一段时间了,对于爬虫,后端的框架也有一些了解,但是都是在学习的时候跟着别人写的,感觉都不是自己的知识一样。我去年就给网易云音乐提了一个建议,就是通过播放量或者一个受欢迎程度来排序,然…

用python爬取音乐APP歌单

这篇文章,我们就来讲讲怎样爬取歌单,并且播放量从高到低排列,下面是爬取结果 一 核心代码如下 1.需要导入的包有 from urllib import parse from lxml import etree from urllib3 import disable_warnings import requests2.设置请求头部信息…

这几款音乐人必备的软件,你了解吗?

近几年随着各种关于音乐的综艺节目和自媒体盛行,音乐变得更加贴近民众。除了歌手以外的,音乐生产工作中的其他角色,例如编曲师、混音师、母带师等也渐渐走进大众的视野。 EarMaster:souurl.cn/b6rSSt Guitar Pro:sou…

某某星图sign参数解密分析

​ 大家好,我是TheWeiJun,欢迎来到我的公众号。今天给大家带来星图sign参数的解密分析,希望大家能够喜欢。如果你觉得我的文章内容有用,记得点赞👍🏻关注! 特别声明:本公众号文章…

苹果发布黄色版 iPhone 14,定价 5999 元起;大神李沐被曝离职投身大模型创业;Atlassian 裁员 |极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

神经网络中的损失函数

在《神经网络中常见的激活函数》一文中对激活函数进行了回顾,下图是激活函数的一个子集—— 而在神经网络领域中的另一类重要的函数就是损失函数,那么,什么是损失函数呢? 损失函数是将随机事件或其有关随机变量的取值映射为非负实…

Sam Altman 最新访谈:谈谈 AI 的未来,还有中国 AI 发展现状

Sam Altman最新访谈:这次他更结构化地谈了AI的未来,还有中国AI现状 目录 Sam Altman最新访谈:这次他更结构化地谈了AI的未来,还有中国AI现状 划重点:

苹果发布黄色版 iPhone 14,定价 5999 元起;大神李沐被曝离职投身大模型创业;Atlassian 裁员 |极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

正在改变一切的Ai聊天机器人

ChatGPT通过Al生成的内容让我们眼花缭乱,从一个聊天机器人转化成推动一个创新时代的技术,但,也并非人人都知道,那么,你知道Chatgpt到底是什么吗? 文章目录 前言一、什么是Chatgpt?二、如何使用C…

人工智能、机器学习、深度学习、神经网络概念说明

目录 1.机器学习的范围2.机器学习的方法2.1回归算法2.2神经网络2.3 SVM(支持向量机)2.4聚类算法2.5降维算法2.6推荐算法2.7总结 3 机器学习的分类3.1 监督学习3.2 无监督学习3.3 强化学习 4 机器学习模型的评估5 机器学习的应用 6 机器学习的子类--深度学…

chatgpt赋能python:处理超大文本文件的Python技巧

处理超大文本文件的Python技巧 在今天互联网时代,我们每天都会处理大量的数据。有些数据集非常庞大,可能包含数百万行甚至数十亿行。其中最常见的就是文本文件。如何在Python中高效地处理超大文本文件呢?在本文中,我们将提供一些…

chatgpt赋能python:Python文本段落提取:优化文章阅读体验

Python文本段落提取:优化文章阅读体验 在阅读长篇文章时,我们往往需要快速地找到自己感兴趣的内容,这就需要滚动查找。但是如果一篇文章没有明确的章节分析和标记,那么这个查找过程就会变得非常麻烦。因此,一些文本段…

chatgpt赋能python:Python文本纠错:改善你的SEO和文字质量

Python文本纠错:改善你的SEO和文字质量 作为一名有10年Python编程经验的工程师,无论是对于数据分析还是自然语言处理,我都有自己独特的编程技巧和工具。在这篇文章里,我将和大家分享使用Python进行文本纠错,从而改善你…

机器学习面试手册.PDF

点击上方“AI遇见机器学习”,选择“星标”公众号 第一时间获取价值内容 分享《机器学习面试手册》 ,文末提供 高清PDF下载方式。 内容概览 Preparing for Coding Interviews Imbalanced Data in Classification Bayes Theorem and Classifier Convolutio…

最难毕业季,会Python简直可以开挂!

上半年,“史上最多毕业生1076万”冲上热搜,阅读量达4.6亿次,众多应届大学生感叹想要成为打工人竟如此艰难! 不仅如此,前几天上线的《怎么办,脱口秀大会》中,知名辩手、武汉大学新闻与传播学院讲…

Midjourney入门指南:简单提示词,搞定高质量应用设计

Midjourney是一款文本到图像的AI工具,可以根据纯文本描述生成图片,例如UI屏幕、应用程序图标、产品图片、标志和吉祥物等。虽然它不能替代UI设计师,但它可以在产品设计和视觉探索的早期阶段成为有帮助的工具。要使用Midjourney,您…

Google公布2022年度最热门Chrome扩展

Google 从去年开始一直在大力推行 Manifest V3 扩展,虽然遭到了不少外部阻力,但这并没有影响 Chrome 扩展程序生态的繁荣。那么在过去一年,有哪些扩展脱颖而出,获得了 Google 和用户的青睐呢?日前,Google 就…

《写给Python程序员的GPT指南》.pdf

点击上方“Python与机器智能”,选择“星标”公众号 第一时间获取价值内容 分享新书:《写给Python程序员的GPT指南》 ,文末提供高清PDF下载! 通过学习,可灵活使用OpenAI GPT-3、GPT-4、DALLE 2等模型开发AI应用&#xf…

【壁纸】(可商用) 70枚壁纸高清免费

小样上有分辨率尺寸,可以参考,欢迎下载。 查看付费内容 文字20个图片6张 评论推荐Ta

应届生求职简历HTML模板

优秀的简历需要具备哪些要素?1、逻辑清晰、有条有理。HR面临的动辄几百上千份简历,简历需要在5秒内让HR能够get到所有重要信息。2、重点突出,简历有亮点用成绩说话!奖学金,荣誉奖项等内容必不可少。3、目标明确&#x…