基于音频指纹技术的乐曲节拍识别系统

2021-07-29 07:33刘红梅
微型电脑应用 2021年7期
关键词:指纹音频乐曲

刘红梅

(阿克苏职业技术学院 人文艺术学院,新疆 阿克苏 843000)

0 引言

随着人们生活水平不断的提高,对音乐需求更加广泛,同时随着声乐技术不断的成熟,出现了许多音曲,乐曲节拍具有多样性,如何对乐曲节拍进行准确识别,是当前音乐研究领域中的一个重要课题[1-3]。

针对乐曲节拍识别问题,许多学者和研究机构进行了广泛、深入的研究,提出许多有效的乐曲节拍识别方法[4-6]。乐曲节拍识别与语音识别具有一定的相似性,识别原理大致相同,如基于卷积神经网络的乐曲节拍识别方法等[7-9]。在实际应用中,这些乐曲节拍识别方法还存在许多不足,如乐曲节拍识别的精度低,经常出现误识现象,拒识率相当高,难以满足乐曲节拍识别的实际要求[10-12]。

音频指纹是一种重要的语音信号特征,其可以描述乐曲节拍类型,为了提高乐曲节拍识别精度,克服当前乐曲节拍识别过程中存在的不足,提出基于音频指纹技术的乐曲节拍识别系统,并与当前其它乐曲节拍识别系统进行了对比测试。结果表明,本文系统得到了理想的乐曲节拍识别结果,乐曲节拍误识率低于对比系统,验证了本文系统的优越性。

1 基于音频指纹技术的乐曲节拍识别系统

一个完整的乐曲节拍识别系统包括硬件部分和软件部分,其中硬件部分是乐曲节拍识别系统的基础,而软件部分是乐曲节拍识别系统的灵魂,两部分协调工作完成乐曲节拍识别。

1.1 乐曲节拍识别系统的硬件结构

基于音频指纹技术的乐曲节拍识别系统硬件结构如图1所示。

图1 乐曲节拍识别系统的硬件结构

主要包括:乐曲节拍信号采集模块、乐曲节拍信号的存储和传输模块,乐曲节拍识别模块。乐曲节拍信号通过传感器进行采集,通过TMS320VC5402 微处理器对乐曲节拍信号进行放大处理,将放大处理后的乐曲节拍信号输入到存储器保存起来,同时将乐曲节拍信号数据根据计算机能够识别的形式存储到乐曲数据库中,其中乐曲节拍识别模块是最为关键的部分,其直接影响乐曲节拍识别结果的好坏,本文采用音频指纹算法的乐曲节拍识别技术。

由于乐曲节拍信号具有一定的特殊性,为了防止乐曲节拍信号被放大处理产生变形现象,处理器的电路采用二级阻容耦合模式。一级电路为射极跟随电路,其主要用于去除乐曲节拍信号中的噪声,保证输入与输出信号的相位不发生变化,将未失真信号输入到下一级电路进行处理;二级电路为共射极放大电路,主要用于对乐曲节拍信号进行放大处理,同时使放大后的乐曲节拍信号不发生变形。

1.2 基于音频指纹的乐曲节拍识别方法

在进行乐曲节拍识别时,首先要建立乐曲节拍识别的指纹数据库,对于待识别的乐曲节拍信号,计算其与数据库中指纹的匹配度,根据匹配度得到乐曲节拍识别结果[12]。

1.2.1 提取乐曲节拍信号的指纹

对于待识别的乐曲节拍信号,通过以下步骤提取其指纹。

Step1:采集待识别的乐曲节拍信号,对原始乐曲节拍信号进行一定的预处理,去掉无用的信号,保留有用的乐曲节拍信号。

Step2:对预处理后的乐曲节拍信号进行分帧处理,第i帧音频信号为g(i),所有帧的乐曲节拍信号采样周期和帧的长度是一致的。

Step3:对分帧的乐曲节拍信号进行复倒谱转换,第2i-1,2i,2i+1帧乐曲节拍信号之间的关系可以描述为式(1)。

(1)

其中,N表示帧数量。

Step4:提取乐曲节拍的指纹系数p*(i),具体计算为式(2)。

(2)

Step4:将乐曲节拍的指纹系数与阈值t进行比较,根据比较结果得到一个由1和0组成的指纹序列如式(3)。

(3)

1.2.2 基于指纹的乐曲节拍识别

数据库中的乐曲节拍指纹集合为H={H1,H2,…,Hn},对于待识别的乐曲节拍,其指纹序列为P={P1,P2,…,Pn},为了找到一种映射方式可以对p进行估计,从而实现并置运算,最终得到式(4)。

p=ω1+ω2+…+ωn

(4)

其中,ωi表示乐曲节拍信号的子串[13]。

为了指纹数据库构建立q-grams子串,一个串长度为n串包括n-q+1个q-grams子串。如当q=2时,存在5个q-grams子串,分别为poss、ossi、ssib、sibl、ible,把它们的值作为待识别乐曲节拍的指纹索引值,计算乐曲节拍指纹子串匹配的数量,根据打分方式得到数据库的乐曲节拍序列和待识别乐曲节拍的匹配分值,选择分值最高序列作为初始列,具体打分方式为式(5)。

(5)

其中,p(i)和h(i)为目标序列和源序列的索引值。

为了获得乐曲节拍指纹最优匹配结果,需要找到乐曲节拍指纹最长的公用子串,根据最长公用子串的轨迹,就可以找到最长子串在乐曲节拍源序列中的位置。

综合上述分析可知,基于音频指纹的乐曲节拍识别系统的工作流程如图2所示。

图2 基于音频指纹的乐曲节拍识别流程

2 仿真测试

2.1 测试对象

为测试基于音频指纹的乐曲节拍识别系统的性能,使用采样频率是23 kHz、分辨率是17 bit、8 s长的MP3音乐文件实施测试,此音乐文件中有多种某类型乐曲。乐曲节拍原始指纹和待识别的乐曲节拍音频指纹分别为H(i)、P(i),具体计算如式(6)、式(7)。

(6)

(7)

2.2 乐曲节拍识别系统的鲁棒性分析

首先对乐曲节拍识别系统的鲁棒性进行测试,当前乐曲节拍受到外界环境影响的主要因素包括:重采样、低通滤波、重量化等,对于各种影响因素,采用信噪比和互相关系数评价乐曲节拍识别系统的性能,结果如图3和图4所示。

图3 本文系统的采集信号信噪比

图4 本文系统的提取指纹相关系数

对图3和图4的结果进行分析可以知道,本文系统的信噪比高,而且原始指纹信息和提取指纹信息之间的互相关系数高,它们两者之间的相似度比较高,这表明,外界因素对本文乐曲节拍识别系统的干扰比较小,具备较显著的鲁棒性,可以获得理想的乐曲节拍信号。

2.3 本文系统的乐曲节拍识别效果

测试本文系统的乐曲节拍识别精度,识别精度的计算如式(8)。

(8)

选择6种乐曲作为测试对象,它们分别为:交响曲、协奏曲、圆舞曲、进行曲、浪漫曲、奏鸣曲,为了使数字更为直观清晰,对6种乐曲的详细情况分别以图和表形式进行描述,测试对象分布如图5所示。

图5 6种乐曲的数量详细分布

本文系统对乐曲节拍中有效音频信号识别错误数如表1所示。

表1 本文系统的乐曲节拍识别错误数

分析表1可知,本文系统仅对奏鸣曲的节拍识别存在错误,其它5种乐曲节拍识别结果不存在错误,证明了本文系统的有效性。

本文系统对乐曲节拍识别精度计算结果如图6所示。

图6 本文系统的乐曲节拍识别精度

从图6可以发现,本文系统乐曲节拍识别精度很高,完全可以满足乐曲节拍识别的实际应用要求。

对于采样、低通滤波、重量化环境,统计本文系统的乐曲节拍识别精度,结果如图7所示。

图7 不同因素影响下的乐曲节拍识别精度

从图7可以发现,在重采样、低通滤波、重量化条件下,本文系统的乐曲节拍识别精度仍然很高,获得了理想的乐曲节拍识别结果。

2.4 乐曲节拍指纹的提取效果分析

为了分析本文系统的乐曲节拍指纹提取效果,计算乐曲节拍指纹漏识率(ERROR),如式(9)。

ERROR=(δ-γ)×100%

(9)

式中,γ和δ分别表示提取和实际指纹数量。

乐曲节拍的实际指纹数量变化曲线如图8所示。

图8 乐曲节拍的指纹实际数量

计算本文系统的乐曲节拍指纹漏识率,具体如图9所示。

图9 本文系统的乐曲节拍指纹漏识率

对图9乐曲节拍的指纹漏识率进行分析可以发现,本文系统的乐曲节拍的指纹漏识率极低,甚至可以忽略不计,可以有效提取乐曲节拍的指纹。

4 总结

乐曲节拍识别是当前研究的热点,其识别结果可以为乐曲智能创作提供有价值的参考信息,为了改善乐曲节拍识别效果,提出基于音频指纹技术的乐曲节拍识别系统,并通过仿真实验可知:无论有噪无噪环境,本文系统都可以获得较高精度的乐曲节拍识别结果,对噪声具有一定的鲁棒性,乐曲节拍识别漏识率低,解决了当前乐曲节拍识别过程中存在的问题,具有较高的实际应用价值。

猜你喜欢
指纹音频乐曲
像侦探一样提取指纹
为什么每个人的指纹都不一样
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
音频分析仪中低失真音频信号的发生方法
准妈妈必听十首胎教乐曲
基于自适应稀疏变换的指纹图像压缩
Pro Tools音频剪辑及修正
悲伤的乐曲
可疑的指纹