基于音乐音频数据的聚类分析

2022-07-04 05:15刘紫薇
科学与财富 2022年7期
关键词:聚类分析特征提取音频

刘紫薇

摘  要:本文使用音乐音频数据,首先对音频数据进行预处理和特征提取,得到42个特征向量,然后根据向量之间的距离计算音频相似度,使用层次聚类算法和K-means算法对音频进行聚类获得音乐数据聚类结果。利用178首音乐数据的对比实验表明,与K-means算法相比,层次聚类算法的聚类结果更容易解释,容易抽象出各类音乐的含义。

关键词:音频;特征提取;聚类分析;层次聚类;K-means

一、研究背景与目的

随着互联网的快速发展,音乐创作速度也随之迅速提高,如何将众多音频进行分类并推荐给用户成为一个关键问题。聚类分析是机器学习中常用的一种数据挖掘工具,可以自动将数据进行归类,使相似数据归为同一类型,而不同部分归为不同类型,并根据类型不同找出类型间的隐含关系。如果通过机器学习的方式自动将音频分类并根据用户的喜好推荐音乐,必然会在很大程度上提升音乐推荐软件的用户体验。本文的目的是想仅仅使用声音的统计特性来计算歌曲的相似性,以达到分类的目标,而不依赖于歌曲文件中任何已有的标签,所以这需要聚类分析。

二、音乐聚类方法研究现状

美国普林斯顿大学音乐信息检索工具使用了两种方法进行分类:(1)高斯混合模型:用一组已经标注的训练样本集对分类算法进行训练,然后再使用经过训练的分类算法对真实的音频文件进行分类;(2)K极近邻居算法:该算法是通过计算特征向量之间的距离来进行分类和检索。康柏计算机公司的剑桥研究实验室的网络音频分类研究中,对一万多音频文件首先人工标注为音乐和语音两个范畴,然后使用名为Fisher Kernel频信息进行粗略分类,该方法以高斯混合模型为基础的改进方法,优点是可以处理不同长度的音频文件,可以达到75%左右的准确率。美国南加州大学的基于内容的音频分类与检索研究中,研究人员按照短时能量函数,平均过零率(ZCR)和基频(FuF)三种音频特征将特征粗略的分为语音、音乐、环境音响和默音四种基本类别。再根据从音频文件的时间(频率)表示中抽取出来的音色、音高和变化模式等特征对以上基本类别进行细分,分类准确率达90%以上。

三、数据来源与简介

(一)数据来源

本文的原始数据来源于笔者的mp3音乐收藏,共包含178首歌曲,全部为mp3格式的文件。在聚类分析之前,需要将mp3格式的音乐文件转换为wav格式,便于后续的数据读取与分析。

(二)wav与mp3文件的转换

mp3是现在最流行的声音文件格式,这种语音格式的压缩是一种有损压缩。wav文件格式是一种重要的数字音频文件格式,没有采用压缩技术,是目前应用很广泛的一种音频格式。在本文中,我们重点关注mp3文件如何转换为wav格式。可以通过MP32WAV Professional、Mp3towav等软件将mp3文件转换为wav格式。本文的音乐mp3文件转换为wav格式后,使用Python进行数据的读取与分析。

(三)提取音频的统计特征

分别从波形的统计矩、平滑的波形统计量、差分的波形统计量和波形频率域的特征四个方面来提取音频的统计特征。最后共提取42个音频特征,其中32个波形统计量和10个频率域的特征。

四、实证研究

(一)最优聚类数的选择

2001年,Tibshirani等人提出了Gap统计量的方法对最优聚类以及最优聚类数进行估计。Gap统计量的定义如下:Gapn (k)=En* (log(Wk ) )-log(Wk)。En*表示在某參考分布下的期望,最佳聚类数k就出现在Gap(k)取最大值的时候。通过计算Gap统计量,当k=3时,是满足不等式Gap(k)≥Gap(k+1)-sk+!的最小值,即本文的音乐音频数据聚为3类比较合适。

(二)层次聚类与k-means聚类

层次聚类是最常用的聚类方法之一。层次聚类就是通过对数据集按照某种方法进行层次分解,直到满足某种条件为止。按照分类原理的不同,可以分为凝聚和分裂两种方法。在本文中,点与点之间的距离采用欧式距离,类与类之间的距离采用ward法。聚为三类时,各个类别各包含27、79和72首歌曲。

k-means聚类算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。通过对178首歌曲进行k-means聚类分析,对22个变量通过因子分析进行降维,这样便于将结果映射到二维空间上,各个类别各包含39、93和46首歌曲,可以看出聚类效果并不是特别理想,三类歌曲并没有完全地分开。

(三)抽象出各类的含义

根据层次聚类和K-means聚类的结果,通过对每一类中所包含的歌曲进行归纳总结,层次聚类的效果更好,更容易抽象出各个类别的含义,分别为(1)流行、乡村、民谣;(2)电子、说唱、摇滚;(3)古典音乐、爵士。

五、结论与不足

本文首先对音频数据进行预处理,然后提取出42个特征向量,将相关性高的特征向量剔除后,最终使用22个变量通过层次聚类法将178首歌曲可以聚为三类,抽象出各类别的含义后,第一类可归结为流行、乡村和民谣,包含27首歌曲;第二类可归结为电子、说唱和摇滚,包含79首歌曲;第三类可归结为古典音乐和爵士,包含72首歌曲。聚类分析所用的22个变量多为差分后的波形统计量和频率域的统计量,说明信号的短时变化量和在频率域的能量能够较好地反映每类歌曲之间的差异。在本文中,层次聚类的结果比K-means聚类的结果更容易抽象出各类的含义。

抽取音频的特征时,还有很多其他的系数可以考虑进来,这样可以更加全面地反映音乐音频的特征,使得聚类结果更为可信;原始数据没有类别标签,所以不知道每一首歌曲应该属于哪一类,对于聚类效果的评价有一定影响;本文的样本歌曲为178首,可以考虑增加样本量以达到更好的聚类效果。

参考文献:

[1] E.Wold, T.Blum, and D.Keslar, Content-based classification, search, and retrieval of audio, IEEE Multimedia, Fall, 1996, pp.27-36

[2] J.Foote. Content-based retrieval of music and audio. In: C.C.J.Kuo et al.(eds) Multimedia Storage and Archiving Systems Ⅱ, Proc.of SPIE, volume 3229, pp.138-147, 1997

[3] J.Foote. An overview of audio information retrieval. ACM-Springer Multimedia Systems, 1998

[4] Z Liu, J Huang, Y wang, T Chen. Audio feature extraction and analysis for scene classification. IEEE Signal Processing Society 1997 Workshop on Multimedia Signal Processing.

[5] Feiten, B, Frank, R., Ungvary, T. Oranganization of Sounds with Neural Nets. In: Proceedings of the 1991 International Computer Music Conference, International Computer Music Association. San Francisco, 1991, 441-444.

[6] L. Lu, H. Jiang, H. J. Zhang. Content Analysis for Audio Classification and Segmentation. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 10, NO.7, OCTOBER 2002

[7] 白亮. 音频分类与分割技术研究[D].国防科学技术大学,2004.

[8] 罗海涛. wav音频文件格式分析与数据获取[J]. 电脑知识与技术,2016,(27):211-213.

[9] 何月顺,周良,丁秋林. 基于Python的音频数据处理研究与应用[J]. 微机发展,2003,(11):51-53.

[10] 黄国明. 各种音频格式及其处理软件综述[A]. 中国语言学会语音学分会、中国中文信息学会语音信息专业委员会、中国声学学会语言听觉和音乐分会.第六届全国现代语音学学术会议论文集(下)[C].中国语言学会语音学分会、中国中文信息学会语音信息专业委员会、中国声学学会语言听觉和音乐分会:,2003:5.

[11] 徐秀芳,徐森,徐静,安晶. 基于谱聚类算法的音频聚类研究[J]. 软件导刊,2016,(11):36-38.

[12] 廖松博,何震瀛. HDCH:MapReduce平台上的音频数据聚类系统[J]. 計算机研究与发展,2011,(S3):472-475.

[13]于琪. 基于音乐旋律的特征聚类算法研究及其应用[D].广东工业大学,2011.

猜你喜欢
聚类分析特征提取音频
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
音频分析仪中低失真音频信号的发生方法
Bagging RCSP脑电特征提取算法
Pro Tools音频剪辑及修正
基于MED和循环域解调的多故障特征提取
Walsh变换在滚动轴承早期故障特征提取中的应用