基于回声状态网络的古典音乐分类模型

2018-09-12 04:33徐溶泽
现代电子技术 2018年17期
关键词:时间序列古典音乐特征提取

徐溶泽

摘 要: 针对当前音乐分类方法训练效率低、音乐分类精度差、分类不明确等问题,提出基于回声状态网络的古典音乐分类模型。首先对古典音频信号进行预处理,提取古典音乐MFCC特征;然后通过基于回声状态网络的古典音乐分类模型,完成古典音乐信号特征的准确分类;最后通过计算三种分类模型,分10次对古典音乐音频片段进行平均分类测试。实验结果表明,回声状态网络模型能够实现古典音乐的准确分类,具有较高的分类效率和用户满意度。

关键词: 回声状态网络; 古典音乐; 特征提取; 分类模型; 时间序列; 正确率

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2018)17?0076?04

Abstract: Since the current music classification method has the problems of low training efficiency, poor classification accuracy and unclear classification, a classical music classification model based on echo state network is proposed. The classical audio signal is preprocessed to extract the MFCC features of classical music, and then the classical music classification model based on echo state network is used to classify the classical music signal characteristics accurately. Three kinds of classification models are calculated to perform the average classification test for classical music audio segments in 10 times. The experimental results show that the echo state network model can realize the accurate classification of classical music, and has high classification efficiency and user satisfaction.

Keywords: echo state network; classical music; feature extraction; classification model; time series; correct rate

隨着数字音乐在网络中的应用价值逐渐提升,大量的音乐用户采用计算机自主采集感兴趣的音乐,提高了工程技术人员对音乐信息检索分析的兴趣。以往的音乐分类方法[1]大都采用机器学习方法,需要基于大规模的高维训练样本塑造音乐分类模型,导致模型训练效率复杂度提升,音乐分类精度降低。针对该问题,提出基于回声状态网络的古典音乐分类模型,以提高古典音乐分类准确度。

1 回声状态网络的古典音乐分类模型

1.1 古典音乐特征提取

古典音乐分类模型的基础工作就是对古典音乐特征的提取,对古典音乐特征提取的好坏直接影响古典音乐分类模型的设计质量。同语音信号相似,音乐信号也存在维度高和冗余性高的弊端,若直接将古典音乐音频信号进行分类,对古典音乐分类的效果较差。所以本文在对古典音乐进行分类前需要对原始采集的音频信号进行预处理[2],处理内容包括音频信号的加窗、分帧和静音判别等。图1为古典音乐特征提取过程。

古典音乐信号包括乐器发出的声音信号和人唱歌的音频信号。处理人声信号时需考虑口腔和声带激励对功率谱的影响。与人声信号相比,高频的古典音乐信号所占比例较小,在对高频的音乐信号进行特征提取时,需对其高频部分进行提高以便获取音频信号的频谱[3]。将滤波器应用到高频的信号中可使对古典音乐的高频频谱的获取过程变得简单。滤波器的使用就是音乐信号的预加重过程,古典音乐信号方程为:

由式(3)可以得出:对于音乐频率在1 000 Hz以下的古典音乐信号,其与梅尔倒谱系数呈线性相关;频率在1 000 Hz以上时二者为对数关系。下面为基于梅尔倒谱系数的MFCC古典音乐特征提取过程:

1) 对古典音乐信号的预处理包括上文提到的预加重和分帧等过程;

2) 对分帧后的音乐信号进行FFT转换得到每一帧音乐信号的频谱,再进行平方操作得到功率谱,假设古典音乐信号的DFT为:

上述过程中得到古典音乐特征提取方程MFCC,提取的音乐特征MFCC属于一种线性的时间序列,为下文古典音乐的分类做基础。

1.2 小波回声状态网络

回声状态网络中输入和输出变量的选择在古典音乐时间序列的预测中十分重要,选择合适的变量在提高古典音乐时间序列预测速率的同时还能提高音乐分类模型的训练速度[4]。当前对古典音乐信号的研究手段是将输入信号导入存储池中,将其分解成有规律的子信号,利用回声网络对子信号进行预测,再将所有子信号的预测结果进行聚合。利用回声状态网络对古典音乐信号进行预测,提高对古典音乐时间序列的预测精度。

基于回声状态网络的基本原理[5],本文提出基于小波回声的状态网络,其基本结构如图2所示,采用小波分解将输入的古典音乐信号分割成频率不同的子信号,再将其导入小波回声状态网络中。

本文提出基于小波回声状态网络,对过去回声状态网络的原始古典音乐时间序列进行改进[6],将不规则的古典音乐时间序列转化成规则的古典音乐时间序列,提高了古典音乐信号的预测精度,克服了小波回声网络学习不适应的问题。

1.3 基于回声状态网络的古典音乐分类模型

古典音乐信号属于维度高的复杂信号,过去人们采用的音乐信息的检索方式已经不适用于现在的音乐形式,人们追求古典音乐分类的个性化和准确性,而音乐特征的提取为音乐分类的关键步骤[7]。在古典音乐的分类领域中数据库样本较少,大量的音乐资源未被利用,采用回声状态对古典音乐资源进行训练,能够加强古典音乐分类的效果。

1.3.1 塑造古典音乐分类模型结构

采用每帧的短时能量作为输入特征。原始的古典音乐信号特征维度较高,噪音和冗杂度较高,本文先将原始的古典音乐特征输入到深度神经网络,再对原始古典音乐信号进行主成分分析(Principal Component Analysis,PCA)。PCA分析法是多变量相关性的多元统计方法,通过几个主成分来揭示多变量的结构,尽可能保留其原始的特征信息。数学处理过程是将原始的[p]个指标作为线性组合,构成新的综合指标。将原始特征矩阵导入到PCA模块中,将得到降低维度后的特征导入到回声状态网络中,再对神经网络模型进行训练得到古典音乐分类模型。

图3中的分类模型训练过程:

1) 采用wake?sleep算法,对回声状态网络中的每一层的RBM网络进行单独的训练,这种方式可以保证特征向量在映射到不同特征空间时能留存较多的特征信息。

2) 构建BP网络于回声状态网络的最后一层中,将RBM网络的输出特征向量视为BP网络的输出向量,采用这种做法可以有效地监督和训练实体关系分析器。设置的BP网络只能保证该层次中权值对特征向量的映射达到最优,无法确保整个DBN中特征向量的映射达到最优。因此反向传播网络可能将有问题的信息传播到每一层的RBM,对整个DBN起到小幅度调整的作用[9]。RBM网络训练模型即为对一个深层的BP网络进行权值的初始化过程。该过程使DBN克服了由于BP网络权值初始化的随机变化带来的训练时间增加和易出现局部最优的问题。

1.3.2 激活函数的选择

在本文回聲状态网络中,激活函数是非线性结构。本文采用非线性的激活函数ReLU,能够使古典音乐输出的时间序列不是单纯线性组合,而是可以与多种函数进行组合的复杂函数。激活函数的种类有Sigmoid函数和Softplus函数等。图4是几种不同的激活函数对古典音乐信号的激活程度结果。

从图4中可以得出,本文古典音乐分类模型采用ReLU激活函数对古典音乐信号进行激活的优势包括:

1) 与Sigmoid激活函数相比,本文采用的ReLU函数在进行反向的误差梯度求值时,求导数过程较简单;

2) 处于小波回声状态网络时ReLU函数在激活过程中不会出现梯度消失的情况;

3) 采用ReLU函数得出输出结果会出现部分为空值的现象,这种情况会使小波状态网络具有分散性,可缓解分类模型长时间运行导致的负荷过高的问题。

2 实验结果与分析

实验将采集到预处理后的古典音乐的音频片段分别分为长度相同的3段、6段、8段和10段的古典音频片段,并对此进行标记。采用本文模型对古典音乐分类模型实施训练,共分为4个模型,每个音乐分类模型分别包含3段、6段、8段和10段音频片段。实验采用的音频片段包括10种不同的古典音乐,每种古典音乐的单词上限为1 100。表1为采用本文模型对包含不同音乐片段的10类古典音乐分类正确率的计算结果。由表1结果可以看出,本文古典音乐分类模型包含6段音频片段时的分类正确率最高,随着音乐片段的增加模型对古典音乐分类的正确率逐渐下降,说明音乐片段的多少影响本文模型进行古典音乐分类的正确率,进而影响听众对古典音乐的选择。

表2是在取不同数量的音乐片段时,本文古典音乐分类模型对应的训练时间和测试时间。

分析表2能够看出,随着本文古典音乐分类模型包含音乐片段的增加,本文模型对分类模型训练和测试的时间也有所增加,实验对本文模型的分类时间进行测试,模型在训练期间的用时远远高于实验测试的实际值,说明本文模型对古典音乐分类的效率较高。

为了验证本文模型在古典音乐分类中的分类效果,实验选取基于数据挖掘和基于神经网络的两种音乐分类模型作为实验对照,选取包含6段古典音乐音频片段,计算三种分类模型10次对该音乐片段的平均分类结果,表3为不同模型下人们对古典音乐分类的满意率。由表3三种模型对音乐分类结果可以看出,本文模型采用回声状态网络相比另外两种分类模型,分类结果的满意率较高,本文模型比基于数据挖掘的音乐分类模型高9个百分点左右,比基于神经网络的音乐分类模型高8.5个百分点左右,说明本文模型对古典音乐的分类效果更能令人满意。

表4表示在取相同数量的音乐片段时,三种模型对古典音乐分类过程中的训练时间和测试时间。从表4可以看出,本文模型无论在模型训练和模型测试的时间都短于另外两种模型,说明本文分类模型优于另外两种模型,证明本文模型对古典音乐能够实现高精度的分类,用户满意度高。

3 结 论

为了改善古典音乐的分类效果,提出基于回声状态网络的古典音乐分类模型,采用具体古典音乐数据进行古典音乐的分类测试。结果表明,本文模型获得了理想的古典音乐分类结果,而且性能要优于其他模型。

参考文献

[1] 邵曦,姚磊.基于SVM主动学习的音乐分类[J].计算机工程与应用,2016,52(6):127?133.

SHAO Xi, YAO Lei. Music classification based on SVM active learning [J]. Computer engineering and applications, 2016, 52(6): 127?133.

[2] 韩敏,许美玲,王新迎.多元时间序列的子空间回声状态网络预测模型[J].计算机学报,2014,37(11):2268?2275.

HAN Min, XU Meiling,WANG Xinying. A multivariate time series prediction model based on subspace echo state network [J]. Chinese journal of computers, 2014, 37(11): 2268?2275.

[3] 王怡鸥,丁刚毅,蒙军,等.基于三元回声状态网络的二氧化碳浓度预测[J].计算机仿真,2016,33(2):475?479.

WANG Yiou, DING Gangyi, MENG Jun, et al. The forecas?ting of carbon dioxide concentrations based on triplet echo state networks [J]. Computer simulation, 2016, 33(2): 475?479.

[4] 吴淦洲.基于特征提取与神经网络的音乐分类方法[J].数学的实践与认识,2014,44(5):94?100.

WU Ganzhou. Music category based on feature extraction and neural network [J]. Mathematics in practice and theory, 2014, 44(5): 94?100.

[5] 郭伟,于凤芹.基于负熵最大化改进的语音音乐信号分离[J].计算机工程与应用,2015,51(4):209?212.

GUO Wei, YU Fengqin. Speech?music separation based on improved algorithm of negentropy maximization [J]. Computer engineering and applications, 2015, 51(4): 209?212.

[6] 刘鑫,鲍长春.基于回声状态网络的音频频带扩展方法[J].电子学报,2016,44(11):2758?2766.

LIU Xin, BAO Changchun. Audio bandwidth extension method based on echo state network [J]. Acta electronica Sinica, 2016, 44(11): 2758?2766.

[7] 张键锋,王劲.基于文本挖掘与神经网络的音乐风格分类建模方法[J].电信科学,2015,31(7):86?91.

ZHANG Jianfeng, WANG Jin. A classification method of music style based on text mining and neural network [J]. Telecommunications science, 2015, 31(7): 86?91.

[8] 黄文华.改进回声状态网络的热点话题预测模型[J].计算机工程与应用,2014,50(14):26?30.

HUANG Wenhua. Hot topic prediction model based on improved echo state network [J]. Computer engineering and applications, 2014, 50(14): 26?30.

[9] 李博,陈志刚,黄瑞,等.基于LDA模型的音乐推荐算法[J].计算机工程,2016,42(6):175?179.

LI Bo, CHEN Zhigang, HUANG Rui, et al. Music recommendation algorithm based on LDA model [J]. Computer enginee?ring, 2016, 42(6): 175?179.

[10] ALOMAR M L, CANALS V, PEREZ?MORA N, et al. FPGA?based stochastic echo state networks for time?series forecasting [J]. Computational intelligence & neuroscience, 2016(2): 391?397.

猜你喜欢
时间序列古典音乐特征提取
影视中的古典音乐
基于Daubechies(dbN)的飞行器音频特征提取
古典音乐广播节目的通俗化表达探析
集大成的交响乐《英雄》:兼谈怎样听古典音乐
Bagging RCSP脑电特征提取算法
基于时间序列的我国人均GDP分析与预测
基于线性散列索引的时间序列查询方法研究
基于组合模型的能源需求预测
基于MED和循环域解调的多故障特征提取
古典音乐欣赏与时代的融合——经典作品欣赏引发的思考