基于平稳子空间分析和相对熵的分类算法

2016-09-22 01:25周晓园余旌胡
关键词:个数分类样本

周晓园,余旌胡

(武汉理工大学 理学院,湖北 武汉 430070)



基于平稳子空间分析和相对熵的分类算法

周晓园,余旌胡

(武汉理工大学 理学院,湖北 武汉 430070)

针对多维时间序列维数多、变量间关系复杂的特点,提出了一种基于平稳子空间分析和相对熵的分类算法。首先,利用平稳子空间分析法将多维数据分离为平稳子空间和非平稳子空间;其次,利用相对熵衡量平稳子空间的分布相似性;最后,进行真实数据集的分类。研究结果表明:平稳子空间分析和相对熵分类算法优于DTW算法和PCA-ED算法。

多维时间序列;平稳子空间分析;相对熵;分类算法

0 引言

多维时间序列在日常生活中普遍存在,其分类研究广泛应用于遥感图像分类[1]、电脑图分析[2]和航空机械设备的质量评估[3]等领域中。因此,研究多维时间序列分类具有重大的现实意义。由于多维时间序列具有维数多和变量间关系复杂的特点,文献[4]基于动态时间规整(dynamic time warping,DTW)的动态算法对多维时间序列进行了分类。DTW算法的缺点是运算量大、耗时长且匹配效果对端点的选择过于依赖[5]。文献[6]采用主成分分析(principal component analysis,PCA)对原始样本进行降维,然后借助欧氏距离(Euclid distance,ED)将测试样本归入与其最近的类别中,减少了冗余信息造成的误差,提高了分类精度。由于PCA计算简单且能保留原始变量的重要信息,因此被应用于人脸识别[7]和文本特征提取[8]等方面。PCA的缺点是需要很大的存储空间和计算复杂度,且要求有足够多的样本点[9]。

针对DTW算法和PCA-ED算法对时间跨度小和样本数量少的多维时间序列分类效果不佳的缺点,本文提出一种基于平稳子空间分析[10](stationary subspace analysis,SSA)和相对熵(relative entropy)[11](KL距离)多维时间序列的分类算法,简称SSA-KL算法。SSA是由Bunau等提出的一种盲源分离方法,可以把多维时间序列分解为相互独立的两个部分:平稳部分和非平稳部分。SSA方法在故障诊断[12-13]等方面获得了成功的应用,而相对熵作为一种衡量相似度的方法也已被用于行为识别[14]等方面。

1 基于平稳子空间分析和相对熵的分类算法

SSA-KL算法主要思想为:利用SSA方法对训练集和测试集进行降维,在降维后的空间里,采用基于相对熵的近邻法对测试样本实现分类。该算法可描述为:针对训练样本利用SSA提取出各类时间序列的平稳子空间和平稳子空间的投影算子;针对测试样本把投影算子作用在测试样本上得到相应类别的投影子空间;再利用相对熵衡量各类平稳子空间的分布与测试样本投影子空间分布的近似程度;最后把测试样本归入相对熵最小的平稳子空间中,从而得到该测试样本的类别。具体地讲,本文采用如下步骤来完成多维时间序列的分类过程,这里c指类别的个数。

步骤Ⅰ:获得c类多维时间序列。

步骤Ⅱ:将c类多维时间序列分为训练集和测试集。

步骤Ⅲ:利用SSA求解每类训练集平稳子空间的投影算子和分布。

(1)

(2)

(3)

(4)

(5)

步骤Ⅳ:针对每类测试集中每个测试样本,得到相应类别的投影子空间。

(6)

(7)

步骤Ⅴ:将测试样本分类。

(8)

根据分类步骤Ⅰ~Ⅴ,可以计算出分类正确率e,其计算公式为:

(9)

2 仿真实验

为了验证SSA-KL算法对真实多维数据分类的有效性,分别采用DTW算法、PCA-ED算法和SSA-KL算法对机器人执行失败[15](robot execution failures,REF)数据集进行分类。其实验环境为:Windows 7系统,CPU 2.20 GHz,内存2 GB,算法采用MATLAB 2011a平台下的M语言实现。

REF数据集包含对机器人的力和力矩的测量,共有5个数据集:LP1、LP2、LP3、LP4和LP5。每个数据集包含6个变量,时间间隔均为15 ms。每个数据集的样本数和分类数如表1所示。在实验中5个数据集的每类训练样本和测试样本的个数如表2所示。

表1 每个数据集的样本数和分类数

注:括号内的数字为所属类包含的样本数。

表2  5个数据集的每类训练样本和测试样本的个数

PCA-ED算法分别提取前5个、前4个、前4个、前4个和前4个主成分(所有主成分的贡献率都大于90%)。而SSA-KL算法对数据集LP1每类提取的平稳信源个数分别为3个、4个、4个和3个;对数据集LP2每类提取的平稳信源个数分别为3个、3个、3个、4个和3个;对数据集LP3每类提取的平稳信源个数分别为4个、4个、4个和5个;对数据集LP4每类提取的平稳信源个数分别为3个、4个和4个;对数据集LP5每类提取的平稳信源个数分别为4个、4个、4个、4个和4个。这5个数据集的分类正确率如表3所示。

表3 5个数据集的分类正确率 %

从表3中可以看出:SSA-KL算法在数据集LP1、LP2、LP3、LP4和LP5的分类正确率最高,PCA-ED算法次之,DTW算法最低,表明SSA-KL算法的分类效果优于DTW算法和PCA-ED算法。 可见,SSA-KL算法对此种时间跨度小和样本数量少的数据具有一定的优势。DTW算法能有效地处理局部时间位移和时间跨度较大的多维时间序列,而本文数据集的时间跨度较小,因此DTW算法对于本文中的REF数据集分类效果不佳。PCA-ED算法是一种基于统计方法的分类算法,通常要求足够的样本点才能有效求得比较准确的主成分,并且它适应于等时间跨度的大规模数据集,对小规模时间序列的分类效果不佳。而本文的SSA-KL算法的分类效果对训练样本个数的依赖程度不高,主要取决于对平稳特征的有效提取程度。该算法获取了每类样本数据的时间不变量(即平稳特征),准确描述了数据内部的本质结构特征,也降低了原数据的维数,减小了冗余信息所造成的误差,进而提高了分类精度。因此,SSA-KL算法对每类数据集的分类正确率都优于DTW算法和PCA-ED算法,克服了DTW算法和PCA-ED算法的缺陷。

3 结束语

本文研究了基于平稳子空间分析和相对熵对多维时间序列的分类算法。SSA-KL算法利用SSA对多维时间序列进行降维处理,不仅节约了数据的存储空间,而且获取了数据中潜在的时间不变量。相对熵具有准确刻画不同分布之间差异性的优点,运用相对熵来处理所提取的平稳子空间有助于得到更加准确的分类结果。针对时间跨度小、样本数量少的多维时间序列,SSA-KL算法比DTW算法和PCA-ED算法的分类精度更高。由于SSA方法对平稳信源的个数有一定的要求,选取不同的个数对分类精度会有所改变,本文并没有作详细解释,以后可以从这个方面继续研究,进一步提高SSA-KL算法的分类精度。

[1]胡伟强,鹿艳晶.遥感图像分类方法综述[J].中小企业管理与科技(下旬刊),2015(8):231.

[2]PAULVB,MEINECKEFC,SCHOLLERS,etal.FindingstationarybrainsourcesinEEGdata[C]//EngineeringinMedicineandBiologySociety(EMBC),2010AnnualInternationalConferenceoftheIEEE.IEEE,2010:2810-2813.

[3]王晓强,张东英,崔凤奎.航空滚动轴承典型缺陷的分类识别[J].河南科技大学学报(自然科学版),2013,34(6):13-18.

[4]STEPHANS,JAINBJ,LUCAEWD,etal.Patternrecognitioninmultivariatetimeseries:dissertationproposal[C]//Proceedingsofthe4thWorkshoponWorkshopforPh.D.StudentsinInformation&KnowledgeManagement.ACM,2011:34-42.

[5]李正欣,张凤鸣,李克武.多元时间序列模式匹配方法研究[J].控制与决策,2011,26(4):565-570.

[6]苏静,赵毅强,何家冀,等.旁路多维时间主成分分析的欧式距离硬件木马检测[J].微电子学与计算机,2015,32(1):1-4.

[7]倪世贵,白宝钢.基于PCA的人脸识别研究[J].现代计算机(专业版),2011(3):44-47.

[8]洪军建,珠杰.分块主成分分析在文本特征抽取中的应用[J].河南科技大学学报(自然科学版),2015,36(6):30-34.

[9]吴虎胜,张凤鸣,钟斌.基于二维奇异值分解的多元时间序列相似匹配方法[J].电子与信息学报,2014,36(4):847-854.

[10]PAULVB,FRANKCM,FRANZCK,etal.Findingstationarysubspacesinmultivariatetimeseries[J].Physicalreviewletters,2009,103(21):214101.

[11]田宝玉,杨洁,贺志强,等.信息论基础[M].北京:人民邮电出版社,2008.

[12]严如强,钱宇宁,胡世杰,等.基于小波域平稳子空间分析的风力发电机齿轮故障诊断[J].机械工程学报,2014,50:9-16.

[13]唐贵基,庞彬,刘尚坤.基于奇异差分谱和平稳子空间分析的滚动轴承故障诊断[J].振动与冲击,2015,34(11):83-87.

[14]曾青松,贺卫国.基于相对熵度量的行为识别方法[J].河南科技大学学报(自然科学版),2009,30(6):53-55.

[15]LUISSL,LUISMCM.Robotexecutionfailuresdataset[EB/OL].(1999-04-23)[2016-02-10].http://archive.ics.uci.edu/ml/datasets/Robot+Execution+Failures.

国家自然科学基金项目(114331011);中央高校基本科研业务费专项基金项目(2015-zy-115)

周晓园(1992-),女,河南伊川人,硕士生;余旌胡(1967-),女,湖南岳阳人,教授,博士,硕士生导师,主要研究方向为马氏过程及其应用、统计学习理论与方法.

2016-02-26

1672-6871(2016)06-0042-04

10.15926/j.cnki.issn1672-6871.2016.06.009

TP391

A

猜你喜欢
个数分类样本
怎样数出小正方体的个数
分类算一算
用样本估计总体复习点拨
等腰三角形个数探索
怎样数出小木块的个数
分类讨论求坐标
怎样数出小正方体的个数
推动医改的“直销样本”
数据分析中的分类讨论
教你一招:数的分类