基于自组织特征映射网络(SOM)的聚类分析方法

2017-01-21 16:02刘焕海叶剑锋阿斯耶姆
软件导刊 2016年12期
关键词:聚类分析

刘焕海+叶剑锋+阿斯耶姆

摘 要:介绍了自组织映射网络聚类分析方法,以2012年以来全世界女子排球最重要的七次大赛成绩为依据,提高世锦赛、世界杯、奥运会权重,建立了相应的神经网络模型,并对世界九支女排强队成绩进行6个级别分类。在训练过程中减小关联度较小的样本影响,提高了预测精度、训练速度。使用Matlab工具箱函数进行仿真,面对网络媒体中众多的世界排名,推测预知,提出了相对科学的数据分析方法。

关键词:女子排球;SOM自组织特征映射;聚类分析

DOIDOI:10.11907/rjdk.162467

中图分类号:TP391

文献标识码:A文章编号:1672-7800(2016)012-0133-03

0 引言

2016年8月21日里约奥运女排决赛,中国女排终于不负众望,逆转塞尔维亚队获胜。中国女排的比赛一直牵动着广大球迷的心,中国女排起步于20世纪50年代,到了60至70年代有着东洋魔女”之称的日本女排取代苏联女排获得了世界皇者地位。然而在90年代时候中国女排成绩一直不够理想,纵观世界女排的风云变幻,辉煌与失落并举,在智能算法高速发展的今天有必要科学统计世界女排各队的比赛数据,如实展示各国女排强队水平和实力。

1 神经网络建模

聚类不需要预先知道部分球队的水平和实力,只需要给定分类的类别数量N,算法就会将所有样本按照相似性的原则划分为N类[1]。当训练结束时,同一个竞争层的输入样本就被归为同一类别,自组织神经网络模型如图1所示。

要获得较准确的聚类结果,关键在于以下两点:

(1) 选择恰当的样本特征。将国际性正式大赛的表现纳入考虑范畴,并提高高级别比赛的权重[2]。本文选取近年来的七场世界级大赛——2012年奥运会、2013年大奖赛、2014年锦标赛、2015年大奖赛、2015年世界杯、2016年大奖赛、2016年奥运会的参赛成绩作为衡量实际水平的依据。

选择9支球队进行聚类,分别为中国、塞尔维亚、美国、俄罗斯、日本、意大利、荷兰、巴西、德国。每个球队用一个七维向量x=[x1,x2,x3,x4,x5,x6,x7],向量的各分量分别表示2012年奥运会成绩、2013年大奖赛成绩、2014年锦标赛成绩、2015年大奖赛成绩、2015年世界杯成绩、2016年大奖赛成绩、2016年奥运会成绩。

成绩的具体编码如下:①对于奥运会参赛队12支,如果取得四强,则取其最终排名(1~4),如果进入八强编码为5,排名9和10,编码为9;排名11、12,编码是11;②对于世界杯参赛队固定为12支,如果取得四强,则取其最终排名(1~4),如果进入八强编码为5,排名9和10,编码为9;排名11、12,编码是11,未获得世界杯参赛资格的队伍编码是14;③对于世锦赛参赛队固定为24支,如果取得四强,则取其最终排名(1~4),如果进入八强编码为5,八强往后依次按照获得的名次为编码,对于未获得世界杯参赛资格的队伍编码为26;④对于大奖赛赛参赛队为28支,如果取得四强,则取其最终排名(1~4),如果进入八强编码为5,八强往后依次按照获得的名次为编码,对于未获得大奖赛参赛资格的队伍编码为30。注:大奖赛每年举办一次,较前面的世锦赛、世界杯、奥运会四年举办一次而言,大奖赛分量稍轻故在权值上面乘以系数0.5,特此说明。

因此,对于这9支球队,求其特征向量如表1所示,数字越小表示成绩越好[3]。

(2)选择适当的聚类参数,这里的参数主要是聚类的类别个数。采用自组织特征映射网络进行聚类时,设置竞争层为2*3结构,即类别数为6类。组线条的分类意义并不大,会把很多队分为一类,为了区别开来选择相对细一些的分类。

由于向量维数为7,因此网络的输入层包含7个神经元节点。竞争层也包含7个节点,训练完毕后,每一个输入向量属于一个竞争层节点。

2 排球水平聚类实现

排球水平可抽象为对9个7维向量聚类的问题。使用Matlab工具箱函数SELFFORG,流程如图2所示[4]。

(1)定义样本。聚类共涉及9个国家,每个国家的球员成绩(大奖赛加权重)用一个七维向量表示。

(2)创建网络。

(3)网络训练。

(4)测试。当测试数据和训练数据相同时,为了得到每个样本的分类标签需要将用于训练的矩阵输入到网络中。

(5)显示聚类结果。聚类完成时,分为同一类的样本被赋予相同的分类标签,但不同类别使用什么数字作为分类标签则是随机的。为了得到正确结果,统计每个聚类类别的特征向量数值之和,由于数值越低表示水平越高,因此根据统计结果就可以判断不同类别孰优孰劣[5]。

用图例说明如下:图3为自组织网络结构图,图4为7个权值的输入值,图5为SOM相邻权重值,图6为SOM的权重位置,图7为Matlab仿真计算结果。

Matlab仿真结果:

分析:球队分为6个类别:

世界一流强队。包括中国、美国,这一点可以从世界杯、世锦赛、奥运会成绩中看出来,中国队在四大赛中,有3次进入决赛并取得了两个冠军,一个亚军和一个第五名,成绩相对稳定,大奖赛成绩也不错,均进入八强。美国队有两次进入到决赛,且成绩不错,而且在大奖赛中取得一个冠军一个亚军还有一个第七名的优异成绩。

世界二流强队。只有一个巴西队,四大赛中有一次进入决赛,并取得一个冠军一个季军,大奖赛中两个冠军,因为较四大赛含金量稍低,且在2015年世界杯中成绩不佳。故排名较中国队、美国队稍后。

世界三流强队。包括俄罗斯、日本队,日本四大赛中一次进入半决赛,其它均进入八强。俄罗斯队四大赛中均进入八强。

世界四流强队。只有一个塞尔维亚队,四大赛中两次进入决赛,可是在2012年奥运会成绩11,拉低了塞尔维亚的排名,若从2013年至今排名,相信塞尔维亚队会在日本队和俄罗斯队之上。正如中国队教练郎平所说,塞尔维亚队是一支不容小觑的世界强队。

世界五流强队。包括意大利、德国队,意大利队四大赛中一次进入四强、一次八强。而德国队则无一进入八强。

世界六流强队。只有一个荷兰队,在16年大奖赛和奥运会中表现突出,可之前的赛事中表现较差,浮动较大。成绩居然落到了意大利队、德国队之后。

由于神经网络包含一定的随机性,而且多个样本向量非常接近,因此多次运行,可能产生不一样的聚类结果。

对此总结如下:

聚类中较为稳定的球队:①一流:中国、美国;②二流:巴西、俄罗斯、日本;③三流:塞尔维亚;④四流:意大利、德国。

荷兰队介于三流四流之间。通过上述分析可以看出,中国女排位于世界一流强队。

3 结语

本文基于近七年世界女排大赛成绩的实际数据,采用SOM自组织特征映射神经网络,对总样本进行分类分析,探讨了各影响因子对世界女排水平影响程度。同时采用SOM网络模型对女排成绩进行聚类分析,得出如下结论:①与统计分类方法相比,SOM自组织映射特征神经网络能实现分类智能化,使分类结果客观、可靠;②利用SOM自组织映射特征神经网络方法,对总样本进行分类,能减少关联不大的样本在训练时的相互影响,从而使得训练速度和预测精度都有所提高;③在现有数据上只考虑了7个指标(7次世界大赛)的影响,样本不够大。在今后的研究中,可进一步探索影响目标数据的其它因素,以进一步提高预测的准确性。

参考文献:

[1] 陈明.Matlab神经网络原理与实例[M].北京:清华大学出版社,2013:45-49.

[2] 周志华.神经网络及其应用[M].北京:清华大学出版社,2004:23-30.

[3] 孙霞.基于自组织神经网络SOM和K-means聚类算法的图像修复[J].科学技术与工程,2012(6):34-35.

[4] 蒋卓强.SOM神经网络在农业旱情评价中的应用[J].重庆大学学报,2014(5):51-52.

[5] 刘京京.基于LVQ算法的SOM神经网络在入侵检测系统中的应用[D].南京:南京理工大学,2015(10):65-67.

(责任编辑:孙 娟)

猜你喜欢
聚类分析
浅析聚类分析在郫县烟草卷烟营销方面的应用