数据挖掘在篮球技术动作中的应用分析

2014-02-22 02:43
电子测试 2014年22期
关键词:项集运球数据挖掘

(青岛农业大学,山东青岛, 266109)

数据挖掘在篮球技术动作中的应用分析

姜 帅

(青岛农业大学,山东青岛, 266109)

本文在研究中,通过对篮球技术动作数据采集和预处理的分析应用,又研究了基于Apriori算法的关联规则挖掘,进而对篮球技术动作之间的关联性进行研究。

数据挖掘;篮球;技术动作

1 篮球技术动作与数据挖掘

很明显篮球比赛的最终输赢是由得分决定的,而从双方球员的得分中也能够看出各自篮球技术动作的运用情况。通常在篮球比赛中,得分较多的是2分投球、3分投球及罚球等技术动作,但是有关篮板球、助攻、失误、犯规、技术犯规、干扰球、故意犯规、控球、传球、扣篮、空中接力、快攻技术动作等对得失分的影响并没有十分明确的研究数据,数据挖掘实际上就是从复杂众多的数据资源中找出与实际相符合的有用信息,即从大量的不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中,具有潜在用途的信息和知识的过程。通过这些隐藏信息可以帮助教练员和运动员进行科学的、合理的动作技术学习,本文通过预处理、分类和关联规则来分析挖掘篮球常用技术动作,为教练员和运动员提供更多的数据资料,帮助他们有针对性的进行训练。

2 基于Apriori算法的关联规则挖掘

关联规则挖掘就是通过某种方式来找出众多数据之间有意义的联系。我们将数据之间存在的某种规律称之为关联,本次研究使用关联规则挖掘的目的就是寻找篮球技术动作数据库中隐含的关联。而Apriori算法是关联规则挖掘应用最广泛的一种方法,它是一种使用侯选项集找频繁项集的算法。下面就是通过对篮球脚本语言的设计方法研究的基础上,分析了Apriori算法在挖掘篮球技术动作关联规则中的设计与应用。

Apriori算法是一个在事务数据库中寻找频繁项集的典型算法,其中的频繁项集实际上就是支持度≥最小支持度的项集,要实现这一目的需要对事物数据库进行反腐扫描,因此会在这一步浪费较多的时间,制约了Apriori算法的运行。

Apriori算法可以通过递推的方式,将事务数据库中全部频繁项集寻找出来。具体操作是先将事物数据表中的每一项作为候选一项集,用Cm来表示(m取值可以是1,2,3......),接下来对篮球技术动作数据库进行扫描,进而统计出每个项集的支持度,将支持度≥最小支持度的项集设置为频繁1-项集的集合,用Lm来表示(m取值可以是1,2,3......),并以此类推,直到L为空,算法停止。

3 篮球技术动作数据采集和预处理的应用分析

3.1 数据采集

NBA联盟规定,一场球共48分钟,分为4节,每节12分钟,每一个回合的进攻要在24秒内完成,一场球有100~200个回合。若是超过24秒就会失去球权。如果运动员技术动作掌握得好,球员之间能够很好的配合,那么就能够在24秒内完成,反之,就会因为超时而丢失投篮机会。所以,在本次统计分析中,我们以一个进攻回合为时间段,统计了一场篮球比赛第5、20、100个回合的一般技术动作(如表1)。

表1 NBA篮球比赛技术动作统计表

3.2 数据清理与整合

通过上述方式采集到的篮球数据中存在不完整、不一致的问题,因此我们还要纠正这些问题,进行空缺值的填充。

①填充空缺值。根据某数据项含义,对缺失的这一数据项,定义一个缺省的值来替换缺少的空缺值。如表1中R5进攻回合缺少3分进球、盖帽等,我们用“?”来代替。

②纠正不一致数据。采集到的数据有时会出现不一致的现象,如表1中R5的“运球”与“带球”是一样的技术动作,它们就不一致,但是我们可以通过分析某些数据之间的关联性来确定将他们改成哪一种比较合适,将他们分别用A,B来表示,那么二者之间的相关性可以用下式表示:

当r=0,A与B独立,不相关;r<0,A与B负相关;r>0,A与B正相关。那么,应该将R5中“运球”与“带球”修正成一致的“运球”(表2为修正后的统计数据),修正方法如下:

If action=“带球”

then action=“运球”

If action=“2分进”

then action=“2分进”

......

表2 修改后的NBA篮球技术动作统计表

③清理数据噪声。如动作技术犯规、干扰球等都属于无意义的数据,因此直接清理掉就可以了,不必进行数据挖掘。又如,每个进攻回合同时出现2分进球和3分进球是不合理的,所以就需要清除一个,一般会清除3分进球。

3.3 数据集成

数据集成就是在同一个技术动作数据库中来存储很多的相关数据,这样就避免了各种数据的零散分布,不利于研究。比如我们可以将表2中多次重复出现的数据(如挡拆、运球等)合并为一个(如表3)。

3.4 数据归约

数据归约可以在保持原数据完整的基础上,减小数据量,从而减少数据挖掘时间,具体操作包括:

①堆归约。将运球、传球等技术动作删掉,只保留研究意义较大的技术动作,如本次研究中只保留了抢断、助攻、罚球、挡拆、盖帽、篮板、2分进、3分进球和突破9个篮球技术动作。

②数据压缩。使用a,b,c,d,e,f,g,h,i这9个英文字母来代表以上选取得9种技术动作,并一一对应进行编码,以便压缩数据集(如表4)。

表4 归约后篮球技术动作统计表

在本次研究中我们选用的是weka挖掘软件,为了更方便于篮球数据挖掘,需要进行相关的格式转换,在上一步的基础上,一一对应后如果有动作,则用y来表示,如果没有动作,则用n来表示(。

表5 格式转换后篮球技术动作统计表

4 结论

综上所述,本文在分析了篮球技术动作数据采集和预处理的应用分析的基础上,通过基于Apriori算法的关联规则挖掘方法,研究了数据挖掘技术在篮球技术动作中的应用,这是篮球运动与计算机技术创造性的结合,为篮球技术动作规律的研究开辟了道路,指明了方向,同时为教练员和运动员提供了更准确的学习资源。

迟殿委,周兴斌.数据挖掘的体育训练决策支持系统[J].微型计算机,2009(25):190-192.

Application of data mining in basketball action in

Jiang Shuai
(Qingdao Agricultural University,Qingdao,Shandong,266109,China)

In this study,the application of basketball skills by analyzing motion data acquisition and pre-processing,but also studied based on Apriori algorithm for mining association rules,and then on the correlation between basketball technical action research.

data mining;Basketball Skill

猜你喜欢
项集运球数据挖掘
探讨人工智能与数据挖掘发展趋势
完形填空一则
我最喜欢的课
不确定数据的约束频繁闭项集挖掘算法
KYRIE IRVING'S HANG DRIBBLE 凯里·欧文 停顿运球
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
高级数据挖掘与应用国际学术会议
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*