基于数据挖掘的无线数据分析

2018-06-11 10:30吴洁
科教导刊·电子版 2018年10期
关键词:行为分析关联规则数据挖掘

吴洁

摘 要 无线通信技术的快速发展、移动设备的流行普及,无线网络数据信息量暴增,为用户移动行为研究提供了机遇。现有的网络信息安全技术大多将精力集中在对外来攻击进行防御性响应上,而对于用户行为分析和特征提取、用户行为模式的生成以及智能判断用户异常行为的研究还有待加强。本文将通过数据挖掘算法分析用户使用网络的行为来获得用户行为模式和判定用户行为倾向。

关键词 数据挖掘 行为分析 关联规则

0引言

用户上网行为,指的是网络用户在使用网络时所表现出来的行为,它属于网络行为学的研究范畴,具有极高的商业和科学研究价值。国内在用户上网行为方面的研究起步相对较晚,对用户上网行为的分析绝大多数还处于分析服务器原始数据的阶段。因此,采用数据挖掘的方法,通过对网络内用户上网行为的挖掘分析,便可以挖掘出网络内用户的上网行为特征,发现未知的上网行为,并对用户的上网行为进行预测,从而实现为网络的管理和优化提供决策支持和科学的依据。

1数据建模

由于数据集中包含许多不完整、不一致以及含有大量噪声的脏数据。因此,在挖掘之前,需要对数据进行预处理。数据预处理一般分为四个步骤:数据选取、数据表属性一致化、数据清理、数据离散化。主要用到的技术有:数据变换和数据清理。经过数据预处理,数据已基本上符合分析的要求。模式生成模块中,采用静态建模和动态建模结合的方法。一方面设计合适的算法,在系统运行阶段动态地生成和更新模式库;另一方面也可以提供控制接口,以便在必要的時候,手工建立和更新行为模式库。

2数据分析

采用数据挖掘的方法进行用户行为模式分析,是对用户访问行为各属性之间关联规则的提取。根据采集到的用户行为数据,从尽量多的方面描述宽带网络用户上网行为的不同体现,归纳能够表征宽带用户上网行为的主要特征,并根据各个维度的行为特征将用户根据其行为模式进行分类。通过对原始数据的分析和行为特征的归纳,研究这些特征所表征的用户行为,并对这些不同方面的用户行为进行具体分析,得到行为特征的规律性。根据不同方面的行为特征,尝试建立用户行为的模型。

在预处理阶段对原始行为数据都对照以上分类完成了属性值规划,进而将划分后的每个区间映射为一个布尔属性,在此基础上可挖掘出更易理解的、具有概括性的、有效的关联规则。由于模型中要获得的是各个指定用户的行为模式,即规则的前件就是指定的用户,因此只需挖掘出该用户训练数据集中的所有频繁项集作为关联规则的后件即可。这样每条规则的支持度即为各频繁项集的支持度,置信度即为100%。以往用来解决单维布尔型关联规则的频繁项集发现算法中最经典的是Apriori算法。本文采用MDMQ-Apriori算法对采集到的数据进行分析提取。

以下是MDMQ-Apriori 算法的简单介绍:

定义1:设关系R有属性集 A={a1,a2,…,am},m表示关系R的属性维数,属性ap(p=1,2,…,m)的基本项目集为I(ap),令,则I是全体基本项目集合。

定义2:关联规则挖掘的数据集记为D(事务数据库),D={t1,t2, … ,tk, … tn},tk={i1,i2,…,im}(field(ip)=I(ap),(p=1,2,…,m))称为事务,其中ip(p=1,2,…,m)称为项目,field(ip)函数表示项目ip所属的属性维。

定义3:I的任何限定条件子集X称为D中的项目集(限定条件为X中的各项目的每一元素分属于不同的属性维),|X|=k 称为集合X为k项目集。设tk和X分别为D中的事务和项目集,如果Xtk,称事务tk包含项目集X。每一个事务都有一个唯一的标识符,称为 TID。

定义4:数据集D中包含项目集X的事务数称为项目集X的支持数,记为x。项目集X的支持度记为support(X),计算公式如下所示:。

其中|D|是数据集D的事务数,若support(X)不小于用户指定的最小支持度,则称X为频繁项目集,简称频集,否则称 X 为非频繁项目集,简称非频集。

3结论

通过搜集用户在上网过程中生成的大量数据信息,采用统计分析和关联规则挖掘技术,充分发挥数据挖掘理论能从超大规模数据集中发现知识的优势,对搜集得到的行为数据进行分析,提炼用户主动行为模式。

参考文献

[1] 邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社, 2003.

[2] 马力,焦李成,董富强.一种Internet的网络用户行为分析方法的研究[J].微电子学与计算机, 2005(07): 124-126.

[3] Tang,D.&M.Baker.Analysis; of a local-area wireless network[C]. International Conference on Mobile Computing and NETWORKING. ACM, 2000:1-10.

猜你喜欢
行为分析关联规则数据挖掘
基于并行计算的大数据挖掘在电网中的应用
金融经济中的金融套利行为分析及若干研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究