基于滑动窗口数据流频繁项集挖掘模型综述

2017-12-28 08:46王红梅李芬田王泽儒

长春工业大学学报 2017年5期

关键词：项集数据流事务

王红梅，李芬田，王泽儒

(长春工业大学计算机科学与工程学院，吉林长春 130012)

基于滑动窗口数据流频繁项集挖掘模型综述

王红梅，李芬田*，王泽儒

(长春工业大学计算机科学与工程学院，吉林长春 130012)

给出了频繁项集和滑动窗口的相关定义，根据数据流中不同的时序范围对数据流模型进行了分类，从数据处理模型的角度对滑动窗口进行了分类。分析了典型的频繁项集挖掘算法中滑动窗口的使用方法，总结了各模型中典型频繁项集挖掘算法的挖掘技术和效率。

数据流；频繁项集；滑动窗口；数据处理模型

1 理论基础

数据流是一种潜在无限、快速、连续、随时间不断变化的数据序列[1]。数据流是一种新型的数据模型，至今为止已经出现在许多种应用中，如通信数据管理、网络监控、股票交易数据分析以及商品销售分析等。与传统的静态数据相比，数据流具有无序性、连续性、实时性和无界性的特点[2]，使得数据流挖掘算法满足以下几个条件[3]：

1)当分析数据流的时候，最多只能访问一次所有的数据元素；

2)虽然在数据流中连续不断地产生数据元素，但是必须满足有限的分析数据流所需要的内存空间；

3)新产生的数据必须尽可能快地处理，要求具有很高的算法实时性；

4)当用户提交查询时，最新的数据流分析结果必须被快速并且及时反馈出来，它有很高的算法时间效率。因此在今后的发展中，数据流挖掘具有更大的挑战意义。

在实际应用中，近期数据是大部分人感兴趣的焦点，所以在一般情况下，数据流的挖掘都是基于某个时间段内对数据进行挖掘和研究，从而出现了很多种不同的窗口模型。在此基础上根据数据流中不同的时序范围，可以把数据流的模型分为以下3种[4]：

1)界标窗口模型。起始时间是固定的，而结束时间是变化的。

2)衰减窗口模型。起始时间和结束时间都是固定的。

3)滑动窗口模型。起始时间和结束时间都是变化的。

基于衰减窗口模型和界标窗口模型的挖掘，两者都没有考虑到数据流出所在模型的当前窗口的数据情况，而且挖掘出来的结果会受到已经过时的事务不同程度的影响，因此在实际应用中，人们关注最多的还是滑动窗口模型。

在挖掘频繁项集的过程中，根据不同结果集的类型，数据流频繁项集挖掘算法被分成3类[5]，分别是最大频繁项集、频繁闭项集和完全频繁项集。文中完善了频繁项集和滑动窗口的相关定义；根据数据流中不同的时序范围对数据流模型进行分类；从数据处理模型的角度对滑动窗口进行分类；从基于界标窗口、衰减窗口和滑动窗口3种模型的角度总结了典型的频繁项集挖掘算法的挖掘技术和效率。

定义1[6]设一个数据项I={I1,I2,…,Im}，数据流DS是一组大小可能是无限的并且一直连续不断到达的数据项序列，记为DS={T1,T2,…,Ti,…,Tn,…}，其中Ti表示第i个到达的事务，而且对于任意一个Ti，都有Ti⊆I。

定义2对于任意的数据集T，如果有任何一个项集X⊆Ti(1≤i≤n)，则称为事务Ti包含项集X，或者称为项集X被包含于事务Ti，数据集T中包含项集X的事务个数叫做项集X的支持度，记为sup(X)。给定D和任意项集X，并给定最小支持度阈值min _sup，若sup(X)≥min _sup，则称项集X为D上的完全频繁项集，有时简称频繁项集。D上所有频繁项集的集合记为：FID={X|X⊆I∩sup(X)≥min _sup}。

定义3[7]给定一个滑动窗口W和最小支持度min _sup，∀X⊆I，如果满足sup(X)≥min _sup,并且∀(X⊂Y∩Y⊆I)，其中Y为项集X的超集，均有sup(Y)

定义4对于一个项集X，其闭项集就是它的直接超集的支持度计数都不等于它本身的支持度计数。在此同时如果闭项集是频繁的，那它就称为闭频繁项集。

定义5[8]数据流DS被分成n(n>0)个数据块，其中每个数据块和数据流子序列相对应，并且每个数据块中包含的事务数一定，我们就说这样的一个数据块是一个基本窗口，记作W。基本窗口的大小是指每个基本窗口中包含的事务个数，记作|BW|。一系列连续的基本窗口组成一个滑动窗口，用SW表示，记作，滑动窗口的大小就是每个滑动窗口中包含的基本窗口个数，记作|SW|。

2 数据流模型的分类

数据流中的频繁项集挖掘是当今数据挖掘领域的一个热门话题，同时在实际应用中人们感兴趣的都是近期的数据。设计高效处理算法的基础就是选择合理的数据流模型，从而能够改善数据流的处理速度。数据流的分析模型主要包括滑动窗口、界标窗口和衰减窗口模型。

2.1 滑动窗口模型

设滑动窗口的大小是W，在任意一时间点n，滑动窗口模型的查询范围都是[max(0,n-w+1),n]，而处在查询之外的所有数据将全部忽略不计，滑动窗口模型主要源于人们对最新产生的数据比较感兴趣，其主要特点是窗口会随着数据流的产生而不断向前移动，这样自然而然的就会丢弃过时的数据，有时候过时事务会影响数据流的处理结果，所以处理过时的事务成了滑动窗口数据处理模型的挑战。

滑动窗口模型如图1所示。

图1 滑动窗口模型

滑动窗口模型中比较典型的算法是Chi[9]等提出的Moment算法，主要采用由非频繁节点、无前途节点、中间节点和闭节点组成的CET树来保存动态的项集，同时在线更新CET树中的所有节点，从而更新频繁闭项集。刘学军[10]等提出的滑动窗口中频繁闭项集的新算法DS-CFI,主要是以基本窗口为单位来更新滑动窗口，并且利用已有的频繁闭项集挖掘算法挖掘每个基本窗口的频繁闭项集，再将挖掘出来的结果和它们的闭项集一起存储到一种新的数据结构DSCFI-tree中，最后通过DSCFI-tree的增量更新，来达到挖掘滑动窗口中的所有频繁闭项集的目的。黄国言[11]等提出MFCI-SW算法，主要是通过设计有支持度F和窗口序列号K组成的频繁闭项集表FCIL和频繁闭项集模式树MFCI-SW-Tree，滑动窗口每次滑动的距离就是基本窗口的大小，并且在每个窗口中挖掘频繁闭项集；当新的基本窗口到来时，通过删除最旧的基本窗口(也就是K值最小的窗口)中的数据项，然后插入最新的基本窗口中的事务项，通过以上过程来完成对FCIL的更新和MFCI-SW-Tree树的裁剪，进而完成在MFCI-SW-Tree中挖掘出频繁闭项集的结果。杨路明[12]等提出了MMI-BET算法，主要采用位图来存储数据，利用新事务直接覆盖旧事务的方法，并且在经典剪枝的基础上提出了子等价剪枝策略，为了提高超集的检测效率，最后将挖掘出来的结果存储在索引链表中。张月琴[13]根据数据流的流动性和连续性两个显著的特点，提出了滑动窗口中的频繁项集挖掘算法NSW，主要是满足了人们能够迅速获取最新频繁项集的需求，该算法中的事务是用二进制矩阵表示的，窗口滑动时通过直接删除旧事务的不产生候选项集方法来达到节省时间和空间开销的目的。寇香霞[14]等提出了利用位表来存储数据的概要结构的FIUT-Stream算法，通过窗口的滑动将动态更新位表中的数据，最后利用FIUT算法来挖掘次频繁k-项集，进而挖掘出完全频繁项集。

2.2 界标窗口模型

界标窗口模型主要是从某一个时间点t开始到当前时间点T为止的数据集合，随着数据流连续不断的到达，界标模型的窗口也会逐渐增大，随着时间间隔的不断增大，窗口中的数据会越来越多，这样就会退化所有的历史数据窗口；但是当时间间隔很小的时候，处理的只是那些局部数据，很难适应数据流的概念漂移性，如图2所示。

图2 界标窗口模型

界标窗口模型中比较经典的算法是Manku[15]等提出的Lossy Counting算法，该算法是将数据流分成若干个事务数相等的桶，其中桶的大小受误差参数的影响，该算法使用D(e,f,Δ)这样的数据结构来保存数据信息(其中，f为项集的频率估计，Δ为最大误差)，在桶的边界对该数据结构进行更新，删除频率低的数据项，同时产生的候选项集存储在辅存中，通过以上方法可以挖掘出频繁项和频繁项集。张广路[16]等提出了一种界标窗口中数据流频繁项集挖掘算法DSMFP_LW，主要是利用扩展前缀模式树来存储全局临界频繁项集，以达到实现单边扫描数据流和更新数据的目的。闻英友[17]等为了克服naïve算法在处理问题时不具备增量计算的缺点，提出了一种基于边界界标窗口技术的数据流最大规范模式挖掘DSMRM-BLW算法，主要是将数据流上的第一个将要处理的窗口定义为边界界标窗口，使用naïve算法进行处理，而后面的窗口可以基于前一个窗口的最大规范模式增量获得。

2.3 衰减窗口模型

衰减窗口模型是随着数据流的连续流入，降低最早流入的数据流的权值，这样就能够满足人们对最新数据的兴趣，同时也不会丢弃已经流入的数据流。但是随着数据流的不断增加，有限的内存是不可能存储所有的数据，所以需要利用有效的数据结构来存储数据，目的是提高空间的利用率。衰减窗口模型如图3所示。

图3 衰减窗口模型

Giannella[18]等提出的FP-stream频繁项集挖掘算法是数据挖掘中衰减窗口处理模型的经典算法，主要思想是将倾斜时间窗口表嵌入到序列信息频繁模式树中去，把近似支持度的时间敏感频繁项集挖掘出来，在此基础上也实现了多时间粒度的频繁模式增量的维护，同时提出了“频繁闭项集能够提高一种不丢失支持度信息的最小单位的表示”，这样在挖掘频繁闭项集的过程中提高了空间和时间的复杂度。赖军[19]等提出了一种新的基于字典顺序的前缀树LOP-Tree的频繁项集挖掘算法STFWFI，该算法采用了符合网络流特点的滑动时间衰减窗口模型，在树结构上提出了一种新的基于统计分布的节点权值的计算方法SDNW来代替传统的统计方法。李国徽[20]等提出了一种新的MSW算法，该算法是在数据流过时，使用滑动窗口树SW-tree进行一次扫描数据流的同时要及时捕获数据流上最新的模式信息，SW-tree树上不频繁的模式和过时的事务可以被此方法删除，该方法利用了时间衰减模型来依次降低历史事务模式支持数的权重，同时用此来区分最新事务和最旧事务的模式。吴枫[21]等提出了界标窗口模型和时间衰减窗口模型相结合的数据流频繁项集挖掘算法。主要是通过动态构建全局模式树，然后利用时间指数衰减函数来对模式树中各个模式的支持度进行详细统计，以此刻画出界标窗口内模式的频繁程度；为了有效降低空间开销，设计了剪枝阈值函数，利用该方法可以删除那些不频繁的模式。

3 滑动窗口模型分类

滑动窗口从数据处理模型的角度分为以下几类，分别是基于事务的滑动窗口、基于时间戳的滑动窗口、基于权值的滑动窗口和可变滑动窗口等。下面分别讨论这4种滑动窗口模型。

基于事务的滑动窗口与基于时间戳的滑动窗口如图4所示。

图4 基于事务的滑动窗口与基于时间戳的滑动窗口

3.1 基于事务的滑动窗口

1)定义6设DS={T1,T2,…,Tn}表示数据流，若TWj={Tj,Tj+1,…,Tw+j-1}且TWj∈DS(即TWj是DS的一个子集)，W为窗口TWj的宽度，那么TWj就称为基于事务的滑动窗口，它也是一种比较传统的滑动窗口。

基于事务的可变滑动窗口，一般情况下滑动窗口的大小是变化的，并且它的大小随着时间的变化而变化。因此，对于以绝对最小支持度作为阈值的方法我们不再使用，主要是因为在动态变化的滑动窗口中,不同时间段的事务分布不均匀，从而导致挖掘出来的结果准确性不高。

2)相应的算法。尹绍宏[22]等提出SWM-MFI算法，该算法同时引入了用于存储事务数据的事务矩阵和用于存储频繁2-项集的二项集矩阵。通过二项集矩阵逐渐扩展到频繁k-项集。均由二进制表示的这两个矩阵，通过它们的子集检测和一系列相关操作，快速挖掘出最大频繁项集，并且将挖掘出来的结果存储到数组MFI中。

宋威[23]等提出MHUIDS算法。它主要由4部分组成，分别是数据表示、窗口初始化、滑动窗口和高效用项集挖掘，它的主要优势有：第一，构造了与压缩原始数据库的树型结构不同的HTWUI-树，HTWUI-树的主要功能有两个，一个是它可以有效且准确地描述搜索空间，另一个是它能与二进制向量一起合作来实现项集的枚举和事务加权效用的计算；第二，降低了数据库扫描开销并且也减少候选事务加权效用的项集数量。

3.2 基于时间戳的滑动窗口

1)定义7设DS={T1,T2,…,Tn}表示数据流，若在一个时间间隔T上的输出关系满足R(τ)={DS|∈DS∧(τ′≤τ)∧(τ′≥max{τ-T,0})}，T为数据流DS运行时间的计算周期，那么就称为基于时间戳的滑动窗口。其中存在两种特殊情况：当T=0时，R(τ)由数据流DS中带有时间戳τ的元素组成；当T=时，R(τ)由数据流DS中所有时间戳τ≤T的元素组成。

在超市中，由于客流量在不同时间段基本上是不同的，在客流量高峰期，交易一般会集中出现，而在其它时段的客流量比较少。传统的滑动窗口模型的窗口大小是由事务的数量决定的。图4展示的是数据流到达的情况，从图中我们可以看到基于时间戳的滑动窗口中数据的变化情况。如图4(a)所示，假如用Ti表示超市中的半天时间，但是在T6结束的时候，管理员想了解一下当天销售情况的分析，也就是在这一天中，从T5时刻到T6时刻的销售分析，那么有待分析的数据就是{ac,cd}，在这种情况下，滑动窗口的大小是由时间戳来确定的，而且能够精确、快速地定位用户的需求，如图4(c)展示的是基于时间戳的滑动窗口模型的数据的变化情况，该模型能够准确、详细地体现用户对近期数据分析的需求。

2)相应的算法。李海峰[24]等提出了一种频繁项集挖掘算法FIMoTS，该算法具有高效性和精确性，它最大的特点是可以动态地把项集分成几类，因为滑动窗口的大小是时刻变化的，所以可以根据它的变化来对项集进行延迟处理，只有在项集的变化界限超出一个给定的阈值时，支持度才会被重新计算，从而实现剪枝的目的。主要贡献有：第一，提出了与传统滑动窗口模型不同的基于时间区间的滑动窗口模型，他们的不同主要体现在滑动窗口大小的决定因素的不同，传统窗口模型的窗口大小是由事务的数量来决定的，而基于时间区间的滑动窗口也能更好地体现数据流的时间特性。第二，基于时间区间的滑动窗口模型可以转换成传统的基于事务的可变的滑动窗口模型，并根据该模型新定义了一个挖掘问题，那就是基于相对支持度的频繁项集的挖掘问题。第三，最后还引入了类型变化界限的定义，动态地把项集分成了几类，通过对数据计算进行推迟处理，提出的这个挖掘算法既能够节省空间开销，也能提高挖掘效率。

韩萌[25]等提出了一种基于时间衰减模型的数据流闭项集频繁模式挖掘算法TDMCS，他们区分滑动窗口中的历史权重和新近事务的权重是根据时间衰减模型来区分的，采用闭合算子来提高闭合模式挖掘的效率；为了避免概念漂移，设计了一种最小支持度、最大误差率和衰减因子这样的三层架构，设计一种均值衰减因子平衡算法的高查全率；该算法比较适合挖掘大小不同的滑动窗口，同时对于那些长序列、长模式和高密度的数据流的挖掘也比较合适。

3.3 基于权值的滑动窗口模型

1)定义8若存在一个窗口Wij，且每个窗口包含x1，x2，…，xk数据项，并且赋予窗口Wij的权值为aj，这样的滑动窗口被称为基于权值的滑动窗口。其中该模型允许用户具体给定挖掘窗口的数量，窗口大小(周期性查询的时间段定义为窗口大小，如窗口的大小为t)和每个窗口的权值。

基于权值的滑动窗口数据处理模型如图5所示。

图5 基于权值的滑动窗口数据处理模型

假设T1是当前挖掘的时间点，滑动窗口的数量是一个定值，设为4，并且每个窗口的大小是t。窗口W1j的权值aj分别如下：

假设在W11，W12，W13，W14中，数据项a的支持度计数分别是10，20，50和100；在W11，W12，W13，W14中，数据b的支持度计数分别是80，50，20和20。根据上面的定义可以得知，每个滑动窗口的数据项a的权值支持度计数为

10×0.4+20×0.3+50×0.2+100×0.1=30

数据项b的权值支持度计数为

80×0.4+50×0.3+20×0.2+20×0.1=53

假设在窗口W11，W12，W13，W14中，分别包含的事务数量是300，200，200和300，最小的支持度为0.2。那么，在窗口W11，W12，W13，W14中，最小支持度计数分别是60，40，40和60。根据上面定义可知，最小的权值支持度计数是每个滑动窗口中的权值与最小支持度计数乘积的总和。因此，最小的权值支持度计数为：

60×0.4+40×0.3+40×0.2+60×0.1=50

通过观察数据项a和b可以得知，数据项a在窗口W11，W12，W13，W14中的支持度计数之和为180，但是它的权值支持度计数是30，并且我们也知道最小的权值支持度计数是50，因此可得权值支持度小于最小的权值支持度。从而得知，数据项a在该数据模型中是非频繁项。同样的道理可得数据项b在该数据模型中是频繁项。

2)相应的算法。白川平[26]等提出了基于权值滑动窗口数据处理模型中的频繁项集挖掘算法FIMWSW和改进的算法FIMWSW-Imp，FIMWSW算法的主要特点就是它扫描数据库的方式是进行单边扫描的，然后通过比较计算出来的候选项集的值来判断它是不是频繁项集。而改进FIMWSW-Imp算法首先在前面的窗口就已经判断了该项集是否是频繁项集，这样就大大缩减了时间的开销，从而提高挖掘效率。

3.4 可变的滑动窗口

1)定义9若令(TSi,FTWi,TWi)表示一个分区窗口，TSi(TS是Timestamp的缩写)表示每个事务到达的时刻，FTWi表示固定事务窗口和TWi表示可调时间窗口，如果满足

VSW={(TS1,FTW1,TW1),(TS2,FTW2,TW2),…,(TSi,FTWi,TWi),…,(TSn,FTWn,TWn)}

其中(TSn,FTWn,TWn)是最近到达滑动窗口的数据，那么就称VSW是可变的滑动窗口。

滑动窗口结构如图6所示。

图6 滑动窗口结构

2)相应的算法。苏勇[27]等提出了一种数据流频繁项集挖掘算法DS-stream，并且该算法的滑动窗口的大小是可变的，主要采用的是一种分区窗口机制，它的计算单位是以滑动窗口中的分区窗口为标准，基本窗口和时间窗口两者之间相结合，并且在考虑数据流的海量特性和时间特性基础上，利用现成的频繁闭项集挖掘算法来计算每个分区窗口的临界频繁闭合项集，将结果和子集动态地压缩存储在DS-tree中，从而进行数据的增量更新。DS-tree是通过FP-tree进行一系列改进而形成的一棵前缀压缩树，窗口的大小是根据数据流中数据分布的变化而变化的，因此它能够自适应调整滑动窗口的大小，从而节省了空间与时间的浪费和开销。

4 结语

数据流中挖掘频繁项集是一个漫长的过程，它经过了长期的研究与发展，并且已经成为当前研究领域中重要的研究方向，频繁项集挖掘算法是关联规则挖掘的关键，并且在频繁项集挖掘算法的设计及优化方面日趋成熟，广泛应用于通信数据管理、金融、网络监控等许多领域。文中总结了在该领域中，最近几年来国内外的研究成果；介绍了数据流及其频繁模式挖掘的相关概念和特点，以及针对这些特点分析了数据流模型的发展状况和最新进展。但是该领域在未来研究方向仍具有很大的挑战性，今后可以考虑将该领域与其他跨学科领域合理结合起来，从而挖掘更有效的算法。

[1] Gaber M M, Zaslavsky A, Krishnaswamy S. Mining data streams: a review [J]. ACM Sigmod Record,2005,34(2):18-26.

[2] Golab L, Özsu M T. Issues in data stream management [J]. ACM Sigmod Record,2003,32(2):5-14.

[3] 陈辉.数据流频繁模式挖掘及数据预测算法研究[D].武汉:华中科技大学,2008.

[4] 段跃兰.数据流闭合频繁模式挖掘算法的研究[D].哈尔滨：哈尔滨工程大学,2009.

[5] Han J, Pei J, Kamber M. Data mining: concepts and techniques [M]. [S.l.]: Elsevier,2011.

[6] 徐嘉莉,陈佳,胡庆,等.基于向量的数据流滑动窗口中最大频繁项集挖掘[J].计算机应用研究,2012,29(3)：837-840.

[7] 颜跃进.最大频繁项集挖掘算法的研究[D].长沙：国防科技大学,2005.

[8] 刘洁,杨路明,毛伊敏,等.改进的数据流频繁闭项集挖掘算法[J].计算机工程,2011,37(9)：75-77.

[9] Chi Y, Wang H, Yu P S, et al. Moment: Maintaining closed frequent itemsets over a stream sliding window[C]//Data Mining, 2004, ICDM.04, Fourth IEEE International Conference on. IEEE,2004:59-66.

[10] 刘学军,徐宏炳,董逸生,等.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743.

[11] 黄国言,王立波,任家东.一种基于滑动窗口的数据流频繁闭项集挖掘算法[C]//第26届中国数据库学术会议论文集(B辑).2009,46(S):428-432.

[12] 杨路明,刘立新,毛伊敏,等.数据流中基于滑动窗口的最大频繁项集挖掘算法[J].计算机应用研究,2010,27(2)：519-522.

[13] 张月琴.滑动窗口中数据流频繁项集挖掘方法[J].计算机工程与应用,2010,46(16):132-134.

[14] 寇香霞,任永功,宋奎勇.一种基于滑动窗口的数据流频繁项集挖掘算法[J].计算机应用与软件,2013,30(1):143-146.

[15] Manku G S, Motwani R. Approximate frequency counts over data streams [C]//Proceedings of the 28th International Conference on Very Large Data Bases. [S.l.]: VLDB Endowment,2002:346-357.

[16] 张广路,雷景生,吴兴惠.界标窗口中数据流频繁模式挖掘算法研究[J].计算机工程,2012,38(1):55-58,61.

[17] 闻英友,王少鹏,赵宏.界标窗口下数据流最大规范模式挖掘算法研究[J].计算机研究与发展,2017,54(1):94-110.

[18] Giannella C, Han J, Pei J, et al. Mining frequent patterns in data streams at multiple time granularities [J]. Next Generation Data Mining,2003,212:191-212.

[19] 赖军,李双庆.挖掘滑动时间衰减窗口中网络流频繁项集[J].计算机应用研究,2011,28(3):895-898.

[20] 李国徽,陈辉.挖掘数据流任意滑动时间窗口内频繁模式[J].软件学报,2008,19(10):2585-2596.

[21] 吴枫,仲妍,吴泉源.基于时间衰减模型的数据流频繁模式挖掘[J].自动化学报,2010,36(5):674-684.

[22] 尹绍宏,单坤玉,范桂丹.滑动窗口中数据流最大频繁项集挖掘算法研究[J].计算机工程与应用,2015，22:145-149.

[23] 宋威,刘明渊,李晋宏.基于事务型滑动窗口的数据流中高效用项集挖掘算法[J].南京大学学报：自然科学版,2014(4)：494-504.

[24] 李海峰,章宁,朱建明,等.时间敏感数据流上的频繁项集挖掘算法[J].计算机学报,2012,35(11):2283-2293.

[25] 韩萌,王志海,原继东.一种基于时间衰减模型的数据流闭合模式挖掘方法[J].计算机学报,2015,38(7):1473-1483.

[26] 白川平.数据流频繁项集挖掘算法的研究[D].兰州：兰州理工大学,2014.

[27] 苏勇,范玉玲.可变滑动窗口在数据流频繁模式挖掘上的应用[J].计算机系统应用,2011,20(6):200-202.

Asummaryoffrequentitem-setsminingmodelofdataflowbasedonslidingwindow

WANG Hongmei， LI Fentian*， WANG Zeru

(School of Computer Science & Engineering, Changchun University of Technology, Changchun 130012， China)

Definitions of frequent item-sets and sliding windows are given here. Data flow models are classified based on series in data stream. Sliding windows are categorized based on data processing model. Applications of sliding windows in typical frequent item-sets mining algorithms are analyzed. Finally, mining techniques and efficiency of typical frequent item-sets mining algorithms are discussed for each model.

data stream; frequent item-sets; sliding window; data processing model.

2017-02-20

吉林省科技厅发展计划基金资助项目(20160415013JH)

王红梅(1968-)，女，汉族，吉林图们人，长春工业大学教授，博士，主要从事数据挖掘与应用及算法与程序设计方向研究,E-mail:2497545904@qq.com. *通讯作者：李芬田(1990-)，女，汉族，河北沧州人，长春工业大学硕士研究生，主要从事数据挖掘与应用及算法与程序设计方向研究,E-mail:asytiantian@163.com.

10.15923/j.cnki.cn22-1382/t.2017.5.14

TP 301

1674-1374(2017)05-0484-07

基于滑动窗口数据流频繁项集挖掘模型综述

1 理论基础

2 数据流模型的分类

2.1 滑动窗口模型

2.2 界标窗口模型

2.3 衰减窗口模型

3 滑动窗口模型分类

3.1 基于事务的滑动窗口

3.2 基于时间戳的滑动窗口

3.3 基于权值的滑动窗口模型

3.4 可变的滑动窗口

4 结 语

4 结语