基于CNN的时序数据关联规则挖掘模型

2021-11-17 03:12甘昕艳唐晓年
计算机仿真 2021年3期
关键词:时序准确率卷积

甘昕艳,唐晓年

(广西中医药大学,广西 南宁 530200)

1 引言

关联规则主要是指对象或者事件之间存在关联联系,这种联系建立在对象或者事件两者同时出现的基础上。关联规则早期被应用于商业中,代表顾客是否同时购买某些商品[1]。上述这种关系具有较强的商业价值,能够辅助人们进行市场运作、投资以及决策管理等。

时序数据关联规则主要是指时间序列局部变化趋势之间所具有的时间约束关联关系,这种局势变化趋势之间的关联规则能够为决策者提供决策帮助。时间序列本身具有数据密集性以及时间波动性[2],而且局部变化趋势之间的时序关联规则均被隐藏在数据中,只有通过挖掘才能够获取。

时序数据关联规则挖掘是一项系统工作,需要经历时间序列预处理、时间序列压缩等步骤,各个挖掘方法的好坏主要取决于挖掘关联规则的可靠性,也就是制约时序关联规则的有效性。

当前,国内外相关专家对时序数据关联规则挖掘方面的研究已经取得了一些较好的研究成果,例如:王立亚[3]等人通过区间概念的不确定性,设定区间关联规则的度量标准—精确度和不确定度,然后组建基于带参数区间概念的时序数据关联规则挖掘模型;程广[4]等人通过MapReduce完成对并行关联规则增量更新挖掘模型的设计,通过MapReduce进行参数设定以及突触权值更新,然后改进初始算法中的能量函数,将其和标准能量函数对齐,同时采用忆阻值表示权值,将偏置和权值放大,组建关联规则挖掘模型。以上模型现阶段虽然取得了较为满意的研究成果,但是由于未能考虑时序数据特征提取问题,导致计算开销增加,时序数据关联规则挖掘准确率以及效率降低。

为此,本研究提出并设计了一种基于卷积神经网络(Convolutional Neural Network,CNN)的时序数据关联规则挖掘模型。经仿真结果表明,该模型能够不仅能够有效减少计算开销,还能够提高时序数据关联规则挖掘准确率和效率。

2 基于CNN的时序数据关联规则挖掘模型

2.1 时序数据特征分布模型

为了有效实现时序数据关联规则挖掘,首先组建时序数据的分布式数据结构模型,通过四元组的方式表示时序数据的存储中心,然后设定d代表组合时序数据的相空间嵌入维数,通过多个非线性成分联合统计方法对时序数据的高维特征空间进行重构[5],并且结合对应的分类方法完成时序数据关联规则挖掘。通过上述分析,能够组建时序数据关联规则挖掘模型,具体流程如图1所示。

图1 时序数据关联规则挖掘模型组建流程图

时序数据在进行关联规则挖掘的过程中,会受到外界多方面因素的影响,具有实时变动以及随机性。以下主要采用模糊聚类方法对时序数据进行融合处理,同时组建关联规则项约束方程来表示时序数据的信息流模型,具体的表现形式为

(1)

式(1)中,h(·)代表时序数据分布式时间序列,同时也代表包含多维数据结构模型的函数;ωn代表时序数据进行融合过程中产生的观测误差。

时序数据中分布式结构模型的分布函数采用以下公式表示

(2)

式(2)中,p代表时序数据存储结构的阶数;α代表统计信息采样的时间窗口宽度。

在上述分析的基础上,组建时序数据的时态结构模型,完成时序数据的关联规则重建,同时建立关联规则知识库,根据时序数据结构的特征标识函数[6],再通过统计回归方法组建时序数据的非线性时间序列模型,能够获取以下形式的线性组合模型,即

(3)

式(3)中,an代表时序数据规划模型的幅值。针对一个连续的时序数据,主要通过连续模板匹配技术进行分布式时序数据结构分析,结合匹配相关检测技术进行时序数据的融合处理。

2.2 时序数据特征提取

设定m个时序数据节点分别为:A1,A2,…,Am;n个闭频繁项集特征提取输出能够表示为:a1,a2,…,an。通过极限学习方法进行时序数据特征提取的全局寻优,构建时序数据挖掘的线性规划问题。

(4)

式(4)中,NI和NR代表时序数据的平均互信息特征向量;NS代表时序数据的状态分布集。

2.3 模型建立

在机器学习领域中,CNN是一种深度前馈神经网络,主要是由卷积层、激活层、池化层以及分类器组成,其中分类器主要使用多层感知器来完成,也可将其称为全连接层。

神经元是组成ANN的基本单元,它主要是针对收到的其它神经元的输出或者外部信息进行计算以及输出[8]。各个神经元可能包含多个输入,但是只包含一个输出,各个输入分别包含不同的权值,主要用来体现不同输入对模型产生的影响,其中单一神经节点模型可以采用函数进行表示,即

y=f(x1,x2,…,xn)

(5)

为了方便处理,需要将全部的输入进行带权的线性叠加,同时加上一个偏移,将其能够表示为

g(x)=w1×x1+w2×x2+…wn×xn+b

(6)

由于在现实生活中,大部分问题均为非线性问题,所以用来描述实际问题的模型一定是非线性模型,其中函数f就是一种非线性函数,也被称为激励函数,激励函数的引入就是为了促使神经元的输出转换为非线性输出[9],从而促使模型成为非线性模型,其中卷积神经网络结构如图2所示。

图2 卷积神经网络结构图

网络中输入的信息qn首先需要经过一个卷积层,卷积层的核心作用就是用来提取数据特征,它和多层感知机制不同之处在于:卷积层的传导并不是全连接,一个卷积节点只包含一个输入和一个输出,同时输入以及输出均为向量,并不是单纯的数字。

在卷积神经网络中卷积层的定义和数学里面卷积层的操作并不相同,首先,卷积层的输入除了数据本身外,还需要加上一个维度,这个维度通常情况下被称为通道[10]。另外,卷积层中全部卷积核的核函数也是不同的,各个核函数都能够提取任意一个原始数据的特征,这些函数在初始节点都是随机形成的,但是随着训练的不断进行,核函数序列不断进行调整,最终获取最能够代表输入数据的特征。在整个训练的过程中,能够进行调整的只有核函数序列的数值,卷积移动的步长和核函数的长度均应该在训练前期决定好,当训练开始后,则不能够进行更改。

在卷积层后,通常都会增加一个池化层,池化层的主要目的就是在保留重要信息的前提下降低数据的长度,从而减少计算时间,同时还能够有效防止池化层出现过度拟合的现象。和卷积层相同,池化层也只有一个输入和输出,同样滑动一个窗口进行池化操作。和卷积层不同的是,池化在运行的过程中,并不是通过窗口内的数据进行加权累加操作,而是结合实际需要进行不同的操作。

在上述分析的基础上,结合CNN,采用统计平均方法,建立时序数据挖掘的回归分析模型,即

(7)

结合多元统计特征方程描述时序数据的拟合状态,同时组建拟合状态模型,即

(8)

(9)

式(9)中,η为学习步长。经过n步训练以及学习之后,通过自适应加权方法,获取CNN进行时序数据特征分类器的加权系数,然后通过卷积神经网络学习算法,能够获取时序数据分类的自适应学习加权系数,即

(10)

在采用CNN进行属性分类的基础上,为了减少整个算法的计算开销,结合特征压缩方法对分类输出的时序数据进行降维处理,利用公式(11)给出特征压缩器的表达形式

(11)

对分类输出的时序数据进行降维处理后,采用模糊聚类方法完成基于CNN的时序数据关联规则挖掘模型的建立,具体的操作过程如下所示:

1)计算全部时序数据样本中挖掘到的规则项特征点;

2)组建CNN分类器,获取卷积神经网络分类器的加权值;

3)通过特征降维进行大数据特征分离以及压缩处理,它是二值化拟合效果。

4)在设定的范围内进行时序数据的关联规则挖掘;当满足收敛条件时,迭代停止,则停止计算。

3 仿真研究

为验证基于CNN的时序数据关联规则挖掘模型的综合有效性,设计如下仿真加以验证。实验在WinlO操作系统中展开(Intel(R)Core(TM)i5-8250U处理器,4G内存),开发环境为MATLAB2019。

为避免实验结果的单一性,将文献[3]中的带参数区间关联规则挖掘模型和文献[4]中的基于MapReduce的并行关联规则增量挖掘模型作为对比,与本文模型共同完成性能验证。

1)计算开销检验

首先以挖掘过程计算开销设定为测试指标,利用表1给出不同模型的计算开销对比结果。

表1 不同模型的计算开销对比结果

分析表1中的实验数据可知,本文模型挖掘过程的平均计算开销为0.2034万元,明显低于两种对比模型,在三种模型中为最低。

2)时序数据关联规则挖掘准确率检验

为验证各个模型关联规则挖掘结果的优良,以挖掘准确率为测试指标,得到对比结果如表2所示。

表2 不同模型的时序数据关联规则挖掘准确率对比

分析表2中的实验数据可知,本文模型的挖掘准确率最高可达到98.85%,文献[3]模型的平均挖掘准确率为94.63%,文献[4]模型的平均挖掘准确率仅为87.02%。通过对比可知,本文模型的挖掘准确率更高。

3)时序数据关联规则挖掘效率

为进一步验证不同模型的应用效果,以关联规则挖掘效率为指标对不同模型展开检验,具体实验对比结果如图3所示。

图3 不同模型的时序数据关联规则挖掘效率对比结果

分析图3中的实验数据可知,随着测试样本数量的持续增加,不同模型的时序数据关联规则挖掘效率也不断变化。但是相比两种对比模型,本文模型的挖掘效率明显更高一些,均保持在96%以上。

综合分析上述实验数据可知,由于在实际应用的过程中,本文模型有效解决了时序数据特征提取问题,促使整个模型的时序数据关联规则挖掘效率和准确率得到有效上升,同时整体计算开销存在明显下降。

4 结束语

针对传统模型存在的一系列问题,本研究结合CNN技术,设计了新的时序数据关联规则挖掘模型,并通过仿真结果证明了该模型不仅能够有效降低挖掘过程的计算开销,同时还能够有效提升时序数据关联规则挖掘准确率以及效率。但是在实际应用的过程中,该模型对环境噪声的抵抗性相对较弱,因此,在后续的研究中将对该模型展开进一步完善。

猜你喜欢
时序准确率卷积
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
基于全卷积神经网络的猪背膘厚快速准确测定
清明
基于GEE平台与Sentinel-NDVI时序数据江汉平原种植模式提取
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨