基于云计算的电力能源大数据清洗模型构建

2022-02-14 12:13吴朝文陈小龙张柯柯
自动化仪表 2022年1期
关键词:储存电网能源

卢 峰,吴朝文,陈小龙,张柯柯,桂 宁

(国网安徽电力有限公司合肥供电公司,安徽 合肥 230000)

0 引言

随着数字技术的发展,互联网渗透进社会生活的方方面面,使社会步入了大数据时代。随着电力智能化生产,输电系统进行网络监控、智能变电站、智能电表等方面的数字化改造,电力数据的规模和类型迅速增加,巨大的电网产生了大量的数据[1-2]。从发电到用电,大量的数据采集源,尤其是运用图像形式进行采集的数据,采集源会集中采集特定的数据信息。最终的智能电网数据会有大量种类繁多、价值密度低且受到高强度扰性的真实数据。这就表明,需要对海量的电力能源大数据进行有效清洗,以获得高效、可用的数据[3]。此外,如何有效存储海量智能电网数据也是电网企业面临的问题。电网大数据包含着巨大价值。如果能有效应用这些数据,将对电网的管理和运行作出重要贡献。这也是电力企业亟需思考的问题[4]。电网大数据是复杂多变的。如果能被有效地理解和应用,这些大数据资源不仅可以用来提高电网自身的科学管理,还可以产生颠覆性变化,如:可以用于政府部门、工业部门等,为电力公司形成增值业务创造条件。

当前,针对电力能源大数据中无价值数据的检测,国内外研究人员主要开发了两种解决方案:一种是进行数据挖掘,另一种是利用状态进行检测。有研究者提出利用神经网络来检测电力相关燃烧系统的异常数据[5]。在此基础上,也有学者利用神经网络进行无价值数据的校正。有研究者运用离群数据挖掘进行电力负荷的预测。同时,有学者提出利用人工神经网络对电力负荷数据的特征曲线进行采样,对异常数据进行改进,并基于模糊聚类,提出了一种迭代自组织聚类方法来进行无价值数据的识别和分析[6]。有学者采用鲁棒性强、全局寻优能力强的遗传算法计算分类矩阵,并使用合适的隶属度对不良数据进行检测,从而通过迭代计算得到最优解。

而对于电力能源大数据的储存,当前研究的热点是云计算。云计算是并行计算、网格计算、虚拟化、分布式计算等技术集成的产物[7],其核心技术包括数据管理技术、并行编程模型、数据存储技术、云计算平台管理技术等[8]。云计算技术的重要应用之一就是构建大数据挖掘平台,充分整合和高效利用各种计算和存储资源是最大限度提高数据处理速度和挖掘效率的关键。在电力领域对大数据的不断研究中,很多的研究者开始利用云计算的大数据技术进行电网数据储存。

基于此,本研究在智能电力能源网络大数据的理论基础上,提出云计算的电力能源大数据清洗模型。该模型利用云计算方法进行大数据储存、以时间序列符号化方法对时间序列进行降维、以欧氏距离算法进行相似度度量、以相似度曲线对负荷数据进行数据清洗,为提高电力能源大数据清洗效果提供现实依据。

1 电力能源大数据清洗模型构建

1.1 智能电力能源网络大数据

智能电网[9]可实现对物理电网的智能管理和控制。传统电网完成了电力资源的网络分配,而智能电力能源网络实现了电网的信息化、自适应优化资源配置。智能电网可以充分、有效而灵活地满足用户的不同需求,为用户交互、可靠地供电,使电力系统基础设施的清洁性更强,并提供更多的增值服务。

随着大量数据先后涌现,原有的传统数据处理技术不能在一定时间内完成数据处理任务及要求。在实际应用场景中,要找到全新的数据处理方式来获取数据特征或信息。大数据[10]技术应运而生。大数据分为实时数据和非实时数据。按照数据的属性来看,有温度、声音和文字等相关数据。根据数据的内部结构特点,数据可分为结构数据、部结构数据和非结构数据。结构性资料具有明显的结构性特征。而非结构性资料没有明显的结构性。

智能电力能源网络大数据包括实时数据、历史数据、结构化数据以及非结构化数据。此外,根据不同的数据源,智能电网数据可分为内部数据和外部数据两类。内部数据来自电网,包括生产管理系统、设备检测、监控系统、配电管理系统、能源管理系统、客户服务系统、电力信息采集系统、营销系统、财务管理系统等。这些数据是由不同的单位或部门产生的,主要来自电网、互联网等公共服务部门。这些数据实行分布式运营管理。在电力系统中,非结构化数据的比重越来越高,占智能电网数据的很大一部分。此外,基于电网调度和分布式系统控制的实时处理需求,大量的数据是实时数据。

1.2 基于云计算的电力大数据清洗模型

建立大数据清洗模型,包括数据的储存、数据分析以及数据清洗。电力能源大数据清洗模型如图1所示。该模型主要由3个部分组成:数据储存、数据辨识和数据清洗。

1.2.1 数据储存

智能电网使用诸如Hadoop分布式文件系统(Hadoop distributed file system,HDFS)[11]等相关存储系统,使大量数据分布存储在智能电网中,很难满足智能电网的实时性要求。所以,必须根据性能和分析需求进行分类存储:实时数据和核心业务数据采用实时数据库系统和并行数据仓库;历史数据和非结构化数据采用分布式文件系统。电力能源大数据多级储存如图2所示。在基于Hadoop的云平台中,数据是根据使用属性进行分类和存储的。任务处理层级包括任务管理和任务监测,归为一级。数据运行层级包括Hadoop云计算、并行数据信息仓库和实时更新数据库。数据集成层级包括数据导入和数据信息集成。

图2 电力能源大数据多级储存示意图Fig.2 Multi-level storage of power energy big data

云计算的数据是分布式存储的,因此会产生多种分布式数据。这些数据集之间存在着数据调度关系。所以,通过分析它们之间的依赖和时间成本的数据调度生成最优数据分布,可以得到以下密集的数据存储方式。一是将电力系统计算的当前业务数据和数据存储资源进行整合,移动计算相关数据集被放置在任务调度中心分类数据集与数据关联。二是由数据中心对数据集与数据中心之间的从属关系进行分析,形成数据集的最优分布。三是将优化后的数据集存储在磁盘中。

与此同时,其分类储存格局也包括三个方面的要求。一是对于实时性要求高的实时数据,采用实时数据库提供零延迟呼叫响应服务。二是对于主要数据块,采用并行数据库确保数据块的多次备份,使数据块可以进行统一时间段的多次利用。三是针对历史数信息,根据属性进行分类,并将其聚类存储[12]在分布式文件系统中。同时,系统中对于存储位置的要求是使用频率越高的文件存储在更容易访向的位置。

在对电力能源大数据进行储存管理时,要用到云计算方式。对于该大数据网络,有如下计算:

D={di|i=1,2,...,N}

(1)

式中:D为大数据网络集合;N为数据中心的数量。

针对任何一个数据集gi,有gi∈G,包括数据集属性的二元组是,且数据集gi=Ai。那么针对随机的数据集gi和gj,他们之间的关系如式(2)所示:

Yi,j=|gi∩gj|i≥1,j≤m

(2)

式中:|gi∩gj|为任务集里运用的gi和gi任务数据量;G为关联数据流的集合;R为工作任务集合;Ri为使用数据集gi的全部任务集。

针对云计算平台的N个数据中心,对应的距离矩阵如式(3)所示:

(3)

式中:d为DA和Db之间的距离,DA为随机数据,Db为随机数据。

随机一个数据集gj由Dc传到De的传输总时间如式(4)所示:

(4)

1.2.2 数据辨识

数据清洗子系统可以客观地实现文件的统计,分析用户在系统中保存的信息,并完成对文件信息的统计分析。数据清洗操作的功能对用户来说意义重大。同时,用户还需要通过这个系统判断保存在系统中的文件的质量。因此,数据清洗模型的数据分析部分主要包括数据信息统计、数据清洗策略和数据质量评价。

系统主要实现的功能如下。

①文件信息统计子模块需要实现的功能,包括:计算文件属性的数量、计算的数量和百分比空缺数据属性;计算数值属性的基本价值;计算异常数据的数量和比例。

②根据文件的统计信息清洗操作标准,实现提出相应的数据清洗操作的功能。

③数据质量评价子模块需要根据数据量评价标准实现对特定类型文件数据质量的评价功能。

1.2.3 数据清洗

电网大数据数据清洗模型实现的关键点是:根据电力系统负荷数据的特点,实现低复杂度、高精度的数据清洗算法;建立数据质量评估框架,对电网数据质量进行评估和比较。本研究主要针对96网点电力日负荷数据进行清洗。96网点电力日负荷数据会因为设备故障和外部因素的影响导致数据出现异常而不完整。本文采用基于时间序列数据相似度度量的清洗方式,以时间序列符号化方法对时间序列进行降维,并使用欧氏距离算法进行相似度度量,最后使用相似度曲线对负荷数据进行数据清洗。

①基于符号集合近似(symbolic aggregate approximation,SAX)算法,把最初的96点时间序列进行规格化,也就是把数据转化成平均值是0、标准差是1的时序数据,记作W={w1,w2,...,wm}。

②对于随机的数据wi,如式(5)所示:

(5)

式中:X为96点时间序列;xi为X序列中的任一数据;α为序列中全部值的平均值;β为全部值的标准差。

③运用欧式距离,简单、直接地计算相似性,如式(6)所示:

(6)

式中:U为相似性度量的其中一个序列;L为另一个序列;fi为U在第i个点的数值;lj为L在第j个点的数值。

1.3 仿真分析

①本研究基于云计算电力能源大数据储存系统,对电力大数据分布式存储方案进行了仿真和实现。所选取数据集数量为10、30、50、70、90、110。

②运用origin2018软件,对电力能源大数据储存和清洗结果进行可视化分析。

2 数据储存和清洗结果

2.1 数据储存结果

将数据传输次数与消耗时间之间的关系进行统计。数据储存结果如图3所示。

图3 数据储存结果Fig.3 Data storage results

从图3可以看出,随着数据量的提高,数据传输的次数和消耗的时间都逐渐提高,但两者的增长率都逐渐降低。当数据块数量从10块增加到30块时,相应的数据传输次数由28次增加到136次,传输次数增长了5倍左右;相应的消耗时间从0.117 h增加到0.165 h,相差的时间小于2倍。

2.2 数据清洗结果

经过SAX算法计算出序列1~序列5的相似性。

序列1~序列5的相似性结果如表1所示。

表1 序列1~序列5的相似性结果Tab.1 Similarity results of sequence 1 to sequence 5

表1中:序列1的序列号为gccfmkhignnqpqnj;序列2的序列号为cfeegqnomgnkkqnh;序列3的序列号为ffqfhfnomniqfpie;序列4的序列号为dgcqgjkpdnoarqmm;序列5的序列号为hgngikjpieoqllgg。

由表1可以看出,如果利用欧式距离算法计算获得的数值越大,说明序列的相似度越大。由此可以看出,序列相似性最高的是序列1和序列4,接着是序列2和序列5,相似度最低的是序列3和序列4。

接着,对数据清洗后的结果序列进行可视化分析。不同网供区域数据清洗结果如图4所示。

图4 不同网供区域数据清洗结果Fig.4 Data cleaning results of different network supply areas

由图4可以看出,经过清洗以后,各个网供区域的数据都清晰可见,不同系列之间的数据也能清楚辨别和区分。

对本文提出的数据清洗算法与通用的线性回归算法性能进行对比。不同数据清洗算法性能对比结果如表2所示。

表2 不同数据清洗算法性能对比结果Tab.2 Performance comparison results of different data cleaning algorithms

由表2可以看出,基于时间序列数据相似性的数据清理算法获得的平均绝对百分比误差为0.090 2,而线性回归数据清洗算法得到的平均绝对百分比误差为0.142 3。这就说明本文提出的算法精度高于通用的线性回归数据清洗算法。

3 结论

本文首先对智能电力能源网络大数据的理论基础进行分析;接着,建立大数据清洗模型,包括基于云计算的数据储存、数据分析以及数据清洗;然后,采用基于时间序列数据相似度度量的清洗方式对时间序列进行降维,并使用欧氏距离算法进行相似度度量;最后,使用相似度曲线对负荷数据进行数据清洗。结果表明,经过清洗以后各个网供区域的数据都清晰可见,不同系列之间的数据也能清楚辨别和区分;同时,本文提出的算法精度高于通用的线性回归数据清洗算法。

本文方法也存在一定的不足之处:对不同序列进行相似度分析时,采用的样本量太少。这对试验结果的普适性会产生一定的影响。在后期的研究中,会提高序列的数量,以实现各维度分析。

猜你喜欢
储存电网能源
国际能源署:今年清洁能源投资将再创新高
计及SOC恢复的互联电网火储联合AGC控制策略研究
穿越电网
冬季养羊这样储存草料
第六章意外的收获
电网调控技术在电力系统中的应用
危险物品储存和运输安全
电网基建施工现场注意事项及改善
松鼠怎样储存食物
好大的方块糖