电力大数据的多数据流实时处理技术分析

2020-10-09 02:55蔡冰

自动化与仪表 2020年9期

蔡冰

（国网宁夏电力有限公司，银川750001）

在使用的电网终端采集设备中，电网业务大数据采集性能得到了广泛应用。大型实时数据流处理技术需要一段时间来适应，以充分发挥实时数据采集的价值[1]。然而，就目前电力大数据处理方式而言，依据了先存储后设计的思想来处理大规模电网数据流。传统的批处理方式在系统可扩展性、容错性及状态一致性方面存在弊端，使得负载均衡的数据在单位时间内成功传送数量较少，面临着前所未有的挑战[2]。

流量计算能很好地实时分析动态变化中的大尺度流量数据，并捕捉可能有用的信息[3]。但当前研究主要集中于对流量计算和系统可扩展性、容错性及状态一致性方面的优化，改善在单位时间内成功传送数据的效率，对传统批处理方式尚待进一步研究。对此，从充分考虑大规模电网数据流实时处理需求角度出发，设计了电力大流量实时计算服务系统，构建了跨总线四层时序空间模型并进行协同计算，完成电力大数据的多数据流实时处理。

1 电力大数据流计算服务体系

根据电力大数据流特点，构建计算服务体系，该体系是处理分布式数据流处理的基础框架[4]。服务体系不仅具有高性能的数据流计算能力、支持流处理的资源管理和部署能力，而且能够集成多个数据源并高效解析数据来源[5]。电力大数据流计算服务体系如图1所示。

图1 电力大数据流计算服务体系Fig.1 Power big data stream computing service system

1）业务服务充分考虑电力企业应用服务模式，把数据流的处理分为多数据流检测、时间窗计算以及模型训练等，依据不同数据属性，提供不同服务接口，数据处理从分布到分析、计算等环节，使用户能够直接控制处理模型，并进行应用部署[6]。

2）分析服务分析人员为用户设计数据流分析思路，给出分析算法，提供构建模型、模型评估、流程分析及模型管理等步骤[7]。对单个数据流进行在线随机优化，对多个数据流进行协同分析；建模是指对数据挖掘模型进行训练和获取，通过模型评估来帮助用户分析模型的准确性，根据评估结果优化建模参数；设计电力大数据实时挖掘流程，为系统应用提供数据流实时处理功能；模型管理用于体系中数据发布具有关键性作用，其中包括发布版本控制及中断判断等。

3）开发服务开发人员提供了分布式数据流的调度接口与任务分配模式，供电力开发者使用[8]。开发人员需在相应编程界面设置参数，保证电力网络具有实时处理功能，向计算处理平台中上传编写程序，即可完成计算任务的部署和应用。

4）管理服务该服务体系提供统一的实时监控管理服务，在一定时间内会定期向分级资源管理器反馈计算任务的数据使用及变化情况等信息，并以图表等可视方式展示各过程类型，对各层次的处理情况进行实时监测，从而实现对调度任务的实时监控[9]。

2 多数据流相关系数计算

2.1 多数据流的挖掘与监测

在此对电网、省公司所属的多个厂站不同时间点的多台设备的监测数据进行综合分析，并提出了相应的改进措施[10]。通过这种方式，电力系统采集到的由变压器局部放电、光纤绕组温度及油中气体溶解程度测量数据组成的大数据流，通过体系状态监测功能，可确定介损因数、容漏率、满电流、三次谐波、避雷器阻性电流数据，以及开关柜局部放电运行机理特性和工作状态等参数，每秒都会对最近1 min 的数据进行采集和监测[11]。由于状态监测数据流大，空间存储占用面积大，因此需压缩使用空间，采用滑动窗口设计电力大数据相关数据流处理步骤，如图2所示。

图2 电力大数据相关数据流的处理流程Fig.2 Processing flow chart of power big data related data stream

如果滑动窗口具有1 s 滑动时间，那么可将滑动窗分成60 个基本滑动小窗口，属性集表示各变电站的状态监控量集[12]。对不同窗口进行阈值分析，缓存60 个单元组，从而实现对数据的并行判断。在基本视窗计算之后，将最后60 个基本视窗的离群值合并计算，即每秒输出最后1 min 的离群值就是所需挖掘的数据流。

2.2 多数据流相关系数精确并行算法

为得到更为精确的多数据流相关系数，设置a条数据流，将不同数据流组合成相关矩阵，得到a 阵阶数。由此得到的任意数据流中相关系数为

式中：λa为滑动窗口中数据的内积；wa为相关系数方阵的空间转换系数。λa的计算开销最大，能够达到扩展存储空间的目的。将a 阵阶数抽象成到一个计算网格之中，配置相关系数，得到特定滑动窗口。设置线程块索引方式，对这8 条数据流相关系数方阵索引，如图3所示。

图3 相关系数方阵Fig.3 Correlation coefficient square

由图可见，在所有线程块中，需使用2×104个线程并行计算方式，对应滑行窗口中的2×105个数据位积，采用协议算法计算滑行窗口中的2×105个位积之和，并分段累加，得到λa，由任意数据流中相关系数获取最终数值。当线程块中行、列索引存在数值关系，即行索引≤列索引时，线程块将不在下三角数组中。通过式（1）中的直线表达式a（a-1）/2，精确计算数据流的多数据流相关系数。

3 数据流实时处理计算方法

3.1 跨总线四层时序空间模型

滑动窗模型在基本窗口法基础上的最大特点是定义了2 种不同粒度的时间单元，分别为数据采集、基本窗口滑动[13]。所设计的将在上述基础上提出跨总线四层时序空间模型，该模型如图4所示。

图4 跨总线四层时序空间模型Fig.4 Cross-bus four-layer timing space model

第1 层时序主要任务是缓冲IO 数据，使任意数据在采样时间内都具有相同的安全标识符，将这些标识符相加，判断是否到达该表数据，如果没有到达该表数据，则采用线性插值处理[14]。

第2 层时序该层设有缓冲层，设置的目的是减少不同设备之间的数据交换次数，缩短交换时间，提高数据并行计算密度[15]。大规模数据流并行处理方式中最小单元的层次是数据缓冲层，缓冲普通子窗口，不断更新其它窗口实现缓冲层内部数据的更新。

第3 层时序其任务是将新的滑动窗口通过缓冲层作用后交换到GPU 设备存储器之中，维护不同数据流增量，使其汇总到信息库之中。

第4 层时序负责存储截面矩阵数据，执行系统可扩展性、容错性及状态一致性下产生的复杂数据流挖掘任务。

3.2 空间复杂度降载

在上述基础上使用数据处理器对跨总线四层时序空间模型进行复杂度降载，设存放计算结果的数组容量为a（a-1）/2，由于计算多数据流相关系数存在大数据环境复杂问题，导致计算效率较低。因此，在处理相关问题时，降低空间维度，由此提升大数据处理效率。

将所有数据以分块方式，分批次处理并计算，设计算网格划分成m×n 个k 阶子方阵，i 和j 分别为子方阵的行、列索引，则滑动窗口索引公式为

利用式（2）完成滑动窗口索引，在该步骤基础上进行复杂度降载，算法1 给出分块多数据流跨总线四层时序空间复杂度降载。

算法1 空间复杂度降载算法：

①fori

②Dim3 g（k，k，1）//定义网格和线程块；

③//分批次处理并计算数据流，获取相关系数；

④gpunStreamsCorrelation<<>>（…，i，j）；

⑤gpunCorrQuantiles<<<>>>（…）//阈值设置；

⑥endfor//内外层逐次循环。

3.3 多数据流协同计算

多数据流协同计算主要借助体系及并行处理算法来完成，任务的分析与合并均通过数据缓存层来实现[16]。具体步骤为

步骤1建立数据流协同计算模型，即

步骤2构建全局函数，即

步骤3针对Worker 建立本地函数，即

通过全局更新，建立多数据流处理方案，将广域分布的多数据流分成若干数据块，每一块由一名工作人员处理[17]。业务人员、分析人员、开发人员及管理人员在操作过程中所涉及的服务器种类较多，主要是负责培训所有模型。这些模型的参数存储在多个主服务器上，并且水平划分[18]。

4 仿真试验

4.1 试验配置及参数

所处理的电力大数据类型，主要包括电网运行及电力设备监测、检测到的信息，以及电力企业相关管理数据和营销数据。

以省份地区为例，电力大数据数据量涵盖全部居民的用电情况，且数据采集时间间隔为1 h，一天的居民用电数据有几十亿项。在此将选取其部分数据作为试验对象。通过仿真试验，验证所提方法在处理多数据流过程中的性能。试验所用设备是3 台配置相同的PC 主机，这些主机通过VMware 搭建集群环境。PC 端配置参数见表1，VMware 处理结果如图5所示。

以某省电网中110 kV 变压器为例，从绕组光纤测温属性数据中选取2020年2—4月监测到的数据，以此作为试验数据，这3 个月监测到的绕组光纤测温属性数据大小约为0.864 T。在此截取其中的450 GB 作为试验数据，数据的监测界面如图6所示。

表1 试验配置参数Tab.1 Experimental configuration parameters

图5 VMware 处理结果界面Fig.5 VMware processing result interface

图6 绕组光纤测温属性数据监测界面Fig.6 Monitoring interface of winding optical fiber temperature measurement attribute data

设置滑动窗口时间为1 min，分析不同集群环境中的平均处理延时集群节点。

4.2 平均处理延时测试

通过设置不同数据量，对本文处理延时进行测试。设定4 个全局工作流，并分别观察簇节点数和滑动窗口处理的输出结果，统计从接收到处理的元组平均处理延迟，试验结果见表2。

表2 不同数据量的平均处理延时测试Tab.2 Average processing delay tests for different data volumes

由表可知，数据量越少，处理数据的时间就越短。比如，当数据量为250 GB 时，由于群集的扩展，任务分配和数据传输会消耗一部分系统资源和时间，在拓扑模型处理数据时会产生一些延迟。但随着资料规模的增大，系统处理能力逐渐显现出来，平均处理时延逐渐减小。

4.3 CPU 占用率测试

为验证所提方法较强的空间压缩能力，在此以CPU 占用量为指标进行分析。在系统中上传75～85 MB大小的电力数据文件，检验应用所提技术后电力数据管理器的耗能，得到结果如图7所示。

图7 数据处理技术的CPU 占用量Fig.7 CPU footprint of data processing technology

由图可见，应用本文方法前，文件大小为76.2 MB，CPU 占用达5%，而应用本文方法后，文件大小上升至81.7 MB 时，CPU 占用仅0.5%。这是由于本文方法使用数据处理器，对跨总线四层时序空间模型进行复杂度降载，在压缩数据的同时提升系统运行效率。

5 结语

为满足大数据实时处理需求，构建架构服务体系，以电力大数据为基础构建真实实验环境，并将其作为测试环境，与国内某公司大数据流量平台进行了对比分析，达到预期的效果。使用数据处理器不仅能够提高数据流处理数据的能力，还能有效减少计算量，使该平台能够满足数据缓冲、任务调度目的，借助图形处理器，能够快速处理实时数据流。