基于Hadoop 平台的电力大数据聚类算法研究

2021-01-29 03:06李俊艳郑州电力高等专科学校

数码世界 2020年12期

李俊艳郑州电力高等专科学校

随着社会信息化程度的不断提高，数字化信息量呈现爆炸式增长，互联网信息化进入极速增长期。国际互联网数据公司IDC统计全球数据以每年50%的速度增长。电力工业是国家基础能源的重要组成部分，麦肯锡从大数据应用在各行各业的发展等方面研究阐述对人类生活等方面产生的意义。2012年达沃斯世界经济论坛上大数据成为会议热点，探讨如何利用数据产生良好社会效益。2013年电机工程学会发布《中国电力大数据发展白皮书》，重新定义了电力大数据的特征，以期推动大数据更加广泛的应用到电力工业领域。随着智能电表普及，SCADA系统部署完善，电力工业数字信息化程度大幅提高，电力企业信息化建设从80年代财务电算化信息化建设到大规模企业信息化建设，计算机技术在电力行业中得到广泛应用。电力大数据的使用在电力行业各环节都有体现，本文使用R语言与Hadoop分布式计算平台相结合，提高数据分析速度。通过分析不同用户用电特征，对用户进行针对性电力营销策略。

1 数据挖掘技术研究

数据采集技术的快速发展使得数据可在短时间内完成海量积累，数据挖掘技术是智能系统理论研究的重要课题。通过人工智能等技术从海量历史数据中获取有价值知识，目前数据库储存数据量日益增多，通过数据挖掘技术可获取数据中隐含的有价值的信息。研究通过数据挖掘技术预测电力负荷，为更合理的进行电力调度提供技术支撑。

数据挖掘技术聚类分析是将海量大数据划分为互斥组，沃尔玛购物车分析中发现，将啤酒和尿不湿放在一起销售可提高销量。阿里巴巴成立大数据团队，分析客户购物习惯。聚类分析是大数据挖掘分析的一种重要方式，很多聚类算法被收录在大数据分析软件中。麦肯锡公司发布大数据报告后，随着技术的进步，数据从GB级发展到PB级。传统数据处理方式在大数据处理速度上不能满足实际需求，分布式计算平台Hadoop因其低成本，高性价比等特性成为企业大数据平台首选解决方案。随着智能电表在用户侧普及，电力大数据在电网应用得到发展。

随着社会高度信息化，每天有大量来自商业、生活等各方面的数据注入计算机网络，数据爆炸式增长，如何从海量大数据中挖掘出具有实际价值的信息，为企业提供决策支撑成为企业的迫切需要。数据挖掘可用于任何数据集合，对包含有多种不同数据类型的数据集合同样适用。数据挖掘技术根据处理的数据类型有很多模式，包括回归分析，聚类分析等。数据挖掘技术涉及多个学科领域，包括数据库技术、神经网络等多门学科知识。数据分析处理过程包括数据收集、数据处理和结果展示几步，在进行数据收集的过程中，由于各种原因可能造成属性值缺失，数据重复等问题，很多数据不具有参考价值，需要在分析数据前把可能影响数据分析结果的无用信息清洗掉，以便得到最准确的分析结果。聚类是根据特定规则，把数据集中特征相似的数据划分到同一组，特征差异较大的数据划分到不同的组，是一种常见的数据分析方法。数据在完成分析处理之后，通常以图形化、图表化等直观的方式展示给用户。

2 Hadoop平台分析

Hadoop是Doug Cutting等人受谷歌实验室论文MapReduce：Simplified Data Processing on Large Clusters启发开发出来的一套分布式计算框架，因其灵活性、开源性等特征，用户能够非常快速地在Hadoop分布式平台上运行自己开发的用于处理大数据的应用程序，被行业内很多互联网公司使用。

Hadoop是一个可以对大规模数据集进行分布式快速处理的软件框架，它以并行的方式工作，实现数据的快速高效处理。Hadoop配置在一个集群上，当启动Hadoop集群时，分布于集群各个节点的一组进程开始运行。Hadoop平台的核心包括分布式计算框架MapReduce和文件系统HDFS等。MapReduce采用“分而治之”的形式，把大规模数据划分成多个数据块，把各个数据块分配到不同的节点进行处理，最后把所有节点的处理结果进行整合，得到最终的结果。分布式文件系统HDFS主要用于Hadoop中数据文件的管理，其存储可靠性高、数据吞吐量大、规模可扩展性强、系统容错能力强和网络堵塞概率低等特性，为大规模数据的存储提供了良好的保障，是处理大规模数据集的合适平台。

3 用户负荷聚类算法

电力数据具有体量大的特点，电力数据采集方式有很多，在不同环节产生海量电力大数据，通过对这些数据分析，可以更好的为用户提供服务。智能电表的大规模普及使得对用户用电负荷数据采集变的非常方便，本文针对电力大数据在用户用电侧电力负荷数据研究，分析用户的用电行为特性，更合理地分配调度电力资源。

电力数据在收集、传输过程中，由于种种原因，最终从数据源导出后通常会产生部分数据重复，数据属性值缺失等问题，在数据分析之前，需要对原始数据中可能引发不良影响的元数据进行清洗，包括分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理等步骤。从数据源中获取的用户负荷数据含有时间属性，智能电表采集数据的频率为每15分钟一次，通过查看采集在数据，发现存在用户数据负荷数值缺失等情况。

电力用户负荷曲线是时间序列格式，属性在不同时间点，属性值按照一定的顺序线性展示，具有非平稳性，波动幅度随时间变化。用电负荷曲线很大程度上体现了用户日常用电习惯，包括负荷种类，计量机电等分类方式。本文涉及用电负荷按时间周期分类方式，采用用户日负荷曲线，二维空间坐标系中Y轴表示用户用电负荷，X轴表示数据采集时间。时间序列分析算法采用传统静态数据聚类算法无法胜任。

凝聚式层次聚类算法在电力行业用电负荷预测中也有应用，采用层次结构作为算法输出结果，将数据集中节点当做簇，层次聚类算法通常利用树状图的形式展示结果。基于欧式距离的聚类算法将负荷曲线点间的几何平均距离作为对象相似性判断标准，易造成用电负荷剧烈不准确。本文通过将DTW聚类算法应用于云计算平台，对电力大数据进行聚类。

4 实验结果分析

电力大数据与Hadoop结合已有很多应用，研究通过运用HDFS存储智能电网数据，对电力数据分析预测，本文对电力用户负荷数据进行聚类分析，通过Hadoop平台进行分布式计算，快速得出结果，提高数据分析的时效性。

实验采用主机服务器搭建Hadoop集群实验，在Cent0S系统解压下载好的JDK，为使集群中NameNode节点通信方便，本文采用JournalNode方式，节点用作其他服务。主备NameNode节点切换方式为手动自动，实验采用简单手动切换模式。安装R语言及相关R包完成实验环境搭设。在R语言控制台可进行数据分析。通过比较序列时间维度拉升操作，使用DTW算法找到时间序列匹配模式。DTW层次聚类法具有较高准确性，但执行时需生成邻近矩阵，如直接对电力大数据应用DTW层次聚类算法时间复杂度高，通过借鉴Srinath对亚马逊客户数据聚类分析法得出DTW层次聚类算法。

DTW层析聚类算法需通过构建时间序列点距离矩阵，首先对从全部电力负荷数据中随机抽样，将电力负荷数据部署到Hadoop集群的HDFS上，计算完整的负荷数据与抽样数据聚类中心DTW距离，对数据排列归并得到负荷数据聚类结果。方案解决了对大数据进行DTW层次聚类分析高复杂度的不足，数据使用广东省某一区域电网大用户工作日的日负荷曲线数据，通过使用DTW层次聚类算法分析历史数据得到用户用电负荷特征，纵坐标为负荷值，横坐标为96个采集点。负荷曲线特点体现为平均负荷值较大，工作时间从凌晨至早上；平均复合值适中，一天出现三个波峰；除了固定时段平均负荷值出现波谷以外，全天都维持比较高的功率。

5 结语

在全球信息化时代浪潮下，如何利用大数据技术为生活带来更大效益成为当下热门课题。本文对电力大数据挖掘进行深入研究，对用户电力负荷曲线聚类算法对比提出Hadoop平台分析解决方案。将DTW层次聚类算法应用于Hadoop分布式计算平台对电力大数据分析，能够提高聚类分析结果的准确性和时效性。