基于KS检验和tSNE的设备停复电操作时长分析

2023-10-20 09:09杨元威邱生敏单政博薛国权
机械设计与制造工程 2023年9期
关键词:维空间降维检修

杨元威,邱生敏,张 坤,单政博,薛国权

(1.中国南方电网电力调度控制中心,广东 广州 510700) (2.泰豪软件股份有限公司,江西 南昌 330096)

近年来,随着电网设备操作量的大幅增加和电力市场化改革的深化,操作的安全性和效率逐渐成为电网安全运行、电力市场高效运转的重要因素。设备停复电操作时长是设备操作效率的直接体现,通过分析影响停复电操作时长的因素,掌握设备停复电规律,一方面能够为电网检修安排提供决策依据,提升停复电计划的合理性,另一方面能够为设备操作效率的考核提供科学的标准。依托于电网智能化、数字化工作的推进,高压设备停复电操作已经实现了在线记录和存储,并满足海量操作信息数据挖掘的基本条件。因此,如何利用新型算法替代传统平均值算法,快速定位检修操作中的异常情况,提升操作安全,具有重要的现实意义[1-2]。

大数据算力的提升以及理论算法变革,使AI(artificial intelligence)在电力领域的应用取得了突破性进展[3-4]。文献[5]对用户负荷序列样本提取14个特征,利用主成分分析法(PCA)将样本降维后只保留2个特征,实现异常用电模式检测,但PCA是线性降维方法,使用PCA进行降维后样本间的非线性关系可能会丢失;文献[6]对电网工控系统内部网络流量进行异常检测,提取网络流量的熵作为特征,用单类支持向量机改进半监督K-means算法,提高了异常流量的检测率,并降低误报率;文献[7]提出了K-means-DBSCAN融合聚类算法,对温度特征进行聚类找出温度变化离群测点;文献[8]将电量预测值和真实值相减得到残差项,然后利用DBSCAN密度聚类算法对残差项进行聚类,实现电量异常数据的识别。但DBSCAN算法不适合密度不均匀、聚类间距差相差很大的样本集,而设备停复电时长的正常样本和异常样本差距很大,因此DBSCAN算法不适用于设备停复电时长的分析。

本文对2020年南方电网总调直属500 kV线路的停复电操作时长展开分析,使用KS(基于累计分布函数的非参数)检验法[9]筛选出原始数据中影响停复电操作时长的主要因素,在此基础上,使用t-分布随机邻域嵌入(t-distributed stochastic neighbor embedding,tSNE)方法[10]对样本进行降维和可视化处理,将原始样本降到二维,直观地展示出疑似异常样本。对疑似异常样本分析结果表明,tSNE能准确甄别和呈现出异常样本,并在一定程度上反映样本的异常程度。

1 KS检验和tSNE介绍

1.1 两样本KS检验

两样本KS检验是一种用于检测两个独立分布之间相似情况的非参数统计方法。以检验季节是否影响操作效率为例,设夏季操作时长样本x的分布函数为F(x),冬季操作时长样本y的分布函数为G(y),如果经KS检验认为F(x)与G(y)分布差异很大,则认为季节是影响停复电操作时长的主要因素之一,反之则认为季节不是影响停复电操作效率的主要因素。待检验问题为:

H0∶F(x)≡G(x)↔H1∶F(x)≠G(x)

(1)

检验统计量为:

DN=max{|Fp(X(i))-Gq(Y(j))|}

(2)

式中:H0代表假设F(x)和G(x)为同一分布函数;H1代表假设F(x)和G(x)为不同分布函数;DN为两个样本分布的经验分布函数之间的最大距离。X(i)和Y(j)为X样本和Y样本的顺序统计量;p和q为样本数,N=p+q。若统计量DN小于预设值(查表得到),则无法验证两个样本具有不同的分布,反之则说明两个样本分布不同。

1.2 tSNE

tSNE是一种非线性降维算法,属于流形学习(manifold learning)方法的一种。流形学习假设高维样本采样于一个高维空间中的低维流形,期望从高维空间中恢复低维流形结构,并求出相应的嵌入映射,以达到降维的目的。本文利用tSNE方法,在二维平面上构建一系列新样本,利用新样本尽可能完整地表达原始的多维数据样本。tSNE将空间距离转换为联合分布概率来表达数据之间的相似度。假设高维空间下数据都满足正态分布,定义相似度为:

(3)

式中:mij为高维空间样本xi与样本xj的相似度,σi为以数据点xi为中心的高斯方差。对于高维数据点xi和xj在低维空间对应的点yi和yj,假设yi和yj都满足t分布,定义低维空间下数据的相似度为:

(4)

式中:nij为yi和yj的相似度。tSNE的目标是找到一种低维数据的表示方法,能最大限度地减少mij和nij之间的不匹配,从而让yi和yj准确模拟高维数据xi和xj之间的相似性。tSNE采用KL(Kullback-Leibler)散度表示mij和nij的不匹配程度:

(5)

式中:C为Mi与Ni之间的KL距离,Mi为给定点xi对所有其他数据点的联合概率分布,Ni为映射点yi对其他所有映射点的联合概率分布。tSNE使用梯度下降法最小化所有数据点上的KL散度之和来实现该目标。

2 基于KS检验和tSNE的设备停复电操作时长分析

电气设备停复电操作过程和设备类别、电压等级、管理方式有关,本文选取2020年南方电网总调直调500 kV线路的停复电数据进行分析,其他电气设备的停复电操作分析亦可采用本方法。原始数据见表1,按照南方电网相应的规程,检修线路的复电包括检修-冷备用、冷备用-热备用、热备用-运行3个过程,表格中的操作总耗时=检修-冷备用+冷备用-热备用+热备用-运行+现场受令时间。为充分利用原始数据中的受令单位、操作日期和时间信息,采用KS检测法,判断受令单位、操作时间、操作季节这3个因素是否影响检修线路复电时长。

表1 500 kV线路复电操作记录

考虑受令单位对停复电操作时长的影响,将南网总调按受令单位划分为中调、区控和集控、换流站、电厂和变电站4类,利用KS检验法,假设H0:四类受令单位的检修-冷备用操作时长属于同一分布,判断结果见表2。

表2 利用KS检验判断受令单位是否会显著影响复电时长

由表2可知,换流站和电厂、变电站的检修-冷备用复电操作时长差异不明显,而中调、区控和集控与换流站(电厂和变电站之间)的操作时长存在显著差异。为直观地展示受令单位对线路复电操作的影响,绘制不同受令单位操作时长概率密度分布,如图1所示。根据KS检验结果,结合概率密度分布情况可以判断,受令单位是影响复电操作时长的重要因素。

图1 不同类型受令单位检修-冷备用

检验操作时间对停复电操作时长的影响。根据复电开始操作时间把样本划分为8:00—20:00和20:00—次日8:00两类,分别对应白天操作和夜晚操作。利用KS检验,假设白天操作和夜晚操作时长属于同一分布,得到显著性水平大于0.05,即白天操作和夜晚操作对操作时间的影响不明显。

检验季节对复电操作时长的影响。选取12月—次年2月(冬天)和6—8月(夏天)两个时间段内的操作时长进行KS检验,假设冬天操作和夏天操作的时长属于同一分布,得到的显著性大于0.05,即表明季节对操作时长的影响不明显。

因此,受令单位对操作时长的影响最显著,中调操作时间最长,其次是区控和集控,换流站和电厂、变电站的操作时间较短且近似。原因应与操作的层级和工作饱和度有关,给中调下令后,中调不直接操作,而是向对应500 kV变电站下令,中间环节多。

在利用KS检验筛选影响停复电的因素后,继续使用tSNE进行可视化处理,挖掘异常样本信息。上文研究已发现受令单位会影响线路复电时长,故选取同样类型的受令单位进行tSNE分析。选择电厂和变电站的106条线路复电的数据,并选择检修-冷备用、冷备用-热备用、热备用-运行、操作总耗时4个因素进行tSNE分析,因此输入样本为106×4矩阵。输出结果如图2所示,图中每一个圆圈代表一个样本,为方便后续分析,在圆圈旁标记了数据编号。

图2 样本经tSNE降维后的分布情况

根据tSNE的原理,样本x1与x2在高维空间中距离较大时,对应二维平面的映射y1与y2的距离也大。同理,如果二维平面上的样本存在一个yi与其他样本距离都大,可以反推它在原空间与其他样本的距离都大。因而图2中边缘部分的样本,离其他样本较远。对图中左上角序号为33、66、50、72的样本进行分析,其对应的样本原始数据见表3。

表3 33、66、50、72号样本的原始数据

由表中数据对比其他样本数据可知,上述样本的各项操作时间均较短,属于操作时长最短的样本,而右下角序号为43、18、84、56、47、13的样本操作时间较长,需要核实延迟原因。表4列出了疑似异常样本以及异常原因。由此可见,tSNE的降维和可视化处理结果更加科学,能帮助研究人员快速、直观、准确地分辨出异常样本,有较大的实用性。

表4 疑似异常样本情况以及样本异常原因

3 结束语

本文对南方电网2020年总调直属500 kV线路106次复电操作时长展开分析,使用KS检验法筛选出数据记录中影响停复电时长因素,并在此基础上使用tSNE方法对样本进行降维和可视化处理,得到二维数据,直观展示出疑似样本,发现边缘化程度高的样本均存在异常。本文方法能够充分挖掘设备停复电操作时长数据,实现快速异常识别。未来将通过定量挖掘文本信息与操作时长关系的方法,进一步进行调度操作时长分析。

猜你喜欢
维空间降维检修
混动成为降维打击的实力 东风风神皓极
Update on Fengyun Meteorological Satellite Program and Development*
降维打击
检修
从零维到十维的空间之旅
电力系统继电保护二次回路的维护与检修
论自动化焊接设备的预检修
十维空间的来访者
茂名式大修
抛物化Navier-Stokes方程的降维仿真模型