基于聚类算法和孤立森林的企业用电画像行为分析

2021-06-16 09:35严嘉慧张禄高鑫盛慧慧
电子技术与软件工程 2021年7期
关键词:平均功率用电量聚类

严嘉慧 张禄 高鑫 盛慧慧

(国网北京市电力公司 北京市 100049)

1 引言

工业企业在对排放废气进行处理时工序繁冗,部分重污染企业为了自身利益,未能在重污染天气应急管控期间严格遵守政府指令按规排放工业废气,也存在部分企业转移生产模式未能合规处理工业废气。工业违规生产行为给大气承载带来了巨大压力,传统大气污染防治工作开展时主要依靠现场巡开展治理和防控,人力物力成本高昂,效果低下[2]。现阶段缺少切实可靠的方式对企业的生产行为进行监测约束,也缺少及时有效的方法对存在违法行为的企业进行精准执法。智能电网电力大数据在数据量、多样性、速度和价值方面拥有高性能[3],可以辅助监管部门准确判断企业生产状态和生产行为。

聚类算法可以将数据集的相似性样本归为若干类,使得相似样本集具备高水平可度量性[4][5],孤立森林( Isolation Forest)算法具有高精准度、无监督等优点,被广泛应用于大数据的异常值检。通过电力大数据从企业生产行为监测结果出发,有针对性、有目的性地开展对应防控,通过算法实现预防性管理和处治,实现大气污染治理效益的可针对性,实现环境效益最大化。

2 相关技术

2.1 重污染天气应急响应程度分析模型

2.1.1 聚类算法介绍

聚类算法是数据分类和实体归类的探索扩展,基于类内相似性与类间排他性的目标将没有分类标签的数据集分为若干个簇[5],是一种无监督的分类方法。

K-means 算法通过点与点之间距离的相似度将数据集样本划分为若干类,具有收敛速度快,对海量数据集友好、热切效率高、可伸缩性强等优势,是聚类算法中最常用的方法之一。K-means 算法先随机选取N 个初始聚类中心,在第M 次迭代中,对任意一个样本计算其到N 个聚类中心的距离,并将该样本归纳到距离最短的中心所在的类。聚类中心点以及分配给它们的样本就代表一个聚类。聚类中心点会根据聚类中现有对象的状态被重新计算。这个迭代过程将不断重复直到没有对象被重新分配到不同的类中,或者是没有聚类中心点再发生改变,否则将继续迭代。

2.1.2 模型思路

在重污染天气预警情况下,部分重点企业理应依据政府发布的不同程度应急管控指令进行生产行为限制。根据重污染预警管控日期明细和企业用电功率数据,通过规则+聚类算法构建重点企业应急响应分析模型,以日频度的企业应急响应结果归纳企业应急响应程度,判断重点企业限产指令执行情况。

2.1.3 模型构建过程

表1

表2

图1:企业应急响应分布

(1)特征构建。

与管控前n日电量的比值=当日用电量/管控前n日用电量

与上周平均用电量比值=当日用电量/上一自然周平均用电量

与上月日均电量比=当日用电量/上月日均用电量

与上月同一日电量比=当日用电量/上月同日用电量

月不均衡系数=月日均用电量/上月日最大用电量

与管控前7 天的日平均功率比值:日平均功率/管控前7 天的日平均功率

与上周日平均功率比值:日平均功率/上一自然周日平均功率

(2)特征筛选。

计算指标方差和相关系数,结合聚类评估指标进行聚类特征选择。

(3)模型构建。

图2:企业应急响应区域行业分布

图3:异常生产企业区域及行业分布

将近30 天存在用电量,但当日用电量缺失或为0 的企业直接划分为完全响应企业;按照不同的类别数量([2,10])进行聚类,记录模型轮廓系数和SSE;根据轮廓系数和SSE 确定类数k;根据k 簇类中心均值和欧式距离进行整体度量,将企业划分为完全响应、未响应、未完全响应三类。

2.2 企业异常生产分析模型

2.2.1 孤立森林算法介绍

IsolationForest 孤立森林是一种基于Ensemble 的快速异常检测方法,具有线性时间复杂度和高精准度,可以定位分布稀疏且离密度高的群体较远的点,适用于连续数据的异常检测。该算法使用一个随机超平面来切割数据空间,高密度簇可以被多次切割,低密度簇容易过早落入某一子空间。

2.2.2 模型思路

大部分工业企业生产行为和生产模式相似,若某一企业用电行为与同行业、同合同容量的企业用电行为存在明显差异,该企业可能存在异常需要重点关注。通过综合企业历史用电特征,及同行业、同合同容量企业的用电特征,利用孤立森林数据模型找出数据差异明显的企业,辅助有关部门缩小关注焦点。

2.2.3 模型构建过程

(1)特征构建。

企业与同行业平均活跃度比值=当日活跃度/同行业企业的当日平均活跃度;

企业与同容量平均活跃度比值=当日活跃度/同容量企业的当日平均活跃度;

当日功率曲线与同行业同容量企业功率曲线相关系数;

当日生产类型与同行业生产类型的众数情况。

(2)模型构建。

根据企业用电量和功率数据计算异常得分情况,将企业划分为多类别,通过特征数据孤立森林模型计算结果锁定异常企业名单。

3 模型结果及应用

3.1 重污染天气企业应急响应程度分析模型结果和应用

如表1 所示,利用聚类算法构建应急响应监测模型,根据用电信息将企业划分为完全响应、未响应、未完全响应三个级别,诊断企业是否遵守指令调节生产行为,定位未遵守管控指令躲避政府监管的企业。以2021年3月10日-15日黄色污染预警期间为例,企业应急响应分布如图1 所示。

通过图1 可以看出,3月10日-15日未响应企业比较接近,未响应企业约占28%。

通过图2 可以看出,西城地区响应企业占比最高,门头沟地区未响应企业占比较高。涂装制造业企业响应情况较好,无未响应企业,汽车整车制造行业企业响应情况较差。

3.2 企业异常生产分析模型结果和应用

如表2 所示,根据孤立森林模型输出异常企业清单,以2021年3月10日-15日黄色污染预警期间为例,企业异常生产企业数据如图3 所示。

9.89%的企业被判断为异常生产,3月11-13日异常生产企业数量呈下降趋势,3月13日后有所反弹。

通过图3 可以看出,3月10日-15日黄色污染预警期间,门头沟、大兴地区异常生产企业占比最高,石景山地区异常生产企业占比最少。出版物印刷、家具制造业异常生产企业最多,水泥和汽车维修业异常生产企业最少。

4 结论

本文通过重点企业在应急响应管控日期内的用电行为进行分析,通过基于k-means 聚类算法判断企业应急响应程度,通过孤立森林算法判断企业异常生产行为。该次应急管控日期内约有三成企业响应程度呈现较低水平,其中门头沟地区响应程度低企业占比较高,汽车整车制造行业企业响应情况较差。通过统计分析异常企业分布情况,聚焦企业污染防治重点行业出版物印刷、家具制造业,重点区域门头沟、大兴地区。后续应持续跟踪异常情况发展态势,辅助环保部门制定精细化管控策略,并依据实际情况进行差异化策略调整,提升治理能力科学性。

猜你喜欢
平均功率用电量聚类
02 国家能源局:1~7月全社会用电量同比增长3.4%
01 国家能源局:3月份全社会用电量同比增长3.5%
万瓦激光切割机市场阶段性回调
1~10月全社会用电量累计56552亿千瓦时同比增长8.7%
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
瞬时功率与平均功率的区别
一种层次初始的聚类个数自适应的聚类方法研究
我国风电装机平均功率的预测
2014年全社会用电量