韩跃峻, 朱一骅, 陆微, 应栋子, 辛洁晴
(1.国网上海市北供电公司,上海 200072;2.上海交通大学,上海 200240)
我国已进入快速老龄化时期,为老龄独居家庭(elderly living-alone families,ELAF)提供特殊供电服务是电业履行社会职能的重要窗口。传统上,ELAF由社区访查获知,工作量大、周期长。电力部门从街道索取信息也很困难。因此,通过用电数据分析辨识ELAF对电业非常重要。这也有助于促进电业与社区合作,帮助社区缩小访查范围,提高信息更新的及时性,促进泛在物联网环境下电力数据的保值增值。
目前,用电数据分析主要用于用电行为模式本身的识别[1-3]。文献[4]通过日负荷曲线聚类划分用电模式。文献[5]从作息规律、负荷特性和消费习惯等维度建立特征标签体系,运用改进K-mears构建用户簇别,形成用户综合画像。文献[6]根据日用电特性对空置房、老人家庭、上班族家庭、老人+上班族家庭和商业用户提出判别方法。上述研究未由用电特征进一步分析家庭人员构成和年龄结构方面的人口特征。
本文在分析ELAF用电特征的基础上,提出基于用电数据分析的ELAF辨识方法。通过选取支持向量机分类器,并以约登指数最大化为目标调节样本权重,解决ELAF作为小样本的识别问题。
采用K-means法对上海某大型社区是/否80岁以上老龄独居两类家庭分别实施用电特征聚类,以轮廓系数确定最佳聚类数,占比最大的簇为典型组。
(1) 日作息习惯:对家庭春秋季日负荷平均化和标幺化后聚类。两类家庭典型组聚类中心的标幺化日负荷曲线如图1所示。可见,ELAF更显著地集中在平时段(6∶00—22∶00),睡觉比非ELAF提前1~2 h。
(2) 周用电分布:分夏、冬和春秋三季计算日用电占周用电的比重用于聚类。两类家庭典型组聚类中心对应的周用电分布如图2所示。可见ELAF工作日和周末的用电量差别不大,而非ELAF周末用电较高。
(3) 季节间用电变化:取三季日均用电量聚类,两类家庭典型组聚类中心对应的日均用电量如图3所示。可见ELAF夏-春秋、冬-春秋日均用电量差异较小,这与老年人不喜欢或不舍得使用电制冷或采暖设备有关。
图1 老龄独居/非老龄独居家庭日用电曲线
图2 老龄独居/非老龄独居家庭周用电分布
图3 老龄独居/非老龄独居家庭日均用电量
(4) 年间用电相似性:对家庭近两年日用电量的皮尔森相关系数聚类。两类家庭典型组聚类中心相似系数为0.87与0.88。这说明,按同样习惯稳定用电是家庭用电典型情况,但ELAF中这类家庭的比重更高。
(5) 用电水平:从图3可见,ELAF的日用电量明显低于同期非老龄独居家庭。
据上节分析提取特征指标。鉴于HPLC系统还未普及,仅取可由平谷电量评估的指标。
(1) 平时段用电比x1:为近一年(第y年)每日平时段用电量占日用电量比的均值。即:
(1)
式中:Ey,i(t)为目标家庭第y年第i天t时用电量;TP和TG为平、谷时段。老年人多早睡,x1较接近1。
(2) 周用电量稳定性x2:用1与周内日用电量标准差之差值考察周内日用电稳定性;x2定义为近一年每周日用电稳定性的均值。即:
(2)
式中:nw为一年周数;ry,w,i为第w周第i天用电量占当周用电的比重。ELAF日间用电较稳定,x2接近于1。
(3) 夏-春秋日用电量增长率x3:为夏季相对于春秋季日均用电量的增长率,即:
(3)
(4) 冬-春秋日用电量增长率x4:为冬季相对于春秋季日均用电量的增长率,即:
(4)
(5) 年间用电相似性x5:用皮尔逊相关系数定义年间用电相似性为:
(5)
(6)
ELAF通常只使用基本生活家电,x6偏小。
选用适于小样本的支持向量机(support vector machine, SVM)[7]构建非线性二分类器,如图4所示。
图4 老龄独居家庭辨识流程
(1) 数据清洗:当日冻结电量小于前日值时,视作异常值筛除;对原始缺失值和筛除异常值后出现的缺失进行修补。若前/后周同类型日数据未缺失,则纵向修补,第w周第d日冻结电量
Aw,d=Aw,d-1+(Aw-1,d-Aw-1,d-1)
(7)
否则横向修补,若缺失日为第d至第d+N日,公式为
(8)
数据清洗后将相邻日冻结值相减得到日用电量。
(2) 用电特征指标计算:按第1节方法为每个样本家庭计算用电特征指标x1~x6。
(3) 样本标签化:将特征数据归一化,并为每个用户添加是否为ELAF的标签。
(4) SVM分类器训练:用有标签的归一化样本训练SVM模型,方法请见文献[7]。
(5) 分类效果评价:分类器训练中ELAF作为样本量少的标签易被忽略。为此,调节SVM算法中的class_weight参数,为样本量少的标签设置较大权重,并计算召回率和假正率,以两者差值(约登指数)最大的训练结果为最佳分类器。
(6) 测试集分类:对测试集家庭实施(1)和(2)步骤,将最佳分类器用于测试集家庭是否为ELAF的辨识。
以上海某老龄化服务示范区为例,共5 572户,80岁以上独居173户,随机分成训练组和检验组。
据第3节方法训练SVM分类器。将学习模型中的kernel参数设置为rbf,即采用可解决非线性问题的高斯径向基核函数。训练时通过class_weight参数调节样本权重,作出受试者工作特征曲线(receiver operating characteristic curve,ROC),如图5所示。约登指数最大的最佳权重为32(×标注点),此时获得最佳分类器。
图5 ROC曲线
最佳分类器将训练组分为是、否老龄独居两组,特征指标均值如表1所示。从表1可见:ELAF的平时段用电比重比非ELAF高8个百分点,日均用电量相对水平低,夏、冬季相对春秋季用电增长率比一般家庭低,周用电量稳定性较高,年间用电相似性高。
将所得最佳分类器用于检验组分析,进而计算四项分类性能指标,如表2所示。
表1 ELAF和非ELAF家庭的特征均值
表2 分类性能评价
(1) 准确率达94.4%,召回率达90.7%,说明所提方法可较全面地找出ELAF。少量未被找出是因存在少量ELAF的用电特性不典型。
(2) 假正率高和精确率较低,主要因为所研小区老年家庭颇多,而街道只能提供80岁以上ELAF信息,对60~79岁居民未核实是否独居。为此算例检验只能将非80岁以上家庭都归为非ELAF,而这部分家庭中不少是同样有ELAF用电特征的60~79岁老龄独居家庭。这表明,基于用电数据分析ELAF具有现实意义,有助于社区缩小访查范围,定位各年龄段的ELAF。
本文在提取老龄独居家庭用电特征指标的基础上,以SVM为分类器,并通过约登指数最大为目标的样本权重调节解决小样本分类问题。算例表明所提方法可获得较高的准确率和召回率,有助于电业实施面向独居老人的特殊供电服务,也有助于缩小社区查访范围,提升此类家庭信息搜集的覆盖度和及时性。