基于大数据分析的电网增量负荷预测研究

2018-10-24 06:24余建平袁秋实杨宏宇
机电信息 2018年30期
关键词:因变量回归方程残差

余建平 孔 亮 袁秋实 杨宏宇

(1.国网上海市电力公司浦东供电公司,上海200122;2.上海博英信息科技有限公司,上海200240)

0 引言

在进行配网规划时,需要综合考虑未来电网在运行时的各项指标,为电网正常运行提供更好的支撑,因此,需选取能准确反映电网状态的特征量作为计算规划后的评估指标,建立配网多维规划适应性分析体系,该体系主要用于指导未来的规划方对电网未来运行的适应性所造成的影响进行分析。

为了实现精准的电网分析,需要对现状网进行持续的数据集成与大数据集的构建,用于对不同规划类型(电网规划、能源规划)项目在实际投入运行阶段进行适应性分析,进而为下一步的电网精准规划提供辅助建议。

对负荷的预测工作一般简单采用自然增长率+新增大用户负荷增长的方法,精细化程度不够,未考虑气象数据对负荷的影响。

气象因素对用电负荷有着重要影响,在负荷预测工作中,需要考虑气象因素的影响,运用回归分析方法,拟合出目标线路的最大负荷—气象数据曲线,提高负荷预测的准确度。

1 气象因素

气象因素是影响电力负荷的重要因素,包括温度、湿度、风速、气压等。在各类气象因素中,以温度的影响最为直观。

以商业用电[1]为例,大型商场用电负荷主要是空调、电梯、室内照明,受季节的影响明显,夏季温度高,空调负荷占较大比重,一般在13:00左右达到峰值,冬季温度低,采暖负荷占较大比重。商业负荷表现出极强的时间性和季节性,与温度变化关系密切。

在居民用电负荷中,居民生活用电受季节性影响较强,气象因素尤其是温度因素对居民用电负荷影响较大。一般会出现两个高峰,即早高峰、晚高峰,峰谷差较大,早高峰出现在12:00—13:00之间;夏季午后次高峰较大,主要受降温负荷的影响;最大负荷出现在21:00—22:00之间。同时,冬夏季日负荷变化趋势相似,基本与人们的日常生活规律相一致。

2 回归分析法

“回归”是由英国生物学家提出的,现在这个名词被用来泛指变量之间的一般数量关系。

回归分析法指利用数据统计原理,对大量统计数据进行数学处理,确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后因变量的变化的分析方法。

回归分析是一种预测性的建模技术,这种技术通常用于预测分析以及发现变量之间的因果关系。

回归分析是建模和分析数据的重要工具,使用回归分析益处良多,通过回归分析可以指示自变量和因变量之间的显著关系,也可指示多个自变量对一个因变量的影响强度。

掌握多种回归模型时,基于自变量和因变量的类型、数据的维数以及数据的其他基本特征去选择最合适的技术非常重要。

常用的回归方法有线性回归、多项式回归等。以线性回归为例,线性回归是最为人熟知的建模技术之一。在该技术中,因变量是连续的,自变量(单个或多个)可以是连续的也可以是离散的,回归线的性质是线性的。线性回归使用最佳的拟合直线(也就是回归线)建立因变量和一个或多个自变量之间的联系。用一个等式来表示它,即:

式中,β1表示回归方程中自变量的系数,称为回归系数;β0表示回归方程的常数项,称为回归常数;e为随机误差项,代表的是由其他一切随机因素引起的误差。

这个等式可以根据给定的单个或多个预测变量来预测目标变量的值。

线性回归有以下几个要点:

(1)自变量与因变量之间必须有线性关系;

(2)多元回归存在多重共线性、自相关性和异方差性;

(3)线性回归对异常值非常敏感,它会严重影响回归线,最终影响预测值;

(4)多重共线性会增加系数估计值的方差,使得估计值对于模型的轻微变化异常敏感,结果就是系数估计值不稳定;

(5)在存在多个自变量的情况下,我们可以使用向前选择法、向后剔除法和逐步筛选法来选择最重要的自变量。

对于线性模型中的参数通常用普通最小二乘法求解,我们以最简单的一元线性模型来解释最小二乘法。

对于一元线性回归模型,假设我们从总体中获取了n组观察(x1,y1),(x2,y2),…,(xn,yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。

选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:

(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。

(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。

(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。

最常用的是普通最小二乘法[2]:所选择的回归模型应该使所有观察值的残差平方和达到最小(Q为残差平方和),即采用平方损失函数。用数学公式描述就是:

其中,yi是观察得到的真实值,yie表示根据y=β0+β1x估算出来的值,即上式可以写成:

对于这种形式的函数求导,函数的极值点为偏导为0的点。

将这两个方程稍微整理一下,使用克莱姆法则,很容易求解得出:

求出的β0、β1即为回归方程的系数。

决定系数(R2):决定系数是一个回归直线与样本观测值拟合优度的相对指标,反映了因变量的变异中能用自变量解释的比例,可以作为判断拟合效果好坏的一个指标。其数值在0~1之间,可以用百分数表示。如果拟合决定系数R2接近于1,说明因变量不确定性大部分都能由回归方程解释,回归方程拟合优度就好;反之,如果R2不大,说明回归方程的效果不好,应该进行修改。

3 算例分析

收集某地区过去3年的历史负荷数据和温度数据,运用统计拟合和回归迭代的方法,拟合每条中压线路的最大负荷—温度数据曲线,确立负荷和温度数据之间对应关系的计算公式,精准抓住负荷变化的影响因素。

针对数据进行梳理,针对“拟合负荷—温度关系曲线和计算公式”的研究内容收集相关区域2015—2017年间每日的最大负荷数据,在中国天气网收集该地区2015—2017年间每日的最高气温。

数据清洗和收集:对每日的最高温度数据及最大负荷数据进行清洗工作,对特别突出的数据与业务部门进行核实,并对数据进行处理及清洗。

变量选择:本次研究内容为负荷与气温的敏感关系并求出计算公式,所以对变量的选择如下:日最大电负荷(P_S)、日期(DAY)、日最高温度(MaxT)。

(1)建立时间与最大负荷的关系趋势:分析最大负荷的分布情况,如图1所示。

图1 分布图

(2)采用回归的统计学方法建立模型:对最高温度与日最大负荷进行回归分析。分别采用线性、对数、二次、S、指数等方法进行曲线估算,得出模型描述、模型摘要以及拟合图,表1为模型描述,表2为模型摘要,图2为拟合图形。

表1 模型描述

表2 模型摘要

通过计算结果可以看到,R2最好的是二次方程,为0.709。

(3)根据计算结果选择R2最好的方程作为预测方程式。通过上面的计算结果得知,二次方程R2最好,为0.709。所以通过二次方程对数据进行重新计算,得到二次方程的拟合曲线,并计算估计值,表3为模型估算值,图3为拟合曲线。

图2 拟合图形

表3 估算值

图3 拟合曲线

(4)根据计算的结果,使用二次方程及参数估算进行方程式的计算。

(5)模型验证,将2018年5月的历史温度导入公式计算平均绝对值误差,相应结果如表4所示。

4 结语

本文主要考虑了气象因素中温度对负荷的影响,分析了日最高温度和日最大负荷之间的关系,根据某一地区的实际负荷数据和温度数据,应用回归分析的方法,拟合最高温度和最大负荷曲线,使得负荷预测更加精细化。

表4 模型验证

猜你喜欢
因变量回归方程残差
基于双向GRU与残差拟合的车辆跟驰建模
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
走进回归分析,让回归方程不再是你高考的绊脚石
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
偏最小二乘回归方法