基于MMoE多任务学习和长短时记忆网络的综合能源系统负荷预测

2022-07-20 01:44薛贵元王剑晓

电力自动化设备 2022年7期

吴晨，姚菁，薛贵元，王剑晓，吴垠，何凯

（1. 国网江苏省电力有限公司经济技术研究院，江苏南京 210008；2. 北京清能互联科技有限公司，北京 100080；3. 华北电力大学新能源电力系统国家重点实验室，北京 102206）

0 引言

随着经济社会的发展，我国对能源需求持续增长，能源问题成为关乎国家安全战略与可持续发展的重要议题。传统供能系统中，冷、热、电等功能系统彼此运行独立，缺乏协调，能源利用率低，能源供应可靠性差，因此能源供应消费环节逐渐朝综合能源系统方向发展［1］。综合能源系统充分利用多种能源形式之间的互补效应，显著提高了能源的利用效率，并通过能源间的动态转化使得能源供应环节的不确定性大幅降低，从而提高了整个系统的安全性［2-3］。

针对综合能源系统开展多元负荷预测对系统运行优化意义重大。一方面，依据多元负荷预测结果可以合理配置多种形式的能源，提高能源利用效率及系统运行的经济性；另一方面，还可以依据负荷预测结果制定需求响应计划，实现能源供需平衡，提高系统运行的可靠性［4-5］。目前，多能负荷预测主要从时间、空间维度对不同能源消耗之间的复杂关联性进行建模，主要的预测方法有循环神经网络RNN（Recurrent Neural Network）［6］、深度信念网络DBN（Deep Belief Network）［7］、长短时记忆网络LSTM（Long Short-Term Memory network）［8］以及双向LSTM［9］等，验证了深度学习网络在解决多元负荷预测问题时的有效性。

相比传统的电力负荷预测，综合能源系统中冷、热、电负荷间的联系日益密切，若对不同能源形式进行单独建模、预测，则忽略了多元负荷间的耦合特性，使预测效果受限。因此，已有研究一般通过考虑多元负荷间的耦合关系来提升预测效果，其方法主要分为统计学方法和深度学习方法。统计学方法是基于统计理论对多元负荷的耦合关系展开分析的，例如基于向量自回归VAR（Vector Auto-Regression）模型［10］、多元线性回归模型［11］和不确定性分析理论［12］展开分析，文献［13］则分析了冷热电负荷的非线性关系，并提出反映负荷间非线性协同效应的负荷预测公式。然而，统计学方法存在建模复杂的问题，在特征变量和影响因素较多时难以对其耦合关系进行全面的建模，因此深度学习方法中的多任务学习策略逐渐成为近几年的研究热点。多任务学习策略是对冷、热、电等预测任务共同构建一个深度学习模型，并设置多个子任务，实现对多元负荷的预测。与多任务学习策略相配合的深度学习网络主要有LSTM［14-15］、深度置信网络［16］、门控循环单元网络［17］等。多任务学习可以利用特征间的耦合特性提升所有子任务的训练效果，并且具有建模简单的优势。目前使用的多任务学习模型均基于参数硬共享机制，该模型在多元负荷相关性较强时表现出色。然而，部分综合能源系统中多元负荷间可能存在弱相关性，基于硬共享机制的多任务模型对所有任务强制进行信息共享，无法考虑子任务间相关性的差异，因此当部分子任务耦合关系较弱时，该模型训练效果难以达到最佳水平。

综上所述，利用多元负荷间的耦合特性，结合先进深度学习网络和多任务学习策略是实现多元负荷准确预测的关键。已有基于参数硬共享机制的多任务学习方法，易受到子任务弱相关性的干扰，影响任务的学习效果。因此，本文提出了基于MMoE（Multigate Mixture-of-Experts）多任务学习和LSTM 的多元负荷预测方法，利用多个专家子网和门控单元实现对共享信息的合理分配，保证每个任务均能获得最有效的信息，并结合LSTM实现多元负荷预测。

1 多元负荷相关性分析

综合能源用户的用能行为与多种因素有关，本文使用皮尔逊相关系数分析冷、热、电3 类负荷的内在关联性以及综合能源与气象因素的相关性。皮尔逊相关系数的计算公式为：

式中：ρX，Y为皮尔逊相关系数；X、Y为2 个特征向量；cov(X，Y)为X、Y的协方差；σX、σY分别为X、Y的标准差。ρX，Y的取值范围为［-1，1］，当ρX，Y接近1 或-1时，表明X、Y存在较强的线性相关性，呈正或负相关；当ρX，Y=0时，表明X、Y不存在线性相关性。

使用美国亚利桑那州立大学综合能源公开数据集作为研究对象，该综合能源系统包括电力系统、热力系统和冷却站等，数据集包含2019 年1—10 月的冷、热、电负荷数据，数据采样率为15 min／次，即每天包含96 组数据［18］。本文还收集了当地对应日期气象数据，包括温度、湿度、露点、气压、云量和风速，以研究气象因素与用户用能行为的相关性。计算冷、热、电负荷数据及气象数据的皮尔逊相关系数，并得到热力图如图1所示。

由图1 可知：在该综合能源系统中，多元负荷间冷负荷与热负荷的相关性最强，相关系数为-0.8；冷负荷与电负荷的相关性较弱，相关系数为0.3；热负荷与电负荷的相关性最弱，相关系数为0.1。在多元负荷与气象因素间，冷、热负荷与温度相关性很强，与湿度、露点、气压的相关性较强，与云量和风速的相关性较弱；电负荷与6 个气象指标的相关性均较弱。所得结论与用户的用能习惯基本一致，用户对冷、热能源的需求与温度关联性最强，高温时冷负荷增加，低温时热负荷增加，因此冷、热负荷呈高度负相关；湿度、露点、气压这3 个气象因素也会在一定程度上影响用户的用能习惯，例如湿度较高时用户可能会通过空调除湿，因此与用户用能行为存在相关关系；电-冷、电-热的转换是为了提升整个系统的能源利用效率，虽存在耦合特性，但并不存在显式的相关关系，因此电负荷与冷、热负荷的相关系数较小。综上所述，多元负荷间同时存在强相关性与弱相关性，多元负荷与气象因素的相关程度也不完全相同。因此，在对多元负荷预测问题进行建模时，应考虑不同负荷类型间耦合关系的差异。

2 基于MMoE多任务学习和LSTM的多元负荷预测模型

2.1 模型框架

本文所提的基于MMoE 多任务学习和LSTM 的多元负荷预测模型如图2 所示。首先，对综合能源系统的多元负荷数据及气象数据进行采集、整理；然后，搭建MMoE 多任务学习模型，学习多元负荷间的耦合关系，并利用MMoE 的专家子网和门控机制实现共享信息在子任务中合理分配；最后，搭建基于LSTM的子任务模型，对多元负荷进行预测。

图2 模型框架Fig.2 Framework of model

2.2 MMoE多任务学习模型机理分析

在深度学习中，对于多个不相关的学习任务，一般分别建立模型；但当多个问题间存在某种潜在关联时，若仍采用单独建模的思路，则忽略了多个问题的相关性，此时可以使用多任务学习策略提升整体效果。多任务学习策略仅需建立一个深度学习模型，将多个相关问题看作模型的子任务，并在模型中对特征进行控制，使多任务间可以共享信息，从而提高每一个任务的表现［19］。传统的多任务学习策略一般采用参数硬共享机制，其基本原理如附录A 图A1所示。硬共享机制将模型分为参数共享层和子任务学习层，参数共享层获得所有任务的输入特征，并进行特征提取；子任务学习层从参数共享层中获得与任务本身相关的特征，随后进行子任务的训练，并输出预测结果。

在硬共享机制中，子任务的相关性越强，模型训练效果越好；如果部分任务的相关性较弱，则模型可能会因为其他任务的误导使性能下降。为此，Google 提出了MMoE 多任务学习模型，其基本原理如附录A 图A2 所示［20］。MMoE 将参数共享层划分为若干个专家子网，每个专家子网均为多层感知机，负责独立学习多任务间的耦合关系，不同的专家子网不进行参数共享。同时，MMoE 针对每个子任务分别设置一个门控单元，负责计算子任务中每个专家子网的权重，使不同任务对专家子网的选择更加灵活，避免了弱相关任务间的互相干预。MMoE 多任务学习模型中第k个子任务的输出yk可以表示为：

门控单元通过线性变换将输入特征映射到n维，经过softmax 激活函数得到每个专家子网的权重系数，实现对任务中专家子网输出的灵活控制。由于冷、热、电负荷间同时存在强相关性与弱相关性，MMoE 多任务学习模型可以在进行多元负荷信息共享的前提下，为冷、热、电负荷预测子任务单独训练专家子网的权重系数，从而保证网络训练时每个子任务均能学习到最有效的信息，因此更适合采用MMoE多任务学习模型进行建模。

2.3 LSTM简介

LSTM 是一种改进的RNN 结构，克服了RNN 仅能进行短时记忆的缺陷，解决了RNN 存在的梯度消失问题。LSTM 的基本结构如附录A 图A3 所示。LSTM能够选择性地遗忘或保留历史信息，避免梯度消失，有利于长时间序列的建模，在综合能源系统多元负荷预测问题中发挥着重要作用［8］。

2.4 网络结构与输入特征

本文所提多元负荷预测模型的网络结构如附录A表A1所示。该模型包含对冷、热、电3种负荷的预测任务，即模型在每个时间步输出下一个时刻点的3 个负荷值。该模型包含多任务学习层和3 个子任务层，前者基于MMoE 多任务学习模型实现，用于学习多任务间的耦合关系；后者基于LSTM 模型实现，用于实现单个负荷预测任务。

多任务学习层中，MMoE 多任务学习模型的专家子网参数属于超参数，本文采用交叉验证进行参数设置，具体包括4 个专家子网，神经元数目为32，每个专家子网用于学习输入特征与3 个预测任务的特定关系。子任务层中包括2层LSTM 层，神经元数目分别为16 和8，激活函数为“Relu”，用于捕捉序列的长距离依赖关系；2 层LSTM 层之间加入Dropout层，强制神经元进行随机失活，随机失活比率为0.3，用于防止网络过拟合；LSTM 层末端为全连接层，结合“Linear”激活函数输出负荷预测结果。网络训练时，损失函数中3 个任务的权重为1∶1∶1，优化器为Adam，损失函数为平均绝对误差MAE（Mean Absolute Error），迭代次数为100。

由第1 节的分析结果可知，温度、湿度、露点、气压与冷、热负荷存在相关关系，因此将其作为网络训练时的输入特征。此外，临近被预测时刻的历史负荷数据与被预测时刻的负荷相关性较强［17］，有助于深度学习网络训练，因此也将其作为输入特征。当对第t个时间步的多元负荷进行预测时，具体输入特征包括：①被预测时刻前10 个时间步的多元负荷数据，即冷负荷｛ct-10，ct-9，…，ct-1｝、热负荷｛ht-10，ht-9，…，ht-1｝和电负荷｛et-10，et-9，…，et-1｝；②被预测时刻的4个气象特征｛wt，1，wt，2，wt，3，wt，4｝；③被预测时刻的时间特征（由于本文使用数据集的采样率为15 min／次，因此一天包含96 个数据点，对应时间编码为0—95）。网络训练时的标签为被预测时间步的多元负荷数据，即｛ct，ht，et｝。

3 算例分析

3.1 实验设置

本文使用Python 3.7.7作为编程语言，基于TensorFlow 1.15.4［21］和Keras 2.2.4［22］搭建深度学习模型。原始数据中冷、热、电负荷的单位分别为kW、mBtu／h和ton／h，为方便表述，本文将热、电负荷的单位均转换为kW。选用数据集的时间周期为2019年1—10 月，采用5 折交叉验证法对模型进行训练和性能测试，以15 min 为时间步进行超短期多元负荷预测，性能测试指标均为5 折交叉验证结果的平均值。误差评价指标使用MAE 和平均绝对百分比误差MAPE（Mean Absolute Percentage Error）指标，计算公式分别为：

式中：eMAE为MAE 值；eMAPE为MAPE 值；N为样本数目；yi为第i个样本的真实值；ŷi为第i个样本的预测值。

3.2 离线训练结果分析

3.2.1 损失函数训练过程分析

搭建模型后，首先要对模型进行离线训练。本文采用MAE 指标作为损失函数，训练集和验证集的损失函数变化如附录A 图A4所示。由图可见：网络训练时，冷负荷和电负荷预测任务的训练集与验证集损失函数值均不断下降，从第50 轮开始逐渐稳定，在第100 轮时达到最稳定状态，随后有轻微波动；热负荷预测任务中，训练集损失函数值一直保持下降状态，而验证集损失函数值则先下降，然后在第100 轮附近逐渐稳定，在150 轮之后又开始上升，表明模型训练后期，热负荷预测模型出现过拟合问题。总体而言，总任务损失函数值的变化趋势与热负荷预测任务一致，因此本文在迭代次数达到100 次时终止离线训练。

3.2.2 MMoE作用机理分析

本文所构建的MMoE 多任务学习模型包括4 个专家子网和3 个门控单元，3 个门控单元分别对应冷、热、电预测任务。门控单元本质上是一个权重向量，用于表示各专家子网的输出作为子任务模型输入的权重，使子任务预测模型可以选择强相关的共享特征进行训练。为了分析MMoE 的作用机理，本文将模型门控单元向量进行提取，并使用Softmax 函数得到权重分布如图3 所示。由图可见：冷负荷预测任务中，门控单元更倾向于选择第4 个专家子网，第1、3个专家子网的输出占比较低，表明第4个专家子网所学习到的共享特征可能更有助于冷负荷的预测；热负荷预测任务中第2 个专家子网所占权重更高，而电负荷预测任务中4 个专家子网的权重基本相同。与传统多任务模型不加区分、直接使用全部共享特征的方式相比，基于MMoE 多任务学习模型的机制能够针对任务本身的特点，多样化地使用共享特征，从而提升所有子任务的训练效果。

图3 MMoE多任务学习模型的权重分布结果Fig.3 Weight distribution results of MMoE multi-task learning model

3.3 不同预测模型的性能对比

3.3.1 本文模型与单任务负荷预测模型对比

为验证本文模型可利用多元负荷的耦合关系提升负荷精度，本文将其与单任务负荷预测模型进行对比，对比方法包括RNN 和LSTM。为保证对比方法的模型训练效果，本文采用3 层网络结构设计［23］，对比方法的输入特征与本文方法保持一致，超参数均参考文献［8］进行设置。3 种方法在测试集上的误差对比结果如表1 所示。可见，在单任务学习模型中，LSTM 的冷、热负荷预测误差均明显低于RNN，原因是LSTM 能够对多元负荷序列信息进行长时记忆，更适合进行多元负荷预测任务，从侧面验证了本文使用LSTM 作为子任务预测模型的正确性。采用本文方法时冷、热、电负荷预测的MAPE 指标较单任务LSTM 模型分别降低了1.98%、10.45%、1.25%，原因是单任务学习方法无法考虑多元负荷间的耦合关系，即使使用较为先进的网络结构，预测效果依然受限，只有引入多任务学习策略才能进一步提高预测精度。

表1 本文模型与单一负荷预测模型对比Table 1 Comparison between proposed model and single load forecasting model

本文还对比了本文模型与单任务负荷预测模型的训练耗时。采用单任务RNN、单任务LSTM 以及本文方法的训练时间分别为108、161、81 s，可见2种单任务负荷预测模型的训练耗时较长，本文模型较单任务RNN 模型训练耗时降低了25%，较单任务LSTM 模型降低了50%。在处理多元负荷预测问题时，单任务方法需要建立3 个模型进行独立训练；而本文使用的多任务方法仅需建立1个模型，且由于3个预测任务包含相同的输入特征（气象特征和时间特征），使用多任务模型能够减少输入特征数量，从而使得训练耗时大幅缩减。此外，LSTM 较RNN 结构更为复杂，所需训练时间更长，但本文模型的训练耗时仍低于单任务RNN 模型，表明所提多任务学习方法具有较强的工程应用价值。

3.3.2 本文模型与传统多任务学习模型对比

为验证本文模型能够考虑多元负荷间的强相关性与弱相关性，降低预测误差，本文将其与传统基于参数硬共享的多任务学习模型［14］进行对比分析。传统多任务学习方法首先将MMoE 多任务层替换为参数硬共享层，然后使用LSTM 层进行负荷预测，最后使用全连接层输出预测结果，超参数参考文献［14］进行设置，输入特征与所提方法保持一致。从测试集选取某天展示预测效果如图4 所示，测试集的预测误差对比如表2所示。

图4 预测效果对比Fig.4 Comparison of prediction effect

表2 本文模型与传统多任务学习模型对比Table 2 Comparison between proposed model and traditional multi-task learning model

观察图4（a）、（c）可知，冷负荷与电负荷的预测效果中，本文模型与传统多任务学习模型均能取得较好的预测效果，预测曲线对真实曲线的拟合程度较高。但观察图4（a）、（c）的细节部分可知，本文模型在曲线波动剧烈的部分仍能保持较好的拟合效果，预测值更加接近真实值，而传统多任务学习模型的预测误差有所提高，效果不佳。结合表2 可知，本文模型的冷、电负荷MAEP 指标较传统多任务学习模型降低了0.98%和0.84%，因此本文模型的预测效果更好。

由于热负荷较其他2 类负荷波动更加剧烈，因此模型的训练更加困难，容易发生过拟合或欠拟合。由图4（b）和表2 可见：传统多任务学习模型对热负荷的预测结果更加保守，预测曲线的波动性较低，MAEP 指标为13.47%；而本文模型仍然能够保持较好的预测能力，MAPE 指标为9.04%，较传统多任务学习模型降低了4.43%。其原因是参数硬共享机制无法考虑多元负荷间相关性的差异，为3 个子任务赋相同的共享参数，而热负荷与电负荷的相关系数仅为0.1，不存在明显相关关系，因此电负荷序列信息可能会对热负荷预测模型造成干扰，影响模型性能；本文模型通过设置多个专家子网和门控单元，在考虑多元负荷间相关性差异的基础上，仅为各个子任务传递有助于提升其预测精度的共享信息，避免弱相关信息对子任务的干扰，因此取得了更好的预测效果。

本文模型与传统多任务学习模型的训练时间分别为72、81 s，参数量分别为58838和72108，在同等算力下，本文模型的训练耗时略高于传统多任务学习模型，原因在于传统基于硬共享机制的多任务学习模型结构简单，其参数共享层本质上是一层全连接层，而MMoE 多任务学习模型结构复杂，包括对多个专家子网和门控单元的训练，模型参数量更多，训练耗时较传统多任务学习模型增加了13%。2 种多任务学习模型的训练耗时均明显低于单任务学习模型，验证了多任务学习模型应用于多元负荷预测问题的实用性。

4 结论

本文针对综合能源系统多元负荷预测问题，提出了一种基于MMoE 多任务学习和LSTM 的多元负荷预测方法，得到如下结论。

1）随着综合能源系统的不断发展，多元负荷间的联系更加密切，多任务学习模型较单任务学习模型更能考虑多元负荷的耦合特性，能够有效提高预测精度，且模型的训练耗时更短，具有较高的工程应用价值。

2）分析多元负荷的耦合特性时需要考虑多元负荷间的相关性。若多元负荷间存在弱相关性，则会影响基于硬共享机制多任务学习模型的性能。针对这一问题，本文提出基于MMoE 多任务学习和LSTM的模型，其能够考虑多元负荷间相关性的差异，通过门控单元对子任务进行合理的共享信息分配，避免弱相关信息对子任务的干扰，实现了更好的预测效果。

附录见本刊网络版（http：//www.epae.cn）。