基于奇异谱分析和长短期记忆神经网络的叶绿素a 浓度短时预测研究

2022-12-11 09:42易洋何先波王淳睿
智能计算机与应用 2022年11期
关键词:谱分析叶绿素分量

易洋,何先波,王淳睿

(1 西华师范大学 电子信息工程学院,四川 南充 637009;2 西华师范大学 计算机学院,四川 南充 637009)

0 引言

藻华是目前严重的水生态环境问题之一,造成水质问题和生态环境破坏。随着大数据时代的到来和人工智能的发展,数据驱动方法在藻华预测上的应用逐渐得到重视[1]。其中,神经网络算法已成功运用在多种水域的叶绿素预测上,如中国江苏省太湖区[2]、浙江省西湖[3]。LSTM 在传统RNN 的基础上引入了改进,通过增加门控接构和记忆单元,使得网络上可以自由地选择已经丢失和保留下来的信息,从而解决了梯度下降和梯度消失的问题。目前,国内学者也尝试着把LSTM 方法运用在对藻类变化趋势的预报上,如Wang 等人[4]使用福建2009~2011年的海洋在线监测数据,构建了LSTM 时空分布模型,用于预测叶绿素a未来的浓度变化趋势,并且在预测叶绿素a浓度的变化趋势上取得了较好的成效。Shin 等人[5]提出了基于LSTM 和海表温度数据及光合有效辐射数据的水华预测模型。然而LSTM 的模型效果受到输入变量可靠性的限制,藻类的在线监测数据具有离散性,在模拟藻类动态变化趋势时模型可能会受到一定的限制,并且在线监测数据由于自身的局限性,往往展现出非平稳性,因此引入奇异谱分析对时间序列进行处理,可以使LSTM 模型更容易捕捉到时间序列隐藏的变化的趋势。例如,Cui 等人[6]将SSA 和LGBM(Light Gradient Boosting Machine)算法相结合,构建了降雨时序数据的预测模型,实验结果表明,经过奇异谱分析降噪处理后的数据能够更有效地和神经网络相结合,从而提高预测性能。

1 相关理论以及方法

1.1 奇异谱分析

基本的奇异谱分析包括2 个阶段:分解和重建。其中,分解阶段包括2 个步骤:嵌入和奇异值分解(SVD)。重建阶段也包括2 个步骤:分组和对角平均。考虑一个长度为N(N >2)的实值时间序列F={x1,x2,…,xN},这里拟给出4 个步骤的阐释分述如下。

1.1.1 嵌入

嵌入过程将原始时间序列映射为多维滞后向量序列。设窗口长度L为整数,1<L <N,则信号向量的轨迹矩阵X为:

其中,K=N -L +1。

需要指出的是,输出轨迹矩阵是汉克尔矩阵,这意味着所有沿对角线的元素都是相等的。

1.1.2 SVD

在这一步中,对轨迹矩阵X进行奇异值分解,设S=XXT,λ1,λ2,…,λL是降序排列的S的特征值(λ1≥…≥λL≥0),U1,…,UL是对应于这些特征值的矩阵S的标准正交向量。设d=rank(X)=max{i,λ i >0}(在实际序列中,通常d=L∗,L∗=min(L,K)。则轨迹矩阵的奇异值分解为:

1.1.3 分组

在分组步骤中,可以选择分析周期图、右特征向量散点图或特征值函数图来区分噪声和信号。在信号重构的过程中,对于分组的方式没有具体的规则,下标{1,…,d} 可以根据待重构时间序列的性质分为m个不相交的子集,即I1,I2,…,Im。令I={i1,…,ip},则复合矩阵为X=XI1+XI2+…+XIm。

1.1.4 平均对角化

SSA 的最后一步是将每个结果矩阵从分组转换为一个长度为n的新序列。设Y为L∗K矩阵,则Tij为T的元素,T可以通过以下公式转换为序列:

根据式(3)可以求得长度为N的单一RCt分量。新的X分量是d个RCt分量的总和,可以表示为:

1.2 长短期记忆神经网络

长短期记忆模型(LSTM)是一类时间递归的神经网络,继承了大多数RNN 模式的优点,并克服了由梯度反向传递过程所引起的梯度消失现象。LSTM 在RNN 的基础上增加了一个记忆单元结构来判断信息是否有用。每个单元由一个输入门、一个遗忘门和一个输出门组成,如图1 所示。这些信息都通过LSTM 网络,并按照规则确定是否可用。只产生了合乎规则的信息,而不合乎规则的信息经由遗忘的方式而将会丢弃掉。研究可知,LSTM 对产生长期的相关性问题的方法尤其有用。对此可展开探讨论述如下。

图1 LSTM 模型Fig.1 LSTM model

(1)遗忘门。确定了前一时刻状态的保留情况,计算公式为:

其中,σ表示激活函数sigmoid;Wf表示遗忘门权重的权重;bf表示遗忘门的偏差;sigmoid函数将输入和先前时刻的状态映射到从0 到1 的值;Ft的值为1 表示完全保留,0 表示完全丢弃。

(2)输入门。决定当前网络的输入xt有多少被更新到单元状态ct,此处需用到的数学公式可写为:

其中,Wi和bi是输入门的权值和偏差;Wc和bc表示构建候选向量时的权值和偏差,由sigmoid函数决定遗忘的比例。式(8)中的ct实现了单元格状态的更新。

(3)输出门。需要用以下公式来确定输出值:

其中,Wo和bo为输出门的权值和偏差。将激活函数层进行tanh 运算后的当前状态ct乘以输出ot,得到当前时刻的输出ht。

2 相关工作

2.1 数据集

本文采用的数据主要来自某淡水湖BYK 站点的在线监测叶绿素a浓度数据。样本包含了2019~2020 年两年间共6 113 条数据,采样频率为每隔4 h一次。

2.2 数据标准化

数据标准化可以使模型提取出更多的有效特征,本文采取式(11)对叶绿素a浓度时序数据进行极差标准化处理,将数据缩放到(0,1)之间:

其中,R、B分别为处理前、后的数据,Rmax、Rmin分别为样本中的最大值和最小值。

2.3 实验内容

本文提出的SSA-LSTM 模型的流程如图2 所示。由图2 可见到,首先利用SSA 将叶绿素a浓度时间序列分解和重构为不同的分量,并分离和去除噪声分量,留下剩余d个分量。然后,根据各个分量的贡献值进行排序。为了在突出叶绿素浓度a时间序列的趋势特征的同时,最大限度地保留时间序列信息,将d个分量分为2 部分,再将其重构为趋势特征和周期特征。最后,LSTM 对具有不同特性的2个组件进行模拟,并对模拟结果进行集成,使模型实现精确预测。

图2 算法流程图Fig.2 Flow chart of the algorithm

在训练过程中使用贝叶斯参数优化算法,进行50 次迭代搜索,寻找出最优参数。其中,模型主要参数包括学习率、神经元结点数、回溯时间步长、数据批处理、激活函数等。在网络结构设计中,考虑到模型的计算复杂度与计算效率,相关参数的设定范围为:回溯时间步长5~30;神经结点数32~128;数据批处理[64,128,256];LSTM 激活函数[relu,sigmoid,tanh,elu];学习率0.1 至0.000 01。叶绿素a浓度历史数据时序预测实验的具体参数设置见表1。

表1 SSA-LSTM 模型实验参数设置Tab.1 Configured experimental parameters of SSA-LSTM model

2.4 评价指标

本文采用均方根误差(RMSE)、平均绝对误差(MAE)和绝对百分比误差(MAPE)对模型进行评估。其计算过程见如下公式:

其中,o、p分别表示观测数据和预测数据,n表示观测样本的数据量。

3 实验结果

3.1 基于SSA 的叶绿素a 浓度数据分解

通过设置选取窗口长度为15,将序列分解为15个不同的分量,选取前12 个成分作为主要有用信息。在剩余的12 个分量选取分量1 到分量7 作为趋势特征,剩下分量8 到分量12 作为周期特征,如图3 所示。

图3 利用SSA 重建的叶绿素a 浓度序列的子序列Fig.3 Reconstructed sub-series of the chlorophyll-a concentration sequence by SSA

3.2 模型效果比较分析

为了验证SSA-LSTM 模型的有效性和预测精度,本文实验将原始的LSTM 模型、CNN 模型以及TCN 模型与本文提出的SSA-LSTM 模型进行比较。实验结果柱状图如图4 所示,SSA-LSTM、LSTM、CNN 和TCN 对叶绿素a浓度预测效果见表2。

图4 实验结果柱状图Fig.4 Histogram of experimental results

表2 SSA-LSTM、LSTM、CNN 和TCN 对叶绿素a 浓度预测效果Tab.2 Prediction effect of SSA-LSTM,LSTM,CNN and TCN on chlorophyll-a concentration

从图4 和表2 分析可以看出,SSA-LSTM 对叶绿素浓度的预测效果明显优于LSTM、CNN 和TCN,其中RMSE、MAE和MAPE分别为0.67、0.38 和0.09,这3 种评价指标的值都优于其他3 个模型。RMSE和MAE的对比表明SSA-LSTM 模型的预测误差较小,模型的精度高,MAPE的对比表明模型更加稳定。综合以上分析可知,SSA-LSTM 的预测值更接近叶绿素浓度的真实值,体现了模型的有效性。说明相较于直接将数据输入神经网络模型中,使用SSA 处理后的叶绿素浓度数据能够使数据驱动的模型更好地捕捉到变化趋势,使模型的预测性能得到提升。

4 结束语

本研究围绕在某湖泊BYK 站点获取的在线监测数据,结合奇异谱分析与LSTM 深度学习神经网络模型,探索了该模型在叶绿素浓度短期预测的应用。具体结论如下:

(1)SSA 能够有效地分离趋势项、波动项和噪声分量,克服了LSTM 模型在处理非线性序列方面的不足,从而使建立在此基础上的SSA-LSTM 模型具有更强的预测能力。

(2)本文提出的SSA-LSTM 方法可以从叶绿素a浓度历史数据中训练预测模型。对未来4 h 的叶绿素a浓度进行预测。预测后结果要明显优于纯数据驱动模型,例如LSTM、CNN、TCN。总而言之,本文提出的SSA-LSTM 模型能够有效地提取藻类高频监测数据的动态变化趋势,且能够对叶绿素a浓度实现短时精确预测,这为水华的治理策略的拟定提供了一定的参考和借鉴。

猜你喜欢
谱分析叶绿素分量
纳谱分析技术(苏州)有限公司
提取叶绿素
一斤生漆的“分量”——“漆农”刘照元的平常生活
一物千斤
桃树叶绿素含量与SPAD值呈极显著正相关
论《哈姆雷特》中良心的分量
叶绿素家族概述
Cr12MoV冷作模具钢渗铬层界面能谱分析
沉香GC-MS指纹图谱分析
基于AR双谱分析的电梯运行质量研究