基于向量自回归模型的辛烷值损失问题研究

2022-09-06 01:30秦庆涛顾海航
软件工程 2022年9期
关键词:硫含量预测值差分

秦庆涛,顾海航

(1.上海理工大学机械学院,上海 200093;2.盐城工学院机械学院,江苏 盐城 224000)

522636581@qq.com;2237298110@qq.com

1 引言(Introduction)

汽油是小型车辆的主要燃料,而汽油燃烧产生的尾气对大气环境有严重影响。辛烷值(RON)是反映汽油燃烧性能的最重要指标,RON的降低会提高经济效益。化工过程中的建模大多是通过数据关联或机理建模的方法来实现的,由于制备汽油工艺过程的复杂性及设备的多样性,其操作变量(控制变量)之间具有高度非线性和相互强耦联的关系,而且传统的数据关联模型中变量相对较少,机理建模对原料的分析要求较高,对过程优化的响应不及时,因此效果并不理想。针对RON损失的优化问题,本文首先基于随机森林变量重要性评分(VIM)模型进行数据降维,然后对降维后的数据采用二次特征筛选方法筛选出10 个建模主要变量,综合考虑变量之间非线性和相互强耦联性,最后基于多变量自回归对数线性方程建立RON损失预测模型。

2 数据降维(Data dimensionality reduction)

2.1 基于VIM模型的数据降维

本文研究涉及325 个数据样本,每个数据样本包括若干个原料性质、待生吸附剂性质、再生吸附剂性质、产品性质等变量及另外354 个操作变量,一共有367 个变量,这里我们利用随机森林来对数据进行特征筛选。

通过以上建立的模型,我们对随机森林模型参数的整个计算过程进行分析后,不断调整模型的各项参数配置,如表1所示。

表1 模型的各项参数配置Tab.1 Parameters configuration of the model

为了进一步提升随机森林评分效果,我们通过设置特征加权系数使随机森林回归达到一个考虑更多要素程度的状态。最终我们确定权重在0.004以上的有33 个变量,如表2所示。

表2 模型的主要变量权重系数Tab.2 The main variable weight coefficients of the model

为了更加深入地分析这些变量的重要性评分,我们使用随机森林算法测试数据并列出评估结果表,如表3所示,该表主要包括MSE、MAE、R和MAPE等。

表3 随机森林算法测试数据评估结果表Tab.3 Result table of random forest algorithm test data evaluation

2.2 模型的改进

目前并没有特定的降维方法解决本题复杂的数据问题,虽然大批学者也纷纷提出了对VIM进行改进或者新的计算VIM的方法,但并没有从根本解决VIM在变量筛选时出现的问题。因此,针对操作变量之间相互强耦联性,使用非参数Spearman(斯皮尔曼)秩和检验法及Granger(格兰杰)因果关系检验法对候选的33 个因素与RON进行检验,以确定主要变量。

在两组数据均没有重复观测值的情况下,Spearman相关系数的公式为:

采用变量进行检验,得到RON与各变量间的Spearman检验结果,如表4所示。

表4 Spearman检验结果(部分结果)Tab.4 Results of Spearman test results (partial results)

通过Spearman检验,我们剔除氮气进装置流量、氢油比等23 个变量,保留剩下的10 个变量,分别是燃料气进装置流量、除氧水进装置流量、E-101D壳程出口管温度、D-125液位、D-123压力、预热器空气出口压力、R-101下部床层压降、P-101B入口过滤器差压、ME-112过滤器压差以及精制汽油出装置硫含量。所以,这10 个变量将作为影响RON损失的主要因素或变量。

对上述10 个变量与RON之间的因果关系进行辨别与检验。为此,本文运用Granger因果关系检验法对各变量及RON之间进行检验,结果表明各数据皆为平稳性数据。

在给定显著性水平a=5%的情况下,燃料气进装置流量是RON的原因;除氧水进装置流量是RON的原因;E-101D壳程出口管温度是RON的原因;ME-112过滤器压差是RON的原因;D-125液位是RON的原因;D-123压力是RON的原因;预热器空气出口压力是RON的原因;R-101下部床层压降是RON的原因;P-101B入口过滤器差压是RON的原因。其中值得注意的是,硫含量与RON互为因果,即硫含量是RON的原因,且RON是硫含量的原因。假设上述说法不成立,并逐一进行反证。Granger检验结果如表5所示。

表5 Granger因果检验结果Tab.5 Results of Granger causality test

为了考查各主要变量相对RON的重要程度,本文将接着对通过Spearman检验的变量进行路径分析。

通过使用Spearman相关系数检验,可以得到经过筛选的影响RON的10 个变量。但是这些变量之间存在潜在的相互关系和层次关系,所以这里我们使用路径分析方法来确定各变量之间的多层因果关系及其相关强度。

借助一个线性模型

可用标准化的使用方法和常用记号写为:

图1 路径图Fig.1 Path diagram

图2 伪相关路径图Fig.2 Pseudo correlation path diagram

这里我们允许在这个关系中再次出现误差,利用标准化变量,上面路径图的线性模型成为:

路径分析包括两个主要部分:(1)路径图;(2)分解相关系数为简单路径和负荷路径的路径系数之和。这些特征使我们能够直接或简洁地去度量一个变量对另一个变量的效应。

以RON与各个主要变量的相关系数矩阵为基础,建立路径分析模型,得到路径如图3所示。

图3 RON与各变量的相关路径图Fig.3 Correlation path diagram of RON and each variable

由于篇幅有限,本文在此处列举两个模式的计算结果,如表6和表7所示。

表6 RON路径计算结果Tab.6 Results of RON path calculation

表7 硫含量路径计算结果Tab.7 Results of sulphur content path calculation

2.3 变量的最终确定及层次关系确定

通过随机森林获取了2017/4/17 8:00:00—2020/5/26 8:00:00影响RON的33 个操作变量的基本统计数据,并对数据进行了处理。通过对问题的具体分析及合理的假设,先使用非参数的Spearman秩和检验法分别对RON与各变量的相关性进行检验,将不能通过检验的变量剔除,10 个变量通过非参数Spearman秩和检验。

能通过数学上的非参数Spearman秩和检验,影响RON的主要变量分别为燃料气进装置流量、除氧水进装置流量、E-101D壳程出口管温度、D-125液位、D-123压力、预热器空气出口压力、R-101下部床层压降、P-101B入口过滤器差压、ME-112过滤器压差及精制汽油出装置硫含量。本文利用路径分析的方法对变量RON的相关程度进行了分析,分析的结果为:精制汽油装置中的含硫量及燃料进气装置的流量对RON都有显著的影响。

3 RON损失预测模型的建立和求解(Establishment and solution of RON loss prediction model)建立多变量自回归对数线性模型

在考虑变量间互相影响的情况下,本文建立了以时间递推的差方方程。

上述这组方程组是本文的通用模型,但由于该模型的建立需要依赖差分方程中合理系数的确定,为了确保模型没有明显误差,采取最小二乘法求取系数的近似精确解,并对模型的可行性进行论证。

所以x是方程的最小解。

于是,根据以上得到的数据,利用最小二乘法就可以得到模型中所有系数,这样便可以得到完整的模型。

(2)模型系数求解算法

由上文的分析论证,可以得到计算差分方程组系数的方法。由此,下文给出计算差分方程系数的计算公式和步骤:

对于每个方程的求解有相同的方法,每一次计算一个差分方程的系数,步骤如下:

Step 1:根据搜索得到的数据,可以得到不同时刻不同变量的数值矩阵、。

Step 2:根据第一步得到的数据建立超定方程组,使用MATLAB软件求解差分方程组的系数,计算系数公式为:

Step 3:记录计算结果=+1,进入下一个差分方程组的计算。判断是否<,若是则转入Step 1,否则转入Step 4。

Step 4:输出结果,作图比较拟合效果。

计算差分方程组算法的流程如图4所示。

图4 系数计算流程图Fig.4 Flowchart of coefficient calculation

通过以上算法,编写MATLAB程序就可以实现差分方程系数的求解。

注意:对于其他变量对应的方程,>的概率均大于0.01。

表8 方程组的系数矩阵Tab.8 Coefficient matrix of the equations

为了检验拟合的效果,我们采用MATLAB编程来实现2017/4/17 8:00:00—2020/5/26 8:00:00的所有实际数据与拟合数据的比较。拟合图如图5—图15所示。

图5 RON真实值与预测值的拟合情况比较Fig.5 Comparison of fitting between real value and predicted value of RON

图6 燃料气进装置流量真实值与预测值的拟合情况比较Fig.6 Comparison of fitting between real value and predicted value of the flow rate of the fuel gas inlet device

图7 除氧水进装置流量真实值与预测值的拟合情况比较Fig.7 Comparison of fitting between real value and predicted value of the flow rate of deoxygenated water inlet device

图8 E-101D壳程出口管温度真实值与预测值的拟合情况比较Fig.8 Comparison of fitting between real value and predicted value of E-101D shell side outlet pipe temperature

图9 D-125液位真实值与预测值的拟合情况比较Fig.9 Comparison of fitting between real value and predicted value of D-125 liquid level

图10 D-123压力真实值与预测值的拟合情况比较Fig.10 Comparison of fitting between real value and predicted value of D-123 pressure

图11 预热器空气出口压力真实值与预测值的拟合情况比较Fig.11 Comparison of fitting between real value and predicted value of air outlet pressure of preheater

图12 P-101B入口过滤器差压真实值与预测值的拟合情况比较Fig.12 Comparison of fitting between real value and predicted value of differential pressure of P-101B inlet filter

图13 R-101下部床层压降真实值与预测值的拟合情况比较Fig.13 Comparison of fitting between real value and predicted value of pressure drop in lower bed of R-101

图14 ME-112过滤器压差真实值与预测值的拟合情况比较Fig.14 Comparison of fitting between real value and predicted value of differential pressure of ME-112 filter

图15 精制汽油出装置硫含量真实值与预测值的拟合情况比较Fig.15 Comparison of fitting between real value and predicted value of sulfur content in refined gasoline outlet unit

通过MATLAB计算获得的RON,以及10 个主要变量的实际值与预测值之间的误差率都较小,分别为4.308%、1.206%、3.112%、2.203%、1.006%、1.018%、2.106%、0.890%、3.019%、1.109%和3.090%。故我们可以看出,通过建立RON的多变量自回归VAR模型得到的方程组的解拟合效果非常好。

4 结论(Conclusion)

针对RON损失的优化问题,本文采用二次特征筛选方法,从367 个操作变量中筛选出10 个建模主要变量,综合考虑变量之间非线性和相互强耦联性,最后基于多变量自回归对数线性方程建立了RON损失预测模型,通过该模型预测的汽油精制过程后,各变量的真实值和预测值拟合度高,可见模型精度很高。

猜你喜欢
硫含量预测值差分
干熄焦烟气脱硫装置降低硫含量排放的工艺措施
高频红外吸收光谱法测定硅碳球中硫含量
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
数列与差分
法电再次修订2020年核发电量预测值
莱钢3#750m3高炉降低生铁硫含量实践
高频红外碳硫分析仪测定岩矿中全硫含量
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR