基于主成分降维及多层感知神经网络的辛烷值预测分析

2021-07-12 03:14孙金芳王智文王康权吴静
广西科技大学学报 2021年3期

孙金芳 王智文 王康权 吴静

摘  要:辛烷值是评价汽油质量的重要指标,汽油在精制脱硫和降烯烃的过程中,辛烷值普遍出现了损失.建立预测模型来预测辛烷值,帮助企业优化工艺流程进而提高成品油辛烷值的含量具有重大意义.根据某石化企业的精制脱硫装置保留下来的数据进行分析,选取独立且具有代表性的20个变量,基于主成分降维的多层感知神经网络建立辛烷值的预测模型.实验结果表明,当隐藏层的神经元个数为10时,MSE、RMSE、MAE均最小,此时该模型具有较高的预测精度和较好的拟合度.此模型不仅揭示了变量与辛烷值之间的非线性映射关系,同时也为预测辛烷值提供了一种新的思路.

关键词:汽油辛烷值;主成分降维;多层感知神经网络;数据降维;辛烷值损失;辛烷值预测

中图分类号:TP391.3         DOI:10.16375/j.cnki.cn45-1395/t.2021.03.011

0    引言

辛烷值(octane number,RON)是反映汽油燃烧性能的最重要指标之一[1-3],并作为汽油的商品牌号(如92#),在世界各国制定的汽油质量标准中都有严格的规定.然而,汽油精制脱硫和降烯烃的过程中,辛烷值普遍出现损失.辛烷值每减少损失1个单位,相当于多收益150元/t[4].以一个拥有年产100万t汽油精制装置的企业为例,若它能将RON的损失减少0.2个单位,那么它在一年内能多收益3×107元人民币.

郑斌等[5]针对成品油销售企业汽油辛烷值检测难的问题,提出了一种基于随机森林回归算法的研究方法.高俊等[6]采用35个汽油实际样本数据,建立了利用汽油的近红外光谱吸光度预测汽油辛烷值的BP人工神经网络模型.孙忠超等[7]利用BP神经网络算法和支持向量机回归建立了FCC汽油研究法预测辛烷值.周小伟等[8]利用多元线性回归和BP神经网络算法分别建立了二次反应清洁汽油的辛烷值预测模型.通过回归利用汽油不同性质去构造辛烷值预测函数,模型里有很多系数,需要重新计算原料含量变化.同时,汽油催化裂化过程中受许多操作因素的影响,通过汽油原材料的性质去预测辛烷值的含量没有考虑到加工过程中各方因素对辛烷值的影响.

如今,神经网络技术被广泛应用于图像识别[9]、流量预测[10]等方面,致使越来越多的研究者考虑用神经网络[11-12]的方式去预测辛烷值.考虑到本次数据包含的指标很多,提出了基于主成分降维的多层感知神经网络的辛烷值预测模型.实验数据来自某石化企业,对汽油精制脱硫装置保留下来的历史数据进行分析,这些数据包含了366个变量,具体包括7个原料性质、再生吸附剂性质和待生吸附剂性质各2个、1个成品油的辛烷值以及另外354个操作变量.本文使用先降维后建模的方法,过滤冗余变量,发现并分析影响模型的主要变量与因素.利用这些变量通过多层感知神经网络对汽油中的辛烷值进行预测,并对预测结果进行分析以提升汽油品质.

1    相關理论介绍

1.1    主成分降维

影响辛烷值的因素有很多,而且各因素蕴含的信息也很复杂[13-14],如何从这些信息中获取有效信息是建立辛烷值损失值预测模型的关键.降维是一种映射关系,在保证原有数据本质尽量不变的前提下,将数据的维度降低.常用的降维技术有奇异值分解(SVD)、因子分析(FA)、主成分分析(PCA)等[15].本文使用PCA技术对数据进行特征提取和降维操作,化繁为简,尽可能压缩指标个数[16].依据PCA的基本思想,本文对原始指标的相关矩阵进行研究,从所有变量中找出影响辛烷值损失的几个综合性指标,这些新指标间相互独立,能够最大限度地、集中地反映原始指标的总方差.

1.2    多层感知神经网络

1.2.1    网络的基本原理

多层感知器网络(multi-layer perceptron,MLP)的基本结构如图1所示,不仅存在输入层和输出层,还可以有许多个隐藏层,最简单的MLP需要至少有一层隐藏层,此网络拥有前向神经网络的主要特征.输入的特征信息经过输入层神经元,然后被传送到第一个隐藏层的神经元,再传送到下一个隐层的神经元.其中,两个层之间神经元间的连接方式是:上一层的每一个神经元与下一层的每一个神经元都有连接.值得注意的是,在同一层中,神经元之间是没有连接的,信息经过所有隐藏层的传递,最后到达输出层的神经元进行输出.

从图1可见,输入层神经元的个数为[n],表示输入多少条信息,输入层就有多少个神经元,分别记作[x1,  x2, …, xn]. [?1,  ?2, …, ?n1]是第一个隐藏层的神经元,[c1,  c2, …, cn2]是第二个隐藏层的神经元.本文的输出信息是辛烷值的预测值,所以输出层有一个神经元.各层的输入输出关系用式(1)—式(3)来计算.

[hj=f(i=1nwijxi-θj),i=1,  2, …, n1]          (1)

[cl=f(l=1n1vljhj-θl),l=1,  2, …, n2]           (2)

[y=f(l=1n2ulcl-θ),l=1,  2, …, n2]             (3)

其中:[wij]、[vlj]、[ul]为连接权值,以[vlj]为例,它代表着隐藏层1第[l]个神经元与隐藏层2的第[j]个神经元之间的连接权值;[θj]、[θl]、[θ]代表着各层某个神经元的阈值,以[θj]为例,它代表着第一个隐藏层第j个神经元的阈值.输入到本层神经元的信息,经过阈值的作用,在[f(?)]这个激活函数的作用下,会新生成一个数值,这个数值会成为下一层的输入.例如,输入到隐藏层1第一个神经元的信息经过阈值和激活函数的作用下,变成了[h1],[h1]就是第一个隐藏层第一个神经元的输出,第二个隐藏层的输入.信息从前往后传递,最终在输出层被输出.

1.2.2    输入层和输出层神经元

根据研究的需要,选择主成分降维得到的20个主成分作为输入层神经元,同时,选择成品油的辛烷值为输出神经元.

1.2.3    隐藏层神经元数的确定

隐藏层神经元数量的确定非常重要,隐藏层神经元的数量相差一个,结果可能千差万别.隐藏层神经元数量越多,学习的程度越深,网络的预测精度就越高.但是当隐藏层神经元数量过多时,会导致一系列的问题,例如,网络不收敛或者收敛速度过慢或者过拟合等问题.当隐藏层神经元数量太少时,虽然收敛速度快,但是预测精度可能达不到要求.考虑到现阶段对于隐藏层神经元数量的确定没有统一的方法,本文使用经验公式(4)来估算神经元数目:

[z=n+m+α]                      (4)

其中:α为[1, 10]之间的任意常数,[m、n]分别为输入神经元数和输出神经元数,[z]为隐藏层神经元数[17].本文是对汽油中的辛烷值进行预测,输出值为预测的辛烷值,输出神经元数[n]=1,降维后的   20个主成分作为输入变量,因此,输入神经元数 [m]=20,通过式(4)可以计算出本文神经网络隐藏层神经元数的取值范围[5, 15].

2    实证分析

2.1    数据的预处理

收集到的原始数据中,大部分变量数据正常,但是部分变量只含有部分时间段的数据,部分变量的数据存在空值,因此,对数据处理后才能使用.针对不同的数据异常,采用不同的数据预处理     方法:

1)针对采集的数据样本中全部为空值的样本,进行整行删除处理;

2)针对缺失数据点较多的指标,将此指标变量整列进行删除处理;

3)针对部分指标变量为空值的位置,空值处用此变量的平均值代替;

4)依据汽油催化裂化的工艺要求、操作经验总结出了影响辛烷值的各项指标的取值范围,依据变量的操作范围,对收集的数据中不在这个范围内的样本点用最大最小限幅法进行删除处理;

5)针对异常值使用拉依达准则进行去除处理.

拉依达准则:假设对被观测变量进行相同精度的测量,得到初始数据[x1, x2, …, xn],首先计算出被观测变量的算术平均值[x],然后计算剩余误差[vi=xi-x(i=1, 2, …, n)],之后按照式(5)的贝塞尔公式计算出标准误差[σ].判断数据[xm]的剩余误差[vm]是否在[3σ]的范围内,若[vm]在[3σ]范围内,认为数据正常,否则,[vm=xm-x>3σ],数据[xm]含有很大的误差,应该进行删除处理.

[σ=[1n-1i=1nv2i]12=[i=1nx2i-(i=1nxi)2/n(n-1)]12]  (5)

2.2    数据的降维

影响辛烷值的各指标之间存在一定的相关性.首先对预处理后的数据进行如式(6)的标准化,计算出各指标间相关系数矩阵的特征值、特征向量,然后根据得到的各主成分的方差贡献率和累计方差贡献率,从这些主成分中选取实验需要的主成分[zi].一般来讲,方差累计贡献率在80%左右,就基本保留了原来的指标信息.

[xi=xi-xs]                              (6)

[x=1ni=1nxi]                          (7)

[s=1n-1i=1n(xi-x)2]               (8)

为了方便确定主成分的个数,定义了一个函数将主成分的个数与累计贡献率作可视化分析.方差累计贡献率和主成分个数的关系如图2所示,从图2可以看出,15个主成分时的方差累计贡献率已经达到了80%.为了让实验的效果更好,选取前20个主成分作为多层感知神经网络的输入变量,这些主成分的方差累计贡献率达到85%,并且这些新指标间不存在相关性,对原来的指标在很大程度上进行了简化.

2.3   构建训练样本集和测试样本集

随机选取降维后样本的80%作为训练样本,即265个样本数据,用于对神經网络的训练,直到训练出较好的模型.再用剩余的60个样本数据对训练好的神经网络的性能进行测试,用来检验神经网络的预测性能,改进模型.

2.4   多层感知神经网络预测模型的性能分析

用控制变量法只改变隐藏层神经元的数量,其他的基本设置不变.将20个变量进行输入,通过比较均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)来判断模型的拟合程度.

在测试集上计算样本真实值与预测值之间的误差,从而对模型的性能进行评价.均方误差[18]可以用来评价数据的变化程度,用式(9)表示,是指参数真值与预测值间差值的平方的期望值,MSE的值越小,说明预测模型对实验数据描述的精确度更好.均方根误差[18]用式(10)表示,和模型的误差属于同一级别,是均方误差的算术平方根.平均绝对误差[18]用式(11)表示,它是绝对误差的平均值,用来反映预测值误差的实际情况.

[MSE=1ni=1n(yi∧-yi)2,  n=1,  2, …, 65]      (9)

[RMSE=MSE]                       (10)

[MAE=1ni=1nyi∧-yi,n=1,  2, …, 65]      (11)

其中:[yi]为监测到的辛烷值,[yi∧]为预测的辛烷值.预测结果如表1所示.

通过对比本文构建模型的均方误差、均方根误差和平均绝对误差发现,当神经元个数为10时,MSE、RMSE、MAE均最小,此时该模型具有较高的预测精度和较好的拟合度.

2.5   拓展性分析

影响因素重要性排序中发现精制汽油出装置温度、反应器上部温度、原油辛烷值、芳烃含量、蒸汽进入装置的流量对辛烷值的预测有显著影响.为进一步描述影响因素对辛烷值的影响,将上述变量与辛烷值损失值的数据作了标准化处理,通过折线图将影响因素与汽油辛烷值的关系可视化,如图3—图7所示.

温度对汽油辛烷值影响很大.如图3和图4所示,在一定范围内,适度提高温度,辛烷值损失值会减小,但是超过一定范围,辛烷值的损失值会增大.可以通过对精制汽油出装置温度和反应器上部温度进行控制,减少辛烷值的损失值.

芳烃含量和原油辛烷值都属于原料性质,原料性质对辛烷值的影响很大.如图5和图6所示,原油中芳烃的含量高以及辛烷值高时,在同一装置下,经过催化裂化后,产品油的辛烷值就高.要想减少辛烷值的损失值,需对装置进行优化,减少辛烷值的损失值.目前有LTAG技术,这种技术将劣质循环油转化为轻质芳烃,或者将劣质循环油转化为高辛烷值汽油组分,通过将双环芳烃加氢饱和,从而生成四氢萘型单环芳烃[19],不仅使得氢耗量降低,而且在之后的汽油催化裂化过程中,成品汽油的辛烷值和轻质芳烃含量都升高了,效益得到提高.

如图7所示,蒸汽进入装置的流量大时,辛烷值损失小.由于蒸汽可以净化辛烷值分离系统,增加蒸汽进入装置的流量,可以减少反应器中吸附剂的残留.适度增加蒸汽进入装置的流量,就增大了原材料进入的比例,可以减缓部分烯烃加氢反应和脱硫反应的速度,能够有效降低汽油的辛烷值损失.

3    结论

本文提出的模型为辛烷值的预测以及降低辛烷值的损失值提供了新的思路与方法.预测模型的特点总结如下:

1)该模型用非线性隐式的形式描述了辛烷值与多个变量之间的关系.考虑到影响因素的多元性以及各因素间关系的复杂性,辛烷值与多个变量之间的关系难以用简单的线性模型或稍微复杂的非线性模型进行客观描述,而该模型正好克服了上述缺点,实现了辛烷值与多个变量之间关系的非线性映射表达.

2)该模型的预测精度很高,可以满足工业生产的需要.由于使用了神经网络,具有很强的非线性逼近功能[20],所以当训练样本数据足够多,并且在数据质量很高的条件下,该模型的预测精度不会差.

3)该预测模型的结构简单,输入变量数目可控,操作性强.

4)模型的主要缺点是对数据的要求严格,必须有符合数量和质量要求的数据才能达到预期的预测效果.

参考文献

[1]    WEN M S,ZHANG C Q,YUE Z Y,et al.Effects of gasoline octane number on fuel consumption and emissions in two vehicles equipped with gdi and pfi spark-ignition engine[J].Journal of Energy Engineering,2020,146(6):32-35.

[2]     劉慈祥,夏攀登,田娟,等.车用汽油研究法辛烷值测量方法浅析[J].山东化工,2020,49(19):106,109.

[3]     郑斌,孙洪霞,王维民.基于随机森林回归的汽油研究法辛烷值预测[J].石油炼制与化工,2020,51(12):69-75.

[4]     韩跃辉.降低S Zorb装置汽油辛烷值损失优化措施探讨[J].中国石油和化工标准与质量,2017,37(6):87-89.

[5]     郑斌,孙洪霞,王维民.基于随机森林回归的汽油研究法辛烷值预测[J].石油炼制与化工,2020,51(12):69-75.

[6]     高俊,姚成,章俊.人工神经网络用于近红外光谱预测汽油辛烷值[J].分析科学学报,2006,22(1):71-73.

[7]     孙忠超,山红红,刘熠斌,等.用于FCC汽油辛烷值预测的非线性数学模型[J].炼油技术与工程,2012,42(2):60-64.

[8]     周小伟,袁俊,杨伯伦.应用BP神经网络的二次反应清洁汽油辛烷值预测[J].西安交通大学学报,2010,44(12):82-86.

[9]     王鹏涛,王智文.基于PSO-LDA的人脸识别算法[J].广西科技大学学报,2017,28(1):85-90.

[10]   陈皓.基于小波神经网络的移动网络流量预测研究[J].电子世界,2020(15):81-82.

[11]   陈曦,刘都鑫,孙啸宇.基于BP神经网络降低汽油精制过程中的辛烷值损失[J].科技创新与应用,2021(5):25-27,31.

[12]   李聃华.基于神经网络的辛烷红外光谱数据分析[D].郑州:河南大学,2018.

[13]   BADRA J,ALRAMADAN A S,SARATHY S M.Optimization of the octane response of gasoline/ethanol blends[J].Applied Energy,2017,203:778-793.

[14]   LAURGEAU C,ESPIAU B,BARRAS F.Détermination de l'indice d'octane par chromatographie gazeuse determining the octane number by gas chromatography[J].Oil & Gas Science and Technology,2006,5(4):251-258.

[15]   刘辉.基于主成分分析和多层感知机神经网络的入侵检测方法研究[J].软件工程,2020,23(7):10-12.

[16]   安晓宁,王智文,张灿龙,等.基于隐马尔可夫模型的人脸特征标注和识别[J].广西科技大学学报, 2020,31(2):118-125.

[17]   卢顺,李英顺.基于差分进化算法优化BP神经网络的镍镉电池寿命预测[J].广西科技大学学报,2020,31(2):93-98.

[18]   周志华.机器学习[M].北京:清华大学出版社,2016.

[19]   龚剑洪,毛安国,刘晓欣,等.催化裂化轻循环油加氢-催化裂化组合生产高辛烷值汽油或轻质芳烃(LTAG)技术[J].石油炼制与化工,2016,47(9):1-5.

[20]   后锐,张毕西.基于MLP神经网络的区域物流需求预测方法及其应用[J].系统工程理论与实践,2005(12):43-47.

Prediction and analysis of octane number using multi-layer

perceptual neural network based on principal component

dimension reduction

SUN Jinfang1a, WANG Zhiwen*1a,1b,2, WANG Kangquan1a, WU Jing1a

(1a. College of Science, 1b. School of Computer Science and Telecommunication Engineering, Guangxi

University of Science and Technology, Liuzhou 545006, China; 2. Guangxi Key Lab of Multi-source

Information Mining & Security, Guangxi Normal University, Guilin 541004, China)

Abstract: Octane number is an important index to evaluate the quality of gasoline. In the process of   desulfurization and olefins reduction of gasoline, the octane number is generally lost. It is of great     significance to establish a prediction model to predict the octane number and help enterprises optimize the technological process to improve the octane number content of finished oil. In this paper, the octane number prediction and analysis model based on principal component dimension reduction of multi-   layer perceptual neural network is proposed. The experimental analysis adopted data from a               petrochemical enterprise, and based on the data retained by the refining desulfurization device of the  enterprise, 20 independent and representative variables were selected in the experiment, and the octane number prediction model was established based on the multi-layer perceptual neural network. The      experimental results show that when the number of neurons in the hidden layer is 10, MSE, RMSE and MAE are all the minimum, and the model has high prediction accuracy and good fitting degree. This model not only reveals the nonlinear mapping relationship between variables and octane number, but  also provides a new idea for predicting octane number.

Key words: octane number of gasoline; principal component dimension reduction; multi-layer perceptual neural network; data dimension reduction; octane number loss; octane number prediction

(責任编辑:黎    娅)