基于TSFS结合高阶张量特征提取方法的海水半潜油种类鉴别研究

2023-02-01 01:23孔德明崔耀耀仲美玉马勤勇孔令富
光谱学与光谱分析 2023年1期
关键词:潜油溢油光谱

孔德明,崔耀耀,仲美玉,马勤勇,孔令富

1.燕山大学电气工程学院,河北 秦皇岛 066004 2.燕山大学信息科学与工程学院,河北 秦皇岛 066004 3.石家庄学院机电学院,河北 石家庄 050035

引 言

近年来,随着陆上石油储量的不断减少,海洋石油勘探与开发的步伐明显加快[1-2]。与此同时,海上石油生产及其运输也随之增长,导致各类溢油事故频繁发生[3]。当事故发生后,溢油不仅会在海面上漂浮,还可能会在海中或海底等更深的水域中发生悬浮或者沉底。其中,悬浮状态的溢油称之为半潜油,而沉底状态的溢油则称之为沉底油。对于这些悬浮或沉底状态的溢油,到目前为止还没有形成有效地监测手段和处理方式,致使其污染的突发性和危害性更甚于海面溢油[4]。相对于沉底油,半潜油是一种更加广泛存在的状态,且更容易随洋流在海中飘荡,其对海洋生态环境造成的危害通常十分显著。因此,开展有效地半潜油探测与鉴别方法研究对于海事部门进行应急处理以及保护海洋生态环境具有重要的实用价值。

目前,荧光光谱技术是检测与鉴别复杂环境背景中石油类污染物最有效地手段之一,国内外研究人员主要通过激发-发射矩阵荧光光谱(excitation-emission matrix spectroscopy, EEMS)、总同步荧光光谱(total synchronous fluorescence spectroscopy, TSFS)以及时间分辨荧光光谱(time-resolved fluorescence spectroscopy, TRFS)等三维光谱技术对石油类污染物进行信息采集与表征[5-6]。通常,利用化学计量学中的多维校正方法可实现对三维荧光光谱数据特别是其中的EEMS数据矩阵的精确解析,这种创新型的分析策略已经在溢油污染物组分定性及定量研究中得到了广泛的应用[7-8]。但是由于TSFS数据不具备三线性结构,使得多维校正分析的策略在其应用上受到了一定的限制。

然而,TSFS能够以更少的数据量获取与EEMS相同的荧光信息,还能避免瑞利散射的影响。相较于EEMS,在复杂多荧光团混合物表征中能够充分减少光谱重叠现象,从而有效提高对复杂混合物的分析能力,使其在溢油污染物的分析与鉴别中具备一定的优势[9]。用于TSFS张量数据鉴别的常用方法是基于数据分解或展开的方法提取其光谱特征,并结合模式识别中的分类方法以获得最终鉴别结果。Kumar利用TSFS结合多元曲线分辨率交替最小二乘法(multivariate curve resolution-alternating least squares, MCR-ALS)对具有石油产品复杂荧光背景中的三种多环芳烃进行了分析,获得了与实际情况较为一致的分析结果[10]。Steiner-Browne等使用TSFS结合平行因子分析(parallel factor, PARAFAC)成功监测到了蛋白质结构变化过程中更多的组分[11]。然而,数据分解或展开的方法往往会破坏张量数据的原始空间结构及其相关性,同时还会增加计算的复杂度[12]。最近,图像识别领域已经提出了用于高阶张量特征提取的方法[13-14]。此类方法能够在保留张量数据原始空间结构的前提下,直接在矩阵的空间、统计学以及图形学上提取相关特征向量,进而有效降低其计算复杂度并显著提升特征向量的鉴别性能。基于此,本文采集了六种油类使用有机分散剂配制的90个半潜油样本的TSFS数据,并基于高阶张量特征提取方法中的二维线性判别分析(2-dimensional linear discriminant analysis, 2D-LDA)以及二维主成分分析(2-dimensional principal component analysis, 2D-PCA)分别建立了样本的鉴别模型,从而为半潜油种类鉴别提供了一种新的思路。

1 实验部分

1.1 材料与仪器

半潜油主要以分散油、溶解油以及被颗粒物吸附后形成的油-悬浮物凝聚体等形态存在[4]。化学分散剂能够加速海面溢油的降解进程,是使海面溢油发生半潜的重要因素。其中,十二烷基硫酸钠(sodium dodecyl sulfate, SDS)是一种具有良好的乳化及分散功能的有机分散剂,其能够有效降低溢油的粘度及其表面张力,使溢油快速转化为不同粒径的油滴。

实验选用SDS分散剂配制半潜油样本,海水取自渤海秦皇岛海域,选择92#汽油、95#汽油、0#柴油、润滑油、航空煤油以及工业级白油六种油品作为实验样品。半潜油样本的具体配制流程如下:首先,利用精密电子天平(FA1004,精度:0.000 1 g,天津天马衡基仪器有限公司)称取适量的SDS并将其溶解在海水中,配制浓度为0.1 mol·L-1的SDS溶剂;然后,称取适量的六种油品,其实际重量如表1所示,分别将其溶解在SDS溶剂中并使用100 mL容量瓶定容,再置于往复式振荡器上震荡以模拟海洋环境中的风浪条件,振荡频率选择120 r·min-1,振荡时间为2 h,以使油品能够充分地分散和溶解在海水中;最后,通过SDS溶剂进一步稀释已经充分溶解的油样,分别配制浓度范围在0.2~3.0 mg·mL-1的15样本,最终得到90个(6×15)半潜油实验样本。

表1 六种油品的实际重量(单位/g)

使用FS920稳态荧光光谱仪(英国Edinburgh Instruments公司)采集实验样本的TSFS数据矩阵。激发波长扫描范围设置为260~400 nm,步长为2 nm;偏移波长Δλ设置为10~110 nm,激发和发射端的狭缝宽度设置为1.15 mm,扫描的积分时间为0.1 s。

1.2 光谱数据预处理

图1 实验样本的原始荧光光谱图

在荧光光谱图中的相对荧光强度主要与样本浓度相关,即在一定浓度范围内,样本的浓度与其相对荧光强度呈线性关系,而油类样本的类别主要与TSFS的光谱形状、峰位等特征相关。因此,需要对TSFS数据进行标准化处理以消除高浓度样本所带来的杠杆效应,即数据标准化的作用是指消除相对荧光强度(即样本浓度因素)带来的影响,使不同样本之间具有可比性,这对模型的构建至关重要。另外,为了合理评估所建模型的鉴别能力,本文使用Kennard-Stone采样选择算法[15]将所有样本划分为训练集(共60个)与测试集(共30个)。其中,训练集样本用于构建训练模型,而测试集样本则用于测试和验证所建模型的性能。

1.3 数据处理

1.3.1 二维线性判别分析

对于m×n的TSFS数据矩阵X,行数(m)和列数(n)分别对应于激发和偏移波长的数量。2D-LDA通过将X乘以投影矢量a(n×1)来获得特征向量y(m×1)

y=Xa

(1)

式(1)中,特征向量y的第i分量yi由TSFS数据矩阵X的第i行mi与投影矢量a之间的标量积给出,如图2所示。

图2 从TSFS数据中计算2D-LDA特征向量的每个元素

其中,最佳投影矢量aopt可通过式(2)获得

(2)

式(2)中,SB和SW分别是类间与类内散度矩阵,计算如式(3)和式(4)

(3)

(4)

(5)

(6)

如果SW是非奇异矩阵,则aopt需满足式(7)条件

(7)

通常,通过选择一组正交约束的投影向量{a1,a2, …,ar}作为投影矩阵A,并以此计算TSFS数据矩阵X的特征矩阵Y(m×r)

Y=XA

(8)

1.3.2 二维主成分分析

与2D-LDA类似,2D-PCA也是直接对TSFS数据矩阵

X进行特征提取,同样通过将X乘以投影矢量b(n×1)来获得特征向量y(m×1)

y=Xb

(9)

其中,最佳投影矢量由式(10)标准确定

J(b)=tr(Sb)

(10)

式(10)中,Sb是训练样本投影矢量的协方差矩阵,tr(Sb)表示Sb的迹,Sb计算如下

Sb=E(y-Ey)(y-Ey)T=E(Xb-EXb)(Xb-EXb)T

=E[(X-EX)b][(X-EX)b]T

(11)

那么,tr(Sb)可表示为

tr(Sb)=bT[E(X-EX)T(X-EX)]b

(12)

图像的协方差矩阵(即散度矩阵)Gt定义如式(13)

Gt=E[(X-EX)T(X-EX)]

(13)

那么,式(10)可以转化为

J(b)=bTGtb

(14)

式(14)中,b是一个酉向量,这个标准又称为广义最大散度准则,使该准则最大化的酉向量b称为最优投影轴。通常,需要选择一组正交约束且最大化准则J(b)的投影轴,即

{a1, …,ad}=arg maxJ(a);

(15)

将该组投影轴排列为投影矩阵B,然后通过投影矩阵B来计算TSFS数据矩阵X的特征矩阵Y(m×d)

Y=XB

(16)

1.3.3 鉴别方法

基于2D-LDA和2D-PCA可以获得USFS数据的特征矩阵Y,根据测试集样本和训练集样本之间的相似性对其进行鉴别。本文对文献[16]中的七种相似性度量测试后,选用欧氏距离d(Ytest,Ytrain)评估样本之间的相似性

(17)

最后,将测试样本分配给对应于最小距离的训练样本所属的类Cp,即

(18)

2 结果与讨论

2.1 训练集样本光谱特征提取

利用2D-LDA提取的不同类别的训练集样本平均特征如图3所示。其中,图3(a—f)分别是0#柴油、工业级白油、92#汽油、95#汽油、航空煤油以及润滑油的平均特征图。图中横坐标代表在相应激发波长处的特征值,纵坐标代表所提取的特征向量数量,强度值则代表了特征值的大小。由图可以看出,不同类别样本的光谱特征主要集中在前5个特征向量中。并且与其原始图像中的情况相同,即本身光谱相似的图像其特征图中的主要特征依然相似,但在特征图的细节特征以及强度值上则存在明显差异。

图3 训练样本提取的2D-LDA特征

利用2D-PCA提取不同类别训练集样本的前5个特征值如图4所示。其中,图4(a—f)分别是0#柴油、航空煤油、92#汽油、95#汽油、润滑油以及工业级白油的前5个特征值。图中横坐标代表所有的训练集样本,纵坐标代表所提取的特征值大小。由图可以看出,相同类别的训练集样本其5个特征值均稳定存在,不同类别的训练集样本其5个特征值则差异较大,这为样本分类鉴别提供了良好的特征基础。

图4 训练样本提取的2D-PCA特征

2.2 测试集样本鉴别结果

利用2D-LDA和2D-PCA分别提取测试集样本的相应特征。然后,根据测试集与训练集样本之间的相似性即欧氏距离来确定测试样本所属的类别,基于2D-LDA特征的测试集中第21个样本的鉴定结果如图5所示。其中,图5(a)是测试中第21个样本与所有训练集样本之间的欧式距离,可以看出该测试样本与训练集中前11个样本之间的距离均较小,而在这些训练集样本中,与第10个样本(ID=10)具有最小的欧式距离,即Min Distance=0.098 189,在图5(a)中用红色实心圆点标记。其表示测试集中的第21个样本与训练集中的第10个样本之间的相似度最高,属于同一类油品。训练集中的第10个样本属于柴油如图5(c)所示,所以测试集中的第21个样本被鉴定为柴油如图5(b)所示。另外,在图5(a)中1—11为测试集中的0#柴油;12—23为测试集中的航空煤油;24—33为测试集中的92#汽油;34—43为测试集中的95#汽油;44—49为测试集中的润滑油以及50—60为测试集中的工业级白油。可以看出,基于2D-LDA特征的测试集样本与同类训练集样本之间距离均较近,即样本之间具有极高的相似度。而与其他异类样本之间的距离均较远,且与每一类样本之间的距离值较为稳定,具有明显分界,实验结果表明2D-LDA特征对TSFS光谱具有优异的表征能力。

图5 测试集中第21个样本的鉴定结果

表2列出了基于2D-LDA与2D-PCA特征的测试集样本具体鉴定结果,以混淆矩阵的形式表示。被鉴定正确的测试集样本在表中绿色底纹标注,从表中可以看出,无论是基于2D-LDA特征还是基于2D-PCA特征均获得了理想的结果,所有测试集样本都被鉴定为正确的类别所属。实验结果表明基于高阶张量特征提取的方法不仅能够有效表征具有明显差异特征的样本,而且在图像形状极为相似的样本中同样具有优异的性能。

表2 测试集样本获得的混淆矩阵

2.3 对比分析

为了进一步比较高阶张量特征提取方法的性能,本文分别使用了基于数据分解的方法——MCR-ALS-LDA以及基于数据展开的方法——多维偏最小二乘判别分析(multi-way partial least square discriminant analysis, NPLS-DA)对TSFS数据中的训练集和测试集样本进行了分析。其中,使用奇异值分解确定MCR-ALS[10]的组分数为3,并使用进化因子分析获得其初始估计值,利用MCR-ALS解析结果中的得分矩阵作为LDA的鉴别依据,最终获得的鉴别模型评价结果如表3所示。通过交叉验证的方式确定NPLS-DA[17]的潜在变量数为9,然后利用训练集样本计算NPLS-DA模型,最后使用测试集样本评价模型的性能,其评价结果列于表3。

由表3可以看出,本文所述的2D-LDA和2D-PCA模型均以100%的正确率获得了完美的性能表现,MCR-ALS-LDA模型以93.3%的正确率获得了良好的性能表现,而NPLS-DA模型的正确率为66.7%,其性能表现较差。另外,由精确率、灵敏度和特异性三个评价指标可以看出,MCR-ALS-LDA模型在92#汽油、95#汽油以及航空煤油三种油类鉴别中出现错误预测,而NPLS-DA模型则在所有油类鉴别中均出现错误预测。在MCR-ALS-LDA模型仅利用了MCR-ALS中的得分矩阵对油类进行鉴别,而具有定性意义的载荷矩阵并没有被利用,这可能是造成其性能不如2D-LDA和2D-PCA模型的原因。而NPLS-DA模型同样仅利用了NPLS的主成分数进行分类,且其解析结果并没有实际的化学意义,这可能是造成其分类性能最差的原因。这些评价结果表明了相较于2D-LDA和2D-PCA的特征提取方法以及基于MCR-ALS-LDA的分解方法,基于NPLS-DA的展开类方法使用全部数据进行油种鉴别时的计算复杂度高且预测精度低。基于特征提取或数据分解结果的油种鉴别获得更为精确的预测结果,一方面表明了这些方法性能的优异,另一方面也表明TSFS在半潜油检测中本身就具备一定的优势。

表3 不同鉴别模型的评价结果

3 结 论

有效鉴别半潜油污染物对保护海洋生态环境具有重要意义。本文采用了2D-LDA、2D-PCA、MCR-ALS-LDA及NPLS-DA四种方法分别建立了半潜油样本TSFS数据的鉴别模型。实验结果表明,2D-LDA 和 2D-PCA 可以有效提取TSFS数据的高阶张量特征,所建立的鉴别模型能够对六种不同的油类进行准确鉴别,其准确率均为100%。本文为半潜油污染鉴别提供了一种新的思路。

猜你喜欢
潜油溢油光谱
变频器应用于潜油电泵井的节能探讨
基于Petri网的深远海溢油回收作业风险演化分析
基于三维Saab变换的高光谱图像压缩方法
高光谱遥感成像技术的发展与展望
一种适用于大井斜的潜油电泵井单流阀
近岸溢油漂移扩散预测方法研究——以胶州湾溢油事件为例
基于GF-1卫星的海上溢油定量监测——以青岛溢油事故为例
关于高温潜油电泵推力轴承承载特性的研究
基于改进K-means的潜油电泵质量评估方法研究
星载近红外高光谱CO2遥感进展