基于多元逻辑回归的道路结冰预警模型研究

2023-01-16 08:25滕书华马俊朝
湖南交通科技 2022年4期
关键词:冰水混合物结冰

刘 鑫, 滕书华, 龙 帆, 马俊朝, 李 媚

(湖南省交通科学研究院有限公司, 湖南 长沙 410015)

0 引言

雨、雪、冻雨或雾滴遇到温度低于0 ℃的地面而出现的结冰现象称之为道路结冰。据统计,在所有交通安全事故中,道路结冰时的事故率是干燥路面事故率的10倍[1]。在我国,约70%的冬季道路交通事故是由于恶劣天气导致的不良路面(冰雪路面)造成的。深入研究道路结冰预测模型,加强对恶劣天气下道路安全与风险管理及突发事件后的预警系统研究,对提高道路交通安全水平具有至关重要的作用[2]。

国内外开展了很多关于气象条件对道路交通安全的影响及交通气象预报方法等方面研究,田琨等[3]论证了逻辑回归对雷暴强度的潜势预报具有指导意义;李蕊等[4]通过不同天气条件下多种气象要素对路面温度进行多元线性回归拟合;舒斯等[5]以湖北省高速公路沿线的87个交通气象观测站气温与路面温度等实况资料为基础,对各个高速路段的路面结冰频率随气温的变化规律进行了分析,发现均满足逻辑回归模型;白永清等[6]阐述了以路面温度为单一影响因子的一元逻辑回归分析在结冰预测中的应用。现有结冰预测算法主要以路面温度(或路基温度)作为结冰影响因子建立一元的分析模型,而根据经验数据分析,多种气象参数均会对道路结冰状态产生干扰,因此仅依靠单一影响因子建立的结冰预测模型精度有限,误报率较高,国内有些研究机构对影响结冰的气象和路面参数设置了不同的阈值,通过判断提高了结冰预测准确性,但没有形成技术体系,更缺乏科学有效的方法提供技术支撑。

本文提出一种基于多元逻辑回归的结冰预测方法:首先,以传感器采集到的路面状况信息和气象信息作为样本,计算路面与气象数据之间的相关系数,找出与冰层厚度相关性最大的几个参数作为影响道路结冰的主要因素,并以此为影响因子建立多元逻辑回归的初始预测模型;其次,通过对数变换,将多元逻辑回归模型变换为多元线性回归模型,引出超定方程组求解及病态方程组的问题;然后,采用Tikhonov正则化+L曲线准则的方法对病态矩阵方程组的求解进行分析,并通过迭代的方法提高结冰预测模型的准确性;最后,通过试验分析,验证多元逻辑回归分析在结冰预测应用的有效性和准确性。

1 结冰预测风险模型构建

1.1 多元逻辑回归分析

Logistics(逻辑)回归分析,是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域,主要用来解决二分类变量问题。由于逻辑函数的取值范围为0~1,气象上常用其来建立风险等级或概率预报模型。相关系数是反映变量之间相关关系密切程度的统计指标,相关系数的绝对值越大,相关性越强。为了得到准确的结冰概率,我们将气象信息与结冰概率预测模型相结合,建立一个多元逻辑回归结冰预测模型。通过计算参数之间的相关系数,从可能影响道路结冰的影响因素(如路面温度、大气压强、大气温度、大气湿度、路面湿滑度、积水量、降雨量等)中,选出与道路结冰相关性最大的参数作为输入变量,建立多元逻辑回归的数学模型,得出某一时刻路面结冰发生的概率,从而得到相应的结冰预测风险等级。

为得到结冰概率与影响因素之间的数学关系,需要建立一个以结冰概率为输出变量(因变量)的数学模型。建模之前,必须考虑以下两点: ① 路面结冰影响因素之间彼此关联,彼此影响。路面温度、湿度、湿滑度、积水量、降雨量等,每一个参数都会对路面结冰时间产生一定的影响,对不同状态下的结冰造成的影响具有一定的差异,如当路面温度高于0 ℃或者湿滑度为0.82时,通常不易发生结冰,而降雨和降雪时道路发生结冰的温度也有所不同[7]。② 路面结冰概率与影响因素之间的关系为非线性关系,这就意味着用线性回归的方法无法解决此类问题。为此,我们首先建立多元Logistic回归模型,基本形式如式(1)所示:

P(Y=1|x1,x2,…,xk)=

(1)

式中: 因变量Y是一个二分类变量,Y值取1和0时分别表示道路结冰发生和未发生;影响Y取值的自变量x1、x2、…、xk分别代表路面温度、积水量、湿滑度等气象参数;P代表给定x1、x2、…、xk的条件下的结冰概率。

对式(1)进行对数变换得到:

(2)

(3)

令b=(y1,y2,…,ym)T,

X=(β0,β1,β2,…βn)T,得到方程组的矩阵形式如下:

Αm(n+1)X=b

(4)

至此,将多元逻辑回归问题转化为求解线性方程组ΑX=b的反问题。

1.2 反问题的求解

对于线性方程组ΑX=b的反问题的求解,有3种情况: ① 无解;② 唯一解;③ 不唯一解。已有大量文献对解的结构和求解方法进行了详细阐述,在此不再一一赘述。本文仅针对第3种情况“不唯一解”,即m>n的超定方程组求解中遇到的特殊问题进行探讨。一般而言,超定方程组是无解的,即不存在精确解,但针对实际工程问题都是有解的。求解超定方程组在实际工程中非常普遍,比较常用的方法是采用最小二乘法求解近似解,也可以称之为超定方程的最小二乘解。

通常,气象领域需要做大量的数据监测和分析,数据量都比较大,方程组的数量往往远大于未知数个数,因此,在求解过程中,很容易遇到方程存在病态的情况。本文针对结冰预测模型中求解病态方程组的方法进行如下讨论。

假设超定方程组的系数矩阵为A,可以通过矩阵的条件数判断矩阵A是否病态,令矩阵A的条件数为k(A),当m≠n时:

(5)

式中:ATA表示矩阵A的转置与A的乘积;λmax(ATA)和λmin(ATA)分别表示矩阵ATA特征值的最大值和最小值。

对条件数k(A)进行如下判定:

1) 当条件数k(A)较小时,矩阵A是良态矩阵,此时采用最小二乘法拟合出参数β0、β1、β2、…、βn,代入式(1)即可得到多元逻辑回归的表达式;

2) 当条件数k(A)较大时,矩阵A是病态的,此时采用Tikhonov正则化+L曲线的方法可以求出参数β0、β1、β2、…、βn的近似解,同理,代入式(1)得到多元逻辑回归的表达式。

下面详细介绍Tikhonov正则化+L曲线准则的求解过程,针对矩阵A是病态的情况,构造如下函数:

(6)

式中:||表示2范数;α为常数。

从理论上可以证明,对y=f(x)求解即等价于求J(x)的最小值。根据Morozov偏差原理可知,α存在且唯一,并且α>0,对式(6)进行变换得到:

xα=x0+(αI+ATA)-1AT(y-Ax0)

(7)

式中:AT表示矩阵A的转置;xα即为最优解,而求xα的关键在于如何选取α。

分别令

u(α)=ln||Axα-y||

(8)

v(α)=ln||xα-x0||

(9)

ln表示自然对数,以u(α)为横坐标,v(α)为纵坐标,根据Engl准则:从逼近的角度看,应使α越小越好;然而从数值计算稳定的角度考虑,则参数α取得越大越好[8]。选取了一组正则化参数α如下:0.000 1,0.001,0.005,0.01,0.05,0.1,0.2,0.3,并对点的轨迹进行拟合,得到L曲线,如图1所示。

图1 L曲线示意

根据L曲线准则,确定最优正则化参数的关键是找出曲线的“角点”,此时的正则化参数即为最优。所谓曲线的“角点”即为曲率最大的点,分别对u(α)和v(α)求一阶, 二阶导数得到u′(α)、u″(α)、v′(α)、v″(α),通过离散点曲率公式:

(10)

将α取值分别代入式(10),即可得到每一点的曲率值,曲率最大值对应的α即为最优正则化参数。

将α代入式(7)即可得到方程组的最优解,再将方程的解代入式(1),得到多元逻辑回归初始模型,将实时监测的气象参数代入该模型,即可得到实时结冰概率,通过试验结果,得到不同概率对应的结冰预测等级如下:① 0.0≤P<0.1,道路无预警;② 0.1≤P<0.5,道路黄色预警;③ 0.5≤P<0.9,道路橙色预警;④P≥0.9,道路红色预警。通过模型计算得出道路结冰风险等级,从而为道路是否采取、何时采取除冰措施提供建议。

2 试验分析

为了验证算法是否可行,分别在多个测试场地进行了现场测试,实地采集了大量路面信息和气象数据,建立了相应的多元逻辑回归模型,并对结果进行分析,以下为选取的比较有代表性的3次试验分析结果。

2.1 试验1

试验1选取了2020年12月18日17时13分至2020年12月25日21时55分某试验场地实测数据,各个参数与冰层厚度之间相关系数见表1。

通常情况,当相关系数>0.5或<-0.5可以认为二者之间强正相关或强负相关。从表1可以看出,本试验场地与冰层厚度相关系数满足条件的参数分别有路面温度、大气压强、大气湿度、大气温度和湿滑度,以这5个参数作为多元逻辑回归模型的影响因子,通过最小二乘法计算出多元逻辑回归模型的系数为:

表1 试验1各参数与冰层厚度之间相关系数路面温度大气压强大气湿度大气温度湿滑度积水量风力风向0.627-0.611-0.6010.629-0.926-0.3240.205-0.039

X=(-28.269 2,0.035 5,0.030 3,-0.000 1,

-0.112 4,-3.640 3)T

(11)

通过计算系数矩阵A的条件数可知,k(A)=4.411 71×1014,这显然是一个病态矩阵,因此,上述最小二乘解并非该方程组的最优解。根据式(8)和式(9)分别得到L曲线的横坐标u(α)和纵坐标v(α),选取了一组正则化参数α分别取0.000 1、0.001、0.005、0.01、0.05、0.1、0.2、0.3,再根据式(10)得到离散点曲率值分别为440.777、484.464、17.374 3、2.383 9、0.019 6、0.0788、0.161 2、0.237 5,曲率最大值484.464对应的α为0.001,代入式(7)得到多元逻辑回归模型的系数为:

X=(-0.003 6,0.032 4,0.001 8,0.004 4,

-0.116 7,-3.639 6)T

(12)

此即为该模型的最优解。以路面温度、大气压强、大气湿度、大气温度和湿滑度作为影响因子建立了初始多元逻辑回归模型,得到逻辑回归模型标准形式为:

P(Y=1|x1,x2,…,x5)=

(13)

其中x1、x2、x3、x4、x5分别表示路面温度、大气压强、大气湿度、大气温度和湿滑度。随机选取了试验1部分数据作为输入参数计算结冰概率,得到结果如表2所示。

表2 多元逻辑回归试验结果序号路面温度/℃大气压强/hPa大气湿度/%大气温度/℃湿滑度结冰概率当前路面状况1-2.2992.322.45.30.550.302 5冰水混合物2-2.4992.322.65.40.550.298 9冰水混合物3-2.4992.322.05.40.550.298 3冰水混合物4-2.3992.322.35.30.560.294 1冰水混合物5-2.3992.322.65.20.570.289 3冰水混合物6-2.4992.322.65.20.570.288 6冰水混合物7-2.4992.322.75.20.460.377 3冰水混合物8-2.4992.322.85.30.460.374 6冰水混合物9-2.4992.322.75.30.470.366 0冰水混合物10-2.4992.322.45.30.470.354 7冰水混合物11-0.4978.891.02.20.010.665 3冰12-0.3978.790.82.40.010.709 8冰13-0.3978.790.72.40.010.669 6冰14-0.4978.790.72.50.010.681 0冰15-0.4978.790.62.50.010.715 8冰

从表2可以看出,随机选取的15组数据结冰概率>0.1且<0.5的有10组,对应道路蓝色预警;结冰概率>0.5且<0.9的有5组,对应道路黄色预警。根据现场采集数据可知,蓝色预警时当前路面状况为冰水混合物,而黄色预警时路面状态为结冰,说明多元逻辑回归计算结果符合实际道路状况。

2.2 试验2

试验2选取了2021年1月20日8时13分至2021年1月25日20时31分某试验场地实测数据,各个参数与冰层厚度之间相关系数如表3所示。

表3 试验2各参数与冰层厚度之间相关系数路面温度大气压强大气湿度大气温度湿滑度积水量风力风向0.559-0.626-0.3180.807-0.448-0.947-0.6030.584

从表3可以看出,本试验场地与冰层厚度相关系数满足条件的参数分别有路面温度、大气压强、大气温度、湿滑度、风力和风向。以这6个参数作为多元逻辑回归模型的影响因子,并计算出系数矩阵A的条件数为k(A)=6.237 04×1011,显然也是一个病态矩阵,通过最小二乘法和Tikhonov正则化+L曲线准则计算出多元逻辑回归模型的系数如表4所示。

表4 多元逻辑回归模型的系数对比方法常数项路面温度大气压强大气温度积水量风力风向最小二乘法69.923 60.831 0-0.074 50.054-3.452 4-0.027-0.003 6Tikhonov正则化+L曲线准则0.032 40.942 2-0.004 60.067 5-0.210 1-0.065 3-0.002 6

得到逻辑回归模型标准形式为:

P∈(0,1)

(14)

式中:x1、x2、x3、x4、x5、x6分别表示路面温度、大气压强、大气温度、积水量、风力和风向。随机选取了试验2部分数据作为输入参数计算结冰概率,得到结果如表5所示。

表5 多元逻辑回归试验结果序号路面温度/℃大气压强/hPa大气湿度/%积水量/mm风力/(m·s-1)风向/(°)结冰概率当前路面状况1-0.4978.991.80.090630.770 9冰2-0.4978.991.60.10.651340.725 5冰3-0.4978.991.40.110.451580.712 5冰4-0.3978.991.10.110.531610.724 8冰5-0.4978.991.10.110.261530.713 6冰6-0.4978.991.20.110.64900.742 2冰7-0.4978.991.40.120.011980.696 6冰8-0.3978.8910.130.351260.742 7冰9-0.3978.8910.130.321610.725 5冰10-0.4978.890.90.130.411230.723 7冰11-2.4992.322.60.00.322560.368 7冰水混合物12-2.4992.322.70.00.352250.357 6冰水混合物13-2.5992.322.90.00.942250.354 4冰水混合物14-2.5992.323.30..012480.357 5冰水混合物15-2.4992.322.90.00.62360.357 8冰水混合物

从表5可以看出,结冰概率>0.1且<0.5的有5组数据,对应道路蓝色预警;结冰概率>0.5且<0.9的有10组,对应道路黄色预警。根据现场采集数据可知,蓝色预警时当前路面状况为冰水混合物,而黄色预警时路面状态为结冰,说明多元逻辑回归计算结果符合实际路面状况。

2.3 试验3

试验3选取了2021年3月20日20时33分至3月22日12时46分某试验场地实测数据,各个参数与冰层厚度之间相关系数如表6所示。

表6 试验3各参数与冰层厚度之间相关系数路面温度大气压强大气湿度大气温度湿滑度积水量风力风向-0.506-0.5170.534-0.55-0.7680.66-0.0660.027

从表6可以看出,本试验场地与冰层厚度相关系数满足条件的参数分别有路面温度、大气压强、大气湿度、大气温度、湿滑度和积水量。以这6个参数作为多元逻辑回归模型的影响因子,计算系数矩阵A的条件数为k(A)=4.392 95×1011,显然也是一个病态矩阵,采用Tikhonov正则化+L曲线准则求解方程组,得到逻辑回归模型标准形式为:

P∈(0,1)

(15)

式中:x1、x2、x3、x4、x5、x6分别表示路面温度、大气压强、大气湿度、大气温度、湿滑度和积水量。

随机选取了试验3部分数据作为输入参数计算结冰概率,得到结果如表7所示。

表7 多元逻辑回归试验结果序号路面温度/℃大气压强/hPa大气湿度/%大气温度/℃湿滑度积水量/mm结冰概率当前路面状况1-2.6980.753.91.30.280.20.497 7冰水混合物2-2.6980.752.71.40.30.190.488 0冰水混合物3-2.6980.752.81.50.310.20.469 2冰水混合物4-2.6980.652.51.60.290.20.481 8冰水混合物5-2.6980.652.11.60.280.210.480 9冰水混合物6-2.6980.652.81.60.260.210.496 4冰水混合物7-2.6980.752.21.70.240.20.517 5冰水混合物8-2.6980.750.71.70.180.20.462 9冰水混合物9-2.6980.651.81.60.220.20.535 3冰水混合物10-2.7980.751.71.70.180.20.561 9冰11-2.7980.751.71.70.010.210.677 0冰12-2.7980.650.91.90.010.210.672 2冰13-2.7980.649.11.90.240.20.511 5冰水混合物14-2.6980.549.320.010.20.677 3冰15-2.6980.647.320.010.20.677 0冰16-2.5980.5472.10.010.20.674 8冰17-2.5980.547.52.30.010.20.670 2冰18-2.5980.546.32.40.010.20.667 7冰19-2.7980.545.62.40.010.20.667 3冰20-2.7980.545.72.30.010.210.662 1冰

与前两次试验结果不同,本次试验有部分结果与现场采集数据结果有所差异,如数据7和数据9,模型计算的结冰概率分别为0.517 5和0.535 3,对应黄色预警,而此时路面状况为冰水混合物。但通过查看当时路面数据可以发现,湿滑度分别为0.24和0.22,根据交通安全专家研究,正常干燥沥青路面的摩擦系数为0.6,雨天降为0.4,雪天则为0.28,结冰路面只有0.18,因此,可以通过增加湿滑度的约束对结冰概率进行修正,湿滑度0.24和0.22均大于0.18,结合模型计算的结冰概率,可以判断当时路面状况为冰水混合物的可能性更大。

3 试验结果对比

3.1 不同地域下多元逻辑回归模型有所不同

从试验结果可以看出,多元逻辑回归模型计算的结冰概率符合道路真实结冰状况,且准确性较高,说明该模型对于道路结冰预测分析具有指导意义。3次试验分析结果表明不同试验场地各参数与冰层厚度之间相关系数大小有所不同,使得多元逻辑回归模型中与结冰概率相关的影响因子也有所不同,最终分别得到了3个不同的模型结果,这说明因不同地域条件下路面和气象信息有所差异,导致其对道路结冰的影响强弱也有所不同,无法用同一个模型结果匹配所有的应用场景,在实际应用中,需要针对不同地域、不同场景建立不同的多元逻辑回归模型。

3.2 模型精确解的求解难度较大

通过上述试验发现,相比多元逻辑回归模型在其他领域的应用,采用多元逻辑回归模型计算道路结冰概率时很容易遇到病态矩阵的情况,这也导致模型无法计算精确解,在一定程度上增加了结冰预测模型的求解难度与不确定性,同时,当路面处于结冰临界点(冰水混合物)时,多元逻辑回归计算的结冰概率存在一定上下浮动值。值得注意的是,通过对部分参数进行约束可以进一步提高算法的准确性,如当湿滑度>0.6或路面温度>2 ℃时,路面通常不可能结冰,此时无论计算结果如何,结冰概率必然为0;当湿滑度>0.18时,路面结冰概率应该<0.5。

4 结论

提出了一种基于多元逻辑回归算法的道路结冰预测方法,通过计算相关系数确定不同地域环境下道路结冰影响因素最大的路面和气象参数,并以此作为多元逻辑回归的影响因子,建立多元逻辑回归模型,并计算出当前路段结冰概率,进而发布相应的预警信息,达到减少交通事故的目的。值得注意的是,多元逻辑回归计算结果与传感器采集数据精度密切相关,根据试验结果分析,不同地区、不同路段结冰对应的环境因素有所差异,需要在不同路段建立不同的初始的多元逻辑回归模型。如何提高初始模型的精度,提高初始结冰预测模型的准确率,还有待后续研究。

猜你喜欢
冰水混合物结冰
多组分纤维混合物定量分析通用计算模型研制
通体结冰的球
改良过湿冰水堆积土路基填料压缩特性试验分析
正丁醇和松节油混合物对组织脱水不良的补救应用
普京泡冰水浴
经常喝冰水有什么害处
冬天,玻璃窗上为什么会结冰花?
巧用1mol物质作标准 快速确定混合物组成
鱼缸结冰
混合物的分离与提纯知识初探