基于颜色读数与二氧化硫物质浓度回归模型研究

2019-07-01 02:56
中国建材科技 2019年2期
关键词:共线性回归方程残差

李 萍

(兰州石化职业技术学院,甘肃 兰州 730060)

1 引言

如何有效控制颜色指标体系是一个非常重要的课题。本文研究的物质浓度与颜色之间的关系可用多种方法来判定,如物质的特殊颜色、特征反应现象、特殊工业生产、特征数据等方法均可使用。通过对所提供的有关颜色读数和物质浓度数据进行分析研究,用MATLAB多元线性回归函数,建立颜色读数和物质浓度之间的关系模型。并对已给出的数据进行了判定,找出了影响判定的异常值,进一步剔除异常数据后对误差进行分析,模型精度进一步提高,方法具有实际推广价值[1-4]。

2 多元线性回归

假设随机变量y与p个自变量x1,x2,x3,…xp之间存在着线性相关关系,实际样本量为n,其第i次观测值为

其n次观测值可写为如下形式:

通过寻求β的估计值b,建立多元线性回归方程模型:。

3 实例分析

对二氧化硫物质浓度数据进行颜色差值计算,结果如表1所示。

表1 物质浓度与颜色差值

△B:B列数据的颜色差异;△G:G列数据的颜色差异;△R:R列数据的颜色差异;

△H:H列数据的颜色差异;△S:S列数据的颜色差异。

3.1 相关系数

运用MATLAB工具箱,得到相关系数矩阵,线性相关检验的值矩阵以及相关系数矩阵图[5-8],如图1所示。

图1 相关系数矩阵图

图1用椭圆色块直观的表示变量间的线性相关程度的大小。椭圆趋于圆形时,变量间相关系数的绝对值越接近0,反之越扁,变量间相关系数越接近于1。若椭圆长轴方向是从左下到右上,变量间为正相关,反之为负相关。若p值≤0.05,则认为变量间的线性相关性是显著地,反之则认为不显著。观察图1可知,浓度y值与相对应的x2、x3、x4线性相关性是显著的,x2与x3、x4线性相关性是显著的。

针对以上数据分析,作5元线性回归,建立y关于的回归模型如下:

调用MATLAB工具箱里LinearModel类的fit方法作多元线性回归,返回参数估计结果和显著性检验结果。

用MATLAB编程,运行程序得出经验回归方程如下:

判定系数R-squared为0.871,拟合程度较好。

对回归方程进行显著性检验,原假设和备择假设分别为:H0:b1=b2=…=b5=0,H1:bi不全为0,i=1,2,…,5

方程检验的p值(p-value = 3.43e-06)小于0.05,可知在显著性水平α=0.05下应拒绝原假设H0,可认为回归方程是显著的,但并不是方程中的任何一项都是显著的。x4的p值为0.0532基本与0.05持平,常数项、x1、x3、x5所对应的的p值分别为0.5803、0.2781、0.9465、0.74419,均大于0.05,说明在显著性水平0.05下,回归方程的线性项x1、x3、x5均是不显著的。其中x3最不显著,其次是x5,再是常数项,最后是x1。

3.2 多重共线性判断

判断多重共线性方法有多种,本文选用基于方差膨胀因子的多重共线性方法[9-11]。模型为自变量xi关于其它自变量的多元线性回归,计算模型的判定系数,定义第i个自变量的方差膨胀因子:

当自变量xi与其它自变量线性相关显著,接近于1,VIFi接近于无穷大,反之,接近于0,VIFi接近于1。VIFi越大说明线性相关越显著,即存在共线性。VIF<5,为共线性较弱;5 ≤VIF≤10,为中等程度共线性;VIF>10,为共线性严重,必须设法消除共线性。常用的方法有:主成分回归、变量变换、去除变量等方法[12,13]。

通过计算,VIF值分别为30.5032,542.5648,29.2250,731.0040,5.4828。由此可知,x5中等程度共线性,其他均共线性严重,尤其是x4和x2非常严重共线性。

3.3 误差分析

通过MATLAB工具箱绘制残差直方图和正态分布概率图,如图2所示。

图2 多元线性回归残差直方图和残差正态分布概率图

图3 去除异常值和不显著项残差直方图和残差正态分布概率图

从程序运行结果可知,残差基本服从正态分布。

根据学生化残差查找异常值,有3组数据出现异常,观测序号分别为1,10和11。

判定系数R-squared为0.977,较改进前拟合度有很大提高。

对回归方程进行显著性检验p值(p-value=5.88e-11)小于0.05,改进后的方程是显著的。

由图3可知,残差正态概率图较改进前更优。

根据拟合的多元线性回归方程,3元拟合和5元拟合的相对误差,见表2所示。

表2 3元拟合和5元拟合的相对误差

3元拟合和5元拟合的效果如图4所示。

图4 3元拟合和5元拟合

由图4可知,3元多项式拟合方程的拟合效果优于5元多项式拟合。拟合的相对误差如图5所示。

图5 3元和5元拟合相对误差图

由图5可知,3元拟合的观测序号9,10,12,14,16五组数据相对误差比5元拟合相对误差大,其余16组数据均小于5元拟合的相对误差。

3.4 异常值判断

在学生化残差查找异常值时,初步判定观测序号第10,11为异常值,在3元拟合相对误差判定中,第9为优化模型的下一步需剔除的数据。当二氧化硫物质浓度为50时,所测得的数据均显示异常,怀疑在此种物质浓度测量时数据测量出现较大偏差,需重新测量。当物质浓度大于50时,3元拟合的相对误差值较小,在这一物质浓度范围,拟合程度最优[14]。

数据量越大,拟合的准确度越好,若数据量很少,则回归方程很难建立,且精度不高。而颜色维度与溶质的偏色性有关,所以不同的溶质选择的颜色维度不同,颜色维度并不是选的越多越好,故针对某一物质,应选择合适的颜色维度来进行回归拟合,再用回归方程判定其物质浓度。

4 结果和应用

本文建立了多元线性回归分析模型,判定颜色读数和物质浓度之间的关系。模型经去除变量和剔除异常数据提高了精度,但物质浓度的颜色读数所测量的5个颜色维度之间有较强的线性相关性,故所建立的回归方程的如3元拟合的值为5.88e-11小于0.05,方程是显著的,方程的常数项值为0.0028016小于0.05,但其他线性项值分别为0.12513,0.99429,0.38618所做的检验的值大于0.05,其中最不显著。在模型的进一步优化和改进中,尝试运用去除变量,岭回归,主成分回归等方法来消除多重共线性,在方程显著的前提下,使方程的各线性项达到显著[15,16]。

猜你喜欢
共线性回归方程残差
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
采用直线回归方程预测桑瘿蚊防治适期
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
线性回归方程的求解与应用
线性回归方程要点导学
银行不良贷款额影响因素分析
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
走进回归分析,让回归方程不再是你高考的绊脚石