颜色与物质浓度辨识的回归的分析

2017-12-12 16:17王金生
科学与财富 2017年31期
关键词:读数方差线性

摘要 本文是讨论关于浓度与颜色读数之间的关系的问题,我们阐述了颜色读数的各个分量间的相互关系,建立了多元线性回归模型和二次回归模型,并对模型进行了误差分析和优化,从而验证了模型的有效性和精确性。模型的在化学元素检测实验中有一定的参考价值。

关键字 浓度 颜色读数 线性回归模型 误差分析

问题的重述

比色法是目前常用的一种检测物质浓度的方法,即把待测物质制备成溶液后滴在特定的白色试纸表面,等其充分反应以后获得一张有颜色的试纸,再把该颜色试纸与一个标准比色卡进行对比,就可以确定待测物质的浓度档位了。由于每个人对颜色的敏感差异和观测误差,使得这一方法在精度上受到很大影响。随着照相技术和颜色分辨率的提高,希望建立颜色读数和物质浓度的数量关系,即只要输入照片中的颜色读数就能够获得待测物质的浓度。试根据附件所提供的有关颜色读数和物质浓度数据(参考2017年全国大学生数学建模竞赛C题附件[1]),下表为其中一小部分数据:

完成下列问题:

(1)附件Data1.xls中分别给出了5种物质在不同浓度下的颜色读数,讨论从这5组数据中能否确定颜色读数和物质浓度之间的关系,并给出一些准则来评价这5组数据的优劣。

(2)对附件Data2.xls中的数据,建立颜色读数和物质浓度的数学模型,并给出模型的误差分析。

模型假设

(1)数据真实可靠。

(2)数据的采集符合统计学原理。

(3)H和S的数据作了适当的线性变换,并没有进行随意采取。

3、问题的分析与准备

3.1 RGB颜色空间

RGB颜色空间是采用R、G、B相加混色的原理,通过发射红、绿、蓝三种不同强度的电子束,叠加而产生色彩的。这种色彩的表示方法称为RGB色彩空间表示。根据三基色原理,用基色光单位来表示光的量,则在RGB色彩空间,任意色光F都可以用R、G、B三色不同分量混合而成:

F=rR+gG+bB

特别地,当三基色分量都为最弱时混合为黑色光;当三基色分量都为最强时混合为白色光。RGB色彩空间采用 物理三基色表示,因而物理意义很清楚,适合彩色显象管工作。然而RGB色彩空間并不适应人的视觉特点,因而产生了其它不同的色彩空间。

3.2 HSV颜色空间

HSV(hue,saturation,value)颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集(如图),可以用一个圆锥空间模型来描述。

HSB(HSV) 通过色相/饱和度/亮度三要素来表达颜色.

H(Hue):表示颜色的类型(例如红色,绿色或者黄色).取值范围为0-360.其中每一个值代表一种颜色.

S(Saturation):颜色的饱和度.从0到1.有时候也称为纯度.

B(Brightness or Value):颜色的明亮程度.从0到1.

HSV色彩空间和RGB色彩空间只是同一物理量的不同表示法,因而它们之间存在着相互转换关系。

3.3 从 RGB 到HSV的转换

在所给的数据中颜色读数(R G B H S)和(R G B)其实确定同一种颜色,因此颜色读数与浓度的关系其实就是(R G B)与浓度的关系,这也将颜色读数的维数从5维降到了3维,这可以大大提高模型的质量。

关于数据的处理与说明

由于R,G,B与H,S,V可以相互转化,该问题中浓度与颜色读数的关系模型如下:

L=F(R,G,B,H,S)=W(R,G,B)+H+S-H(R,G,B)-S(R,G,B)

因此该问题简化成求L与R,G,B之间的关系模型W(R,G,B)。

但是数据Data2.xls中关于H与S的部分根据函数H(R,G,B)和S(R,G,B)算得的H和S并不与真实数据一致,根据数据其中的线性关系,更像是人为的对数据进行了线性变换,我们可以对数据进行简单的线性拟合,从而找回与数据中相匹配的可靠数据,因此,实际上以上模型应改为:

L=F(R,G,B,H,S)=W(R,G,B)+H+S-αH(R,G,B)-βS(R,G,B)+γ

其中α,β,γ可以用线性拟合求得。数据表Data1中用R,G,B求相匹配的H,S的结果可以用多项式拟合简单得到。接下来的论述都是以建立L与R,G,B的关系为主要任务。

4、模型的建立与求解

4.1 模型一 线性回归模型

4.1.1模型建立

在分析数据Data1.xls时,画出(B,L)(G,L)(R,L)的散点图,我们发现其中数据基本呈现线性关系。因此针对数据data1.xls建立如下线性回归模型:

其中L为物质的浓度,R,G,B为回归自变量, 为回归系数。

4.1.2模型求解

利用MATLAB统计工具箱中的命令regress求解,data为自变量与应变量的数据,应变量数据放第一列,这里数据太多就不全部列出了,其命令参照以下代码:

x1=data(:,2);

x2=data(:,3);

x3=data(:,4);

y=data(:,1);

x4=[ones(10,1)];

x=[x4,x1,x2,x3];

[b,bint,r,rint,stats]=regress(y,x)

for i=1:10

L(i)=b(1)+b(2)*data(i,2)+b(3)*data(i,3)+b(4)*data(i,4);endprint

end

L

得到模型一回归系数的估计值、置信区间、 、F、p等结果见表1。

表1

问题一中的浓度与颜色读数的关系为下列5个模型:

组胺:L=182.3872-0.1718R-2.2888G+0.6512B

溴酸钾:L=152.2913-1.3663R+7.4619G-7.187B

工业碱:L=15.5381+0.06R-0.0404G-0.1013B

硫酸铝钾:L=7.7733+0.0366R-0.1022G+0.0049B

奶中尿素:L=13891.00649-112.303876R-0.20865303G-2.20340476B

4.1.3比较数据的优劣

数据Data1.xls中5组数据分别用模型一进行线性回归,求得每个样本的L的回归值,并相应求出绝对误差,最后求出相对平均误差和误差方差。每组数据的相对平均误差定义为:

表2

对于数据的优劣我们主要依据估计量回归的误差分析,一般误差的均值水平越低说明数据回归的精确度比较高,误差的方差越小说明数据抗干扰能力越强,但由于选取样本点浓度的大小水平不一,因此为了更公平衡量数据质量,引进了相对与平均浓度的相对平均误差 w ?,可见5组数据中组胺这组最优,而奶中尿素这组最劣,其他组相对中等,具体要看实验的敏感度的要求而定,我们讨论的结果只是其中的相对比较。

4.2模型二 二次回归模型

在分析数据Data2.xls时,画出(B,L)、(G,L)、(R,L)的散点图,我们发现其中数据基本呈现曲线的形状,也可能近似于二次函数。本文采用3维二次函数穷举优化的方法[4],最终确定以结果的可行性、误差、方差所作的综合评价为依据的最优模型。

4.2.1建立模型

s.t 模型可行性、平均误差最小、误差方差最小.

4.2.2模型求解

该模型中各个分模型都可以利用MATLAB统计工具箱中的命令regress求解, data为自变量与应变量的数据,应变量数据放第一列,这里数据太多就不列出了,以下命令为线性回归完全二次方程的命令,其他几个只要修改一下x即可。

x1=data(:,2);

x2=data(:,3);

x3=data(:,4);

x4=x1.^2;

x5=x2.^2;

x6=x3.^2;

x7=x1.*x2;

x8=x1.*x3;

x9=x2.*x3;y=data(:,1);

x10=[ones(25,1)];

x=[x10,x1,x2,x3,x4,x5,x6,x7,x8,x9];

[b,bint,r,rint,stats]=regress(y,x)

for i=1:25 L(i)=b(1)+b(2)*data(i,2)+b(3)*data(i,3)+b(4)*data(i,4)+b(5)*(data(i,2))^2+b(6)*(data(i,3))^2+b(7)*(data(i,4))^2+b(8)*data(i,2)*data(i,3)+b(9)*data(i,2)*data(i,4)+b(10)*data(i,3)*data(i,4);

end

L

其主要数据列在下表:

从R^2、F、p可以看到8个模型都是可用,并且完全二次模型R^2=0.99057,说明该模型回归质量更好,其次看它们的平均误差与误差的方差完全二次模型明显更小,根据以上比较,确定二次模型中,完全二次模型最好,并求得L与R,G,B之间的关系满足以下完全二次模型:

L=146640.8869-2288.20429R+460.1482G-83.0718B+〖10.63497R〗^2+0.973G^2+0.3904B^2-5.6242RG-0.9313RB+0.7849GB

4.2.3误差分析

根据上式,用MATLAB求得样本的回归值、绝对误差、平均误差、误差方差[3]如下表:

从绝对误差可以看到誤差与估计量的大小无单调相关性,但大误差在中间部分20、30、50时明显分布较多,两头的误差较小,最大误差为8.4444,最小误差为0.0431,可以看到并非基数越大误差越大,基数越小误差越小,与基数无关,平均误差为3.873604,误差的方差为3.150453。

5、模型推广与评价

模型仅针对该问题作了线性回归和二次回归,并没有去考虑其它非线性回归的方法,在其它模型类型方面可能还会有更好的模型,但是作为本文中的模型,方法正确,结果明确,也具有一定的价值,期待以后会有更好更正确的认识。

6、参考文献

[1] http://mcm.blyun.com/

[2]http://blog.csdn.net/xhhjin/article/details/7020449

http://zhouqingfeidie.blog.163.com/blog/static/301717722011112395956592/

[3]吴建国.数学建模案例精编[M].北京:中国水利水电出版社,2005.

[4]姜启源,谢金星,叶俊.数学模型[M].北京:高等教育出版社:三版,2003.

作者简介:

王金生(1980-1-2),男,汉族,浙江金华人,讲师,湖南师范大学基础数学专业硕士,主要从事动力系统和数学建模方面的研究。endprint

猜你喜欢
读数方差线性
方差怎么算
渐近线性Klein-Gordon-Maxwell系统正解的存在性
概率与统计(2)——离散型随机变量的期望与方差
线性回归方程的求解与应用
计算方差用哪个公式
二阶线性微分方程的解法
读数
方差生活秀
读数
读数