基于主成分分析对酿酒葡萄分级的研究

2016-12-23 03:39霍俊爽张若东潘淑霞邰志艳吉林医药学院公共卫生学院
科学中国人 2016年18期
关键词:方差酿酒分级

霍俊爽,张若东,潘淑霞,邰志艳吉林医药学院公共卫生学院

基于主成分分析对酿酒葡萄分级的研究

霍俊爽,张若东,潘淑霞,邰志艳吉林医药学院公共卫生学院

本文主要基于多元统计方法分析和研究了酿酒葡萄分级的问题。最终把某红酿酒葡萄分为了五个等级。

主成分分析;标准化;聚类分析

1 引言

酿酒葡萄的合理分级,对葡萄酒的生产和加工具有重要的意义,本文以2012全国大学生建模竞赛题为例,主要基于多元统计分析方法对酿酒葡萄的分级进行研究。

2 酿酒葡萄的分级

由于酿酒葡萄的理化指标过多,所以需要使用主成分分析对数据进行降维处理。由于主成分是从协方差矩阵出发的,因此会受到单位的影响。为了防止数量级较大的数据吞没数量级较小的数据,首先对酿酒葡萄的理化指标进行标准化处理。

首先红葡萄酒的酿酒葡萄为例,利用Excel对酿酒葡萄的理化指标进行标准化处理[1]。其中:Gij=(gij--gi)/sj表示标准化后的第i个葡萄酒样品的第j项指标,gij第i个葡萄酒样品的第j项指标,-gi为该项指标的平均值,sj表示该项指标的标准差,结果如表1所示。

表1 酿酒葡萄各项指标的标准化值

基于SPSS软件的因子分析的功能对这些理化指标进行主成分分析,得到28个理化指标的方差分解图和初始因子载荷矩阵如表2和表3所示。

表2 标准化指标的方差分解图结果

表3 葡萄酒标准化理化指标的载荷矩阵

由以上数据得七个因子的累积贡献率已经达到了80.324%,所以用这七个因子作为主成分进行分析。则可以得出每个因子的值为:Fi=(Ki1G1+Ki2G2+…Ki31G31)/φi其中:Fi为因子编号,Ki1为载荷矩阵中该因子该指标的载荷系数,Gij为每组样品标准化后每项指标的值[2]。将得到的8个因子的方差贡献率作为权重计算酿酒葡萄理化指标的得分。得到如下模型:Mj=Fiδi,期中Mj为第j号葡萄的理化指标得分,Fi为因子值,δi为因子的方差的贡献率如表4。

表4 葡萄的理化指标得分

3 酿酒葡萄的综合评分的确定

对于酿酒葡萄的等级划分,不能单单依靠葡萄理化指标进行分类,这里使用最短距离层次聚类法,将葡萄标准化后的理化指标作为纵坐标,将标准化后的葡萄平均分作为横坐标,求出其距离矩阵,以欧式平方距离作为聚类分析的统计量。通过SPSS进行聚类分析等计算[3],得酿酒葡萄分为五个等级,其中一级为23、9、3、21、2;二级为11;三级为10、25,四级为1、16、13、12、8、6、15、18、7,五级为10、25、26、27、4、5、19、24、14、22、17、20。

[1]张杰,基于主成分分析的红葡萄酒评价方法研究[J].东北电力大学学报,2013,6∶4146.

[2]黄菲,葡萄酒评价与酿酒葡萄分级的统计研究[J].生物技术世界,2013,4∶43-44.

[3]朱家明,葡萄酒质量评价的定量分析[J].宜春学院学报, 2013,35∶8-12.

吉林省教育厅十二五规划科学技术研究项目(2015393),吉林省科技发展计划项目(20120697)。

霍俊爽(1982-),男,硕士,讲师,研究方向:应用数学与统计学。

猜你喜欢
方差酿酒分级
上半年酿酒产业产、销、利均增长
概率与统计(2)——离散型随机变量的期望与方差
为什么酵母菌既能做面包也能酿酒?
青稞酿酒
方差生活秀
2016年年末净值规模低于5000万元的分级基金
揭秘平均数和方差的变化规律
方差越小越好?
酿酒忘米
完形填空分级演练