基于改进后的K—means算法研究根据酿酒葡萄和葡萄酒的理化指标对红葡萄酒的分级方法

2017-06-19 21:47黄鸿基钱圳冰冯帆周行洲

中国市场 2017年16期

黄鸿基　钱圳冰　冯帆　周行洲

[摘要]文章研究的是葡萄酒的根据酿酒葡萄的理化指标和葡萄酒的质量，对这些酿酒葡萄进行分级和分析酿酒葡萄及葡萄酒的理化指标对葡萄酒质量的影响。首先研究筛选了一组合理的葡萄酒样本进行了标准化处理。分别建立了K-means分析模型去进行样本分析。为了得到明确的评估指标，研究改进了K-means算法，结合主成分分析的原理，得到了PCA-K-means模型。研究把酿酒葡萄分成了四类，而葡萄酒分成了五类。

[关键词]聚类分析；主成分分析；K-means算法

[DOI]1013939/jcnkizgsc201716196

1引言

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。研究采用已有数据，根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

2基于K-means算法对酿酒葡萄进行分级

21算法模型分析

研究要通过酿酒葡萄的理化指标和葡萄酒的质量对酿酒的葡萄进行合理的分级。首先使用我们之前采集到的评酒员给出的数据。同时，考虑到葡萄酒的质量和酿酒葡萄理化指标所包括的数据量较大且类型较多，而且这些变量的量纲不同且测量值范围相差悬殊，研究应该对所有数据进行标准化处理。接着，基于本问题要求对不同种类的大数据进行合理的分类，研究采用聚类分析相关理论建立模型。聚类分析可以很好地描述事物之间的相似程度，适用于解决多变量且有着不同程度的界限的分类问题。考虑到主成分分析能够很好地通过权重和贡献率得出比较准确的综合评判指标，研究对K-means分析模型进行合理的改进，得到PCA-K-means复合模型，从而建立模型并得到准确的分级结果。

22模型的建立

221数据的标准化处理

首先，根据葡萄酒行业相关的质量标准，我们筛选了氨基酸总量、蛋白质、VC含量、花色苷鲜重、酒石酸、苹果酸、柠檬酸和多酚氧化酶活力等重要指标进行分析。其次，为了消除它们之间量纲和数据变化范围不同造成的影响，我们对这些数据进行了标准化处理。

yj=[SX（]xj-xmin[]xmax-xmin[SX）]（1）

其中，xj代表第j个数据，xmin、xmax分别代表所有数据的最小值和最大值。yj表示经过标准化处理的数据。

222算法模型建立

我们分别以第二组葡萄酒质量和酿酒葡萄的相关指标标准化处理后的数据为样本，进行聚类分析。在这里，我们分别基于K-means分析合理地建立了模型。

为了能够更好地确定各个理化指标之间的权重，从而确定它们的累计贡献率，我们引入PCA（主成分分析）对K-means聚类分析算法进行优化。

PCA-K-means聚类算法的具体流程如下：

（1）我们对于给定的一个8维数据点数据集

X={x1， x2， …， xi， x8}， xi∈[WTHZ]R[WTBZ]

其中xi∈R，代表8种理化指标，以及要生成的数据子集的数目 K，K-Means 聚类算法将数据对象组织为 K 个划分。在问题二中，K分别为27（红葡萄酒）、28（白葡萄酒），即每组的样本总数。C={ck， i=1， 2， …， k}，每个划分代表一个类ck，每个类ck有一个类别中心μi。

（2）考虑到欧氏距离在对坐标轴做正交旋转时，欧氏距离是不变的，即当我们对原坐标系进行平缓和旋转变换后，样本点间的距离和变换前完全相同。因此我们选取欧氏距离作为相似性和距离判断准则，计算该类内各点到聚类中心μi的距离平方和。

同时，根据最小二乘法和拉格朗日原理可知，聚类中心μi应该取为类别ck 类各数据点的平均值。

（4）选择两个主成分，计算综合评价值，并计算综合得分。

结合上述K-means聚类算法流程，我们建立的聚类模型如下：

①分别计算红葡萄酒和白葡萄酒的所有样本点n两两之间的距离d（xi， xj），记为矩阵D=[d（xi， xj）]n×n。

②首先构造n个类，每一类只包含一个样本点，每一个平台的高度均为0。

③合并距离最佳的两类为新类，并且以这两类间的距离值作为聚类图的平台高度。

④计算新类与当前各类的距离，若类的个数已经为1，转入步骤E，否则返回步骤C。

⑤画聚类图。

⑥确定类的个数和类，根据评分结果对红、白葡萄酒分别进行分级。

23算法模型的求解

根据上述的K-means聚类分析方法，借助计算机模拟，我们分别得到了红葡萄酒和白葡萄酒聚类分析的結果。

根据葡萄酒的质量，我们对葡萄酒进行了分类，分类结果如图1和图2所示。

我们对类间距离的计算采用了类平均法，并得到了聚类分析树形图，如图2所示。从图1的K-means聚类评分结果和图2的标准距离我们可以看出，葡萄酒质量大体上可以分为五个等级。结合下表我们可以发现，第五个等级的葡萄酒只有样本12，即第12个样本。同时，处于等级较低的葡萄酒样本数较多。

同时由下表可以看出，红葡萄酒中的27个样本可以分为五个等级。同时，质量处于第二类的红葡萄酒样品数最多。若定义第一类代表第五等级，第二类代表第四等级，依次类推，结合图2，我们得到不同等级的红葡萄酒样品所占比重的分布情况：第四等级>第五等级>第二等级>第三等级>第一等级。同时，我们可得，这27个样品的红葡萄酒的质量大部分处于相对较低的水平，且等级最高的红葡萄酒只有样品12一个样品。

基于我们建立的PCA-K-means分析模型，根据筛选出来的相关理化指标，通过MATLAB数值运算，我们分别对红葡萄酒、白葡萄酒的酿酒葡萄的质量进行了分类。

3结论

基于PCA-K-means分析模型，根据筛选出来的相关理化指标，可以对不同种类的葡萄酒的酿酒葡萄之类的质量进行了分类。

参考文献：

[1]杜强，贾丽艳，严先锋SPSS统计分析从入门到精通[M].北京：人民邮电出版社，2016

[2]孙庚，冯艳红，郭显久，等K-means聚类算法研究[J].长春师范大学学报，2011，30（2）：1-4

[3]周世兵聚类分析中的最佳聚类数确定方法研究及应用[D].江苏：江南大学，2011

[4]李运，李记明，姜忠军统计分析在葡萄酒质量评价中的应用[J].酿酒科技，2009（4）：79-82