基于层次聚类模型的古代玻璃制品成分分析与鉴定

2023-06-25 15:43陈志豪季晶敏

现代信息科技 2023年8期

陈志豪季晶敏

摘要：古代玻璃制品受环境影响而被风化，对其进行成分分析、类别鉴定是开展后续研究工作的前提。针对清洗后的数据，利用Spearman相关系数和差异性卡方检验，分析表面风化与其影响因素间的相关性和差异性。随后，具体对14种不同化学成分进行主成分分析，建立Logistic回归模型对主成分分析之后的数据进行回归分析。最后，建立层次聚类模型对不同种类的玻璃制品进行亚类划分，并对分类标准进行合理性和灵敏性检验。

关键词：Spearman相关系数；主成分分析；Logistic回归分析；层次聚类

中图分类号：TP39；TQ171.1+1 文献标识码：A 文章编号：2096-4706（2023）08-0122-04

Abstract： Ancient glass products have been weathered due to environmental impact， and component analysis and category identification are prerequisites for subsequent research work. Based on the cleaned data， the correlation and difference between surface weathering and its influencing factors are analyzed using Spearman correlation coefficient and difference chi-square test. Subsequently， principal component analysis is conducted on 14 different chemical components， and a Logistic regression model is established to perform regression analysis on the data that has undergone principal component analysis. Finally， a hierarchical clustering model is established to make sub classification of different types of glass products， and the rationality and sensitivity of the classification criteria are tested.

Keywords： Spearman correlation coefficient; principal component analysis; Logistic regression analysis; hierarchical clustering

0 引言

經过漫长历史岁月的洗礼，大多数古代流传至今的玻璃制品都有着不同程度的风化问题。在风化过程中，外界环境元素与玻璃内部元素进行交换，使得其成分比例发生变化，这为辨别玻璃的类型提供了难题。现有的技术和模型难以对玻璃文物表面风化的影响因素和风化前后各成分的含量的变化关系做出精准的分析。因此，建立有效的数学模型以准确的分析和鉴别古代玻璃制品的成分尤为重要。

依据现有技术对玻璃文物的化学成分进行分析建模，一是分析玻璃文物的表面风化与其类型、纹饰和颜色的关系。二是根据相关数据分析铅钡玻璃、高钾玻璃的分类规律，并对每个类别进行亚类细分，并对分类结果作合理性和灵敏性检验。

1 模型的建立与求解

1.1 数据预处理

首先进行数据量化。对于数据指标类型全为定性变量（分类变量），在后续的分析和计算中不便处理，所以要对其进行量化。量化标准是根据各指标对表面风化数量的统计规律，按升序的顺序排列，对各指标从1开始编号。

其次进行数据清洗。将原始数据中的所有缺失值填充为0，认为不存在该成分；对缺失值数据填充完成之后，对各行累加求和，各成分累计比例之和介于85%～105%之间为有效数据，不在该范围的数据为异常数据，在后续分析中不做考虑。

1.2 相关性分析

由于给定数据均为定性变量，所以选择Spearman相关系数[1，2]来对玻璃文物表面风化与其类型、颜色和纹饰间的相关性进行分析。

假设Xi和Yi为两组数据，其Spearman相关系数为：

其中，di为Xi和Yi之间的等级差，n为样本个数。对Spearman相关系数进行假设检验，构造统计量，并计算P值，当P＜0.05时，认为存在显著性差异，即存在相关性。如表1所示。

由表1可知，经过假设检验，当显著性水平为5%时，类型与表面风化的显著性P值为0.008，Spearman系数为0.344，说明玻璃类型与表面风化之间存在着中等程度的正相关性；而玻璃文物的颜色和纹饰未通过假设检验，说明玻璃文物的颜色和纹饰与表面风化不存在显著的相关性。

1.3 差异性分析

本文用差异性分析来检验玻璃表面风化情况与其类型、颜色和纹饰间的差异性。由于所检验数据均为定性变量，故选择卡方分析。如表2所示。

根据表2的结果，在显著性水平为1%的前提下，可以得出如下结论：

对于表面风化和颜色，显著性P值为0.307，水平上不呈现显著性，所以表面风化和颜色数据不存在显著性差异。

对于表面风化和类型，显著性P值为0.009***，水平上呈现显著性，所以表面风化和类型数据存在显著性差异。

对于表面风化和纹饰，显著性P值为0.084*，水平上不呈现显著性，所以表面风化和纹饰数据不存在显著性差异。

1.4 主成分分析模型

在数据分析过程中，由于自变量较多，会增加问题分析的难度和复杂性，也会降低模型的准确率，所以本文首先对原始数据进行主成分分析[3，4]，将数据进行降维处理。

首先假设原始数据有n个样本，P个指标，可构成大小为n×P的样本矩阵x。计算样本矩阵x的相关系数矩阵R：

随后，计算R的特征值和特征向量，并利用特征值计算累计贡献。在实际应用中，一般取累计贡献率超过80%的特征值所对应的第1、第2、…、第m（m≤P）个主成分[3，4]，则第i个主成分可以表示为：

Fi=a1i X1+a2i X2+…+aPi XP，（i=1， 2，…， m）（3）

使用MATLAB处理相关数据，进行主成分分析操作，得到如图1所示的累计贡献率曲线，当累计贡献率大于80%时，指标数对应的是6，所以取主成分的个数为6，即m=6。接着，将原始数据带入主成分表达式，得到主成分分析结果。

1.5 Logistic回归模型

逻辑回归模型[5]是广义的线性回归模型，其因变量为定性变量，也就是分类变量，往往预测结果服从0～1分布，预测的因变量被看作是该事件发生的概率。

研究高钾、铅钡两种玻璃文物的分类规律，因变量为分类变量，一般的多元线性回归模型并不适用于此情况，所以选择逻辑回归模型对玻璃文物的分类规律进行分析。

主成分F3和F6具有较大的负回归系数，说明高钾类玻璃文物的F3和F6的值相对较大，即F3和F6的主成分数值较大时，其为高钾玻璃文物的概率较大，反之，为铅钡玻璃文物的概率较大。

1.6 层次聚类模型

聚类模型是将样本划分为由类似的对象组成的多个类的过程，在不确定将不同类别的玻璃文物划分为几个子类的情况下，选择层次聚类模型[7，8]来对不同类别的玻璃文物进行亚类的划分。该算法具体流程如图2所示。

将样本数据输入之后，首先将每个样本点看作为一类，计算两两样本点之间的最小距离，此最小距离一般使用欧式距离[9，10]：

接着将距离最小的两个类合并为一个新类，重新计算新类与所有类之间的距离，此处计算类与类之间的最小距离经常使用的方法是组内平均连接法，计算公式为：

不断重复重复上述两个过程，直到总类别为1，停止分类，输出分类结果谱系图。

使用SPSS进行层次聚类分析，得到高钾玻璃和铅钡玻璃聚类“肘部图”，如图3、图4所示。

对于高钾玻璃，从图3中可以看出，K值为1到3时，畸变程度变化最大，超过3以后，畸变程度变化显著降低，因此肘部为K=3，故可将分类类别设置为3。

对于铅钡玻璃，从图4中可以看出，K值为1到5时，畸变程度变化最大，超过5以后，畸变程度变化显著降低，因此肘部为K=5，故可将分类类别设置为5。

确定分类类别之后，分类结果如分类谱系图如图5、图6所示：

具体分类结果如表3所示：

通过对高钾玻璃文物分类结果编号相应数据的分析论证，高钾玻璃的亚类分类主要通过二氧化硅含量。类别A1中各玻璃文物的二氧化硅的含量在92.63%～96.77%之间，类别A2中各玻璃文物的二氧化硅含量在59.01%～69.33%之间，类别A3中各玻璃文物的二氧化硅含量在74.38%～79.46%之间。如表4所示。

通过对铅钡玻璃文物分类结果编号相应数据的分析论证，铅钡玻璃的亚类分类主要通过氧化铅和氧化钡的含量。首先比较氧化钡含量，类别B1、B2的氧化钡含量明显高于类别B3、B4、B5；再比较氧化铅含量，类别B1的氧化铅含量在28.68%～29.53%之间，类别B2的氧化铅含量在9.3%～25.93%之间，二者可以通过氧化铅含量进行区分；类别B3的氧化铅含量在61.03%～70.21%之间，类别B4的氧化铅含量在34.18%～55.46%之间，类别B5的氧化铅含量在12.31%～32.92%之间，因此可以明显的区别三者。

最后进行模型的灵敏度检验及合理性分析，以高钾玻璃文物的样本数据作为测试集，将A1类别中的07号文物二氧化硅含量降低10%，A2类别中01号文物的二氧化硅含量增加10%，A3类别中03号文物二氧化硅含量降低10%，再次使用层级聚类模型对其亚类进行划分，得到如图7所示的分类结果图。

分类结果如下所示：A1'类别中所含文物编号：09，10，12，22，27；A2'类别中所含文物编号：03，04，05，06，13，14，16；A3'类别中所含文物编号：01，07，18，21。

从上述结果可以看出，相较于表3，07号文物被分成A3'类，01号文物被分成A3'类，03号文物被分成A2'类，与上述分类标准相符，说明了该分类标准的有效性和模型的灵敏度较高。

2 结论

关于古代玻璃文物表面风化与玻璃类型、颜色和纹饰间的关系，相关性分析使用Spearman相关系数，得到玻璃类型与表面风化之间存在着中等程度的正相关性的结论；差异性分析使用卡方检验，得到表面风化和类型数据存在显著性差异，由此可见，玻璃文物的类型对其表面风化起着至关重要的作用。对不同种类玻璃的各化学成分进行分析，首先使用主成分分析法对数据进行降维处理；其次建立逻辑回归模型对高钾和铅钡玻璃的分类规律进行描述，结论为主成分F3和F6具有较大的负回归系数，说明F3和F6的主成分数值较大时，其为高钾玻璃文物的概率较大，反之，为铅钡玻璃文物的概率较大；最后建立层次分类模型，分别对高钾和铅钡两种玻璃文物进行亚类划分，将高钾玻璃文物再划分为3个亚类，将铅钡玻璃文物在划分为5个亚类。通过灵敏度分析可以验证该模型的有效性和分類的合理性。针对该领域问题的进一步讨论还需日后的不懈努力。

参考文献：

[1] CHEN X H，CHEN S C ，XUE H. Large correlation analysis [J].Applied Mathematics and Computation，2011，217（22）：9041-9052.

[2] 王茜，刘书志.基于密度的局部离群数据挖掘方法的改进 [J].计算机应用研究，2014，31（6）：1693-1696+1701.

[3] 李瑾.面积主成分分析及应用 [D].西安：西安电子科技大学，2018.

[4] LIU R X，KUANG J，GONG Q，HOU X L. Principal component regression analysis with spss [J].Computer Methods and Programs in Biomedicine，2003，71（2）：141-147.

[5] 尹建杰.Logistic回归模型分析综述及应用研究 [D].哈尔滨：黑龙江大学，2011.

[6] 周维柏，黄德波，李蓉.一种改进的模糊层次聚类算法 [J].北京联合大学学报：自然科学版，2021，35（1）：29-34.

[7] WU J J，XIONG H，CHEN J. Towards understanding hierarchical clustering：A data distribution perspective [J].Neurocomputing，2009，72（10-12）：2319-2330.

[8] GAUTHIER T D. Detecting trends using spearman's rank correlation coefficient [J].Environmental Forensics，2001，2（4）：359-362.

[9] 刘康明，艾鸽，张宇，等.基于层次聚类和划分聚类算法的BTS聚类算法研究 [J].网络安全技術与应用，2022（5）：45-46.

[10] 邓楠，罗幼喜.函数型Logistic回归模型研究与应用 [J].湖北工业大学学报，2022，37（1）：115-120.

作者简介：陈志豪（2001.11—）男，汉族，山东济宁人，本科在读，研究方向：电子信息工程；季晶敏（2001.12—），女，汉族，浙江金华人，本科在读，研究方向：电子信息工程。