基于因子-聚类分析模型的中药材鉴别

2022-04-05 01:25秦梦洁丁学利王静
阜阳职业技术学院学报 2022年1期
关键词:因子分析

秦梦洁 丁学利 王静

摘  要:2021年全国大学生数学建模竞赛E题附件1提供了425个中药材样本数据。针对425个中药材样本数据,首先采用标准差法提取中红外光谱的特征波段数据,再使用因子分析对数据进一步降维,最后利用K-均值聚类模型对药材样本进行合理的分类。该模型为中药材的鉴别提供了一个快速有效的方法。

关键词:中药材鉴别;特征波;因子分析;K-均值聚类

中图分类号: O212          文献标识码: A            文章编号:1672-4437(2022)01-0077-04

中医药历史悠久,中药材的类别、产地会影响药效,因而中药材种类和产地的鉴别一直是大众比较关心的问题。中药材大多由专业的质检部门或者拥有丰富经验的“老药工”进行鉴别,主要依靠相关人员的知识储备和经验,具有较强的不确定性。随着现代科技的发展,越来越多的技术与方法应用于中药材品种与产地的鉴别,比如显微技术及色谱光谱技术等。红外光谱技术作为一种高新分析技术,具有分析成本低、不破坏样本、分析速度快等特点。红外光按照波数(单位为cm)的不同主要分成三种:远红外(波数:10-400 cm)、中红外(波数:400-4000 cm)、近红外(波数:4000-14000 cm)。

通过对红外光谱进行分析可以快速对中药材进行分类,目前药材鉴别分类的方法大致可以分为有监督的分类和无监督的分类两种。有监督的分类常用方法有K-邻近法、BP神经网络、支持向量机SVM等。其中K-邻近法的结果容易受噪声数据的影响,BP神经网络的收敛速度慢并且存在局部极小问题,SVM算法对大数据集难以实施且很难解决多分类问题。无监督的分类方法主要是聚类分析,聚类分析包括层次聚类、划分聚类和K-均值聚类等。其中K-均值聚类具有简单、高效的显著特点,且该方法对大数据集也具备较好的处理能力。由于红外光谱数据量大、冗余度高,单独使用无监督的分类方法,效果较差。因此本文考虑先利用因子分析降维,再用K-均值聚类分析对中药材进行合理分类。

1 数据来源与分析

1.1数据预处理

本研究的数据来源于2021年全国大学生数学建模竞赛E题的附件1。附件1提供了425个中药材样本(No表示药材编号)数据,分别记录了每个样本在波数652-3999cm下的吸光度(见表1)。图1是425个中红外光谱数据的曲线图。从图1可以看出3个样本的吸光度数值过高,明显不符合该药材的光谱特征。通过筛查确定异常数据编号为64、136和201的药材,将异常数据剔除,剔除后的光谱数据曲线如图2所示。

1.2 特征波段选取

本研究将波数视为指标变量,可以发现数据中所给的波数多达3348条,并且所给波数是连续不间断的,这就需要充分挖掘数据,提取特征波进行降维处理。从图2可以看出强谱峰出现在652~1780cm区域,这主要与药材所含官能团有关,也就是说在652~1780cm这个区间里存在较多的化学信息,即652~1780cm的波数内存在较多的特征波段。

在同一波數下,标准差越大,说明数据波动越大,样本间的差异越大,也就是说该波数可以作为特征波数提取出来。将不同波数下的吸光度标准差绘制成散点图,如图3所示。图3极大值点所对应的波数(单位为cm)分别为:652、758、1030、1048、1245、1383、1463、1734、2850、2918、3274,将这11个波数视为特征波段。

2 因子-聚类分析模型

2.1 因子分析

因子分析是把多个变量归纳为少数几个综合因子,使得这些综合因子所包含的信息无重叠,从而实现降维的目的。因子分析之前必须对原变量进行相关性检验,可以采用KMO检验和Bartlett球形检验。然后根据累积贡献率提取主因子,计算因子得分和综合得分。

2.2 聚类分析

聚类分析是一种无监督的分类方法,它将具有相同或相似性质的事物归为一类,性质差距较大的事物归入不同类的一种分析方法。

因子-聚类分析本质上就是因子分析和K-均值聚类的综合,首先需要提取主因子,计算因子得分和综合得分。再将综合得分作为分析变量,使用K-均值聚类模型对中药材进行鉴别分类。这种因子-聚类分析模型很大程度上提高了分类的准确性,为中药材的鉴别提供了一种新思路。

3 结果分析

3.1 因子分析结果

将11个特征波段分别记为变量,,…,,做因子分析。在做因子分析之前需要判断一下该数据是否可以进行因子分析,将11个特征波段的吸光度数据导入SPSS软件,进行相关系数以及KMO和Bartlett球形检验,检验结果见表2。

从KMO和Bartlett检验结果可以看到KMO值为0.865>0.5,显著性Sig值为0.000,说明可以对其进行因子分析。因子分析的结果见表3和图4。

表3为总方差解释表,可以看出前2个主因子的累积贡献率达到了95.219%,也就是说基本上保留了原数据的大部分信息。

图4为碎石图,由图4可以看出第一个因子的特征值最高,对解释原有变量的贡献最大,第二个以后的因子特征值都比较小,对解释原有变量的贡献较小。

由表2和图4,可知用2个主因子来代替11个变量是可行的。记F为第一主因子,F为第二主因子,其表达式为:

F=0.321+0.318+0.327+0.326+0.311+0.296+0.251+0.317+0.299+0.350+0.266(1)

F=0.066-0.233-0.037+0.043-0.281-0.352-0.499+0.192+0.346+0.308+0.485(2)

綜合得分F=0.820F+0.132F。

利用Matlab软件计算主因子F和F得分以及综合得分F,结果见表4(由于药材样本数量过大,本文只展示部分结果)。

3.2 聚类分析结果

以因子分析的综合得分F为分类变量进行K-均值聚类分析。K-均值聚类中分类数K值的选取至关重要,很多情况下K值是人为直接给出的,不合适的K值会导致分类结果过“粗”或者过“细”,无法达到理想的分类效果。可考虑采用平均轮廓值作为选取最佳K值的标准,平均轮廓值越大,聚类的结果越准确。不同类别对应的平均轮廓值,如图5所示。

由图5可知,当类别数为2时轮廓值最高,但是分为2类过于笼统,实际意义不大。当分为3类时轮廓值相对较大,因此将K值定为3。接着以综合得分F作为分类变量,使用K-均值聚类模型对样本进行分类。选取3个初始聚类中心,可以得到每个类别下的药材样本编号,绘制三类药材光谱曲线图,如图6所示。

对比三幅光谱曲线图可以看出,三种光谱曲线的差异性还是比较明显的。具体特征如下:

(1)当波数在652-1780cm时,第一类的吸光峰个数明显较多,并且吸光峰强度较大(峰值介于0.2 AU和0.4 AU之间);第二类的吸光峰个数也比较多,但是吸光峰强度较小(峰值小于0.2 AU);第三类存在一个比较明显的强吸光峰(峰值接近0.4 AU),其余吸光峰的强度都较小。

(2)当波数在2800-3600cm时,第一类有3个吸光峰(2个尖峰,1个坡峰);第二类有2个吸光峰(1个尖峰,1个坡峰);第三类有3个吸光峰(2个尖峰,1个坡峰)且峰的强度明显高于前两类峰的强度。

4 结论

针对中药材鉴别问题,首先采用标准差提取特征波段对原数据进行第一轮降维,再用因子分析提取公因子计算综合得分,对数据进行第二轮降维。最后使用无监督的分类方法K-均值聚类模型对药材进行合理分类,这为不同种类的中药材鉴别提供了一种快捷、高效的方法。但是对某些差异性较小的药材或者不合格药材进行鉴别时可能比较困难,今后需进一步分析光谱特征,改进鉴别模型,提高鉴别精度。

参考文献:

[1]王彬,郭文鑫,刘文涛,等.基于K-邻近法的电网关键断面在线分布式发现方法[J].电力系统保护与控制,2019,47(07):113-118.

[2]王丽琼,范琦,易珍奎,等.HPLC指纹图谱结合反向传播人工神经网络和判别分析鉴定不同的麻黄药材[J].西南师范大学学报(自然科学版), 2012,37(05):73-77.

[3]李怀宝,李红,娄小平,等.基于支持向量机的光纤光栅反射光谱类型识别方法研究[J].计算机应用与软件,

[4]杨秀璋,武帅,张苗,等.基于层次聚类和社交网络的贵州旅游发展文献主题挖掘[J].现代计算机,2021,27(23):79-85,90.

[5]黄学雨,向驰,陶涛.基于MapReduce和改进密度峰值的划分聚类算法[J].计算机应用研究,2021,38(10):2988-2933,3024.

[6]王志远,孙鹏菊,王海波,等.基于聚类分类算法的IGBT健康状态分类研究[J].电工电能新技术,2021,40(11):1-8.

[7]徐琳,何洪源,刘翠梅,等.芬太尼类物质的振动光谱特征分析研究[J].光谱学与光谱分析,2021,41(09):2829-2834.

猜你喜欢
因子分析
基于GPS数据的旅游时空行为评价研究
中国创业板生物制药类上市公司成长性评价体系实证研究
中国各地区主要空气污染物结构的因子分析
我国31省城镇居民消费水平(2007)
基于因子分析法的二胎概念股投资价值分析
基于主导产业视角的战略性新兴产业识别以及实证研究
基于省会城市经济发展程度的实证分析
山东省县域经济发展评价研究
实证分析会计信息对股价的影响
京津冀一体化下物流网络节点城市选址规划