基于主成分分析和聚类分析的各地区医疗水平状况研究

2020-08-13 07:17李季
软件 2020年6期
关键词:聚类分析主成分分析

摘  要: 为了研究全国各地区医疗发展状况,本文以31个地区为主要研究对象,选取了医疗卫生机构数、三级医院数、卫生人员数、医疗卫生机构床位数、卫生总费用等10个指标,数据均来自2019中国卫生健康统计年鉴,基于主成分分析(PCA)和聚类分析,运用SPSS软件对评价指标进行标准化,降维和去相关,同时对多元数据进行合理的分类,最后对各地区的医疗建设和发展水平进行评价。

关键词: 医疗水平;SPSS软件;主成分分析;聚类分析

中图分类号: TP391.41    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2020.06.050

本文著录格式:李季. 基于主成分分析和聚类分析的各地区医疗水平状况研究[J]. 软件,2020,41(06):242246

【Abstract】: In order to study the situation of medical development in various regions of the country, this paper takes 31 regions as the main research objects, and selects 10 indicators such as the number of medical and health institutions, the number of tertiary hospitals, the number of health personnel, the number of beds in medical and health institutions, and the total health expenditure. The data is extracted from the 2019 China Health Statistics Yearbook. Based on principal component analysis (PCA) and cluster analysis, SPSS software is used to standardize the evaluation indicators, reduce the dimensions and decorrelate. At the same time, the multivariate data is reasonably classified. Finally, evaluation of the level of medical construction and development in different regions in China is carried out.

【Key words】: Medical level; SPSS software; Principal component analysis; Cluster analysis

0  引言

醫疗卫生事业关系到人民群众的身体健康和生老病死,与人民群众切身利益密切相关,是社会高度关注的热点。人民群众往往通过医疗卫生服务看经济发展成果,看政府管理能力,看党风政风建设,看社会和谐公平。大力发展我国医疗卫生事业,保障公共卫生安全,适应广大人民群众日益增长的医疗卫生需求,提高全民族健康水平,是各地区的重大任务,也是彰显一个地区发展能力的要素。本文运用主成分分析和聚类分析的方法进行多元统计分析,根据结果对全国各区域医疗水平状况作出分析与评价。

1  主成分分析和聚类分析的基本思想

通过使用主成分分析(PCA)[1-2]的降维方法,可以保证原始数据信息不被抛弃的前提下将原始多元指标重组为几个不相关的综合指标,从而简化了复杂的问题。常用的数学处理方法是将原始的 个指标线性组合为新的综合指标,但是如果这种线性组合不受限制,则可以提出许多新的综合指标。因此,为了确保新的综合指标能够尽可能多地反映原始指标的信息,在提取新指标时应遵循主成分提取原则。即,当提取一个新的综合指标时,只有那些累计贡献率达到85%的最大主要成分才可用,这有助于我们在损失部分信息时抓住主要矛盾。这种减少变量数量并抓住主要矛盾的方法有助于我们分析和处理问题,并使以下聚类分析结果更加准确。

聚类分析[3]是指将一组物理或抽象对象分为几类的过程,因此具有相似特征的对象会在同一类中,不同集群之间的对象差异很大。这是一种探索性分析。在分类过程中人们不必事先给出分类标准,而是聚类分析可以从采样数据开始进行自动分类。使用了不同的聚类分析方法,很可能会得到不同的结论。因此,在聚类分析中,应根据研究需要选择合适的聚类方法。

主成分分析和聚类分析析[4-5]是一种新的综合评价方法,它将主成分分析与聚类分析相结合。该方法首先对样本进行主成分分析,然后提取几个主成分作为聚类分析的变量。具体步骤如下:

(1)根据累积方差贡献率(通常高于85%)选择 个主成分,然后计算每个主要成分下的样本得分;

(2)将 个主成分作为 个样本变量并进行聚类分析;

(3)评估聚类结果并给出相关建议。

2  主成分分析和聚类分析的建模说明

根据上面的3个主成分的线性组合方程,我们可以将标准化后的数据带入计算,最终可以得到表4综合得分与排名表。

5  结论聚类分析

对31个地区的10个指标进行了主成分分析,我们提取了3个主成分。通过表5个案处理摘要表,我们可以看出,在整个聚类过程中,所选取的31个城市均参与了聚类分析过程,没有遗失或未参与的样本。这充分说明此次聚类分析已经对31个样本的各项指标进行了相似聚类,因而可以进行下一步分析。使用系统的聚类方法对3个指标进行聚类,我们得到图1的最终结果。

从图1看到,我们可以将31个地区分为5类。在31个地区中,北京和上海分为同一类别,广东自成一类,其余可以分为三类,具体可见表6。这个结果也比较符合我们日常的认知,作为全国政治和经济中心,北京和上海的医疗水平状况也有其独特性。同类中各省的医疗水平状况相近,比如第四类别中的几个省的综合得分都是比较靠前的。

6  结论

根据主成分分析,医疗卫生机构数(个)、三级医院数(个)、卫生人员数(人)、每千人口卫生技术人员数(人)、医院人员数(人)、医疗卫生机构床位数(张)、每千人口医疗卫生机构床位(张)、卫生总费用(亿元)、人均卫生总费用(元)和基本医疗保险参保人数(万人)的原始数据,可以将10个评估指标归纳为6个无关的综合指标。它使聚类分析的结果更加合理和真实。

我们可以看出在医疗水平方面综合得分排名靠前的省份有山东、四川、广东、江苏、河南、浙江、湖南、湖北、河北,除广东外,几个省份均属于同一类。广东自成一类且分数也不低可能是因为近年来广东省财政支持高水平医院建设“登峰计划”的启动,使其比较突出。此外,由于北京和上海两座城市的特殊性,二者也处于同一类。其余的地区可以分为两类,广西、安徽、江西、福建、海南、西藏、天津属于一类,且得分相对较低,可见政府在以后的发展中应该加大对医疗建设的投资,努力提高各方面的水平。

参考文献

[1] Lin, H.M. and Du, Z.F. Principal Component Analysis Comprehensive Evaluation Should Pay Attention to the Problem[J]. Statistical Research, 2013, 8: 25-31.

[2] Ouyang, Y. Evaluation of River Water Quality Monitoring Stations by Principal Component Analysis[J]. Water Research, 2005, 39: 2621-2635.

[3] Chen, X.J. Clustering Analysis in Data Mining Research[J]. Computer Technology and Development, 2006, 9: 44.

[4] Bao, Y., Hu, Z.Q., Bai, Y. and Guo, R.S. Principal Component Cluster Analysis Applied in the Evaluation of Ecological Security of Land[J]. Journal of Agricultural Engineering, 2006, 8: 87-90.

[5] 劉璐. 主成分聚类分析在学生成绩综合评价中的应用[J].辽宁工业大学学报(自然科学版), 2012, 3: 200-204.

[6] 国家卫生健康委员会. 2019中国卫生健康统计年鉴[M]. 北京: 中国协和医科大学出版社, 2019.

[7] 唐功爽. 基于spss的主成分分析于因子分析的辨析[J]. 统计教育, 2007(2).

[8] 张士杰. 基于主成分分析的阜阳市城市竞争力评价[J]. 安 徽广播电视大学学报, 2011, (4).

猜你喜欢
聚类分析主成分分析
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用