基于聚类分析的药品流通大数据监管模型研究

2022-07-22 12:16陈舜让董健卫陈艳美
广东药科大学学报 2022年4期
关键词:流通聚类药品

陈舜让,董健卫,陈艳美

(1.广东省药品监督管理局事务中心,广东 广州 510080;2.广东药科大学医药信息工程学院,广东 广州 510006;3.广东技术师范大学数学与系统科学学院,广东 广州 510665)

药品监管涉及面广,关系人民健康,涉及百姓切身利益。国家和地方政府近年来出台了许多药品监管政策,国务院办公厅于2017年在《国务院办公厅关于进一步改革完善药品生产流通使用政策的若干意见》中提出了“推进分级分类管理,规范药品零售企业经营行为”[1],2018年广东省食品药品监督局出台了《药品零售企业分级分类的管理办法(试行)》[2],从行政管理方面提出通过对药品零售企业的分级分类管理加强对药品流通监管力度。开展药品监管的研究已成为目前研究探讨热点,近年来从不同角度提出了许多关于药品监管的方法,通过对药品流通现状、发展情况的调查,提出规范管理药品流通的对策及方法[3-5]。随着互联网电子商务的迅猛发展,网上药品流通十分活跃,相关研究[6-8]提出了许多有效的网上药品相关流通监管方法。从监管制度建设和监管队伍建设角度探讨加强和完善药品监管的力度和广度[9-10]。

近年来,信息化已全面深入到药品研发、生产和流通各个领域,特别是药品流通信息化建设不断深入和完善,应用信息化技术构建药品流通业务流程的反馈机制来加强药品监管的方法日趋成熟[11]。药品流通监管是药品监管的重点环节之一,药品流通企业的监管是药品流通监管的主要对象,文献[12]提出了改善药品批发企业质量体系内审管理水平的具体实施建议,以持续改进批发企业质量管理水平,控制药品经营环节风险。虽然对药品监管已经提出了许多有效方法,但应用大数据分析的药品流通监管方法的研究成果目前仍然较少,药品流通信息化建设已积累了大量的数据,为应用大数据分析技术对药品流通监管精细化创造了条件。聚类分析是大数据分析主要方法之一,其中K-均值聚类方法是聚类分析的常用方法,是一种无监督机器学习方法,由于算法简单,收敛速度快,在许多领域都有广泛的应用[13-14]。在药品流通过程,流通企业的药品采购数据和销售数据精确反映了药品流通企业的经营情况,通过对企业的采购数据和销售数据的聚类分析把企业进行分类,一般地,企业的经营在一定时期内不可能发生大变化,若企业发生了类属的变化即:类迁移,说明该企业经营情况发生了大变化,出现有异常的数据,应对该企业及时进行重点监管,查明异常原因。

本文从广东省药品流通电子监管系统中抽取广东省内药品流通企业的药品复方丹参片的流通数据,从复方丹参片的采购数据和销售数据分析入手,应用聚类分析方法对采购量和销售量两类流通数据进行分析,实现对药品流通企业的分类,及时发现发生类迁移的情况,实现药品流通企业经营情况的精细化监管。

1 数据材料

广东省药品流通电子监管系统收集了26亿条药品交易信息,抽取2019—2020年复方丹参片的采购量和销售量两类流通数据,计有400万条,用于建立模型及验证,用于分析的数据涉及参与购销活动的药品流通企业729家。

2 方法

2.1 K-均值聚类方法

K-均值聚类方法是一种无监督机器学习方法,按相似度最优的原则,通过对数据集的反复学习,最终各类中心收敛,可以得到类中心以及各样本的类属。

设有n个待分类的样本:x1,x2,…,xn,每个样本具有s个特征,每个特征均用数字表示,记xk=(xk1,xk2,…,xks)表示样本xk的特征数据。

n个待分类的样本的各种特征可以用矩阵表示如下:

两样本xi和xj的相似度采用样本xi与样本xj的距离:

K-均值聚类方法基本思想:先将样本进行大概分类,再按某种相似度最优原则进行反复学习,不断修正,直到分类合理为止。具体详细的步骤如下:

Step 1:初始化聚类中心(随机生成或从样本数据中选取,本文采用从样本数据中选取数据初始化聚类中心);

偶尔还是会接到你的来电,偶尔还是会在看到你的留言,我以为青春这把无情刻刀将我们的距离划得越来越远,我以为我们的友情会在时间的摧残下消失殆尽,我以为你有了新朋友就会把我忘记,但没想到你依旧记得我们之间的承诺:海依旧蓝,我依旧在。我本以为经历了人生的匆匆聚散就应该能承担起岁月带来的沧桑,可流年分明安然无恙,南山石草木亦是这样毫发无伤,只是曾经承诺要做辈子朋友的我们在细雨中却愈发清瘦单薄。

Step 2:每一个样本,归入最近距离的中心代表的类,从而把样本分类;

Step 3:根据分类结果确定各类的新聚类中心。新聚类中心为该类中所有样本的平均值;

Step 4:修改分类。即以新聚类中心代替旧中心,重复Step 2、Step 3,直到中心变化小于阀值。

2.2 数据预处理

在药品流通电子监管系统中抽取了2019年729家流通企业的复方丹参片采购和销售数据,汇总整理各家企业的复方丹参片的每年采购和销售数据。

以年采购量xi和年销售量xj为聚类指标因子,获得数据集:

其次对数据进行标准化,令

3 结果

3.1 K-均值聚类分析结果

其中:mi表示Cj类中心的均值。SSE随K值的变化见图1。

图1 SSE与K值的关系Figure 1 Relationship between SSE and K value

当K=8时,SSE趋于稳定,应用K-均值聚类方法对复方丹参片的年采购数据和销售数据进行聚类,把流通企业分成8类,分类图见图2。应用轮廓系数评估聚类结果,轮廓系数都很接近1(如图3),说明聚类合理。

图2 聚类中心及数据分类图Figure 2 Clustering center and data classification diagram

图3 聚类轮廓系数Figure 3 Coefficient of clustering silhouette

3.2 结果应用与模型验证

应用聚类分析方法把729家药品流通企业分成8类,每一家药品流通企业只能属于其中一类,如果某一医药流通企业新一轮监管周期上报数据发生了类迁移,即从上一期的类变为另一类,则说明该企业流通数据发生了较大的变化,可能存在异常情况,应列入重点监管对象,及时查明发生类迁移的原因。

应用监管模型对2019年的采购及销售数据进行聚类,得到8个类中心及729家药品流通企业的类属,再应用模型对2020年的数据进行聚类,结果发现有2家药品流通企业发生类迁移,见表1。可见,2家药品流通企业2020年的采购量及销售量比2019年的增长变化很大,可能存在异常情况,可以列入重点监管对象。

表1 类迁移医药公司2019年和2020年的数据对比Table 1 Comparison of data of class migration pharmaceutical companies in 2019 and 2020 箱

4 讨论

聚类是将数据分类到不同的类(或称簇)的一个过程,同一个类中的对象有很大的相似性,而不同类之间的对象有很大的相异性。从机器学习的角度讲,类相当于隐藏模式,聚类是搜索类的无监督学习过程。聚类分析是一种探索性的分析,在分类的过程中,不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。

药品监管部门应用监管模型时,可根据实际情况采用以年、半年或月等时间段作为监管周期,对监管周期内的数据进行聚类分类,及时掌握药品流通是否出现异常情况。本文应用模型以1年作为监管周期,对涉及购销复方丹参片的729家药品流通企业进行分析,通过对复方丹参片的2019年采购和销售数据进行聚类,获得了满意的分类以及药品流通企业的类属,对2020年的数据聚类后,再与2019年的分类进行比较,发现2家流通企业的类属发生了变化,即发生类迁移,表明2019年和2020年的采购和销售数据发生了很大变化,出现异常情况。当药品流通企业发生类迁移时,表明该企业的购销量(规模)发生较为明显的变化,药品监管部门及人员借助监管模型,可以实现对重点监管药品品种的监督,从企业的购销量(规模)角度,对药品流通企业实行自动分类管理,列出重点监控企业;及时跟进检查类迁移企业,从中发现是否存在流通异常情形。

聚类得到的类中心是每一类的代表,同属于一个类中心的药品流通企业的数据与该中心的距离最小,一个药品流通企业只能属于一个类中心。类中心个数越小,则类之间的距离越大,发生类迁移越难,发生类迁移的企业就越少。反之,类中心越多,发生类迁移越容易,发生类迁移的企业就越多。因此类中心个数的大小体现了对药品流通监管力度和广度,类中心越多监管力度越强,监管广度越小,类中心越少监管力度越弱,监管广度越大,通过类中心个数的调节实现对药品流通领域的监管力度和广度的灵活调控。因此,本文提出的应用聚类方法的监管模型在实际监管中不仅达到数字化精细化的监管的目标,而且可以通过调整聚类中心个数来实现监管部门依据实际情况灵活调整监管力度和广度的目标。

猜你喜欢
流通聚类药品
是不是只有假冒伪劣药品才会有不良反应?
富“鳜”逼人!标鳜最高38元/斤,订单去到39元/斤,流通商疯狂抢订!这条鱼成“抢手货”
药品保存细解读
面向WSN的聚类头选举与维护协议的研究综述
水果药品
美国的蔬菜流通
药品侵权的性质认定
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
国务院决定实施“互联网+流通”行动