关联规则算法在临床医疗诊断中的应用

2018-03-26 02:14姚旭升杨静谢颖夫
软件导刊 2018年3期
关键词:挖掘出项集病案

姚旭升 杨静 谢颖夫

摘要:

为了从临床数据中挖掘出疾病之间的相关性,为疾病临床诊断提供一种辅助方法,使用SPSS Statistics进行数据预处理,将数据转化为布尔数据,最后应用SPSS Modeler搭建基于Apriori算法的关联规则挖掘数据流,采用云南某医院2013年住院病案首页数据(共54 841条)建立疾病间的关联规则模型。从227种疾病中挖掘出信度大于20%的关联规则共40条,涉及20种疾病。关联规则挖掘可以从大量临床数据中发现疾病间潜在关联,为相关疾病的临床诊断提供辅助。

关键词:

数据挖掘;关联规则挖掘;SPSS Modeler;临床辅助诊断

DOIDOI:10.11907/rjdk.172521

中图分类号:TP319

文献标识码:A文章编号文章编号:16727800(2018)003016203

英文摘要Abstract:In order to dig out the correlation between diseases from clinical data, an auxiliary method is provided for the clinical diagnosis of disease. SPSS Statistics is used to preprocess the data and convert the data into Boolean data. Finally, SPSS Modeler is applied to build association rules mining data stream based on Apriori algorithm. An association rule model between diseases was established by using the first page of inpatient medical records(a total of 54 841) in a hospital in Yunnan in 2013. A total of 40 association rules with confidence setting greater than 20% were extracted from the 227 diseases, involving 20 diseases. Association rules mining can discover the latent association between diseases from a large amount of clinical data. This can provide an auxiliary method for the clinical diagnosis of related diseases.

英文关键词Key Words:data mining; association rules; SPSS Modeler; clinical assistant diagnosis

0引言

随着信息技术的发展,目前很多领域已经逐渐积累起海量数据,数据挖掘手段可以从这些数据中挖掘出一些人类不容易发现的潜在规律。数据挖掘可以概括为一种决策支持过程,主要基于人工智能、机器学习、统计学等技术,高度自动化地分析原有数据,作出归纳性推理,从中挖掘出潜在规律,预测分析对象的行为趋势,从而帮助决策或调整策略[1]。

關联规则算法是用来探索事务之间依赖关系的一种常用方法,最典型的应用是挖掘超市交易数据中售出商品间潜在关系,用于找出顾客购买行为模式,从而优化商品布置,以达到增长销售额的目的[2]。目前关联规则挖掘已广泛应用于各个行业。在医学领域,关联规则广泛应用于临床用药规律、疾病预测分析等方面[3]。关联规则算法的特点是可以发现自然组合的关联,将该方法应用于挖掘不同种疾病之间的相关性,对于疾病的主动预防以及临床辅助诊断是有意义的[4]。

本文基于SPSS Modeler软件提出一种针对住院病案首页中诊断数据的疾病相关性挖掘方法,采用云南省昆明市某三甲医院2013年住院病案首页数据,力图挖掘出一些疾病间可能的潜在关联,为临床诊断提供帮助。

1关联规则挖掘

1.1关联规则挖掘定义

关联规则挖掘可描述如下:

设I={i1,i2,...,im}是有m个不同的项组成的集合,简称项集。给定一个事务集合D,其中每一个事务T是I中一组项的集合,即TI。若项集AI且AT,则事务T包含项集A[5]。关联规则是形如A→B的关系式,其中A∪T,B∪T,且A∩B=;关联规则挖掘是要在事务集合D中找出所有满足最小支持度和最小置信度的关联规则。

1.2Apriori算法

Apriori算法是一种最有影响的布尔关联规则频繁项集挖掘算法[6],其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则[7],所有支持度大于最小支持度的项集称为频繁项集,简称频集。

该算法的基本思想:①找出所有频集,这些项集出现的频繁性至少与预定义的最小支持度一样;②由频集产生强关联规则,这些规则必须满足最小支持度与最小可信度;③使用第1步找到频集产生期望的规则,产生只包含集合项的所有规则,其中每一条规则右部只有一项。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。

3关联规则挖掘方法

3.1研究对象

本文采用的数据是云南省某三甲医院2013年全年的住院病案首页数据,共54 841条,根据住院病案首页国家标准,每个住院案例包含四大类指标,分别为患者基本信息、住院过程信息、诊疗信息与费用信息[8]。由于本文研究的是疾病间潜在的联系,故选择以下字段作为研究指标:住院病案号(为保护患者隐私,采用住院病案号作为患者身份标识)、疾病编码(主要诊断编码)、疾病编码1(其它诊断1编码)……疾病编码16(其它诊断16编码),共17个指标。

3.2数据预处理

2013年住院病案首页数据中把本文不考察的其它指标过滤掉,仅留下研究对象。采用SPSS Statistics 22将数据转化为事务处理格式,统计疾病频数,疾病频数小的疾病对于模型的影响微乎其微,故将疾病频数小于100的案例删除,提高建模效率。

3.3关联规则挖掘模型构建

SPSS Modeler软件的特点是采用数据流形式处理数据,可以直观地分析数据处理过程、设置参数[910]。本文采用SPSS Modeler 14.1建立关联规则挖掘数据流模型。模型如图1所示。

其中,在“Statistic文件”节点中输入预处理后的数据源;在“类型”节点中将纳入模型的变量类型设为“输入”;在“标志”节点中将“疾病代码”设为标志字段。按照“住院病案号”进行汇总,其目的是将现有数据变成可以被布尔数据Apriori算法处理的数据。在“过滤”节点中将疾病编码修改为疾病中文名,最后在“Apriori算法”节点中设置最小置信度为20%,最小支持度为2%,运行模型、输出关联规则结果40条。

4结果

关联规则算法对疾病间相关性挖掘结果见表1。从227种疾病中挖掘出40条关联规则。其中前项和后项的含义是若事件A存在的同时事件B存在,那么前项就是A,后项是B;支持度的含义是事件AB同时发生的实例占总案例的比例;置信度的含义是AB事件同时发生占事件A的比例。如第一条的意义是多发性脑梗死的患者同时患有高血压的占总案例数的5.5%,多发性脑梗死患者中66.1%的人同时患有高血压。其关联的内在原因有待医学专家进一步研究。

5结语

数据挖掘在医学领域的应用前景十分广阔,本文应用SPSS Modeler软件,通过对某医院2013年住院病案首页数据的疾病相关性进行挖掘,给出了一个可行的关联规则挖掘实施方案,挖掘出一些可能有价值的关联规则。当数据量增大时,可能会从中挖掘出更多有价值的潜在联系。以上挖掘出部分关联可以为临床诊断提供辅助参考,同时对于疾病预防、宣传也有一定的积极作用。

参考文献参考文献:

[1]应振潭.数据挖掘技术在生源质量分析中的应用[J].软件导刊,2009(8):172173.

[2]林犷.慢性肾小球肾炎的中医症状证候药物关联规则挖掘的研究[D].成都:电子科技大学,2016.

[3]赵佳璐.基于关联规则挖掘的出生缺陷预警系统的研究与实现[D].北京:北京邮电大学,2012.

[4]郑传生,蔡伟鸿.一种关联规则挖掘算法及其在医疗信息挖掘中的应用[J].计算机与现代化,2007(7):1012.

[5]SAHOO J, DAS A K, GOSWAMI A. An efficient approach for mining association rules from high utility itemsets[J]. Expert Systems With Applications, 2015,42(13):57545778.

[6]AGRAWAL R, SRIKANT R. Mining sequential patterns[C]. IEEE Computer Society, 1995:314.

[7]P TANNA, Y GHODASARA. Using apriori with WEKA for frequent pattern mining[J]. International Journal of Engineering Trends and Technology, 2014,12(3):127131.

[8]國家卫生计生委办公厅.住院病案首页数据填写质量规范(暂行)[R].北京:2016

[9]张文彤,钟云飞.IBM SPSS数据分析与挖掘实战案例精粹[D].北京:清华大学出版社,2013.

[10]季聪华,曹毅,张颖,等.基于SPSS Clementine软件的关联规则算法的应用[J].中医药管理杂志,2014(1):3133.

责任编辑(责任编辑:刘亭亭)

猜你喜欢
挖掘出项集病案
基于二维码的病案示踪系统开发与应用
试析病案管理中预防病案错位发生的方法
从唱片里面挖掘出更多的细节 Thorens多能士| TD 905黑胶唱盘
三次实地采访,挖掘出暖新闻背后的超暖细节
试论病案管理在防范医疗纠纷中的作用
基于时序关系的企业知识超网建模与分析
新病案首页中存在的问题及对策
一种频繁核心项集的快速挖掘算法
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*