基于关联规则的DRGs超标费用分析

2022-08-24 15:43毋丽丽赵青杉申爱华
太原学院学报(自然科学版) 2022年3期
关键词:差额项集置信度

王 健,毋丽丽,赵青杉,曹 伟,申爱华

(1.忻州师范学院 计算机系,山西 忻州 034000;2.首钢水钢医院 a.医保科,b.信息中心,贵州 六盘水 553000)

0 引言

随着我国老龄化时代的到来,医疗保险(以下简称医保)的长期收支平衡面临诸多困难。(疾病)诊断相关分类(diagnosis related groups,DRGs)是当今世界较认可的医保支付方式之一,这种付费方式能兼顾病人、医院、医保等多方面的权益,在控制费用支出、保证医疗质量、提高管理水平等方面优势明显[1]。DRGs是一种打包付费制度,以病人的诊断为基础,结合治疗方式与病人特征,诸如年龄、性别、住院天数、手术、疾病严重程度、合并症等因素,把病人分入若干诊断相关组予以定额付费[2]。

六盘水市自1997年推行医保改革以来,已建立了较完备的医保体系。贵州省及六盘水市近年来深化医保改革,完善全民医保制度,建立综合监督制度,努力达到保基本、强基层、建机制的医保要求。在改革过程中,合理控制医疗机构费用过度增长是相关部门重点关注的内容。由于各类医疗机构数量众多,各级各类医保经办机构受人力资源制约、医保费用监控系统不完善、管理部门分散等诸多原因影响,对医疗机构的医疗行为及收费行为的监管力度不足,医保基金的使用安全面临挑战。

在医保基金的使用中,超标费用一直是关注的焦点,也是医保费用管控的重点。超标费用会消耗大量的医疗资源,在DRGs组内,超标费用的组内差异偏大[3]。因此,识别DRGs组内的超标费用病例,提取超标费用病例的关联特征属性,并发现超标费用与这些因素或属性之间的规则,对识别超标费用、科学管控医保费用有直接的指导意义和实践意义。在医疗数据处理领域,已有学者将关联规则运用于肺炎患者诊疗数据挖掘[4]、健康医疗数据挖掘[5]、个人医疗费用挖掘[6],但对于DRGs超标费用病例的检测和超标费用关联属性的分析研究较少,本研究从超标费用的病例识别方法及其关联属性挖掘方面进行了深入的研究。

1 对象与方法

1.1 数据来源

从贵州省某三甲医院提取了2018年1月至2020年8月审核报销的23 578人的28 919条住院记录,经过数据脱敏后,提取到了包括性别、年龄、参保类型、住院天数、合并其它诊断、有无手术、入组DRG编码、住院费用、全部报销费用等数据。

1.2 研究方法

在提取审核报销的所有DRGs数据中,首先计算费用差额,根据3σ准则(拉依达准则)检测超标费用;然后提取与超标费用相关联的脱敏后的可用属性,进行数据预处理,构建布尔型属性表;最后,利用Aproior算法进行关联规则数据挖掘,提取有价值规则。

1.2.1超标费用病例识别

在提取到的报销数据中,可以根据全部报销费用与住院费用计算得到费用差额。在每个DRG分组中,若某病例的费用差额明显偏离它所属DRG分组的其他病例的费用差额,可定义其为DRGs中的超标费用病例。

本文基于3σ准则设计算法来识别超标费用的病例。根据3σ准则,假设DRG分组病例费用差额中允许存在随机误差,对这些误差进行处理得到费用差额的偏差,按概率确定费用差额的一个较合理区间,凡是超过这个费用差额区间且值为负即为超标费用。

假定σ表示标准差,μ表示平均数,根据正态分布函数的特性,数值分布在区间(μ-σ,μ+σ)的概率为0.682,分布在区间(μ-2σ, μ+2σ)的概率为0.954,分布在区间(μ-3σ,μ+3σ)的概率为0.997[7]。因此,数值几乎都分布在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性不足0.3%。

经过上述方法筛选,得到了417条超标费用记录。随机选取了两个DRG分组,绘制了这两个分组费用差额的散点图,如图1所示。从图1中可以看出,超标费用的病例和正常费用的病例在费用差额上的分布存在明显不同,说明利用3σ准则可以有效检测出DRG分组超标费用的病例。

图1 两个分组费用差额的散点图Fig.1 Scatter plot of cost difference between two groups

1.2.2数据预处理

为了在下文使用关联规则进行数据挖掘,值域离散的属性值需要转换为布尔值;对值域连续的属性值则需要先进行离散化,再转换为布尔值。对于连续值的属性,在离散化时需要将其属性的值域划分为若干区间。对离散化后的属性,假设有i个取值,则可以取i个布尔变量B1,B2…Bi分别与离散化后的属性值对应,并将这些变量转换为布尔属性。在本文中采集的与超标费用相关的属性的布尔转换过程如表1所示。

表1 超标费用相关属性的布尔转换表Tab.1 Boolean conversion table of related attributes of excessive expenses

1.2.3基于Aproior 算法的超标费用挖掘

基于预处理转换后的0/1布尔值数据,可以利用关联规则挖掘发现隐藏的并且有意义的关系,找出DRGs超标费用中存在的一些规律。在关联规则挖掘算法中,Apriori算法是使用最广泛的算法之一,它用于找出所有满足一定条件的频繁项集,并由频繁项集产生强关联规则。

在Apriori算法中,关联规则的表达式为Ta⟹Tb,其中Ta和Tb分别表示规则的前项和后项。支持度、置信度是度量关联规则的关键指标,其中,支持度表示规则前期与规则后项同时出现的概率,可用公式(1)表示。

(1)

式中:|·|表示事务集合的基,即事务的个数;|Ta∪Tb|表示规则前项与规则后项同时发生的事务个数。

置信度指规则前项Ta发生,规则后项Tb也发生的概率,可用公式(2)表示。

(2)

Apriori算法的具体步骤如下:

1)扫描整个数据集,得出所有出现过的数据,作为候选频繁1项集,K=1,频繁0项为空集。

2)挖掘频繁K项集。

a.扫描数据计算候选频繁K项集的支持度。

b.去除候选频繁K项集中支持度低于阈值的数据集,得到频繁K项集。如果得到的频繁K项集为空,则直接返回频繁K-1项集的集合作为算法结果,算法结束。如果得到的频繁K项集只有一项,则直接返回频繁K项集的集合作为算法结果,算法结束。

c.基于频繁K项集,连接生成候选频繁K+1项集。

3)令K=K+1,转入步骤2。

4)以此类推,得到频繁K项集。

1.2.4超标费用相关属性的挖掘结果

本文用Python程序设计Apriori算法,设置最小支持度为0.2,置信度为0.5,考虑到超标费用数据较少,共抽取得到与费用超标相关的7条有意义的关联规则,如表2所示。

表2 超标费用关联规则Tab.2 Association rules for excessive expenses

2 讨论

对挖掘出的7条规则,这里选取其中2条为例,进行讨论。

规则2:{合并其它诊断_无,年龄组_0}⟹费用超标},支持度为0.365,置信度为0.710。该规则表明:约有36.5%的病例同时具有年龄在60岁以下、无合并其它诊断、费用超标的特征。在年龄为60岁以下、无合并其它诊断这些特征的前提下,有71%的概率会出现费用超标。

规则6:{住院天数组_2,合并其它诊断_无}⟹费用超标},支持度为0.217,置信度为0.793。该规则表明:约有21.7%的病例同时具有住院天数在7~14 d之内、无合并其它诊断、费用超标的特征。在住院天数在7~14 d之内、无合并其它诊断这些特征的前提下,有79.3%的概率会出现费用超标。

3 结语

本文运用离群点挖掘和关联规则研究了DRGs中28 919的报销记录,基于3σ准则,抽取了417条超标费用记录。通过Apriori关联规则挖掘算法,并设置支持度和置信度筛选强关联规则,挖掘出较合理的关联规则,以期能指导医疗费用管控实践,同时也可为医疗数据的相关研究提供借鉴经验。

猜你喜欢
差额项集置信度
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
系统可靠性评估与更新方法
不确定数据的约束频繁闭项集挖掘算法
正负关联规则两级置信度阈值设置方法
一种垂直结构的高效用项集挖掘算法
按图结算过程中易发生的问题纠纷预防与控制措施
运输规划问题算法的改进
入世以来我国对外贸易差额分布问题研究
分布式数据库的精简频繁模式集及其挖掘算法*