国际疾病分类(肿瘤)智能编码体系及质量评价系统设计*

2020-03-04 08:02刘潇霞杨媛媛侯飞李林涛比确子拉李晓喻刘罡
肿瘤预防与治疗 2020年2期
关键词:语意分值准确性

刘潇霞,杨媛媛,侯飞,李林涛,比确子拉,李晓喻,刘罡

610041 成都,四川省肿瘤医院·研究所,四川省癌症防治中心,电子科技大学医学院 预防部(刘潇霞),医务部(杨媛媛、侯飞),团委办公室(李林涛),信息中心(比确子拉);610500 成都,成都医学院第一附属医院 院长办公室(刘罡);610054 成都,电子科技大学 信息与软件工程学院(李晓喻)

国际疾病分类(International Classification of Diseases,ICD)是世界卫生组织推广使用的规范化、标准化的疾病分类法,兼顾了医院疾病统计、医疗管理和医疗付费等方面的需求,是一项国际标准。ICD的推广使用融合统一了世界各国之间因为地域、语言文化、习惯等差异带来的疾病诊断名称差异,促进了医学信息的互通、交流,是我国卫生统计信息实现国际标准和规范化的基本要求。准确、标准统一的ICD编码信息,在医学数据统计、科研、信息检索、信息应用等方面至关重要,对医院管理、决策、卫生政策的制定起着决定性作用[1]。现行人工编码方式存在人员素质参差不齐、认知理解标准不统一等弊端,因此,本研究欲从复杂的肿瘤类疾病入手,构建一套包含ICD智能编码、编码质控及效果评价的编码体系,将传统的人工编码方式转换为机器智能编码为主,人工编码为辅的工作模式,统一判定标准,提高效率,提高横向纵向对比可比性,并将体系推广至其他类别疾病。

1 资料与方法

1.1 资料来源

研究数据全部来源于某肿瘤专科医院病案首页信息,包括病案首页诊断信息(门诊诊断、入院诊断、出院诊断)的中文字段、病理诊断、手术与操作、治疗方案(放疗、化疗方案)、住院次数、患者既往住院诊断信息。

1.2 系统设计方法

从肿瘤类疾病入手,通过采集病案首页相关信息,根据肿瘤主要诊断的选择原则,结合实际疾病ICD编码原则,将相关指标建立内在逻辑关联,辅以语意识别,建立一套“嵌入严密细致逻辑判定规则智能诊断排序+语意识别+机器学习+既往病史辅助判定+基于权重分析的人工校对”模式的肿瘤专科智能编码体系;全程根据各环节信息识别的精准程度及信息转换环节因果关联强度对信息转换的各环节赋予不同的权重,最终每一个案病历的编码结果将对应一个反应其ICD编码结果可靠性的分值,通过人工编码对低分值段(可靠性较差)个案进行校验,修正智能编码体系的内在逻辑关系,提高编码准确性达到预期要求。在实际应用中,再次通过得分值评估各分数段的个案编码准确性,预测人工校正的分值分割线,将得分低于分割线值的个案进行人工编码,其余可直接应用智能编码系统结果,保证编码准确性,大大降低编码员工作量,节约人力。完善系统后,采取按疾病类别修改编码规则的方式,将该体系应用到其他类疾病编码,最终构建一套全病种的ICD智能编码系统。

1.3 数据处理与统计

运用计算机数据挖掘、语意识别、关联规则分析方法编码、赋予各转换环节权重与得分。用SPSS 22.0建立数据库,计算不同分值段个案的准确率。

2 结 果

2.1 诊断编码

将基础数据按照下述关联规则设置判断逻辑,进入智能编码流程。编码库及数据源见表1。

2.1.1 门诊诊断、入院诊断 采用语意识别编码。

2.1.2 确定主要诊断 根据主诊定义、肿瘤主诊选择原则,结合患者初诊、复诊类型,患者来院目,治疗方案等判定主要诊断。

2.1.3 其他诊断编码 上述主要诊断编码中,涉及“继续医疗行为”和“新发生肿瘤再次就诊”患者,应补充原发肿瘤编码至其他诊断,并置于其他诊断的第一位,其他诊断采用语意识别编码。

2.1.4 肿瘤形态学及动态编码 根据国际疾病肿瘤学分类(International Classification of Diseases for Oncology, Third Edition,ICD-O-3)字典库[2],通过语意识别编码。

2.2 质量权重评分及系统校验

根据主要诊断选择、编码识别及转换各环节信息识别的精准程度及信息转换环节信息因果关联强度对信息转换的各环节赋予不同的权重,最终每份个案病历的编码结果将对应一个反应其编码结果可靠性的分值(总分为100),人工对低分值段(可靠性较差)个案编码进行核实、校验,对共性问题归类总结,不断修正智能编码体系的内在逻辑设置,提高高分值得分病历的比例,使得编码准确性达到预期要求。

表1 编码库及数据源

Table 1. Code Library and Data Sources

Category Code libraryData sourcePathological code ICD-O-3 code library based on tumor morphologyKey words from records of pathological diagnosis Oncological code ICD-10 code library based on anatomic sites Key words from anatomic site and subsites of tumor in diagnosis Therapeutic codeICD-10 code library based on continuing medical behaviorsKey words from treatment plansCode of other diseasesICD-10 code library based on other diagnosesKey words from diagnostic records

2.3 效果评价

在预测试数据中(预计使用1年约5万份出院病案),将全部个案的智能编码结果与人工编码结果进行比对,通过个案得分值评估各分数段的准确性,预测人工校正的分值分割线,将得分低于分割线值的个案(占比低于20%)进行人工编码,其余可直接应用智能编码系统结果,从而有力保证编码准确性(预期高于95%),同时大大降低人工编码的工作量(评价示例如表2)。

表2 肿瘤智能编码系统效果评价示例

Table 2. Evaluation of the Effect of Automatic Coding System

Value (d)Number of casesNumber ofmatched casesAccuracyCut-off90

结果解释:以某大型三甲肿瘤专科医院,年出院患者5万人次为例,若选择分割线1作为实际应用指标,即低于70分的病历进行人工编码,则该院年内将有5 000份病历人工编码,占全部病案比例10%,工作量大大降低,其编码准确率为(29 000+9 200+4 000+3 000+2 000)/50 000=94.4%;若想进一步提高编码准确率,可将70

3 讨 论

3.1 现行编码模式及弊端

传统的疾病诊断编码依靠人工完成,全程需要具备临床医学知识、病理学知识及统计知识的专业编码人员,通过翻阅病历中病案首页的诊断、手术操作、治疗内容、部分检查检验报告及出院记录等资料,结合专业的编码知识,对各项诊断赋予ICD代码[3-4]。现阶段具备扎实临床医学经验、经过规范培训且取得编码员资格证的编码员数量紧缺,导致医疗机构从事编码的人员存在经验不足,没有规范培训,未取得资质等问题,甚至存在因为编码人员不足而压缩编码过程,略去翻查病历环节的问题,以上行为最终导致编码准确性降低,标准不统一,统计数据质量偏离[5-6]。

3.2 智能编码系统的优势

在人工智能高速发展且将成为未来发展趋势的时代环境下,精准、高效工作导向势在必行[7]。目前国际疾病智能编码目前处于尝试阶段,暂无广泛应用到实际工作中,替代人工编码的案例。目前国内外对智能编码的研究仅限于单纯将ICD-10字典库维护入电子病历、基于语义相似性的最长公共子序列法[8]、混合法[9]三类方法,其准确性无法外推应用,存在以下弊端:(1)一次性将所有病种全部纳入,企图一次性解决编码问题,却因各体系疾病主要诊断选择、编码规则各不相同导致编码粗糙甚至准确率极低;(2)更多的是依靠单纯的语意识别来完成智能编码,对复杂情况的疾病类别,语意识别误编率极高;(3)企图将编码全部交给计算机完成,缺乏相应的质量控制、效果评价体系,导致结果可信度收到质疑,无法落地使用[10-12]。

基于以上问题,该系统优势在于:(1)没有将所有疾病一次性纳入研究,因不同类别疾病主要诊断选择原则不同,编码原则不同,若一次性纳入全部病种,将大大降低准确性,准确性的降低直接影响其落地应用,因此,本研究选取了所有疾病分类中最复杂的肿瘤作为研究突破口,基于肿瘤疾病建立智能编码体系后,在将该体系应用于其他类别疾病,只需更改主要诊断选择规则即可,其质量控制及效果评价方法依然适用。(2)本研究仅对门诊诊断、入院诊断等单纯性诊断采取语意识别编码,针对信息量巨大的主要诊断,本研究采取了根据主诊断选择原则,关联其他指标信息(手术、治疗方案等)设置逻辑判断,大大增加准确率;(3)本研究始终没有将编码全部交给计算机完成,从设计到最终使用都涵盖了人工编码步骤,提高编码效率并非全权计算机代劳,将效率的提高如果以准确性降低为代价,则失去了编码的真正内涵,因此本研究的质量控制和效果评价环节保证了编码准确率,同时将小部分编码予以人工处理,亦实现提高效率的目标。

图1 智能编码(肿瘤)与质控体系全流程图

Figure 1.Flow Chart of Automatic Coding and Coding Quality Assessment System

3.3 预期社会效益

(1)该肿瘤智能编码系统在肿瘤学领域,通过实现ICD-10智能编码后,可通过ICD-10与ICD-O-3编码对照字典实现肿瘤登记工作中ICD-O-3编码智能获取,使得肿瘤登记工作的准确性、效率也大大提高,中国肿瘤随访登记工作中各类肿瘤的发病、死亡数据准确性也将因此得以提高[13-14];在其它疾病领域,可逐步推广到各类疾病(妇科产科疾病、儿科疾病、心脑血管疾病等),逐步形成一套覆盖全病种智能化编码系统。

(2)用于医院疾病编码,代替人工编码,节约人力投入,高效完成工作的同时可获得标准统一、准确性高的编码结果。将真正具备编码资质与素质的编码人员从重复劳动中解放出来,更专注完成编码质控,并对人工智能编码逻辑进行调校[15-16]。

(3)智能编码替代人工作业的未来,编码员行业准入标准将变得“高精尖”化,无需长期从事单一的编码工作,更多的精力投入到人工智能的培育与训练上。大量并不具备编码资质的人员,将从编码工作中解放出来,从事其他类型工作,医疗机构大大降低了用人成本。

(4)人工智能编码在疾病诊断相关分组(diagnosis-related group,DRG)付费方式下,对区域内病组费用计算更公平,避免区域内编码人员水平差异造成的费用计算波动,利于DRG的推动。

4 结 论

通过该ICD-10智能编码系统及质量评价体系的建立,将构建一套完善的肿瘤专科疾病智能编码系统并逐步推广至全病种疾病;实现完善修正智能编码系统有据可依的定量可视数据示踪体系;构建完善的可量化的编码系统质量控制体系,编码准确率达到95%,最终实现各医疗机构之间疾病编码标准规则统一,降低人为理解偏倚,编码准确率及横向可比性提高,同时节约人力的远期目标。

作者声明:本文全部作者对于研究和撰写的论文出现的不端行为承担相应责任;并承诺论文中涉及的原始图片、数据资料等已按照有关规定保存,可接受核查。

学术不端:本文在初审、返修及出版前均通过中国知网(CNKI)科技期刊学术不端文献检测系统的学术不端检测。

同行评议:经同行专家双盲外审,达到刊发要求。

利益冲突:所有作者均声明不存在利益冲突。

文章版权:本文出版前已与全体作者签署了论文授权书等协议。

猜你喜欢
语意分值准确性
芍梅化阴汤对干燥综合征患者生活质量的影响
语意巧连贯,旧“貌”换新“颜”——从“八省联考”卷探析高考语意连贯题
感知语言形式,探究深层语意——小说的语言特色分析
浅谈如何提高建筑安装工程预算的准确性
理解语境与名句的关系,提高默写的准确性
悄悄告诉你:统计这样考
谁是科创板创值全能冠军
浅析分享时代标志设计的数字化特征
论装饰语汇在油画艺术中的语意表达
影响紫外在线监测系统准确性因子分析