真实世界下中风病术语编码研究方案初探*

2015-04-11 03:15董兴鲁曹克刚
中国中医基础医学杂志 2015年4期
关键词:中风病真实世界术语

董兴鲁,曹克刚,高 颖

(北京中医药大学第一临床医学院,北京 100700)

真实世界下中风病术语编码研究方案初探*

董兴鲁,曹克刚,高 颖△

(北京中医药大学第一临床医学院,北京 100700)

通过对真实世界下中风病术语进行研究,从标准化术语收集与分类整理、编码规则制定、真实世界下术语的引入和完善机制的建立等角度,制定以真实世界下中风病术语编码的方案,以期为大数据时代的真实世界中风病临床科研信息一体化工作提供一座沟通真实世界下丰富术语与计算机储存的标准化术语的桥梁,从而为有效地分析、利用数据提供帮助,促进真实世界下中医临床科研的发展。

真实世界;中风病;术语编码

数据作为中医临床科研的重要导向,是指引真实世界下中医临床科研方向的关键[1],而随着信息技术的不断发展和大数据时代的到来,临床信息数据的获取日益便捷[2],医院信息系统(HIS)、电子病历系统(EMR)、实验室信息管理系统(LIS)、影像归档和通信系统(PACS)在临床中广泛应用,为临床科研信息共享和全面获取真实世界下患者的信息提供了充分的技术支持。但大数据时代下真实世界中的丰富海量信息在为临床决策提供有效数据支持的同时,也带来了一个新的问题,即如何将真实世界中海量的非结构化信息高效、规范、全面地利用,为中医药临床科研服务。现在医院主要通过结构化的术语录入以实现临床信息的机构化储存[3]和为数据挖掘分析服务,这就要求临床医生必须人工地将真实世界下的信息转化为结构化、标准化的术语,并进行录入、储存,这不但降低了临床大夫工作的效率,还会出现数据清洗量大、挖掘困难等问题,同时在实际操作中也存在一定的质控问题[4]。要解决这些问题的关键在于将真实世界中丰富多彩的中医语言转化为数据统计、挖掘分析所需的,机器能够直接识别的标准化中医术语,优化录入、存储过程。

1 研究背景

这一工作包括架构术语分类,明确术语定义、内涵和外延,创制适用于机器语言识读术语编码体系,编纂字典等多方面,其中术语编码体系的创制对整个临床科研系统尤为重要。为此,我们在“2012中医药行业科研专项《全国中医医疗与临床科研信息共享的推广应用研究》课题资助下,开始对真实世界下中风病术语进行归类、定位、分层、分级、编码的工作,以期搭建一条沟通真实世界下丰富术语与计算机储存的标准化术语的桥梁,从而为更有效地实现临床科研信息共享和中医大数据分析提供资源,从而促进真实世界下中医临床科研的发展,故就以下研究方案开展工作。

2 中风病术语编码体系框架搭建

真实世界下的中风病术语编码体系是一个开放的编码体系,因此其研制的关键在于体系框架的搭建,这个体系既要与现有的计算机体系对接良好,并考虑到未来信息集成平台搭建的需要,因此要考虑到机器语言与自然语言的衔接情况,还要有丰富的内涵和外延,从而在实现对真实世界下中风病术语的兼容对应的同时,实现自我完善的功能。因此,简洁、稳定且定位明确的编码体系搭建是其工作的关键。我们选择使用标准化的中风病术语时,借助行业标准在《卫生信息数据集分类与编码规则》的编码法则,对标准化术语进行编码,从而搭建中风病术语编码体系框架。

2.1 标准化术语的收集与分类整理

标准化术语的收集主要有三个来源:一是基于既往完成的973国家重点基础研究发展计划“缺血性中风病证结合的诊断标准与疗效评价体系研究”的成果“中医四诊信息调查表”和“中风病临床信息采集规范”,将其中涉及的症状、体征、舌象、脉象、证候、治则、治法等术语内容进行收集;二是基于古今中医书籍,依靠专家指导提取、收集其中与中风病相关的术语;三是基于西医国际标准、国家标准、行业标准中所附的术语集与中风病相关内容,收集中风病标准化术语。

在完成上述工作后,通过专家论证会的形式,对收集到的标准化术语进行筛选整理,形成《中风病标准化术语集》初稿,之后借助课题组专家库资源网络,使用专家问卷形式,从明确术语内涵及外延、统一多词一义和一词多义的主从关系、属于分级、删减已淘汰或不适宜术语、增添遗漏术语及明确术语所属分类和分类增删的角度,广泛征求全国各地中医院、中医学院的中风病和术语学专家的意见,反复多轮,在取得共识后进入下一步工作。

2.2 编码规则的制定

术语的编码是计算机识别和定位术语的惟一凭借,术语编码的优劣将是整个系统能否在临床科研信息共享系统中顺利应用的关键,为此我们选择参照由卫生部卫生标准委员会卫生信息标准委员会2009年颁布实施的《卫生信息数据集分类与编码规则》(后简称《规则》)[5],为中风病术语编码体系搭建编码体系。

2.2.1 总体编码位置结构设定 基于《规则》中对各级类目的定义和分类码位结构的规定,将第1位定为不同的分类,依据上一步工作中专家统一的术语分类情况,按顺序自A至Z依顺序排列;第2位根据分类中子分类在01~99之间进行顺序取值;第3位则是选取子分类中的上位术语自01~99中顺序取值;第4位若是上位术语本身则为00,若为其下位术语则在01~99间顺序取值;最后一位为同义词,若为主词则取00,若为同义词在01~99间取值。

表1显示,其中第1和第2、3位为术语一二级分类码,这两类分级条目来自之前进行的术语分类工作,而第4、5位的术语编码是术语定位码,主要用来明确同一术语内涵范畴下的术语群中每个标准化术语内涵在计算机系统中的读取、编译的实际位置。也就是说,这一步的主要目的是将真实世界下的内涵确定而自然语言多样术语群的信息编译、转化成机器语言,其分组方式和关联产生是前瞻性的,故此步工作须在专家反复论证后,经过实际临床调研得出,保证准确性和一致性的统一,在必要的时候可以考虑因时因地因人制宜的对真实世界下术语归属进行调整,但须保证的是术语内涵和术语定位码的稳定一致;最后6、7位的分层码和8、9位的同义术语码则是真实世界下术语多样化的体现,既满足了最终术语定位的准确惟一,又实现术语间外延的关联。

通过上述码位设定,将术语本身的内涵定位与外延关联相结合,把数据挖掘分析所需的标准化术语与真实世界下海量术语的定位,从散乱随机转化为有序、关联,从复杂多向性转化为线性,从而能符合机器语言,特别是常用的结构化查询语句(SQL)的要求[6],实现真实世界信息向结构化数据的转化。

表1 术语集主分类码位结构

图1 术语编码方案举例

2.2.2 编码方案及举例 基于码位设定的规则,我们拟就一个示例来说明具体的情况。图1显示,汗出情况是症状范畴中所采集问诊信息中的一部分,而汗出作为一个内涵丰富,可用于数据挖掘分析的标准化术语范畴,根据之前制定的分类方案,可将其分入症状下的问诊中,给予1-5号码位的对应编码如A0302。由于汗出是总述汗出情况这一内涵的术语,故在分层码和同义词码的位置上均应给予00,最后汗出的编码便是A03020000;对于自汗这一从归属于汗出范畴的术语,其分类码和定位码应与汗出一致,而作为从属于汗出的下位词,在分层码的码位要予以提示如赋予01,又因为自汗本身是一个标准化的术语,也是“不因劳累活动,不因天热及穿衣过暖和服用发散药物等因素而自然出汗的表现”这一含义的标准化体现[7],故在同义词码处赋予00,最终编码为A03020100;再论自汗出,这一从属于自汗范畴的术语,与之同义的真实世界下的临床术语,其分类码、定位码和分层码自然都应与自汗一致,而在同义词码上特异性定位,如赋予01的同义词码,最终编码记为A03020101。

3 真实世界下术语的引入

中风病术语编码体系框架仅是真实世界下中风病术语研究所需的工具,其真正所需要完成的是借助大数据时代对术语提取、采集的便利,按照前瞻性、既定的规则将真实世界下的中风病相关术语依据体系的要求一一纳入、编码及储存。

3.1 纳入标准与方式

虽然我们研究的对象是整个真实世界下的中风病术语,但是基于临床科研信息共享的思想,信息、数据转化所需和优化工作量、提升效率的角度,我们认为应制定一定的术语纳入标准,在临床中所需的术语不被遗留的情况下,保证目前计算机和网络带宽环境中维持系统运行效率和降低术语关联提取分析的难度,具体的纳入范围如下。

既往完成的《中风病中医术语集》中的全部术语;根据中风病相关书籍文献的检索整理情况,纳入其中的全部术语;根据各中风病临床研究基地的临床科研信息共享系统中非结构化录入的内容,根据专家意见,选择出现频率达到要求的术语。

图2显示,借助专家问卷的形式,收集临床大夫所需的术语内容,通过一致性检验,按照一定要求纳入适合的术语。具体的纳入方式及工作技术路线如下。

图2 术语纳入方式及工作技术路线

3.2 完善机制

真实世界下的术语研究是不是一成不变的,是需要随时补充完善的,要做到这一点,关键在于建立一个完善的术语补充纳入和剔除机制,从而保证整个术语体系能够与时俱进地满足临床、科研的需求,并能防止大量冗余术语常年积存,影响术语体系效率。这个机制主要包括补充和剔除两方面。

3.2.1 补充 每月对临床科研信息共享系统中非结构化术语进行分析整理和提取;每个季度对新增文献进行汇总整理,将其中符合纳入标准的术语进行编码、纳入。

3.2.2 剔除 借助临床科研信息共享系统,每年对系统前后台术语的利用率进行统计分析,筛选出使用率低的条目(此项工作要求在共享系统全面应用后进行,以避免误删、误剔)。

除此之外,每年进行专家问卷与会议相结合的方式,对当年增删的术语进行审核,必要时对术语字典修订再版。

4 结语

随着大数据时代的到来,新的技术革命再次开启,信息的收集、转化数据及数据储存、挖掘、分析工作的方式和观念需要转变;大样本量临床数据,特别是真实世界下中医临床数据的获取会在临床科研信息共享系统和信息集成平台的帮助下变得日益简单,从而更好地为临床决策提供数据支持,而实现真实世界中自然语言与计算机定位识别所需的机器语言的统一和转化为以上工作提供了重要帮助。

本研究以中风病为出发点,通过探讨真实世界下中风病中医临床研究所需的术语收集整理规则,中风病术语编码体系形成、完善及字典编纂的工作方案,向大家展示一整套研究的流程,以期获得同道的认可,同时也希望能获得更多的修改意见,最终能在一个相对成熟方案的指导下,完成这份真实世界下中风病术语收集整理、编码成典工作,从而为大数据时代医院信息集成平台和行业内临床科研信息共享平台的建设,中医药领域的数据库建设和数据挖掘等研究工作的开展提供有切实作用的工具,从数据这一中医临床科研的导向入手,为中医临床科研的发展做出自己的贡献。

[1]刘保延.真实世界的中医临床科研范式[J].中医杂志,2013,6:451-455.

[2]蔡佳慧,张涛,宗文红.医疗大数据面临的挑战及思考[J].中国卫生信息管理杂志,2013,4:292-295.

[3]宋红梅,刘保延,何丽云,等.基于中医药临床科研一体化的数据挖掘需求与数据前处理方法[J].中国中医基础医学杂志,2011,12:1323-1324.

[4]宋红梅,刘保延,何丽云,等.电子病历中医科研数据采集过程中质量问题及对策[J].中国中医基础医学杂志,2011,9: 955-956.

[5]中华人民共和国卫生部.25595——卫生行业标准.卫生信息数据集分类与编码规则[S].2009.

[6]袁俊娥.机器语言的主位结构分析[J].科教导刊(中旬刊),2012,5:124-125.

[7]王永炎,梁菊生,朱建平.中医药学名词[M].北京:2005.

R255.2

A

1006-3250(2015)04-0424-03

2015-01-15

中医药行业科研专项(201207001);北京中医药大学创新团队项目(2011-CXTD-22)

高 颖,教授,主任医师,博士研究生导师,从事神经内科的临床与研究,Email:gaoying973@126.com。

猜你喜欢
中风病真实世界术语
多替拉韦联合拉米夫定简化方案治疗初治HIV感染者真实世界研究
参麦宁肺方治疗223例新冠病毒感染者的真实世界研究
基于真实世界证据的人工髋关节假体临床使用研究
基于真实世界研究分析输尿管软镜手术前留置输尿管支架管的必要性
缺血性中风病复发危险因素中西医的研究进展
探析古今中风病的发病机制
基于混沌和替代数据法的中风病人声音分析
补肾活血祛瘀方治疗中风病恢复期100例
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势