基于CDM的仿真临床大数据教学平台的建设与应用

2021-02-08 13:31万程顾宜卿张昕夏伟郁芸
教育教学论坛 2021年50期
关键词:教学平台

万程 顾宜卿 张昕 夏伟 郁芸

[摘 要] 随着现代信息化技术的发展,医学事业与计算机行业的逐步交叉,医学信息学相关专业由此产生。医学信息工程专业的教学应与实际临床大数据紧密结合。面向医学信息工程等专业课堂实践教学需求,开展了学生关于临床大数据学习态度的调研。根据调研结果基于通用数据模型(CDM)和随机化仿真化技术,生成了大规模核心临床仿真大数据集合,开拓创新地设计了跨课程融通的仿真临床大数据教学平台,并将其应用于实际教学,为学生开展科研培训提供了可靠的训练方式,教学效果得到了明显提升。

[关键词] 通用数据模型;仿真临床大数据;教学平台

[基金项目] 2019年度南京医科大学教育教学研究课题“基于CDM的仿真临床大数据平台的建设与应用”(2019LX072)

[作者简介] 万 程(1979—),女,江苏南京人,硕士,南京医科大学生物医学工程与信息学院讲师,主要从事医学信息学研究;顾宜卿(2002—),女,江苏苏州人,南京医科大学生物医学工程与信息学院2020级智能医学与工程专业本科生,研究方向为医学信息学;郁 芸(1979—),女,江苏南通人,硕士,南京医科大学生物医学工程与信息学院副教授(通信作者),主要从事医学图像处理研究。

[中图分类号] G434   [文献标识码] A   [文章编号] 1674-9324(2021)50-0137-04    [收稿日期] 2021-04-25

一、引言

医学信息工程是一门以信息科学和生命科学为主的多学科交叉与融合的新兴综合性学科[1]。近几年来,醫疗健康大数据的维度、广度和深度都迅速增长。临床大数据驱动的医学新时代将引领医学研究和实践的转型升级,推进医疗卫生产业创新发展[2,3]。

但是,真实的临床大数据来源于患者医院就诊的观察数据,涉及患者个人信息等隐私问题,再加上部分临床数据的不完整性、冗余性和数据结构的复杂性,这些信息往往不能直接用于相关课程的教学和实践活动。因此,迫切需要建设一个与真实临床大数据相近的仿真数据平台,将临床大数据抽取、清理、集成并合理转换,使其适用于医学信息工程等医学相关专业学生的教学学习。

二、方法

(一)通用数据模型OHDSI CDM

临床诊疗数据伴随治愈患者的目的产生,而研究数据旨在发现疾病的一般规律。不同的目的使得分散在多个业务系统(如HIS、LIS、PACS等)中的诊疗数据无法直接进入临床科研数据库[4]。

观察性健康医疗数据科学与信息学(Observational Health Data Sciences and Informatics,OHDSI)计划,是一个由美国哥伦比亚大学发起的,世界性的公益型非盈利研究联盟,主要研究全方位医学大数据分析的开源解决方案,旨在通过大规模数据分析和挖掘来提升临床医学数据价值,实现跨学科、跨行业的多方合作[5]。

通用数据模型(CommonData Model,CDM)是一种标准化的临床数据描述模型。此过程构建以定义数据之间相互关系的通用模型,描述特定信息字段中的概念,以便获得可以在该领域即临床数据中具有概括意义的结果。在CDM的基础上,对临床大数据进行整理后,可以使用相同的分析程序在不同的机构内进行临床大数据分析。进一步地,可以通过标准化整合,得出多中心的、更大范围的、多数据源的观察性研究结论[6]。

在OHDSI的CDM中,由概念表示具体内容,从而使各个临床信息系统的数据规范化,可以实现对真实医学临床大数据的初步筛选。

(二)匿名化与随机化仿真

由于患者就诊数据属于个人隐私范畴,必须通过去隐私化处理,才可以应用于教学过程。匿名化及随机仿真是常见的指删除或修改数据拥有者的个人信息,以及带有敏感属性的明确标识符[7],是数据处理中有效保护隐私信息的技术方法之一。然而,现有的技术大多是先删除身份标识属性,在此过程中,丢失部分的信息可能会影响正常运作[8]。本文围绕慢性病患者的疾病风险预测分析,通过匿名化与随机化技术,建立符合真实的疾病规律和特征的仿真就诊记录,便于面向慢性疾病的临床大数据研究及其他相关工作。

匿名化与随机化对临床数据进行仿真过程主要包括以下步骤:第一,通过随机化映射,在脱敏后的数据集增加仿真的患者个人信息,填补缺漏数据,使得在保护患者真实隐私数据后,仍可以正常进行对疾病数据的初步研究。第二,通过时间轨迹映射,虚拟化就诊数据的时序信息,对患者的真实就诊时间进行调整重排,随机且合理设置仿真时间。第三,通过临床特征映射,进行检验样本的虚拟化,在保护重要特征样本的同时保留数据集中蕴含的临床特征。

在仿真过程中,首先将患者的个人信息按性别、年龄(每10年为1组)分层,每层中分别再各自采用回归预测方法(regression predict method)建立预测模型,倾向得分法(Propensity Score Method)计算原理及其受到干预的可能性,再用蒙特卡罗的马尔科夫链方法(Markov Chain Monte Carlo,MCMC)随机化分析处理变量,对原先临床信息样本中缺失的数据采用多重插补法进行10次插补,并形成5个独立同分布的仿真数据集。

(三)调查对象与方法

1.调查对象:南京医科大学、徐州医科大学、江苏卫生健康学院等医学相关院校部分学生,共680名。其中男生250名,占总人数的36.8%,女生430名,占总人数的63.2%。大一学生413名,大二学生154名,大三学生65名,大四学生11名,大五学生7名,研究生及以上30名。医学相关专业学生380名,医学信息学及智能医学专业学生79名,其他专业学生221名。

2.調查方法:通过问卷星平台发放“关于人工智能结合医学学习的调查”,生成问卷二维码邀请学生扫描后独立填写。本次调查共回收680份问卷,其中有效问卷680份,有效率100%。问卷调查结束后,使用SPSS进行相关统计分析。

3.调查内容:调查问卷主要包括三方面:(1)学生对临床大数据基本知识的了解程度;(2)学生课堂学习与教师教学模式;(3)学生学习结合临床大数据的兴趣及需求情况。

三、结果

(一)大规模仿真教学数据集CDM_SADT

本研究采集了南京医科大学附属第一医院,即江苏省人民医院自2008年1月至2017年6月期间,就诊的糖尿病患者的去隐私化和匿名化脱敏CDM数据,以诊疗过程为中心,采用上述匿名化与随机化仿真方法,建立核心临床仿真大数据集合CDM_SADT(CDM Based Simulated Anonymized Dataset for Teaching)。该集合共包括148624位患者的就诊记录,根据常用的疾病分析与预测模型的需求[9],筛选了21项常用的结构化变量和3项非结构化信息,包括患者的基本信息、既往病史、家族史、用药史、检验检查记录等。

(二)跨课程融通的仿真临床大数据平台SADT_CIDP

南京医科大学于2018年成立了医学信息与工程专业,并于2020年更新为智能医学与工程专业。该专业以现代医学和生物学理论为基础,结合大数据、机器学习、深度学习等相关工程技术,强调医工结合的多元复合型人才培养,采用多模式教学,主要研究医学信息学、自然语言处理、医学人工智能等领域。

该专业开设了多门医学与数据科学、计算机科学相交叉的专业类课程。在构建好的核心数据集的基础上,根据不同课程的需求分别建立了跨课程融通的仿真临床大数据平台SADT_CIDP(SADT Based Cross-curriculum Integrated Data Platform),以满足跨课程融通的临床数据分析教学要求。该平台包括四种数据集,各数据集与课程的相关性见图1。

面向自然语言处理课程的非结构化电子病历仿真数据集(NLP_EHR,Simulated Natural Language Processing Dataset Based on Simulated Electric Health Record),服务于“医学知识表示与处理”“自然语言处理与医学应用”课程,主要被应用于临床病历特征提取、公共健康信息分析、智能健康问答等领域。

面向数据库管理课程的关系型临床观察数据库(RD_CDM,Relational Database Based on Commen Data Model),服务于“数据库管理与应用”类课程,提供仿真临床观察性数据库,培养学生对观察性健康医疗数据的数据库管理能力。

面向统计类课程的疾病风险预测结构化数据集(SD_DRP,Structured Dataset Based on Disease Risk Prediction),服务于医学统计学课程,丰富了课程的实例数据,扩展了问题导向的案例教学的案例集。

面向“智能”类课程的多模态融合数据集(MFD_EHR,Multimodality Fusion Dataset Based on Imulated Electric Health Record),服务于程序设计、深度学习与医学应用、计算机视觉、医学大数据导论等课程,融合了来源于CDM的结构化数据、来源于EHR脱敏后的自然语言文本和医学影像数据,为学生提供深度多模态数据的疾病风险预测案例,为学生开展研究性学习提供条件。

综上所述,不同学科的教学均可通过该平台调用不同类型格式的仿真临床大数据集针对性进行课堂实践运用。

(三)学习态度调查

据问卷调查统计,185名学生在学习人工智能相关课程中使用过基于真实临床大数据的数据集,仅占总人数的27.2%。90.4%的学生提出有兴趣参与基于仿真临床大数据的人工智能与临床医学的交叉研究,97.6%的学生认为使用仿真临床大数据来开展基于案例的课程学习十分有必要(见表1)。由此可知,学生对于使用仿真临床数据辅助课程学习的想法十分强烈。另外,56%的学生也认为在学习人工智能相关知识时,实验中使用的数据集规模应尽量接近真实临床大数据,此时经过特定处理的仿真临床大数据教学平台就为数据集的选择增加了可能性。

(四)教学应用实践

在智能医学工程专业的“程序设计基础(Python)”课程的教学中,课堂基于仿真临床大数据教学平台设计了教学案例——基于既往病史文本的发病年份的提取与分析。在该案例中,运用Python读取病历中的文本,再使用正则表达式提取患者发病年份,并计算程序的准确率,再进一步运用matplotlib库绘图使结构数据可视化。学生在学习用Python程序对txt文本文件处理的同时又真正接触了接近真实的临床大数据,做到了课堂教学与实践练习的有效结合。

通过课后调查得知,个别学生认为完成基于临床数据的程序设计案例存在一定的挑战性,但是90%以上的学生仍然都认同,采用基于临床数据进行程序设计的学习,比采用普通的数据进行程序设计而言更有助于对专业课程的学习。

四、讨论

用于多门数据分析相关课程的实践教学平台为南京医科大学的医学信息工程等专业多门专业课程的教学提供了融通的数据平台,能满足多种复杂的教学需求。平台建设应用实践证明,仿真临床大数据教学有助于提高学生对课堂教学内容的理解程度,接触临床数据也为学生学习增强了模拟效果。总之,该仿真数据平台较好地处理了运用临床大数据在教学过程中存在的隐私保护和数据安全问题,为学生开展科研培训提供了可靠的训练方式。因此,我们将进一步建设为我校医工交叉的其他专业学生培养所需的大数据分析的综合数据平台,使临床大数据在教学中发挥其应有的作用。

(课题组成员:万程、顾宜卿、张昕、夏伟、郁芸、周高信、王俊杰、胡杰)

参考文献

[1]王能河,阮若林,彭微.医学信息工程专业教育发展战略探究[J].黑龙江教育(高教研究与评估),2016(7):11-13.

[2]李慧杰,张晴晴,刘瑞红,等.大数据背景下临床专病数据库建设实践与思考[J].中国卫生事业管理,2020,37(8):574-576+591.

[3]叶永飞,张晓,赵志升.大数据环境下的医学信息学专业课程建设[J].课程教育研究,2015(3):76-77.

[4]李丹彤,梁会营,刘广建.临床科研数据库建设中的数据标准化问题探讨[J].中国数字医学,2021,16(1):29-34.

[5]张昕,缪姝妹,戴作雷,等.临床数据向通用数据模型转换研究及应用实践[J].中国数字医学,2018,13(10):64-67.

[6]Association AD. 8. Cardiovascular disease and risk man- agemen[J].Diabetes care,2016(39):S60-S71.

[7]程德生,万晶,宋国彩,等.中医药大数据云服务平台的医疗数据安全隐私保护设计[J].网络安全技术与应用,2021(2):122-124.

[8]史婷瑶,马金刚,曹慧,等.医疗大数据隐私保护技术的研究进展[J].中国医疗设备,2019,34(5):163-166.

[9]Yusuf S, Joseph P, Rangarajan S, et al. Modifiable risk factors, cardiovascular disease, and mortality in 155 722 individuals from 21 high-income, middle-income, and low-income countries (PURE): a prospective cohort study[J].The Lancet,2020,395(10226):795-808.

猜你喜欢
教学平台
校企合作模式下职校机械专业教学平台建设研究
全程全网通信电子演示系统研制
医学英语教学平台的设计理念及RSS技术的应用
基于构建主义的数学实验课程三级教学平台的构建
“教赛融合”在“虚实结合”教学平台建设中的作用
数学实验云计算辅助教学平台的建设初探
专业学位研究生职业危害控制技术课程创新型教学平台建设研究
基于WordPress构建项目化课程教学平台的研究
数字积分法插补仿真实验教学系统开发
医药类专业化学实验微视教学平台的构建