基于卷积神经网络与长短期记忆网络的医学影像数据管理方法研究

2020-07-08 11:25黄江珊王伟丽
医学与社会 2020年6期
关键词:医学影像病案结节

黄江珊 高 娃 宿 静 王伟丽

上海城建职业学院,上海,201415

海量医学信息的数字化和就诊流程的电子化,适应了人口迅速增多、老龄化趋势加快、慢性病患者群体增长的社会现状[1]。与此同时,医学影像数据迅猛增长,医学影像数据能够为医生的疾病诊断提供关键性的决策支持,但目前大多数的CT、MRI、X光片、B超、彩超等医学影像信息只是经过简单的储存、提取和统计,用于满足基础的查询检索需求,而大量蕴含价值的医学影像数据没有被有效利用起来,造成严重的信息资源浪费,医疗工作者也很难从以往珍贵的患者影像中挖掘出更多有研究价值的信息,从而达到预测疾病的发展趋势和发现其中隐含的规律等目标[2]。为此,本研究借助卷积神经网络(Convolutional Neural Network,CNN)与长短期记忆网络(Long-Short Term Memory,LSTM),提出医学影像数据管理的一般方法,将复杂的医学影像通过模型的自动学习转化为可供直接利用的文本诊断数据(病情描述和病情诊断),采用统一的DICOM标准(Digital Imaging and Communication in Medicine,医学数字图像和通信),在同一信息模态下关联患者信息、病案信息,以期实现医学影像数据的深度管理开发与利用,为后续的临床病例诊断提供参考。

1 资料来源与方法

1.1 资料来源

医学影像主要包括CT、MRI、X光片、B超、彩超等,多用于检查人体的胸、脑、肺、乳腺、肝脏、甲状腺等部位[3],伴随着医学影像的生成,患者的姓名、年龄、性别、看诊时间等文本信息等也会记录保存下来。本研究中的患者信息包括:患者ID、姓名、性别、年龄、身份证号、家庭住址、联系电话、就诊时间、门诊号码、住院号码、就诊科室、检查部位、检查技术、初诊疾病、影像信息、检查结论等[4]。医学影像及诊断信息常存储于医院不同类别的医学影像数据库及信息系统中,而本研究主要是基于江苏大学附属医院信息科提供的医学影像数据。

1.2 研究方法

本研究利用CNN-LSTM对医学影像进行自主学习,以识别甲状腺良性、恶性结节为例,具体过程包括:数据采集、数据加工、数据组织、数据的关联存储、数据应用5个阶段,其中数据组织与数据的关联存储阶段是本文重点。将经过CNN-LSTM提取过特征的海量影像数据有序组织,生成结构化的医学影像描述和医学诊断(标签),具体思路如图1所示。

本研究采用深度学习中具有代表性、应用范围最广的CNN,融合主流处理时序数据的LSTM,利用CNN-LSTM即可挖掘低层次图像特征并能有序组织这一特性对医学影像进行自主学习,以识别甲状腺良性、恶性结节为例[5],对医学影像及诊断信息进行组织管理,再将医学影像、患者信息、病案信息以及病种信息关联存储,为医学影像管理提供一般方法的同时,为医学影像数据的进一步开发与利用提供了信息保障。

图1 医学影像数据结构化流程

2 结果

2.1 数据采集

在对医学图像进行数据处理前,为了使医学影像的识别精度更高、实际操作更具有可行性,本研究选取患者甲状腺结节部位的B超影像作为样本数据。

从成像设备中采集到的医学影像包含着大量的噪声。为精准地分割、检测甲状腺结节,需要进行去除图像中的噪声,增强图像中结节区域。基于江苏大学附属医院信息科提供的医学影像数据来源,在实验数据准备阶段,图像数据集被分割为训练集和测试集,以便最后得到识别模型的最佳参数[6]。首先,读取甲状腺结节的B超数据,包括至少5000张良性结节的图像和至少5000张恶性结节的图像;其次,对甲状腺结节图像进行预处理,进行图像灰度化,并利用周围像素点的灰度值去掉超声图像中医生为测量结节相关量做的标记,利用高斯滤波去噪;最后利用灰度直方图均衡化增强对比度,得到预处理后的增强图像。

2.2 数据加工

选取需要训练的医学图像,利用CNN自动学习分割出结节部分与非结节部分,结节部分就是感兴趣区域,这个过程就叫做提取感兴趣特征,接着并对结节形状进行细化。首先选取经过预处理后的增强图像10000张,包括良恶性结节各5000张。其次对每一张图片,首先手动截取出结节部分与非结节部分,然后通过CNN训练出适合甲状腺良恶性结节识别的CNN-LSTM模型,模型结构如图2所示。

图2 CNN-LSTM混合模型结构

该混合模型是由13层卷积层、2层下采样层组成的,卷积层的卷积核的大小分别为:第一层为13×13,第二层与第三层为5×5,其余各层为3×3。卷积层的步长分别是:前两个卷积层是2,其余的都是1;下采样层的大小都是3×3,步长都是2。

通过设计好的CNN的卷积层与下采样层自动学习特征,并提取出特征,并利用这些提取好的特征结合Softmax函数自动识别出结节,确定好自动分割的模型。利用CNN自动分割所有甲状腺的结节,即区分出结节区域与非结节区域,找到结节区域的边界,并对分割出的结节形状进行细化,即通过腐蚀、膨胀形态学算子进行填洞以及去掉与非结节区域的连接[7]。

最后利用步骤二得到的模型对所有的甲状腺结节图片进行自动分割,得到感兴趣区域,即所有的良恶性结节。

2.3 数据组织

将自动分割出的感兴趣区域平均分成P组,对数据进行归一化,即自动分割出结节后,提取出这些结节的特征,对这些特征进行线性变化,使结果值映射到[0,1]。选出p-1组数据做训练集,剩余一组做测试,通过CNN训练出识别模型进行测试。

LSTM由若干个循环连接记忆块构成,每个记忆块都至少包含一个记忆细胞,同时还具有输入门,消除门和输出门这3个控制信息的开关[8]。记忆细胞具有记忆某一时间段信息的特点,因此LSTM通过记忆之前某一时刻的文本信息,可以充分学习事件上下文信息内在关系,以实现深入发掘信息文本序列中内在有序性的目的。

基于LSTM与Softmax分类器对提取后特征后的医学影像进行结构化时序组织用于分类识别,将CNN分割与特征提取后的归一化向量,作为全连接层后的LSTM的输入。LSTM会充分挖掘围绕医学影像的抽象序列关系特征,将经过CNN标注后图像生成的向量进行特征合并,组合生成具有时序特征的字符描述。最后将LSTM输出的特征信息输入Softmax分类器中,实现对疾病的分类识别,具体如图3所示。

图3 CNN-LSTM模型流程

在分类识别过程中,因为结节的良恶性作为结果互斥,不适合采用组合分类器,所以本文利用一种Softmax分类,该模型由logistic线性模型演化而来,logistic模型常用于处理两类分类问题,而Softmax分类器主要用于解决类别数(c≥2)的多分类问题[9]。但由于本文案例中的甲状腺结节只有良性、恶性之分,故采用只有两分类的Softmax分类器,求解一个损失函数的最优值,Softmax分类器的类别数等于2。Softmax识别过程输出一个概率值,当损失函数中的指示性函数的值为真时,结果为1,否则结果为0,将结果值映射到[0,1]。根据Softmax给出的概率可以得到将所有的结节区域与非结节区域区分开的一个概率图。通过梯度下降方法就能得到属于良性结节还是恶性结节的概率。重复进行测试,做对于P组数据,每次选出P-1组数据训练,余下的做测试,得到识别模型的最佳参数,最终确定基于CNN自动识别甲状腺结节良恶性的识别流程。

2.4 数据关联存储

采用CNN-LSTM模型对医学影像进行组织管理,最终要通过某种媒介或载体存放挖掘过的医学影像数据,还要实现对医学影像数据、患者信息和病历信息等文本数据的关联储存和管理,将医学影像的智能识别与其他文本信息结合,为病情描述、病情诊断等结构化数据的形成提供数据保障。同时只有将数据关联存储好,才能让医学影像数据分析的价值得以实现,更好地服务于医疗和社会。

基于DICOM标准建立MIID(Medical Image Intelligence Database,医学影像智能数据库),该标准是为了实现不同医学影像设备之间的数据通信而制定的关于医学图像和相关信息领域的国际标准[10]。MIID是用来储存大量医学影像并可以进行调用、查询等功能的系统,为实现图像信息应用提供了基础平台,也是医学影像存档和通信系统、医院信息系统和其他医学影像信息系统的重要组成部分。MIID医学影像智能数据库是基于DICOM 标准,结合医学影像存档和通信系统设计搭建的。MIID是由DICOM 接口模块、用户接口模块和医学影像智能数据库构建三部分组成。

2.4.1 接口模块。DICOM 接口模块输入联机的医学影像,提供符合医学数字影像通信标准DICOM的接口,实现各种医学影像设备之间进行数据交换,例如:断层摄影CT设备、核磁共振成像MRI设备、超声波检查设备、胶片数字化系统、视频采集系统和医院信息管理系统等。

2.4.2 用户接口模块。用户接口模块主要负责与医院的门诊系统、放射科成像系统、信息科内部的集成平台等关联起来,提供患者信息、病历信息的录入与查询,医学影像的显示、检索、归类、处理,会诊结果查询等。

①影像归档。根据不同影像各自的类型,将输入的医学影像归档到对应的目录下。

②影像检索和查询。根据患者姓名、身份证号、门诊号码、住院号码、就诊部位、检查时间等检索项进行检索,查询并显示检索后的信息。

③影像文件的处理。采集影像文件,可以实现影像的黑白翻转、影像增强、任意放大裁剪、调节影像显示模式等。对影像进行预处理、基于深度学习模型提取特征信息、识别分类影像文件。通过计算机网络保存影像文件到智能影像数据库。

④影像文件格式转换。将B超、彩超等影像文件格式转换成BMP、JPG、TIF等文件格式。

⑤病案信息、患者信息的录入。伴随着患者影像的生成,病历信息、患者个人信息也应被一同录入用户接口,在数据库内部实现彼此的数据关联,利用唯一的主键将患者信息、影像信息等联系在一起;

⑥影像、文本等信息的删除。若发生录入信息错误,图像归类失误的情况时,可进行删除操作,也可减少占用数据库空间。

2.4.3 智能数据库构建。采用统一DICOM通信标准,建立患者信息表、影像信息表、病案表和链接表,在智能数据库中实现同一信息模态下影像信息与患者信息、病案信息的关联,为后期医疗大数据的分析利用提供信息基础。

①患者信息。DICOM标准中涵盖了以数据元素的形式的各类数据。一个数据元素是由标签(Tag),值类型(Value Representation,VR),值长度(Value Length)和值(Value Content)4个部分来组成[11]。设计数据库表-患者信息表(Patient Table),具体如表1所示。

表1 患者信息

②影像信息。不同格式的影像文件通过DICOM接口传输到智能影像数据库,包括图像编号、图像UID、图像类型、图像宽度、图像高度、窗位、窗宽、字节顺序等。设计数据库表-影像表(Image Table),具体如表2所示。

表2 影像信息

③病案信息记录的是病人每一次就诊产生的病案记录,设计数据库表-病案表(Illness Table),具体如表3所示。

表3 病案

④关联信息。以BMP(Bit MaP)、JPG(Joint Picture Experts Group)、TIF(Tagged Image File Format)等格式影像、扫描仪生成影像为代表的影像信息、患者信息、生成的病案信息等关联在一起加入到影像数据库。

为了实现让影像数据、患者数据、病案数据进行关联,设计数据库表-链接表(Link Table),如表4所示,将影像UID、患者ID、病案ID关联在一起,以便下一步的对医学数据的开发与利用。

表4 链接

3 讨论

借助CNN-LSTM对医学影像进行有序化组织,将未标注的非结构化的医学图像转化为结构化的文本数据,基于DICOM标准将影像数据与患者信息、病案信息、病种信息关联起来,对非结构化形式的医学影像数据进行有效管理与挖掘,为医学影像管理提供一般方法的同时,为医学影像数据的进一步开发与利用提供了信息保障。医学影像数据应用主要包括智能医疗辅助诊断的推动与发展、医学影像元数据格式与传输标准的规范、人类流行病的预测预防、个人健康档案的构建这4个领域。

3.1 医学影像数据可应用于智能医疗辅助诊断

近年来,国内外正处于人工智能医疗的风口,我国相关国家部门相继出台政策及措施鼓励支持人工智能医疗的发展[12]。本研究在这此时代背景下,借助深度学习模型,深度开发利用医学影像数据的有用价值,将训练好的数据集与患者信息、病案信息、病种信息等多模态医疗数据关联存储在数据库中,这为智能诊断辅助平台实现对患者病情的智能诊断提供了信息保障,可以减少医生读片时间,提高医生判定的准确率和工作效率,降低临床漏检率,协助医生诊断;同时可以对疾病进行监控、预测、预防与诊治,提早发现潜在疾病与易复发疾病,及时得到医疗救治。

3.2 医学影像数据可应用于医学影像元数据格式与传输标准的规范

本研究中的医学影像、患者信息、病案信息以及病种信息的交互与关联都是基于统一的DICOM标准,但目前不同承接商为了满足不同医院的信息需求,建设的业务模块都是以分散的模式存在的,医院各信息系统设计的标准不尽统一,很难实现同一医院内或不同医院间集成管理与资源的共享、共建。因此,统一医疗信息标准,规范医疗元数据格式十分重要,这不仅可以提倡多方参与标准管理工作,还可以完善医疗大数据标准管理平台、促进医疗大数据标准体系的建立与施行。

3.3 医学影像数据可应用于人类流行病的预测预防

人工智能在进行疾病的筛查和预测过程中,可以通过影像检查结果中去发现疾病的端倪,从而实现对流行病的预测预防。通过统一的患者ID将患者信息、病案信息、病种信息与医学影像信息四者关联起来,利用海量医疗大数据优势,其中涵括的患者年龄、地址、发病预兆、诊断结论等信息为后续疾病预测有着极大的借鉴作用。

同一医院的历史医疗数据或是不同医院间某类疾病的医疗数据,对其加以整合利用,让计算机工具主动学习医疗数据中蕴含的内在规律,训练好的辅助诊断工具可以在对患者进行疾病诊治时,察觉患者的潜在疾病风险,对易发生疾病加以预防,也可以培养居民个人健康习惯。

3.4 医学影像数据可应用于个人健康档案的构建

面向个人健康是未来医疗事业发展的重要方向之一,2009年我国卫生部发布试行数据集编制规范,其中对数据集元数据描述规则、数据元分类代码进行了规范[13]。本研究对医学影像等信息统一描述,规范其元数据格式,在数据采集过程中,对医学影像及其医疗信息的采集标准进行了要求;在数据关联存储环节中,对各医疗数据的元数据命名作出统一规范。医学影像数据管理方法的提出,有利于居民对自身的健康状况、身体变化过程进行统一规范记录,对社会个人来说,可以及时预防预测自身的健康状况,抵抗患大病、慢性病风险;对于医务工作者,可以为患者提供直接准确个性化的诊治和预防医疗服务。

4 结论

目前医学影像数据管理在实际应用层面,特别是在基层中小型医院,仍因多种复杂因素,只是对医疗信息系统建设与管理的进一步完善或单一疾病医学影像数据库的构建进行研究[14],不能实现对医学影像数据的有效利用与开发,借助新兴的CNN-LSTM,基于DICOM标准对医学影像数据进行采集、加工、组织、存储、利用,将其转化为结构化的文本诊断数据,可进一步为非结构化医学影像数据管理与智能诊断的有效结合提供信息保障,推动智能医疗事业的发展,同时也为医学影像数据的管理提供一种一般方法。但本研究也存在着一些不足,深度学习方法的过程不可见,训练时间过长,缺乏普适性,无法拆解出具体的智能化业务规则,而且高度依赖标注好的图像数据;此外,临床需求复杂,花费大量精力训练好的数据不能完全保证精准度,若发生误差,医生再进行复检,也是对医疗人力的一种消耗;因缺乏统一的质量评估框架,各大医院采集到的数据存在着大量的噪声[15],建立行业类规范科学的医学影像标准迫在眉睫。

国际上运用深度学习模型进行病情诊断处于应用起步阶段,大多数公司的人工智能产品还处于研发打磨阶段[16]。本研究从图书情报领域出发,立足于对医学影像数据的管理与利用,利用深度学习模型CNN-LSTM,以甲状腺良恶性结节B超影像为例,将非结构化的医学影像转化为可直接利用的文本诊断数据,在同一模态下与患者信息、病案信息关联起来,通过CNN自主学习特征的优势,对海量的医学图像大数据进行加工与组织,再将训练好的数据集储存在MIID数据库中,当未标注的医学影像输入辅助诊断系统中,可输出结构化的文字病情诊断描述,这为医学影像数据的管理提供了一般方法,也削减了医生读片时间,提高医生判定的准确率和工作效率,降低临床漏检率,协助医生诊断。

猜你喜欢
医学影像病案结节
结合多层特征及空间信息蒸馏的医学影像分割
医学影像技术在医学影像诊断中的合理运用
基于二维码的病案示踪系统开发与应用
乳腺结节状病变的MRI诊断
肺结节,不纠结
发现肺结节需要做PET/CT吗?
影像组学在核医学影像中的应用进展
试析病案管理中预防病案错位发生的方法
体检查出肺结节,我该怎么办
介入性超声医学影像在临床中的应用