深度学习在阿尔茨海默病分类诊断中的应用

2023-02-14 10:31杜昱峥聂永琦魏德健冯妍妍
计算机工程与应用 2023年3期
关键词:卷积模态神经网络

杜昱峥,曹 慧,聂永琦,魏德健,冯妍妍

山东中医药大学 智能与信息工程学院,济南 250355

阿尔茨海默病(Aizheimer’s disease,AD)是一种以认知功能障碍为主要临床特征的神经系统退行性疾病[1]。目前常规的诊断方法是由医生利用专业知识与临床经验判读脑神经影像,诊断效率依赖于医护人员与图像采集设备等医疗资源水平,可能因病患信息无法及时反馈导致漏诊、误诊。因此,众多学者开发先进的计算机辅助诊断(computer aided diagnosis,CAD)系统,辅助临床医生提高AD诊断效率与早期预测准确性。

近年来,以深度学习方法为基础的CAD系统在帕金森病、肌萎缩侧索硬化症以及AD等神经退行性疾病诊断中取得了显著成果[2-4]。深度学习方法通过构建深层次网络自动提取图像抽象特征,并在网络架构、全局或局部上下文信息提取、特征多尺度融合等方面进行改进,从而实现对受试者正常衰老类(normal control,NC)、进展型轻度认知障碍类(progressive mild cognitive impairment,pMCI)、稳定型轻度认知障碍类(stable mild cognitive impairment,sMCI)和阿尔茨海默病类(AD)四个不同阶段[5]的分类诊断。随着计算机视觉技术的发展,深度学习方法在图像处理领域应用越来越广泛,先后涌现出许多经典神经网络,特别是卷积神经网络[6](convolutional neural network,CNN)。CNN是一类包含卷积计算且具有深度结构的前馈神经网络,通过端到端的学习方式挖掘图像深层特征,无需人工操作复杂的特征提取。CNN及其衍生模型在AD患者的病程诊断、早期预测领域展示出极大的应用潜力[7-9]。

本文首先整理了阿尔茨海默病研究常用的数据集,其次介绍了基于深度学习的AD分类诊断方法,将其按照经典深度学习网络模型的改进工作依次阐述;然后介绍深度学习网络模型的可解释性,以及对不同方法与改进思路的优劣势进行对比分析;最后结合深度学习在AD辅助诊断领域面临的挑战,对未来研究方向进行展望。

1 数据集

数据集是开展深度学习研究的重要因素之一。近年来,随着医疗信息技术的发展,大规模、标准化的神经影像数据集为深度学习在AD辅助诊断领域提供了支持。现全球公开数据集的数据样本丰富,研究人员可根据工作需求选择对应数据集的单模态数据或联合多模态数据构建辅助诊断模型。通过AD相关期刊的论文报告和相关开源数据集网站对近年来有关AD数据集进行整理和介绍,表1总结了阿尔茨海默病研究常用数据集。

表1 阿尔茨海默病研究常用数据集Table 1 Commonly used datasets of Alzheimer’s disease research

1.1 ADNI

ADNI[10]数据集分为:ADNI-1、ADNI-GO/2、ADNI-3三个阶段。该数据集包括1 800多名受试者的磁共振成像(magnetic resonance imaging,MRI)、正电子发射断层成像(positron emission tomography,PET)、扩散张量成像(diffusion tensor imaging,DTI)、脑脊液生物标志物以及基因生物标记物数据等其他相关诊断信息。

1.2 OASIS

OASIS数据集包括OASIS-1、OASIS-2及OASIS-3三阶段。OASIS-1提供416名18岁至96岁的参与者的横断面扫描成像[11],每个参与者的每单次收集包括3或4个单独的T1加权MRI扫描。OASIS-2提供150名60岁至96岁的参与者纵向扫描成像集合,每个参与者的收集次数为两次或以上,访问时间间隔约为一年,共计收集373次扫描成像[12]。每个参与者的每单次收集包括3或4个单独的T1加权MRI扫描。OASIS-3提供1 098名42岁至95岁参与者的不同扫描序列MRI以及来自不同示踪剂的PET的回顾性汇编[13]。

1.3 AIBL

AIBL[14]数据集是一项对1 112名健康、MCI和AD患者的纵向研究,同时定期进行随访和评估,周期为18个月。所有数据来自两个中心(40%的受试者来自西澳大利亚的珀斯,60%来自维多利亚州的墨尔本)进行收集,影像数据主要包含MRI、PET等。

1.4 MIRIAD

MIRIAD[15]数据集对46名轻中度AD受试者和23名对照者进行纵向容积T1结构MRI扫描。在规定的时间间隔内(0、2、6、14、26、38和52周,以及18和24个月),使用相同的设备总共进行798次扫描,AD患者总共2 199个扫描对,对照组总共1 182个扫描对,另外还包括性别、年龄和简易精神状态量表等相关临床信息。

1.5 NACC

NACC[16]数据集汇集美国29个阿尔茨海默病研究中心合作建立的统一900多个数据元素,按不同的数据集和元数据分组,包含68个数据元素(如种族、教育、性别、诊断、中风、抑郁症、DNA可用性、组织可用性、MRI可用性等)。

2 深度学习在AD分类诊断中的应用

深度学习作为机器学习的分支,通过端到端的学习方式从庞大的训练样本集中自动提取神经影像抽象特征信息从而获得高精度的分类诊断模型。本章将深度学习在阿尔茨海默病分类诊断中的应用方法按照基础神经网络架构分为6类,具体方法见图1,重点总结卷积神经网络与多网络融合的AD分类诊断方法。

图1 深度学习在AD分类诊断中的应用方法Fig.1 Application of deep learning in classification and diagnosis of AD

2.1 卷积神经网络

卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,由输入层、卷积层、池化层、全连接层、输出层组成,其基本网络结构如图2所示。CNN及其衍生模型在AD患者病程诊断、早期预测领域具有极大的应用前景。根据卷积核的维数可将CNN方法分为2D CNN与3D CNN,两者结构对比如图3所示。

图2 卷积神经网络结构图Fig.2 Convolutional neural network structure diagram

图3 2D CNN和3D CNN结构对比图Fig.3 Comparison of 2D CNN and 3D CNN structures

2.1.1 2D CNN

2D CNN用于AD诊断通常基于二维脑神经影像,如脑部MRI的矢状面、横断面、冠状面扫描2D切片,主要选自结构或功能上预定义的大脑区域,并从每个区域提取具有代表性的特征。

Khagi等人[17]使用OASIS数据集调优AlexNet提取2D MRI切片的矢状面、横断面病变特征。但其识别性能依赖于初始预训练权重导致过滤MRI图像冗余特征的能力较弱。为了去除图像不相关特征,Lee等人[18]提出结合熵切片与去除离群值的特征选择方法提取图像局部信息,该模型在测试集中NC/AD的二分类准确率达98.53%。

但是上述研究侧重于筛选更有价值的多切片用于训练,很难捕捉图像上细微的病变信息。为此,石磊等人[19]基于特征金字塔网络(FPN)设计了一个深度特征增强卷积神经网络学习切片多尺度特征信息,实现了AD四种病程的分类诊断。Nawaz等人[20]同样注重网络结构优化,提出了一种Deep-CNN网络。卷积层采用4~128 size的过滤器提取AD各阶段分类的特征表示,但该算法的深层网络结构需占用大量训练时间。为解决上述问题,Jain等人[21]基于筛选的MRI冠状面切片微调预训练网络VGG-16,降低训练时间成本。与上述文献的网络框架改进不同,Saratxaga等人[22]在训练策略上做出尝试,采用高效的CLR三角学习率策略构建BrainNet2D卷积网络用于AD分类,大大加快了诊断网络收敛速度。

在AD分类诊断中,2D CNN往往通过增加网络深度与复杂度提高模型的非线性表达能力,但该方式同时伴随网络参数量激增与梯度消散。为此,Tufail等人[23]采用深度可分离卷积构建轻量级网络,通过分离区域信息与通道卷积有效减少卷积运算参数量。针对深度网络的梯度问题,Puente-Castro等人[24]在加深网络的同时引入残差学习思想,并将受试者性别、年龄等特征向量与模型全连接层连接,以提高模型拓展性和泛化性,但是简单融合人口统计学信息忽略了不同种族间AD发病机制的异质性。为此,Bae等人[25]使用首尔国立大学本当医院(SNUBH)与ADNI两跨种族数据集交叉训练网络,AD识别准确率在两数据集中均达88%以上。为进一步提升临床应用成熟度,张荣等人[26]通过迁移学习方法对二维MRI、PET图像进行特征提取,随后采用Adaboost算法对多模态图像特征进行选择融合,研究表明AD/MCI/NC多分类准确率达92.8%。

上述研究均基于结构磁共振成像(structural magnetic resonance imaging,sMRI),sMRI能够量化大脑结构上存在的全局或局部脑萎缩形态学改变,但部分认知正常的老年人亦可能出现局部脑区体积缩小的情况。为克服sMRI影像形态学分析的局限,孔伶旭等[27]获取患者功能性磁共振成像(functional magnetic resonance imaging,fMRI)用于诊断网络,但不足之处在于fMRI成像高维性会导致网络收敛时间过长。为此,该研究采用轻量化网络MobileNet提取切片的代表性特征,并将得到的瓶颈特征输入到顶层实现分类,大幅度提高网络训练效率。

上述分析可知,二维卷积神经网络的方法具有以下优势:(1)结合离群值去除、熵切片等特征选择算法能够提高二维切片图像的特征利用率,有助于提高AD分类准确性。(2)使用AlexNet等预训练模型作为初始化或特征提取器,节省了细致繁琐的超参数步骤,可促进网络训练学习的有效性。(3)MRI成像中具有丰富的脑部细节信息,有利于构建更深层的二维卷积神经网络用以高精度识别诊断。(4)采用sMRI、fMRI多种磁共振成像方法揭示被试者脑结构、脑功能多视角的潜在信息,能够有效利用更加全面的神经影像特征以提高AD诊断的精确度。

但该方法也存在以下问题亟需解决:(1)对于MRI中立体的区域萎缩评估,二维卷积往往需要分析多个切面,导致特征提取十分粗略,并且不能完全捕捉图像的空间信息。(2)2D CNN诊断模型通过迁移学习方法初始化网络虽然能够降低模型训练难度但在AD分类诊断实际应用中对MRI等复杂神经影像的目标类型判别稳定性偏低。(3)应用于MRI的2D CNN深度学习算法往往基于单一尺度特征提取方法区分NC与AD人群,此二分类不能提供有效的早期脑部变化信息实现MCI阶段的诊断与预测。(4)深层次的神经网络结构意味着需要处理大规模数据与大量参数,并且难以避免训练阶段面临的梯度消散和网络性能退化等问题。(5)选取MRI的2D分割切片通常只考虑大脑的中心部分,可能涉及的病变相关脑区研究范围有限。

2.1.2 3D CNN

二维卷积神经网络基于MRI 2D切片分析AD时对图像上下文信息的全局特征表达能力有限,易导致脑部空间与组织结构等特征信息丢失。而三维卷积神经网络能更好地利用图像3D特性并从中提取高分辨率特征,从而有效提升AD的分类精度。3D CNN用于AD诊断主要基于两种方法:(1)以体素为单位定量分析全脑MRI图像中不同脑组织的局部成分差异[28],以此测量大脑区域是否发生脑萎缩的形态学方法;(2)选取AD的感兴趣区域(region of interest,ROI)构成三维图像块(如:海马区),并从中提取高维脑图像的细微局部病变特征的预定义方法。

Maqsood等人[29]将大脑灰质、白质、脑脊液的三维体素合并至一张图像,利用迁移学习方法组合MRI脑区结构的抽象特征表示,AD/NC得到89.6%的分类准确率。考虑到全脑体素特征的高维性,Basheera等人[30]基于独立成分分析法提出一种逐体素3D CNN网络。该模型针对灰质体素特征显示了良好的特异性和敏感性。为进一步细化不同语义级别特征,赵尚义等人[31]提出一种融合多语义的三维卷积网络,利用嵌套密集跨层路径连接的方式提取不同强度语义的特征信息,但是该模型性能依赖于图像预处理步骤。为了克服高标准样本获取困难的局限,Mehmood等人[32]微调VGG-19网络捕获三维MRI信号体素的空间特征,并结合数据增强方法优化训练集,但其网络结构在提取高维度特征时会伴随梯度问题。为实现梯度优化,Karasawa等人[33]提出一种基于ResNet的三维卷积AD诊断网络,并且删除了该网络50%节点进一步简化参数量。但实现模型压缩与保持性能间的平衡仍具挑战性。为此,陆小玲等人[34]向轻量化模型的道路探索,采用3D MobileNet网络处理MRI切片,实验结果表明与传统迁移学习方法相比AD分类准确率提高了约8%。轻量化网络在提升诊断性能与减少网络参数方面具有一定的优势。

上述研究虽然在AD分类任务中都取得了良好性能,但复杂高维脑影像的特征选取与解析过程可能导致部分低级特征图信息丢失。为此,杜丽君等人[35]将生成的低级特征图输入注意力卷积,将得到不同像素位置的注意力权重与特征对应相乘以保留更多序列信息,并添加子辅助任务进一步优化分类结果,但是联合多任务多类型数据学习易引起模型参数量增加。为此,Spvsov等人[36]构建一种参数高效层,该层通过分组卷积与可分离卷积提高参数利用率,降低网络训练成本。

上述基于三维体素的方法可以评估患者大脑解剖结构的全局变化,但是对于高维脑图像中局部小尺寸特征的提取能力较弱。为解决这一问题,众多研究选择AD患者影像中特定感兴趣区域(ROI)的候选框作为卷积神经网络的特征输入。曾安等人[37]在不预定义ROI的前提下采用不同全连接层结构的3D CNN网络识别MRI,研究发现其分类效果均次于3D CNN-ROI方法。为进一步挖掘大脑异常变化的微观特征,Zhu等人[38]提出一种带有空间注意力块的patch-net提取ROI小块的判别特征,以此提高模型分类精度。但是重点区域的选取对后续实现精准诊断同样非常重要。为了避免忽略重点ROI,魏志宏等人[39]综合大脑中海马、灰质等多个脑区ROIs,并增加网络中间层的连接和输出实现多类型特征整合,但是该方法不足之处在于以脑组织分割等预处理操作为前提。

研究表明,海马是验证AD最有效、最容易获得的生物标志物之一[40-41],但现有的图像处理技术针对MRI影像的海马分割速度和精度较低。为解决海马体分割工作效率不高的问题,颜宇等人[42]提出一种含注意力机制的U形3D CNN用于海马体分割。该网络通过复用低层级的空间信息完成脑组织高效分割,但是并未实现海马分割和AD诊断流程一体化。为此,Sun等人[43]基于V-Net提出一个端到端的双功能卷积网络,将AD病理状态分类与海马体分割结合,实现了海马形态变化与AD进展的相关性分析。

患者脑萎缩在AD早期阶段难以察觉,通过MRI的结构成像发现病变难度较大,三维卷积神经网络分析fMRI、PET等高维脑功能成像能够反映病变脑区的代谢变化,在AD早期诊断研究中得以应用。林万云等人[44]提出一种“前小后大”的策略改进3D CNN的卷积核尺寸和步长,基于PET成像有效检测局部脑代谢变化,结果显示AD早期预测准确率达71.19%。但是相比PET成像,fMRI成像的临床应用更为普遍。为此,贾洪飞等人[45]提出一种基于fMRI图像转换结合改进3DPCANet模型对AD不同阶段患者进行分类。考虑到fMRI可以实现多种功能水平的图像转换,Jia等人[46]采用CCA典型相关分析思想融合两种转换类型的图像特征,提高了输入的功能图像变换的鲁棒性。

上述分析可知,三维卷积神经网络的方法具有以下优势:(1)三维卷积神经网络能够充分利用MRI图像体素间的三维空间结构信息,提取表达性更强和更具临床意义的语义特征,从而实现AD疾病的精准诊断。(2)基于体素的方法可以定量检测脑组织的密度差异,无需对感兴趣区域先验假设,具有客观性、全面性。(3)基于ROI图像块的方法可以充分利用MRI影像的有效信息,提取高维脑图像的细微局部特征。(4)综合多个ROI特征信息,不仅能避免数据来源较为单一的局限性而且能利用各脑区之间可能存在的联系与相互间的影响。(5)三维卷积神经网络基于PET等脑功能成像分析脑部相关区域的代谢变化,对AD的早期诊断及鉴别诊断特异性和灵敏性较高,为疾病的早期干预提供了可能。

但该方法也存在以下问题亟需解决:(1)分析全脑MRI图像时提取的特征向量具有高维性,神经网络训练时间长、计算参数量大、计算资源要求及成本高,未来研究方向需要在保持网络性能的前提下,向轻量化模型的道路探索。(2)在AD分析领域训练三维卷积神经网络需要的样本数据量大,而且缺乏像ImageNet的大规模标准数据库,采用加深网络结构的方法提升性能可能会因样本量不足而发生过拟合。(3)所有患病人群脑功能病变异常不总是发生在相同的所选ROI脑区,固定相同的脑区可能会导致丢失用以区分患者的关键信息。(4)提取分析海马可以为脑病理状态分类提供更有针对性的特征,现有的CAD算法中,同时实现海马分割和AD诊断的端到端高精度模型性能还有待优化。(5)针对fMRI多种功能水平的图像转换,今后需设计多类型转换图像研究高鲁棒性的特征融合算法以获得图像间最相关分类特征,从而增强AD鉴别能力。

2.2 循环神经网络

循环神经网络(recursive neural network,RNN)[47]是一种基于非参数序列的学习方法,隐藏层中的神经元相互连接传输数据信息,并表达数据之间的相关性。阿尔茨海默病属于时间依赖性神经退行性疾病。与CNN相比,RNN可以处理时间序列数据以学习时间依赖性。在患者临床症状出现前,对时间序列上的临床表现进行综合分析,有望对患者的病情进展、发病时间等进行预测。

长短时记忆网络(long short-term memory,LSTM)[48]在标准RNN中引入门控单元概念,解决了传统RNN的梯度消失问题,使其更加适合分析时序临床特征,从而实现病情预测,其基本网络结构如图4所示。

图4 长短时记忆网络结构图Fig.4 Long short-term memory network structure diagram

Pelka等人[49]采用LSTM学习MRI切片的序列间相关信息进行AD早期预测,pMCI患者的识别准确率达78%。该方法侧重于分析MRI切片间纵向动态,但对大脑海马区域时间纵向特征的提取能力偏弱。为此,Li等人[50]利用海马区一年内的纵向测量信息训练LSTM网络,但是在预测时间序列的临床研究中不可避免部分数据缺失问题。为解决上述问题,Ghazi等人[51]调整LSTM网络的损失权重来缓解缺失值问题,采用批量梯度下降法更新权重参数,有效缓解了数据缺失的影响,但是批量梯度下降可能会占用大量运行时间,因此还需研究适宜的模型训练算法优化训练时间。

上述分析可知,循环神经网络的方法具有以下优势:(1)充分从患者时间间隔的随访数据中提取动态时序特征,以此加速AD的早期诊断进程。(2)对于不规则的采集临床数据,RNN能够使输入数据在维度变化中保持稳定,并且拥有长期储存数据的能力。

但该方法也存在以下问题亟需解决:(1)应用时间间隔较长的随访数据时会产生非常大的计算量和运算时间。(2)LSTM虽然解决了传统RNN存在的梯度问题,但是在小数据集上的分类精度并不理想。

因此,在高质量图像样本不足及标注困难的局限下,自动编码器、深度置信网络、生成式对抗网络因其不依赖于数据标签的优势为无监督深度学习提供了一个重要的技术研究方向。

2.3 自动编码器

自动编码器(auto encoder,AE)[52],是一种无监督学习网络。AE由编码器和解码器组成,其网络结构如图5所示。编码器在网络前向传播过程中对特征图进行降维压缩,以此删除图像的冗余信息,解码器再利用特征图重构输入图像。

图5 自动编码器结构图Fig.5 Auto-encoder structure diagram

18氟-氟代脱氧葡萄糖PET成像可用于评估大脑局部葡萄糖代谢活性[53],但是PET的临床低普及度导致标记训练样本量较少。为此Hong等人[54]采用变分自编码器无监督学习网络解决PET标记数据量不足的问题,并且结合层次凝聚聚类算法组织特征,量化脑内蛋白轨迹用以推断病程进展,但是单一模态的数据集质量参差不齐可能会引起各个模型间的性能差异性。为此,Kim等人[55]通过融合MRI和PET多模态数据提升模型分类性能,提出了一种堆叠多层神经网络sELM-AE。该网络采用堆叠多层AE增强各模态复杂特征模式的表达能力,但是模型在处理高维的多模态数据时存在计算量大、图像配准困难等问题。

上述分析可知,自动编码器的方法具有以下优势:(1)一定程度上解决了因大量未标注图像(如:PET)或标注图像不可用导致模型训练困难的问题。(2)堆叠多层网络的逐层训练方式能够对原始序列降维,有助于利用有限的神经影像数据学习到高度复杂模式的特征表示。

但该方法也存在以下问题亟需解决:(1)虽然堆叠AE可以自由选择提取特征的维度,但是网络调整和优化模型参数的难度大。(2)在处理高维的多模态数据时存在计算量大、图像配准困难等问题。(3)堆叠自编码器网络往往伴随高计算量与长收敛时间。后续研究可尝试模型轻量化等网络结构化裁剪方法,在保证模型性能的基础下稳定的压缩计算量。

在无监督神经网络模型中,深度置信网络能够通过预训练初始化权网络权重提升网络收敛速度。

2.4 深度置信网络

深度置信网络(deep belief network,DBN)[56]与上述AE的作用类似,可以通过无监督学习方式对输入数据进行高维特征表示。DBN由可视层、分类层和若干个隐藏层组成,其网络结构如图6所示。DBN的隐藏层由多个受限玻尔兹曼机(restricted Boltzmann machine,RBM)构建,各层之间存在对称连接,但是层内的神经元无任何连接。DBN中每次只训练一层RBM,当前层的输出作为下一层RBM的输入,直至完成DBN中所有RBM层的训练,最后使用wake-sleep算法进行调优[57]。

图6 深度置信网络结构图Fig.6 Deep belief network structure diagram

DBN网络通过叠加多层RBM解析神经影像中复杂的非线性特征表示。Shen等人[58]提出一种三层RBM的DBN网络基于脑PET成像提取MCI的鉴别特征。由于pMCI与sMCI类间差异较小,仅依靠单模态PET图像容易受信息量不足等因素影响。为此,Zhou等人[59]综合MRI和PET多模态成像提出一种稀疏响应网络SR-DBN,结合主成分分析算法获取两模态图像的高层语义信息,但是DBN网络初始权值一定程度上具有指向性,可能与目标多模态学习任务存在较大差异。

上述分析可知,深度置信网络的方法具有以下优势:(1)DBN可以通过无监督的特征学习方式保留高维度神经影像数据的深层次特征,适用于高维标签数据样本不足的模型训练。(2)逐层训练RBM方式为整个DBN网络赋予了较好的初始权值,解决了深层次神经网络的优化问题。

但该方法也存在以下问题亟需解决:(1)DBN的无监督预训练对初始权值一定程度上具有指向性,需结合适当的全局寻优算法对DBN的初始权值进行优化。(2)在多模态数据融合的复杂分类诊断任务中网络训练难度大,模型分类精度和鲁棒性表现不理想。

无论是有监督或无监督的深度学习方法都需要海量的数据作为支撑。近年来,生成式对抗网络以其图像生成领域的优势在无监督学习研究中掀起热潮。

2.5 生成式对抗网络

生成式对抗网络(generative adversarial network,GAN)[60]为深度学习提供了一种新颖有效的数据建模方式。GAN由生成器和鉴别器组成,其网络结构如图7所示。生成器通过模仿真实图像合成新图像来混淆鉴别器,同时鉴别器也不断地加强鉴伪能力,利用两个神经网络之间相互博弈形成对抗性关系。这种对抗性学习方式使GAN不断增强高级语义信息的特征表达能力,通过无监督学习生成伪标签,可以有效解决小样本训练集问题。

图7 生成式对抗网络结构图Fig.7 Generative adversarial network structure diagram

考虑到AD分类诊断的深度学习方法需要大量的训练数据,因此基于GAN的数据增强技术被广泛应用于不同的神经影像。Islam等人[61]提出采用深度卷积生成式对抗网络(deep convolutional generative adversarial networks,DCGAN)合成不同阶段的PET图像,有效克服了训练样本的类别不平衡问题。与PET图像相比,MRI图像数据量大,GAN主要用于扩充其高质量的图像训练集。Yu等人[62]采用三重博弈训练策略以提高MRI图像质量,该研究受Odena等人[63]的启发,增加3D DenseNet辅助鉴别器。但三重对抗方法会增大网络训练难度,加重网络训练的不稳定性,导致在单一模态数据有限的条件下强化特征的能力降低。为此,潘伟博等人[64]将GAN应用于MRI和PET多模态融合。该方法利用3D循环对抗生成网络补全PET数据,并且使用分层分解策略捕获共享潜在表示,MCI/AD分类准确率为79.0%。

上述分析可知,生成式对抗网络的方法具有以下优势:(1)为AD分类诊断模型训练提供多类别、高质量的神经影像,帮助深度网络获得充分训练,最终达到良好的分类性能。(2)GAN能结合其他先进的网络模型构建深度生成模型。(3)GAN在融合多模态数据的分类任务中通过学习不同模态数据间的关联性补齐缺失数据,为多模态诊断模型的模态缺失问题提供了有效解决方法。

但该方法也存在以下问题亟需解决:(1)生成器与鉴别器的训练过程需保持良好的交替同步,网络训练不稳定可能会导致网络崩溃无法收敛。(2)生成图像质量与神经网络设计有着直接联系,综合设计合适的网络架构以保证生成图像的有效性与多样性。(3)为多模态数据补齐缺失模态的生成模型,无法为数据间的潜在关联提供良好的可解释性。

综上所述,CNN、RNN等单网络方法具有训练速度快、计算成本低等优点,在AD诊断中广泛应用。由于AD病理特征的复杂性与多样性,单网络无法从成像方式复杂的神经影像中充分学习更深层次的数据特征,满足对AD诊断精准度、速度等需求。所以,众多学者针对多网络融合方法的应用价值进行探讨。

2.6 多网络融合

多网络融合是一种通过联立两个或以上的网络架构,实现对AD分类诊断的深度学习方法。按照基于深度学习技术的AD分类诊断方法中多网络架构的融合方式,可将其分为多网络级联和多网络集成。

2.6.1 多网络级联

多网络级联指多个网络串联完成AD分类诊断,即后一个网络的输入为前一个网络的输出,采用构建多个神经网络的策略增强多级特征融合表达,进而实现阿尔茨海默病的一体化精准诊断。

Aqeel等人[65]提出了一个基于LSTM的混合神经网络,LSTM后级联一个多层感知机网络用于AD分类,而LSTM的特征提取性能将直接影响最终分类效果。为此,Xia等人[66]构建一个双网络架构用于特征计算,如图8所示。前网络的特征图输入到3D CLSTM中进一步提取深层次空间结构特征,能有效捕捉MRI图像的高维特征信息。但是该方法在高维数据量偏小的情况下很难提取大脑萎缩区域信息。为此,Jin等人[67]提出了一种新型无监督学习的对抗自编码器网络定位患者ROI脑区,通过重构MRI与原始的差异图像判别AD,如图9所示。该方法通过计算差异图捕捉患者ROI脑区,一定程度上克服了高维标注数据匮乏导致训练困难的问题。

图8 3D CNN+3D CLSTM级联神经网络结构图Fig.8 3D CNN+3D CLSTM cascaded neural network structure diagram

图9 文献[67]对抗自编码器网络结构图Fig.9 AAE network structure diagram in[67]

为了进一步提高诊断效率,一部分研究直接选取最早受到AD影响的海马区进行分析。Li等人[68]在双侧海马掩膜上构建多通道三维-二维卷积神经网络识别AD,但该算法的诊断性能受限于海马分割精度。为此,Cui等人[69]在局部海马图像块上构造DenseNet网络,并采用球面谐波系数优化提取表面形状特征。这不仅省略了繁琐的脑组织分割步骤,而且可以有效综合海马的局部与全局特征。上述基于全脑或ROI脑区MRI的单一影像进行鉴别诊断可能存在假性结果,综合受试者多类别影像检查有助于捕获更丰富的病理信息,提高诊断质量。为此,Feng等人[70]基于多模态数据应用级联RNN学习图像深层隐藏特征,采用MRI与PET多模态数据构建3DCNN与LSTM级联网络,但在面临模态数据缺失时可能会影响分类诊断结果,因此还需挖掘模态之间的潜在联系进一步提高多模态模型性能。

上述分析可知,多网络级联的方法具有以下优势:(1)综合各种单一网络的优点,各网络分工协作完成AD分类任务,有利于减少负荷的工作量。(2)不仅能从原始数据中快速筛选特征,而且能进一步融合多尺度深层特征,构建多级特征表达从而辅助AD的精准诊断。(3)将多模态融合和分类统一到一个模型中,通过学习不同模态的共享特征表示来挖掘相连脑结构特征关系。

但该方法也存在以下问题亟需解决:(1)后网络对前网络的依赖性很大,如果前一个网络的输出结果不理想,则可能直接导致后一个网络失效。(2)多网络虽然能有效提取大脑图像中的深层特征,但是在特征融合过程中会产生特征冗余,从而影响全连接层网络的分类性能。(3)考虑到多模态技术的实际临床应用,并不是所有AD受试者均能提供完整的模态数据。模型可能受其中一模态数据丢失的影响,导致诊断性能下降。

2.6.2 多网络集成

随着网络级联次数的增加可能会引起过拟合,可以通过集成方式降低过拟合风险。多网络集成采用构建多个基分类器的集成算法进行脑图像分类,即对来自多个网络结构的分类结果采用投票策略输出最终决策。根据MRI的输入特征,可以将AD诊断的集成学习方法分为多切片集成与多图像块集成。

Zeng等人[71]选取三个维度面上的MRI 2D切片进行训练,将获得的CNN集成分类器用于AD分类。其基分类器结构如图10所示,能够有效利用同一脑区中不同方向上的特征信息。为进一步提高模型的准确率和稳定性,Kang等人[72]在集成网络中引入迁移学习,提出DCGAN和CNN的集成方法。该网络集成VGG16、ResNet50、DCGAN的鉴别器三个分类器,可以有效缓解数据匮乏对模型性能提升的局限。但是以上研究忽略了AD恶化渐进性这一重要特征,为此,Liang等人[73]提出将Time-LSTM模块集成到多任务学习框架,联合多时间点纵向任务建立AD预测模型。该模型在预测60个月内MCI进展为AD具有最佳的诊断效力。

图10 MRI 2D切片基分类器结构图Fig.10 MRI 2D slice based classifier structure diagram

上述研究通过集成多个2D切片用于特征计算,但集成3D图像块的方法学习到的特征更适合于提取高维脑MRI图像的细微特征。Raju等人[74]沿横断面方向取27块图像块输入多层集成3D CNN网络提取特征,NC/AD二分类准确率达到97.77%。但是采用固定尺度提取图像块的方式带来了巨大的参数计算量。为此,Wang等人[75]引入密集连接减轻计算压力。该网络构建3D DenseNet作为基分类器,结构如图11所示。并且在DenseNet的两DenseBlock之间增加1×1×1的卷积操作,同时保证特征提取的快速性与精确性。但是为了避免有效脑区遗漏,往往图像块划定的范围较大,导致全脑影像特征利用率低。Li等人[76]通过K均值聚类方法划分三维图像块簇来提高特征利用率。该方法将相似脑组织图像小块进行聚类,可获得较好的图像方差鲁棒性。上述研究针对网络集成网络架构改进,为了进一步提高模型对AD诊断的适应能力,Pan等人[77]结合AD临床病因改进网络的融合算法。该集成网络采用遗传算法筛选最优分类器组合。相比简单的概率集成,结合遗传算法的特征组合方法展现出更大优势。

图11 文献[75]中3D DenseNet基分类器结构图Fig.11 3D DenseNet classifier structure diagram in[75]

上述分析可知,多网络集成的方法具有以下优势:(1)能够获取更全面的脑组织病变信息,有效弥补单一网络模型丢失细节的缺点。(2)多个分类器结合进行集成学习能有效防止过拟合。(3)参与集成的基分类器和脑区是一一对应的,可以找出有显著分类能力的脑区。

但该方法也存在以下问题亟需解决:(1)多网络集成可能由于划定脑区范围大导致需要占用多个大量空间存储的基分类器,而且基分类器可能会带来额外的时间成本开支。(2)选择不同的脑区划分方法用于集成学习可能会对最终分类结果产生影响。(3)多个脑区基分类器集成导致计算代价与标注成本高,训练时间长。

综上所述,多网络融合方法在级联学习和集成学习方面均呈现出高水平模型性能。相比主流单网络方法,多网络融合在AD诊断应用中表现出更强的非线性特征映射能力、模型泛化能力和容错能力,更能满足实际临床的需要。但是多网络结构增加了计算成本和存储开销,网络设计难度也较大,今后工作需向更高效率的轻量化网络探索与应用。

3 模型可解释性

深度学习为图像识别提供了一种强大的技术方法,但是深度学习模型的“黑盒”特性在面对其复杂的体系结构和模型参数时无法提供直接的推理过程和决策解释,是阻碍模型改进以及推广应用的主要障碍之一。因此,理想的AD分类诊断系统不仅能够进行准确的诊断决策,而且可以提供决策的中间过程,对模型临床应用也尤为重要。

在AD诊断任务中,主要通过类激活映射(class activation mapping)、注意力机制(attention mechanism)等方法定位病灶脑区并提供可视化解释依据。为了实现模型可解释性与特征可视化,Qiu等人[78]通过全卷积神经网络生成AD风险概率图提供模型解释,使其突出与AD相关的高危脑区。但是该方法依赖于梯度加权,对模型预测无关的因素敏感时鲁棒性较差。为此,Bohle等人[79]采用分层相关性传播(layer-wise relevance propagation,LRP)方法克服这一限制。该研究结合LRP生成脑部热力图解释模型输出,LRP能够量化输入特征与AD分类结果两者间的相关性,但是生成热力图的方法主要通过视觉挑选特征进行定性分析。为了进一步捕捉病变脑区并量化对最终诊断结果的贡献程度,Jin等人[80]提出一种3DAN网络。该网络引入注意力机制用于捕捉大脑重要萎缩部位,并通过注意力得分量化分析各个脑区。但是模型额外引入模块需修改原有的网络结构,导致在实际应用中以花费大量的时间成本为代价,可通过拆分网络的各功能模块生成解释性的方法节省运行时间。

基于类激活映射等可解释性方法可以将抽象数据映射为类激活图,以此建立模型的可视化表达,可快速、全面地了解病灶脑区的分布特征,提高模型透明度。但该方法存在以下问题亟需解决:(1)病灶可视化方法无法与更高级的语义相关联。将可视化特征与语义相解释结合,并解释可视化输出从低级语义到高级语义的生成过程,有助于深入挖掘决策依据,降低模型认知难度。(2)模型准确性与可解释性相对立,难以平衡。一般规律下,复杂度高、参数量大的深度学习模型比结构简单、参数量小的模型性能水平更高,但是模型可解释性较弱。拆分深度学习模型的功能模块分别生成解释然后再进行组合,是高精度复杂网络模型增强可解释性的方法之一。(3)基于医学知识的因果推理可解释性仍待进一步探索。利用知识图谱将AD临床诊断知识引入到深度学习模型中,有助于理解模型的逻辑推理过程,可有效解释模型所做决策的真正原因。

4 算法性能分析

综上所述,深度学习方法为阿尔茨海默病辅助诊断提供了多样性与高效性的网络模型,通过卷积神经网络(CNN)、循环神经网络(RNN)、自动编码器(AE)、深度置信网络(DBN)、生成式对抗网络(GAN)和多网络融合的方法实现了AD病程的高精度分类。本章对上述方法进行综合分析,从主要思想、优缺点三个方面进行对比总结,如表2所示。

表2从深度学习的经典网络及多网络融合各诊断方法的主要思想、优劣势进行归纳总结。为对上述方法进行更全面的对比分析,将从增强网络特征表达能力、将网络扩展到三维图像、解决小样本问题、提高泛化能力、节省计算成本五方面,对AD诊断方法面向高精度与轻量化的性能优化方法的优缺点和准确率进行归纳总结,如表3所示。

表2 基于深度学习的AD分类诊断方法总结Table 2 Summary of deep learning-based diagnostic methods for AD classification

表3 高精度和轻量化的优化方法对比分析Table 3 Comparison of high precision and lightweight optimization methods

(1)在增强网络特征表达能力的相关算法中,采用嵌套的密集跨层连接、增加中间层的连接和输出、改进卷积核的尺寸和步长等方法提取脑体积萎缩或局部脑代谢变化特征,高效捕获图像中病灶脑区。如林万云等人[44]在模型中使用小尺寸卷积核和步长保留特征信息,采用大尺寸的卷积核和步长去除冗余信息,有效提取AD早期阶段sMCI与pMCI的特征差异。

(2)在网络扩展到3D图像的相关算法中,采用构建3D ICA_CNN、3D CNN+3D LSTM双网络、多层3D CNN集成学习等方法,从三维体素、三维ROI图像块和脑组织图像块集成中提取大脑三维结构特征,获取全面的空间维度信息。如Basheera等人[30]基于ICA的3D CNN逐体素分析网络,从全脑体素中分割提取灰质用于病变分析,表现出良好的特异性和敏感性,NC/AD分类准确率达99.75%。

(3)针对小样本训练集改进的相关算法中,采用迁移学习、数据增强、无监督学习等方法,实现有效扩充样本量或降低对高质量标记数据的需求。如Mehmood等人[32]采用微调VGG-19网络结合数据增强的方法基于全脑体素进行AD分类诊断,NC/AD二分类准确率达98.73%。

(4)在提高模型泛化能力的相关算法中,采用跨种族数据集交叉训练、MRI联合PET多模态学习、结合临床病因改进网络集成算法等方法,在AD诊断应用中表现出更强的泛化能力,更能满足实际临床的需要。如Bae等人[25]考虑到种族和地区背景的差异,使用ADNI与首尔国立大学本当医院数据集交叉训练,增强模型跨种族患者间的通用性与泛化性。

(5)在节省计算成本和存储开销的相关算法中,采用拥有预训练权重的轻量化网络、密集跨层跳层结构的网络、将网络底层多参数卷积块替换为瓶颈结构等方法,降低网络复杂度,提高计算资源利用率。如Wang等人[75]在三维图像块的集成学习中,通过构建3D DenseNets基分类器减轻计算压力,NC/AD分类准确率达98.83%。

通过上述分析可知,AD分类诊断算法在分类精度和模型轻量化方面达到了较高水平,但由于病灶隐匿性与神经影像高维性,通用的影像学诊断模型,存在病灶特征丢失的不足。为此,众多学者展开相应研究,以降低病灶特征损失。将上述分类诊断算法进行归纳总结,针对保留单模态病灶特征与捕捉多模态特征相关性两方面的特征优化方法进行对比分析,如表4所示。

表4 减少病灶特征损失分类诊断算法的性能对比分析Table 4 Comparative analysis of performance of diagnostic algorithm for reducing characteristic loss of lesions

(1)在保留sMRI数据单模态病灶特征的相关算法中,采用特征金字塔网络、注意力patch-net等方法提取更细粒度的病灶特征,捕捉相邻病程图像的细微差别。如Zhu等人[38]使用带注意力块的patch-net提取sMRI小块的判别特征,有助于提高早期阶段MCI的分类准确率,sMCI/pMCI分类准确率达80.90%。

(2)在保留fMRI数据单模态病灶特征的相关算法中,采用3DPCANet网络改进等方法提高模型对大脑纹理特征的学习能力。如贾洪飞等人[45]采用3DPCANet提取fMRI转换图像特征,实现了NC到AD间多个阶段的分类诊断,sMCI/pMCI分类准确率达77.78%。

(3)在保留PET数据单模态病灶特征的相关算法中,Shen等人[58]采用在脑ROI上训练多层DBN网络等方法保留高维度神经影像数据的深层次特征,识别AD早期阶段病灶代谢特征,sMCI/pMCI分类准确率达86.60%。

(4)在捕捉sMRI、PET多模态神经影像特征相关性的改进方法中,采用Adaboost算法、构建MDNMF模型、多层极端学习网络、SR-DBN结合主成分分析等方法捕获两模态特征间的高级关联并融合形成高质量特征表示,在AD分类诊断中具有良好的临床应用成熟度与泛化能力。如Kim等人[55]采用多层极端学习策略构建sELM-AE网络,联合sMRI、PET模态间抽象特征表示,NC/AD分类准确率达97.12%,NC/MCI分类准确率达87.09%。

(5)在捕捉fMRI不同转换图像间多模态特征相关性的改进方法中,采用3DPCANet结合典型相关分析等方法提取融合转换图像间最相关特征与依赖关系。如Jia等人[46]采用CCA典型相关分析思想融合两种转换类型的图像特征,实现了输入的功能图像变换的鲁棒性,NC/AD分类准确率达92.00%。

5 挑战与展望

上述分析可知,基于深度学习的阿尔茨海默病辅助诊断研究近年来获得了广泛关注,本章对其当前面临挑战和未来展望进行阐述。

5.1 挑战

近年来,深度学习技术的快速发展使其在AD诊断、早期预测领域取得了不错的成果。虽然各神经网模型已取得明显的性能突破,但是仍面临诸多挑战。本节将深度学习在AD辅助诊断领域面临的挑战归纳如下:

(1)多分类诊断模型辨别MCI的准确率仍然较低。MCI是AD的前驱期,是高度可变群体,故对sMCI和pMCI的鉴别与诊断十分重要。现有的研究中NC/AD分类准确率一般在82.0%~99.0%,但是sMCI与pMCI由于样本间差异较小,其分类准确度普遍偏低。

(2)模型性能受数据来源的限制。现有的研究中基于MRI、PET等影像组学在AD的研究多为回顾性分析,不同的扫描设备、不同成像参数及不同医学中心扫描方式会有所差异,因此会影响神经网络模型对疾病的分类效果,会出现模型在某个数据集上训练效果较好,但在其他数据集上表现较差的情况,导致很难在实际临床中普及应用。

(3)多模态模型的诊断性能有待提高。不同格式的数据(如:影像和化验数据)的融合算法还有待完善。而且考虑到多模态技术的实际临床应用,模型可能受其中一模态数据丢失的影响,如果仅使用现有的完整模态数据进行训练,将会进一步加重小样本问题,导致模型的性能降低。

(4)高质量医学影像数据稀缺。在基于深度学习方法的研究中,模型需要大量图像样本进行训练和测试以获得更高的分类精度。AD的脑神经影像学数据维度极高、结构复杂且提取特征数往往远大于样本数,易导致模型过拟合。

(5)深度学习方法的“黑盒”特性,导致模型可解释性较差。深度神经网络中包括多个隐藏层,导致特征选择和决策过程具有很大的不确定性。基于深度学习的三维、多模态医学图像的AD分类涉及到与源数据不同维数的非线性卷积和池化,使得很难解释原始数据中特征识别的重要性。

5.2 展望

为解决AD诊断领域所面临的挑战,深度学习技术为AD的分类诊断提供卓越性能的高精度诊断模型,今后的研究工作可侧重于以下几个方面展开:

(1)通过融合不同生物标志物数据提高AD早期诊断准确率。AD病因具有复杂性和异质性,融合多模态比单模态方法分类效果更好。在神经影像的基础上增加其他生物标志物,如临床诊断数据、基因数据等,有利于进一步了解阿尔茨海默病的潜在生理机制,为MCI的转化预测提升分类精度。

(2)克服数据来源限制以加强模型实际临床应用性。加强临床工作者与理论技术人员的交流,实地考察放射科日常医疗环境与设备应用条件,评估成像数据来源对网络性能的影响。虽然现有的计算机辅助系统仍然无法取代医学专家,但可以提供支持信息,以提高临床决策的可信度。

(3)挖掘模态之间的潜在联系增强多模态模型性能。针对多模态数据的语义冲突问题,捕捉模态之间的层次关联用于提高特征融合算法对复杂数据的融合性能。针对缺失模态问题,利用好模态之间的信息互补性,以及平衡网络中富模态与缺失模态的特征权重。

(4)高维小样本深度学习方法的研究。一方面通过技术上的手段加以克服,如无监督学习、迁移学习、数据增广等,另一方面利用现有的开放性数据库构建标准化的神经影像数据集训练神经网络,克服样本匮乏问题。

(5)结合可视化技术提高深度学习模型可解释性。深度神经网络结合类激活图等可视化分析方法了解病灶脑区的分布特征,在保证决策准确率的情况下提高模型透明度,进一步解释影像学特征与诊断结果之间的关系,辅助医生临床决策。

6 结束语

综上所述,本文对阿尔茨海默病相关数据集、经典深度学习网络模型在阿尔茨海默病分类诊断中的应用以及深度学习模型可解释性三个方面的相关工作进行了介绍和总结。基于对现有工作的综述,重点总结了深度学习中卷积神经网络和融合多网络在阿尔茨海默病分类诊断中常用的改进方法,可以作为未来研究工作的参考。相信随着深度学习方法的不断优化改进,未来为阿尔茨海默病的临床诊断与早期预测将提供更加准确、高效的辅助诊断方法。

猜你喜欢
卷积模态神经网络
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
基于3D-Winograd的快速卷积算法设计及FPGA实现
跨模态通信理论及关键技术初探
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析
基于傅里叶域卷积表示的目标跟踪算法
基于神经网络的拉矫机控制模型建立