基于多时期蒸馏网络的随访数据知识提取方法

2021-11-05 01:29魏淳武赵涓涓唐笑先
计算机应用 2021年10期
关键词:正则基线结节

魏淳武,赵涓涓*,唐笑先,强 彦

(1.太原理工大学信息与计算机学院,山西晋中 030600;2.山西省人民医院影像科,太原 030012)

0 引言

由于低剂量计算机断层扫描(Computed Tomography,CT)的出现和应用以及肺癌高风险人群对于大量随访筛查CT 工作的需求,基于低剂量CT的肺部基线以及随访筛查相比过去更加重要。尽管研究者Alberle等[1]通过实验和统计证明低剂量CT对于降低肺癌致死率的作用,但大量的筛查工作仍然会增加那些无法确认的低风险病人的致死率,同时会带来不必要的医疗负担。近期在《柳叶刀》和Nature子刊上发表的关于基于低剂量CT的随访筛查研究表明,使用深度学习方法进行肺癌风险预测可以有效减少这种不必要的筛查工作。此外,国际医学图像顶级会议(Medical Image Computing and Computer Assisted Intervention,MICCAI)也在2019 年的总结展望中指出,利用随访数据和深度学习方法挖掘出更多信息的工作是目前医学图像研究的一大重点。

基于以上两点可以看出,合理利用随访数据进行分类预测的工作具有重要意义,但是,目前有关肺结节的公开数据集中,仅有美国国家肺部筛查实验(National Lung Screening Trial,NLST)作为公开数据提供包括3 年的随访信息的低剂量CT数据,同时也有相关研究者在此数据的基础上做肺癌预测工作。文献[2]中研究者联合了三家机构(约翰霍普金斯大学、英国哥伦比亚癌症研究机构、美国国家癌症研究机构)分别以双盲方式进行了数据再标注和模型验证,证明了利用长时期的数据可以有效预测基线年下肺结节的变化。类似的,Google 研究者[3]借助至少6个放射学专家对NLST的数据进行了再标注和验证。尽管两者已经能够在NLST 使用深度学习模型实现较高的良恶性概率预测水平,但是对于普通研究者来说,花费如此多的资源进行精确的数据标注是非常困难且几乎无法实现的。实际上,无论是通用图像还是医学图像,大部分研究也都存在样本标准困难导致数据不足的问题,标注良好的数据可以在稳定的模型中展现出优越的效果,但是往往实际求解过程中遇到的都是数据信息不完整、标注缺失等类似的问题。

对于解决这类问题,在通用图像下,目前的大多研究工作可以分为两大类:对于有标记的数据量少且存在大量无标记数据的场景,研究者往往会结合一些小样本学习方法解决问题。Sung 等[4]提出一种基于关系的小样本学习,该方法在几个基准(Baseline)数据集上取得了不错的效果;Snell 等[5]提出基于原型网络的小样本学习,该方法有效提升了同类样本的分布差异计算能力,但是并未考虑区分异类样本的分布边界问题;Santoro 等[6]则提出基于模型的小样本学习,将计算机原理和深度学习进行了结合。上述方法均为小样本学习的经典理论方法,后续也有研究基于其思路不断扩展,但是此类方法仅从样本多样性较为单一的角度进行设计,并不适用于样本多样性较复杂的医学图像问题。对于两种有标记数据一类数据量小、另一类数据量大的场景,则有改进的元学习方法[7]、迁移学习[8]、领域自适应[9]为代表的一些方向。对于医学图像尤其肺结节分类这一领域,出现最多的研究工作基于第一类场景,因为医学图像数据的采样过程并不困难,但是进行合理的标注则需要放射学家参与且耗费资源很大。所以存在大量未标注的数据和少量已标注的数据,Wang 等[10]基于NLST 数据提出了一种半监督的三维模型且取得了不错的效果,由于NLST 并非三维数据,其仅将其作为未标注的数据集使用,实际上使用的已标注数据来源于私人数据集,并且没有利用到相关随访信息。而本文研究的实际问题从随访信息出发:首先,长时期数据本身具有一定特征,以NLST为例,它由三年数据组成,但是基线年的数据与第2、3 年也有所不同,相较于基线年,随访两年的数据存在很大的不平衡。其次,不同年份间序列对应的切片可能因为外在因素没有扫描到应该有的结节信息(如图1),这类数据无法作为样本使用。类似的信息导致本文研究收集到的838 例随访三年的数据中仅有399 例可以作为有效数据集。同时,就NLST本身而言并没有独立同分布的其他大量标记过的相关数据集辅助训练。

图1 随访年无效数据示例Fig.1 Example of invalid data in follow-up year

此外,目前的研究中大多使用随访数据辅助分类预测任务,但是这些研究并没有充分利用到随访指南中的领域知识。在长时期数据中,随访指南具有重要作用,医学领域方面,Pinsky 等[11]首次提出基于肺成像报告数据系统(Lung imaging Reporting And Data system,Lung-RADs)指导下随访的效果优于一般分期标准,Martin 等[12]认为Lung-RADs 解决了以往随访过程中随访指导信息结构不完整导致医生漏诊、错诊的问题,杨健等[13]则详细说明了Lung-RADs系统的价值,同时解读了它所具备的一些领域知识。Veasey等[14]在Lung-RADs分级系统下结合NLST数据集实现了肺结节良恶性任务,但是并没有考虑随访时间等在实现对长时期数据分类时应注意的领域知识(如对随访少于2 年且CT 中实性结节的判断如果随访2年后无显著变化可以将类别归为良性结节,具体问题模型以及相关领域知识如图2所示)。

图2 随访知识示意图Fig.2 Schematic diagram of follow-up knowledge

基于上述问题,本文在缺少一定随访数据标注信息的情况下,提出了一种基于知识蒸馏技术的迁移学习方法,并将其应用于多时期下少量样本的结节分类训练。本文具体工作如下:

1)首先,和传统的肺结节分类与长时期良恶性预测不同,本文提出了一种从多时期数据中提取知识的方法用于引导模型训练,通过引入领域自适应参数改善最终的网络损失,并在网络输出前利用领域信息微调最终网络参数使网络能够有效学习到随访信息的领域知识。

2)本文从数据规模小、基线数据与随访数据存在不平衡的问题出发,提出了一种用于肺结节随访数据增强的基于元学习思想的多时期数据训练方法。该方法可以有效改善肺部CT随访数据量不足的问题。

1 相关工作

1.1 长时期肺结节良恶性预测

长时期肺结节预测工作来源于肺癌病人的实际筛查流程。病人进行了基线筛查后,原本医生会根据CT情况指导病人的随访筛查工作,后续研究者发现利用深度学习方法可以预测到随访筛查的结果,从而避免了一些不必要的随访筛查工作,降低了医疗负担。早期的长时期肺结节检测研究大多基于私有数据集,且没有公开有效的实验评估标准,条件上的困难阻碍了大部分研究者的工作,但由于随访筛查的必要性,对此的研究却从未停止。

在2019 年Huang 等[2]于的Lancet上提出了一种深度学习方法用于对至少有两年随访数据下肺癌的良恶性概率预测,该研究基于NLST 以及Pan Can(Pan-Canadian Early Detection of Lung Cancer)两大公共数据。实验的分类标准基于Lung-RADs,该研究表明了基于目前的一些公开数据信息,利用两年随访数据可以有效完成肺结节良恶性预测。与Huang 等[2]的工作相同,Ardila等[3]则提出了一种端到端的三维肺结节良恶性预测模型,同时在NLST 上的表现要优于6 个放射学家,达到了96%的预测精度。当前研究者们对于长时期肺结节良恶性的预测工作大多在于如何利用特征融合方法[15]、三维技术[16]、循环神经网络[17]或者其他方法去改进预测效果。本文工作参考了这些研究的问题模型与求解问题的思路,并且提出了基于当前研究方向的一个新的任务:如何在基线数据与随访数据不平衡的情况下提升训练效果。

1.2 知识引导医学图像分类

分类任务一直以来作为肺部相关乃至整个医学图像研究者的基本问题。随着深度学习技术的不断发展,研究者不断利用传统医学图像处理方法与深度学习方法结合的方式来提高病灶分类精度或者解决更细粒度的分类问题。通常情况下,一些根据专家既定的经验手工提取的特征在深度模型中又叫作知识,研究者利用这种知识来引导深度模型的训练往往能取得不错的效果。Xie等[18]提出了基于知识的协同模型,从多视图的角度出发,分别结合深度模型表征了肺结节的整体外观、体素属性、异质性,最终以9种视图训练出9个子模型有效降低了肺结节分类假阳性概率。在2018 年,Xie 等[19]提出了在决策层融合纹理、形状、深度特征的模型,在LIDC数据集上实现高效肺结节分类。本文研究参考了以上研究对于知识引导模型学习更深层特征表示的方法,同时也提出了一种知识引导模型训练的方法,不同之处在于之前的研究大多局限于图像本身所带来的特征与信息,而忽略了诊断过程中图像外的一些信息(如随访过程中,医生对于随访数据所提出的一些经验性思路)。基于这一点,本文模型充分考虑到了随访信息作为知识来辅助训练与随访相关的低剂量CT 数据以获得性能上的提升。

1.3 知识蒸馏网络研究

知识蒸馏的概念最初由Hinton 等[20]于2015 年提出,它是一种从网络参数较多的教师网络提取暗知识到参数较少的学生网络的方法,并被应用于模型压缩的任务场景。从2015 年至今,不断有研究者对知识蒸馏进行方法上的改进,Romero等[21]从Hint-based training 的角度先提取教师网络的知识,利用hint-based损失进行监督训练,诱导学生网络学习到与教师相似的表达,该方法将原本蒸馏过程中直接学习教师网络输出结果的思想转变为学习中间层的特征。这一思想后来在知识蒸馏领域也被称为从中间层提取知识。到2017 年,Yim等[22]拓展了这一思想,指出利用从中间层提取知识的方法,不仅可以完成网络压缩的任务,甚至可以将中间知识作为迁移学习方法来实现更多场景下的任务,而Zagoruyko 等[23]则实现了注意力机制和知识蒸馏的结合并应用于模型迁移。后续研究中,知识蒸馏用于模型迁移的思想得到了更多应用与改进,Chen 等[24]利用知识蒸馏方法实现了图像像素级的域迁移,Gupta等[25]首次提出了交叉模态数据进行知识蒸馏的思想,该思想扩展了知识蒸馏在模型迁移方向的应用范围。Zhao等[26]参考MetaDistiller[27]和MetaReg 方法[28]提出了一种交叉模态知识蒸馏的应用方法,具体将元学习和知识蒸馏方法进行结合并用于将一种模态的知识迁移到另一种模态当中,该方法有效解决了多模态数据中某一模态下数据量不足的问题。受此研究的启发,本文将不同模态的数据下信息迁移的问题转变为长时期医学数据下基线数据与随访数据的信息迁移,同样弥补了随访数据信息不足对肺结节分类判断的影响。

2 长时期知识蒸馏网络

2.1 多时期数据知识蒸馏网络

假设输入图像数据x为基线数据,对应之后第1 年和第2年的随访数据为。训练过程中,每个分支的网络分别对应一种数据,基线类数据的标签信息为y,该标签主要参考基线的分类标注标准得到,而随访第1年和第2年的标签则会参考到前一年或者前两年的标注分别记为。基于最终得到的基线年数据(x,y)训练出教师网络模型f,对应图3 的第1个分支结构,其中将教师网络参数表示为ω,训练教师网络过程使用损失函数为七分类问题的交叉熵损失表示为LT。训练得到教师网络后,本文进一步构建了知识蒸馏网络(网络结构如图3,Group 结构如图4),并通过该网络从教师网络中提取中间特征到学生网络。此处教师网络和学生网络分别代表基线年下数据训练得到的肺结节分类模型与利用随访年下数据和教师网络监督训练得到的带随访知识的肺结节分类模型。

图3 多时期知识蒸馏网络结构Fig.3 Structure of multi-term knowledge distillation network

图4 Group块结构Fig.4 Structure of Group block

其中,教师网络的知识主要指来自基线数据的结节信息。用以增强性指导学生网络中随访数据标签训练。本文的知识蒸馏网络同时提取了教师网络中间层和输出层的激活信息作为引导对象,假设网络总层数均为d层,其中第j层的激活图表示为Aj,则输出层用于引导知识蒸馏网络训练的损失为式(1):

其中:学生网络g1的网络参数表示为ξ,对应随访第1 年数据训练得到的模型。引入该损失的目的是通过教师模型输出结果的概率值差异引导学生模型的训练,但是实际训练时,由于不同年份间的数据本身存在的误差与标签的不统一,无法仅通过输出层约束学生网络收敛得到有效模型,所以本文引入基于Group 块的注意力损失项,该部分的工作受到文献[23]工作的启发,具体损失定义如式(2):

不同于LO,LI的作用更偏向于让学生网络学习教师网络样本本身的像素级的差异,这样更有利于模型学习从外形、轮廓到结节宏观大小等变化。

同时,因为输入数据结节的图像特征可能存在较大的变化,导致两年的结节信息在图像层完全不同。这会使得教师网络模型对标签的引导与随访数据的引导产生较大分歧,所以本文引入约束因子来降低这种情况对损失的影响,具体模型增加了中间层的激活信息作为损失项,并且在设计三年数据蒸馏损失的时候考虑到了随访第1 年数据对随访第2 年数据在模型学习时的引导作用要大于基线年对随访第2 年的作用。故本文引入平衡系数λ来控制两者对蒸馏损失的影响。对应于输出层和中间层的蒸馏损失项改进为式(3)、(4):

其中:Qavg为当前网络每个Group 块的激活图的均值,学生网络g2的网络参数为ψ,对应随访第2 年数据训练得到的模型。最终的蒸馏损失函数如下:

其中:μ用于平衡两损失间的量级,在实验过程中最终将其赋值为1E-3。

则多时期蒸馏网络的目标函数可以定义为式(7):

2.2 Group结构块

对于Group 的实现,本文工作基本上沿用文献[23]的思想,不同点在于本文使用的Group 块的数量以及卷积核的参数与其不同,文献[23]中网络输入数据的大小为32×32,而本文模型的数据输入为64×64,所以整体网络结构有所调整且网络卷积层的padding 均设置为1。具体每个Group 块的具体结构与ResNet的残差块结构相对应。

2.3 不平衡数据知识迁移

本文提出的多时期蒸馏网络可以在基线数据与随访数据配对的情况下,通过迁移知识辅助训练。但是实际情况下,长时期的配对数据量非常少,实验数据大多为不平衡状态的数据,即随访数据量相对基线数据较少。在这种情况下,如果直接使用网络进行训练,那么利用仅有的配对数据训练的模型极易造成过拟合问题,网络也无法利用到非配对的数据。因此,本文在原有模型基础上提出了一种针对数据不平衡问题的解决方法。

首先在2.1 节提出的模型中,通过蒸馏网络将基线数据训练的模型f的知识迁移到模型g1,g2中。当随访数据不足以完整地和基线数据进行匹配时,使用现有配对数据训练出一个正则化项l,用于代替缺失年数据与当前训练对应年数据之间的蒸馏损失项。假设正则化项参数代表与目标缺失数据拟训练模型相同网络结构的参数δ,则具体训练的正则化项如式(8):

其中:μ为控制正则项量级的训练参数;ξ对应为相应少量的已配对缺失年的其他数据训练得到的参数。这里以随访第1年缺失为例,则对应于多时期网络目标函数式(7)的由正则项替换后函数表示为式(9):

如果缺失随访第2年数据,而可获取基线年与随访第1年的数据,则正则项学习的目标对应为式(3)、(4)对应的蒸馏损失。具体对应算法1步骤中的17)~22)行。

在这部分方法中,假设NLST的数据样本之间是独立同分布的,且基线数据与随访数据的样本数据分布与标签分布映射关系相同,则使用元学习思想进行知识学习的算法步骤如算法1 所示,算法以基线年和随访第1 年配对为例,在每轮迭代的每个批次下首先利用配对的基线-随访数据,这里定义为数据A,训练出一个教师网络以及学生网络,得到参数ω,ξ。然后利用配对数据得到的参数和已有的非配对数据,这里只有基线年数据,定义为数据B,结合目标函数M和正则项参数δ对θ进行训练。这里算法1将数据A训练得到的参数作为数据B 要训练的学生网络的初始参数使用,同时模型也利用了数据B 对其进行微调训练,这部分目的是得到数据A 中随访类数据以及数据B 中基线数据的分布差异信息,从而训练得到与数据B相关的学生网络模型用于对其随访第一年数据进行分类。在更新正则项的时候,算法选择与数据B 同源的数据C进行训练,以避免其发生过拟合现象。

算法1 用于知识迁移的元学习方法。

输入 学习率α、β,样本批次K,迭代次数N,训练数据随访时期参数Y;

输出 正则参数δ。

3 实验结果与分析

本文研究实验环境为pytorch 1.2,实验设备显卡为Nvidia TITAN XP,显存16 GB。实验训练数据来自美国癌症研究机构(National Cancer Institute,NCI)的研究项目NLST,NLST 的数据最初用来比较两种检测肺癌的方式即低剂量CT和标准胸部X 光对人造成的影响,该实验对53 454 个55~74岁的吸烟者进行了调查并且证明了低剂量CT 相较于标准胸部X光会降低患者的致死率。但是该数据集存在大量的未标注结节,本文实验从利用随访信息辅助训练角度出发,结合NLST 官方已有的标注信息以及合作医院的两名放射科医师帮助,对少量实验数据进行了标注。实际使用到的标注数据为838 例随访三年的病例,以及399 例随访两年的病例,筛选后总共标记约有400组随访三年的配对数据,以及800例非配对数据。

实验的部分测试数据来自合作医院,该数据由42 例病人的多个时间段CT序列组成,这部分数据被加入到模型测试阶段用于验证模型鲁棒性。

根据Lung-RADs 规定的分级标准,本文数据标签有7 类,其含义分别为:1 对应CT 中无结节,2 对应有良性结节,3S 对应随访少于5年的亚实性结节或者随访少于2年的实性结节,3L 对应有炎症表现的10 mm 以上结节,4A 对应10~25 mm 的实性结节,4B 对应随访后持续存在的大于10 mm 的亚实性结节,4C 对应短期随访(本文从验证方法有效性方向将此定义为2 年)下,病灶无明显改善,且基线病变大于等于10 mm 的结节。数据统计过程实际单个病例以三年病例为统计标准,将得到用于分类的三例数据。最终统计在NLST 数据集中1、2、3S、3L、4A、4B、4C 的样本比例为5∶20∶12∶22∶3∶4∶14,合作医院的42例病例数据样本比例为1∶2∶9∶10∶5∶4∶11。

3.1 数据集构建与数据预处理

原始的NLST、合作医院数据均为512 像素×512 像素左右的大小,本实验在预处理环节首先提取到了肺结节的感兴趣区域,且将其调整大小到64 像素×64 像素并统一进行了灰度化处理(实际情况下,大部分结节在切取感兴趣区域(Region Of Interest,ROI)的过程中表现为64 像素大小以内如图5(a)所示,所以本文采用64 像素截取样本以涵盖绝大部分结节信息)。

图5 按类型统计结节的小提琴图与损失函数的迭代曲线Fig.5 Nodule category statistical violin chart and iterative curves of loss functions

3.2 网络训练与参数选择

3.2.1 多时期数据知识蒸馏网络参数

在多时期网络结构中本文使用ResNet的Basic block 作为基本结构,并且按Group 块的方式组织起来,训练过程中,输入数据首先会经过均值方差归一化处理,训练集和测试集按照8∶2 的比例进行划分。图6 得到的向量会经过全连接层对应到七分类结果,并通过交叉熵损失训练产生标签信息。关于损失函数,对于式(3)、(4)中的λ=0.1,对于式(6)中的μ=0.01。模型优化器使用了随机梯度下降法(Stochastic Gradient Descent,SGD),学习率设置为1.0×10-3。训练教师网络与学生网络均使用了200 次迭代,其中学生网络先通过交叉熵损失进行100次迭代训练再结合蒸馏损失训练100次。关于超参数选择问题上,以λ为例,本文在学习率选择上进行了实验验证,图5(b)、(c)为三种量级的学习率下损失函数的迭代过程,其中T1、T2、T3 分别代表训练集下λ=0.1、λ=0.01,、λ=0.001 下的损失迭代曲线,TS1~TS3 则对应于验证集,由图可知,200 次迭代内3 个超参数下训练集损失均可收敛但是对于验证集TS2,TS3 损失反而上升,说明TS1 设置下的超参数较优。

3.2.2 元学习算法模型参数

本文的不平衡数据知识迁移方法基于元学习思想,其中对于算法1,在训练时的训练参数与多时期知识蒸馏网络相同。算法1 中涉及不同两个迭代过程中的学习率α=1×10-3,β=2.5×10-4。相对于第1 次迭代,第2 次训练正则项的收敛过程应适当减慢以完成良好收敛效果,所以β的设置相对较低。

3.3 多时期蒸馏网络模型评估

本文模型评价指标使用准确率(MAcro⁃Precision,MAP)、召回率(MAcro⁃Recall,MAR)、F1分数(Macro⁃F1,MF1),实验结果独立运行10 次取平均值得到。由于本文的任务是多分类问题,在计算各评价指标时,考虑到了样本均衡性问题,并且在按类别求平均值时加入与样本类别比例因子,使各参数计算结果均衡、合理。本文将二分类问题的一个混淆矩阵转变为七分类问题产生的多个混淆矩阵的评价指标并将其求平均。具体每个指标表达式如式(10)~(12):

针对2.1 节和2.3 节的两个模型本文设计了不同实验策略并给出了分析,如图6 所示,首先展示了原数据与以及分别使用ResNet50、本文不采用MKD 模型训练的网络结构(对应网络框架图3 的第一分支)以及采用MKD 模型进行训练的结构提取到的特征的t分布效果图。从实验结果可以看出,通过MKD 模型学习到的特征分布边界更加明确,尤其对比单独使用教师网络模型情况下,对于3S和2这两类标签的效果更好。这也表明利用MKD模型对于随访知识的学习是有效的。

图6 各种方法提取特征的t分布图Fig.6 t distribution charts of features extracted by various methods

图7 对比了一些典型的深度学习模型和肺结节分类模型的AUC(Area Under ROC Curve)值,从实验结果可以看出,不同方法下ROC曲线覆盖范围均有所差异,而本文提出MKD模型总体覆盖面积最大,可见模型效果最优。大部分优异的肺结节分类模型虽对结节的图像特征学习有不错的学习效果,且基本上具备诊断价值,但其并不能有效学习到随访信息,对于多时期分类任务学习能力欠佳。

图7 测试集上各方法的分类ROC曲线Fig.7 Classification ROC curve of each method on test set

表1 将不同深度学习模型与本文模型分类结果按类标签对测试数据进行了统计(对于1 标签无结节情况下,各类算法效果差异较小不予对比)。为了证明本文模型对长时期样本的识别效果,实验引入ResNet50 与GoogleNet 作为对比方法,两者是深度学习分类领域的代表性模型且其基本结构与本文Group 模块组相似,以此对比可以有效证明本文设计的Group模块组对于本文模型的适配性,而文献[2]方法是目前精度提升最明显的长时期肺结节深度分类模型之一,文献[18]利用知识提升非长时期肺结节分类精度并取得最优的效果。统计过程使用一定的测试样本,其数量对应表1 末行,各方法仅统计测试样本中真阳性的样本数量。

表1 按类标签统计各深度学习方法正确识别的测试样本数Tab.1 Class label based statistics on the number of test samples correctly identified by each deep learning method

结果显示,在2、3S、3L、4C 标签下,本文方法分类效果较好,其中对2 与4C 类数据的识别效果更好,这是由于2 与3S,3L与4C类结节在图像特征上容易发生混淆,其涵盖一定随访信息的特征,所以不适用于一般的分类模型。对于4A、4B 类标签,由于样本量较少,训练得到的模型没有明显差异。

对比结果表明,ResNet、GoogleNet 这些常见深度学习模型,在本文数据集分类效果一般,此类模型仅从图像角度出发,没有考虑到医学图像的相关特征,分类效果对于数据要求较高。而加入对比的文献[2]与文献[18]中提出的肺结节分类方法虽然考虑到一些医学征象,对于此部分图像分类较好,但相较于MKD,其并未考虑到随访过程造成的标签变化,因而在本文研究的数据集上表现与本文方法相比略差。通过此部分对比表明本文方法更适用于随访条件下的肺结节分类任务。

3.4 消融实验

为了评估多时期网络的有效性,本文设计了消融实验,通过对比使用单年数据训练的教师网络模型,使用两年配对的随访数据训练双分支的网络模型(对应MKD 的前两个分支)和三年配对数据训练MKD 模型,验证MKD 模型的学习效果。同时,为了验证元学习方法解决不平衡数据问题的有效性,实验在400组配对数据的基础上,添加了800例非配对数据对比不使用正则学习缺失数据,使用L1 正则学习和L2 正则学习缺失数据的效果,其中非配对数据表示为假设两年时期数据中有一年缺失但是仍作为两年数据训练模型,三年数据中第1或者第2年数据缺失仍作为三年数据。

表2 的结果显示对于单时期的教师网络结构,两年随访训练的双分支网络均不如MKD 模型,通过对比MAP指标得出,本文设计的知识蒸馏网络有一定增强模型分类能力的效果。同时对于不平衡数据的研究,本文对比了MKD 和不同正则方法的组合,得出使用L2 正则的效果更好,通过MF1 指标的对比结果显示,L2 正则对于提升模型拟合过程稳定性具有一定效果,R 表示正则化项(Regularizer),对应MKD 损失部分使用的正则化函数。

表2 MKD与不平衡知识迁移方法的消融实验对比结果 单位:%Tab.2 Comparison results of ablation experiment between MKD and unbalanced knowledge transfer methods unit:%

3.5 不平衡数据下模型评估

表3 展示了在不同程度不平衡数据的情况下利用正则化项进行模型迁移的效果,其中MAR部分为假阳性率为1/8、1/4、1/2、1、2、4、8 时的平均召回率值。实验对比了在三年长时期数据下配对数据量分别达到100、200 和400 时不平衡数据知识迁移方法的训练效果。对于存在400 组配对数据以及800 例非配对数据时,使用本文正则化方法,在综合评价指标MF1 上达到93.2%的分类效果,并且相比不使用该方法提升了7 个百分点。同时本文研究者发现在使用800 非配对数据辅助配对数据训练可以近似达到双倍配对数据单独训练的效果。通过此部分结果可以看出,使用知识作为先验数据可以有效引导多时期数据训练。

表3 不平衡数据下的模型迁移在不同配对数据方案下的评估结果Tab.3 Evaluation results of model transfer under different paired data schemes with imbalanced data

4 结语

本文提出了一种多时期数据知识蒸馏模型,该模型用于将不同年份数据训练模型产生的知识迁移到缺失年份的模型中。具体模型从随访数据出发实现了长时期下的肺结节分类,同时针对长时期数据中的一些不平衡问题,本文进一步改进了MKD 模型使其能够在缺失数据的情况下提升训练效果。实验结果表明,相比当前较好的肺结节分类模型,MKD 模型有着更好的分类效果并且改进后的MKD 模型对样本需求更小,训练精度更高;但是,受研究环境、现实数据的限制,模型实验仅使用二维切片作为输入数据,其信息量的缺失削弱了多时期数据互相学习分布差异的过程,在面对数据分布更为复杂的情况下,本文模型可能会出现坍塌现象,我们认为使用三维体向量作为单期输入数据结合三维深度模型进行训练的效果会优于多时期蒸馏网络模型,在后续工作中将会收集更多三维数据作为样本,并且尝试改进多时期蒸馏网络为三维模型,同时进一步降低模型对于数据的依赖性,实现更稳定、更高精度的长时期肺结节分类。

猜你喜欢
正则基线结节
基于深度约束的超短基线声速改正方法
高度角对GNSS多系统组合短基线RTK影响
WSL下基于GAMIT的高精度GPS/BDS基线解算及精度分析
体检发现的结节,离癌症有多远?
查出肺结节,先别慌
GAMIT用于GNSS长基线解算分析
了解这些,自己读懂甲状腺B超报告
甲状腺结节能 自己消失吗?
任意半环上正则元的广义逆
sl(n+1)的次正则幂零表示的同态空间