训练集病例数对基于深度学习宫颈癌临床靶区及危及器官自动勾画的影响

2022-09-28 02:28胡静陈飞龚筱钦游涛张开军戴春华

中国医疗设备 2022年9期

胡静，陈飞，龚筱钦，游涛，张开军，戴春华

江苏大学附属医院放疗科，江苏镇江 212000

引言

在放疗中，临床靶区（Clinical Target Volume，CTV）及危及器官（Organs at Risk，OARs）的勾画在放射治疗过程中发挥关键作用，但是由于手动勾画不仅费时费力，而且主观性较强，因此医疗图像自动勾画技术已成为肿瘤放疗领域的研究热点[1-3]。2006年，Hinton等[4]提出深度学习理论后，以卷积神经网络（Convolution Neural Network，CNN）为基础的深度学习方法迅速兴起[5-6]。U-net作为一种全卷积神经网络，因其可利用较少数据训练就能获得准确分割结果的特点，被广泛应用于医学图像深度学习自动勾画中[7-8]。但是临床实际应用中发现通用的训练模型无法适用于多家放疗中心，因此有研究者建议使用各中心数据单独进行深度学习从而形成可自用的新模型[9-10]。

已有研究表明，深度学习遵循数据量越大学习效果越好的原则[11]。但由于临床高质量数据较为稀缺且较难获得，大量的数据收集会额外增加临床工作压力，且当训练量达到一定数量时，其自动勾画效果可能并无明显提高，所以建模前能确定所需训练样本量对各放疗中心能更好地应用深度学习训练平台有重要指导意义[11-12]。AccuLearning（AL）是由Manteia（中国）公司研发设计的一款基于U-net网络的深度学习平台，运用该平台训练少量数据即可形成新的模型，从而应用于临床，且推荐训练量为30例。训练集样本量对于自动勾画效果有一定影响，且该影响可能与算法模型本身的鲁棒性以及结构的固有特性有关。目前尚无学者对宫颈癌CTV及OARs训练样本量和自动勾画效果之间关系进行研究，基于此，本研究应用AL深度学习平台对宫颈癌CTV及OARs进行训练，探讨不同训练数据量对自动勾画精度的影响，以期为AL深度学习平台应用于临床提供数据参考。

1 资料与方法

1.1 一般资料

排除复发性肿瘤、确诊时已存在远处转移、既往患其他恶性肿瘤、既往接受过盆腔手术/放疗、伴发严重疾病如心肺功能异常等患者。选取2018年6月至2020年12月我院收治的140例宫颈癌患者，年龄37～82岁（中位值58岁），体重44～71 kg（中位值60 kg），其中，根治性放疗患者61例，术后辅助性放疗患者79例。研究涉及的相关伦理经医院科研伦理委员会审核通过（批件号：KY2021K0901）。

1.2 CT扫描

定位时患者取仰卧位，使用真空垫固定。采用飞利浦模拟大孔径CT（Philips CTBigbore）实施层厚、层间距均为3 mm的定位CT扫描。

1.3 AL深度训练平台

AL深度训练平台后端由数据管理器、模型训练器、模型评估和模型部署4个组件组成。数据管理器主要功能是数据清理，即自动标准化训练数据中的结构名称。模型训练器的网络结构是一种类似于2D U-net的自适应结构（图1），其可根据采样窗口的大小自动地调整下采样层的数量和卷积层的数量，默认设置包含5个最大池化层和5个上采样层，基础的卷积核通道数为32，尺寸为3×3，在每个卷积层后面都有批标准化（Batch Norm）层和线性整流函数（ReLU），在编码器和解码器之间以级联的方式进行跃层连接。AL模型评估以及部署功能是指自动获取参数分析模型效果，并保留相关信息和模型共同输出。本研究模型训练时设置数据集遍历轮次Epoch为100，损失函数类型为Dice损失函数，学习率为0.0003，窗口采样方式为Label_balanced，单次迭代样本量batchsize为16，优化器选择Adam。

1.4 勾画方法

由1名放疗主治医师在瓦里安Eclipse13.6计划系统中手动勾画宫颈癌CTV及OARs，包括肠袋、骨髓、双侧股骨头、直肠、膀胱，并由2名主任医师审核确认，并定义手动勾画为参考勾画（Vreference，Vref），自动勾画为Vautomatic（Vauto）。随机抽取120例患者CT数据作为深度学习训练集，其余20例作为测试集。从120例训练集中选取15例训练算法模型，再逐步增加训练量至30、60、90、120例，分别应用5组算法模型对20例测试集进行宫颈癌CTV及OARs的自动勾画测试，自动勾画结果分别定义为 V15、V30、V60、V90、V120，并与 Vref比较，获取相关评价参数进行比较分析，实验流程如图2所示。

图2 勾画工作流程

1.5 精度量化评价指标

相似性系数（Dice Similarity Coefficient，DSC）用于评价勾画形状的一致性，DSC值范围为0～1，越接近1，表示勾画相似度越高；豪斯多夫距离（Hausdorff Distance，HD）用于评价位置差异性，其值越大，说明重复性越低；相对体积误差（Relative Volume Difference，RVD）用于评价自动勾画结构体积的精确性，结果以其绝对值的百分比表示[13]。

1.6 精度临床评估方法

由主任医师对自动勾画结果逐层评价，评价标准：4分：自动勾画结果可接受，临床无须修改；3分：自动勾画结果可接受，但需要进行小幅度修改；2分：自动勾画结果部分可接受，但需要进行大幅度修改；1分：自动勾画结果不可接受。通常认为评分≥3分适合临床应用，统计各结构评分结果，计算出各结构适合临床应用层面所占比例（R），计算方式如公式（1）所示。

式中，s表示该结构评分≥3分的层数，S表示该结构自动勾画总层数。

1.7 统计学分析

勾画结果采用SPSS 22.0软件进行分析，数据以±s表示，各项参数采用随机区组方差分析，并采用LSD-t检验进行两两比较，以P＜0.05为差异有统计学意义。

2 结果

2.1 不同训练病例数客观量化评价指标比较

如表1所示，CTV的DSC值比较，V15模型自动勾画DSC值明显低于其他4组，且V90和V120例模型的DSC值高于V30和V60模型的DSC值（P＜0.05）；肠袋和直肠DSC值比较，V60、V90和V120模型高于V15和V30模型，且肠袋V30模型DSC值高于V15模型（P＜0.05）；膀胱V90和V120模型DSC值高于其他3组（P＜0.05）；骨髓、右侧股骨头和左侧股骨头各模型之间差异无统计学意义（P＞0.05）。

表1 不同训练病例数自动勾画效果量化指标比较（±s）

注：a表示与V15比较，P＜0.05；b表示与V30比较，P＜0.05；c表示与V60比较，P＜0.05。

指标训练量 CTV 肠袋直肠膀胱骨髓右侧股骨头左侧股骨头DSC V15 0.83±0.03 0.85±0.04 0.85±0.06 0.90±0.07 0.92±0.01 0.94±0.02 0.93±0.02 V30 0.85±0.03a 0.88±0.04a 0.86±0.05 0.90±0.07 0.92±0.01 0.94±0.02 0.94±0.02 V60 0.87±0.03a 0.90±0.04ab 0.88±0.06ab 0.90±0.08 0.92±0.01 0.94±0.02 0.94±0.02 V90 0.88±0.03abc 0.90±0.04ab 0.88±0.06ab 0.92±0.06abc 0.92±0.01 0.94±0.02 0.94±0.02 V120 0.88±0.03abc 0.90±0.04ab 0.87±0.06ab 0.92±0.06abc 0.92±0.01 0.95±0.01 0.94±0.02 F值 39.297 21.704 3.554 12.865 22.474 3.947 2.285 P值＜0.001 ＜0.001 0.010 ＜0.001 ＜0.001 0.073 0.068 HD V15 21.23±6.08 34.86±17.83 18.21±10.64 19.33±20.86 76.89±146.97 5.69±7.97 6.27±7.86 V30 19.32±6.12 26.42±8.42a 18.47±7.60 11.95±12.46 38.55±94.62 5.73±8.65 5.93±8.63a V60 19.25±6.54 23.36±8.55a 16.78±11.70 16.69±17.91 60.68±89.38 5.64±7.94 5.62±7.94a V90 17.29±6.64 22.75±6.43a 16.56±11.57 10.50±9.69 46.05±80.63 5.63±8.66 5.91±8.61a V120 17.88±6.40 22.48±7.81a 16.87±11.04 13.99±17.75 52.07±122.55 5.43±7.98 5.54±7.96a F值 2.045 5.571 0.473 2.120 2.568 0.525 3.288 P值 0.097 0.001 0.755 0.086 0.055 0.718 0.015 RVD/%V15 7.92±6.91 14.55±7.65 12.28±9.69 10.64±9.06 6.76±2.41 88.10±6.17 7.00±4.84 V30 7.08±5.44 12.30±9.99a 15.62±11.90 10.09±9.80 6.26±2.30 86.52±3.90 5.57±4.47 V60 5.35±4.30ab 8.86±7.72ab 11.81±10.17 8.55±8.80 6.39±2.22 91.06±5.07 5.00±2.99 V90 5.77±4.17ab 8.79±6.50ab 11.53±8.91 7.16±6.17 5.40±2.23 88.98±4.34 5.59±3.97 V120 5.66±4.24ab 8.55±6.85ab 11.80±10.14 9.17±9.42 6.61±2.07 87.88±7.81 5.31±3.96 F值 3.551 5.786 2.021 1.316 21.870 0.797 2.223 P值 0.010 ＜0.001 0.100 0.272 0.106 0.534 0.075

对于肠袋以及左侧股骨头HD值，V15模型高于其他4组模型（P＜0.05）；CTV、直肠、膀胱、骨髓以及右侧股骨头不同模型之间，HD值无统计学差异（P＞0.05），且其中CTV、直肠以及右侧股骨头HD值随着训练病例数的增加，HD值呈逐渐下降趋势。

对于CTV以及肠袋，V15和V30模型RVD值高于V60、V90以及V120模型，且肠袋V15模型RVD值高于V30模型（P＜0.05）；直肠、膀胱、骨髓、右侧股骨头和左侧股骨头各模型之间RVD值无统计学差异（P＞0.05）。

2.2 自动勾画效果临床评估结果

临床评估结果分析如表2所示，对于CTV，V60、V90和V120模型自动勾画R值高于V15，且V120高于V30模型（P＜0.05）。肠袋 V60、V90和V120模型R 值高于 V15模型（P＜0.05）；直肠、膀胱、骨髓、右侧股骨头和左侧股骨头各模型之间R值无统计学差异（P＞0.05）。各模型自动勾画断层效果如图3所示，由图3可以看出，各模型勾画效果较好：各模型之间，CTV、肠袋勾画结果有一定的差异；直肠、膀胱、骨髓以及双侧股骨头勾画结果差异较小。

图3 不同训练量模型自动勾画CT断层示例

表2 不同训练病例数自动勾画结果适合临床应用R值比较（±s，%）

注：a表示与V15比较，P＜0.05；b表示与V30比较，P＜0.05。

训练量 CTV 肠袋直肠膀胱骨髓右侧股骨头左侧股骨头V15 50.07±14.38 70.80±10.28 77.07±8.38 67.56±26.20 91.13±3.09 88.10±6.17 91.03±6.47 V30 59.20±15.50 77.81±11.32 70.78±7.45 76.66±22.82 89.61±3.51 86.52±3.90 88.95±6.05 V60 63.36±14.83a 81.47±11.27a 76.96±10.74 68.52±27.36 91.04±2.80 91.06±5.07 87.55±5.75 V90 69.73±13.64a 82.48±14.77a 78.59±9.01 74.31±28.84 92.51±3.09 88.98±4.34 92.09±7.25 V120 71.24±14.45ab 86.22±14.82a 76.44±8.12 76.35±28.13 90.31±2.17 87.88±7.81 92.13±5.76 F值 4.160 2.694 1.051 0.237 1.203 0.797 0.939 P值 0.005 0.040 0.393 0.916 0.324 0.534 0.451

3 讨论

随着放疗技术的不断发展，三维适形调强放射治疗（Intensity Modulated Radiation Therapy，IMRT）被广泛应用于宫颈癌治疗中[14]。IMRT具有较高的靶区及剂量适形性，这对放疗过程中医生勾画肿瘤靶区及危及器官的精度提出了更高的要求[15-16]；而且为了提高放疗的准确性，目前临床上甚至对宫颈癌患者实施了自适应放疗，但这也增加了医生勾画CTV和OARs的工作量，深度学习自动勾画技术的出现与应用则为临床提供了解决办法[17-18]，但是在深度训练建立自动勾画模型时，选用训练样本的数量尚不清楚。Narayana等[19]研究表明，在磁共振中对脑部多发性硬化患者行自动勾画时，基于全卷积网络深度学习训练样本量大于50例时，即可保证自动勾画具有较好的效果。Fang等[11]基于U-net网络对头颈部危及器官自动勾画的研究表明，样本量过小对自动勾画效果有显著影响，视神经和晶状体在训练量200例时能达到最佳效果的95%，而有些OARs在训练量40例时就能达到最佳效果的95%，表明不同结构的勾画效果与样本量大小之间存在一定的联系。

Zijdenbos等[20]认为，DSC＞0.7时自动勾画效果较好，本研究中各结构勾画轮廓DSC值均高于此标准，说明建模效果较好。此外，本研究中对于CTV、肠袋和直肠自动勾画效果分析，随着训练集数量的增加，DSC值、HD值以及RVD值呈较好趋势发展，这可能由于CTV、肠袋和直肠与周围组织对比度较低，而且不同组织结构存在差异，所以增加训练量可能会一定程度改善勾画效果。其中对于CTV，V90和V120模型DSC均值相等，且高于其他3组；对于肠袋，V60、V90和V120模型的DSC值和RVD值均优于V30模型；对于直肠，V60、V90以及V120模型DSC值均高于V15和V30模型。各组模型中，膀胱、骨髓以及双侧股骨头自动勾画结果均较好（DSC≥0.90），分析原因可能是这3个OARs具有较为清晰的边界且与周围组织对比度高。骨髓以及双侧股骨头勾画结果随着训练量的增加，改善不明显，这说明对于骨性结构，较小的训练量就能得到较好的勾画效果。本研究关于自动勾画效果临床评估结果表明，CTV和肠袋随着训练病例数的增加，其自动勾画结果中适合临床应用的层面逐渐增多，这可减少临床医师修改轮廓的时间，提高临床工作效率。当CTV训练病例数为90例时，适合临床应用层面达到约70%，明显高于V60模型，且与V120模型相近。当肠袋训练病例数达到60例时，临床可应用层面超过80%，且随着病例数的增加，其效果虽仍有所提高，但差异无统计学意义。本研究尚存在以下不足：仅得出深度学习自动勾画技术最终的预测结果，未来仍需进一步探索其他影响自动勾画效果的因素。

4 结论

各组织结构的自动勾画效果相对于训练病例数有一定的差异性，且收集大量高质量临床数据具有一定的困难性，综合分析表明，在宫颈癌CTV及OARs利用AL深度学习平台建模时，建议采用90例作为训练集。其中，CTV勾画采用90例，肠袋和直肠勾画采用60例，膀胱、骨髓以及双侧股骨头勾画采用15例，这样既可降低临床病例收集的工作量，又能建立较好的临床应用模型。