姚文君,殷超然,朱宏庆,江健敏,庞小溪,孙怡宁
近几十年来,甲状腺癌的发病率在全世界范围内迅速上升[1],由于早期甲状腺癌治愈的可能性极大,因此,对甲状腺良恶性结节的早期鉴别至关重要[2]。超声虽然被广泛应用于甲状腺结节的诊断和随访,但视觉评估的图像耗时、主观性强,迫切需要一种准确、高效、客观的辅助诊断方法。目前计算机辅助诊断已有一定的研究基础[3],而卷积神经网络的兴起使其表现出了更多的实用价值[4],如GoogLeNet常用于医学图像的分类[5]。然而,超声图像分辨率低、对比度低,识别难度较大,且目前大部分利用手动分割,故诊断的精度和自动化水平有待提高。基于此,该研究利用YOLOv5神经网络的深度学习方法,构建甲状腺结节区域卷积神经网络检测模型,自动获取结节区域图像并利用GoogLeNet图像分类网络对结节进行良恶性分类,从而实现影像全过程的自动化诊断,有效缩短阅片时间,规避主观因素对诊断造成的影响,提高甲状腺结节的识别和诊断水平,避免过度治疗带来的损伤。
1.1 病例资料回顾性选取安徽省第二人民医院及安徽医科大学第二附属医院2019年6月—2022年6月的甲状腺超声图像,共1 012例,其中男性352例,女性660例。纳入标准:超声图像清晰。排除标准:超声资料不完整;同时患有其他肿瘤疾病;桥本氏甲状腺炎;甲状腺弥漫性钙化性结节;伪影较多影响图像质量。本研究经安徽医科大学第二附属医院伦理委员会通过,免除知情同意书(批准号:YX2021-001)。超声仪器为GE S8、GE S9及迈瑞 R7T,采用7~12 MHz高频线阵探头。
1.2 甲状腺结节的分类与标注由2名高年资影像医师共同对结节范围进行定位标注,并进行良恶性分类,再由1名副主任医师对上述结果进行判别修正。良性分类标准为:TI-RADS 2级或有2次以上随访无变化的3级结节、或确诊为良性的结节。恶性分类标准为:穿刺活检或手术后病理为恶性或TI-RADS 4b以上的结节。最终建立甲状腺结节数据集,共1 012个结节,其中703个标注为良性,309个被标注为恶性。本研究将数据集按照8 ∶2的比例划分为训练集与测试集,其中数据集的分布情况见表1。
表1 数据集分布表(个)
1.3 数据预处理
1.3.1数据筛选 数据集中含有1 012幅原始甲状腺结节超声图像,由于不同制造商生产的各种型号的超声波设备生成超声图像格式不尽相同,首先将所有甲状腺超声图像转换为JPG格式。为了确保数据集中原始图像具有较高质量,对所有甲状腺图像进行筛选,去除含有严重伪影(如运动伪影、折射伪影等)或图像分辨率显著过低的低质量原始图像。
1.3.2提取感兴趣区域(region of interest,ROI) 原始超声图像包含噪声信息(如超声设备的参数、原始图像的测量标尺等)通常分布在原始图像的外围部分,本研究将原始图像外围包含噪声信息的部分手动去除,并对图像进行对比度增强,以提升图像质量,突出甲状腺结节特征,帮助网络更好检测结节位置和判断结节良恶性。
1.4 模型建立
1.4.1甲状腺结节区域检测模型 首先采用YOLOv5目标检测网络,构建适合甲状腺影响的甲状腺结节区域检测模型。YOLOv5是单阶段目标检测方法,其在模型训练以及推理时间上具有良好的表现,并且已经成为了最为广泛应用的目标检测网络之一。YOLOv5网络包含输入端、骨干网络、颈部网络和输出端四部分,结构见图1。
图1 YOLOv5甲状腺结节检测网络流程图
1.4.2甲状腺结节良恶性分类模型 GoogLeNet分类网络提出了新的Inception深度学习结构,可以有效解决由于深度学习网络加深带来的梯度消失和梯度爆炸等问题,Inception结构的提出还使网络更高效的利用计算资源。而GoogLeNet网络中含有9个Inception结构,通过Inception结构的重复提取,能够在一定计算资源下提取到图像中更深层的特征。在GoogLeNet结构中,还含有两个辅助分类器用于向前传导梯度,避免梯度的消失。GoogLeNet网络流程图见图2。
图2 GoogLeNet甲状腺结节图像分类网络流程图
1.4.3方法流程 首先将经过预处理的甲状腺结节图像输入YOLOv5检测网络,输出甲状腺结节的位置,然后自动从原图像中裁剪出甲状腺结节区域,并对该区域图像进行去噪及调整大小,得到甲状腺结节图像,之后将图像送入GoogLeNet分类网络得到结节的分类结果。方法的总体流程见图3。
图3 方法总体流程图
1.5 评价指标在本研究中使用了目标检测网络和分类网络。对于目标检测网络来说,常用的性能评价指标为平均精确度均值(mean average precision,mAP),即mAP的值越大其对应的目标检测模型的定位与识别性能越高。平均精确度均值mAP的定义公式如式(1)所示:
其中,P(R)为检测结果的准确率与召回率曲线,N为检测种类数。
对于分类网络来说,本研究采用敏感度(sensitivity,SENS)、特异度(specificity,SPEC)、准确度(accuracy,ACC)、kappa系数、正确率(precision,PREC)和曲线下面积(area under curve,AUC)值衡量分类网络性能。其中敏感度表示所有正例中被分类正确的比例,特异性表示所有负例中被分类正确的比例,准确度表示所有被分为正例中实际也为正例的比例,正确率表示所有分对的样本占总体样本的比例。计算公式如式(2)~(6)所示:
其中,TP和TN分别表示被分类网络正确诊断的良性和恶性结节数,FP和FN分别表示被分类网络错误诊断的良性和恶性结节数。Pe为偶然一致性误差。
此外,通过受试者工作特征曲线(receiver operating characteristic,ROC)及AUC评估各算法的性能。
2.1 甲状腺结节检测结果本研究采用了YOLOv5目标检测网络对甲状腺结节的位置进行检测。首先,利用训练集对YOLOv5模型进行训练,直到损失函数收敛,然后利用训练后的模型在测试集中检测甲状腺结节位置。结果表明,YOLOv5检测甲状腺结节mAP达到了96.2%,YOLOv5网络对甲状腺结节的定位精度较高。训练后的模型在测试集中部分检测结果示例见图4。
2.2 甲状腺结节的图像分类结果及一致性检验为了评估GoogLeNet分类方法的性能,将其与ALexNet、VGG和MobileNet三种常见的分类方法进行对比实验。对比实验均在本研究所构建的训练集上进行训练、测试集上获得分类结果,各方法分类结果见表2,结果表明,GoogLeNet对甲状腺结节分类的正确率达到了0.918,高于其它几种方法。各分类网络ROC曲线见图5。
图5 各网络对甲状腺结节分类的ROC曲线
表2 甲状腺结节分类结果对比
甲状腺癌是内分泌系统最常见的恶性肿瘤之一,发病率逐年上升。2018年甲状腺癌诊疗规范中推荐所有触诊或机会性筛查等方式发现甲状腺结节者均应行超声检查,从而增加了影像科医师工作强度,缩减了每位患者的平均诊断时间,直接影响结果的准确性,因此临床迫切需要一种高效、准确的方法辅助影像医师提高工作效率及准确性。本研究利用深度卷积神经网络对甲状腺超声图像中的结节进行自动检测和良恶性分类,结果表明,结节位置检测的mAP达到了96.2%;同时对良恶性结节分类敏感度为0.885,特异度为0.822,准确度为0.866,正确率为0.918,AUC值为0.92,显著优于AlexNet、VGG及MobileNet。
深度学习尤其是卷积神经网络已广泛应用于图像分类、目标检测等各种视觉任务中,如肺结节检测及鉴别、脑卒中及老年痴呆症的诊断、骨折与骨龄检测等,近年来在甲状腺疾病的检测、分割及鉴别等方面也取得了较好的研究进展[6-8]。张静漪 等[9]提出利用Mask R-CNN模型为基础加入级联网络,对正常及异常的甲状腺超声图像进行目标检测、分割及分类,充分显示了卷积神经网络在自动识别甲状腺超声图像方面的优势;乔婷婷 等[10]利用了2种深度神经网络模型AlexNet和深度卷积生成对抗网络对甲状腺平面显像图进行特征提取和功能判断,识别准确性较高;李潜 等[11]应用了基于卷积神经网络的辅助诊断软件S-Destect技术对甲状腺结节的超声图像进行了良恶性鉴别,结果表明将人工智能技术用于辅助诊断可以提高低年资医师的诊断准确率;此外,在端到端的卷积网络模型方面也取得了良好的诊断效能[12]。本研究提出的基于深度卷积神经网络的甲状腺超声图像良恶性结节识别方法,首先使用了YOLOv5目标检测网络对结节位置进行检测,继而利用GoogLeNet图像分类网络对结节进行良恶性分类,此方法能在自动精确检测甲状腺结节位置的同时,对结节的良恶性进行分类,从而实现了影像全过程的自动化诊断。目前临床采用TI-RADS或C-TIRADS[13]来进行分类和评估结节恶性风险,但实际操作耗时较多,准确性也依赖操作者的经验;与之相比,基于深度卷积神经网络的模型具备很多优势,如“对图像全信息的识别和利用”、“可重复性高”、“模型随着病例数的增多会不断优化”等,因此课题组后期会继续搜集更多数据,以提高模型效能。
本研究具有一定的局限性:人工智能系统的开发是为了辅助诊断,而不是取代影像医师,本研究只进行了模型之间的对比,并未评估影像医师在模型辅助下诊断效能提高的程度,后续研究将评估不同经验的影像医师在模型辅助下诊断效能的变化程度。