姜自容,周祖邦,时润莉,张雪婷,薛亚娥,张明华
(1.甘肃中医药大学,甘肃 兰州 730000;2.甘肃省人民医院,甘肃 兰州 730000)
甲状腺癌在内分泌肿瘤中的发病率居首位,近几十年来发病率明显升高[1-2]。超声检查具有操作方便、检查费用低和便于医生与患者病情交流等特点,是当前使用最广泛的甲状腺结节影像学检查方法,但其准确率高度依赖操作者的经验技术,且易受环境、仪器等因素干扰。人工智能与医学大数据的结合促成了新的诊断方法,即计算机辅助诊断(CAD)技术。客观稳定、操作便捷且准确率高的CAD软件的应用,一方面有助于加快超声医师的诊疗进程,缩短患者等待时间;另一方面可提高TI-RADS分级的准确性和一致性,避免因主观因素及诊断技术不同导致的过度细针抽吸活检(Fine-Needle Aspiration,FNA)。目前,已有大量研究证实CAD软件对乳腺结节[3]及肺结节[4]的临床应用价值,而将CAD软件对甲状腺结节的诊断效能与超声医师相比较的研究较少。为此,本研究应用CAD软件判读经病理证实的106个甲状腺结节,并与超声医师的判读结果进行比较,分析CAD软件对甲状腺结节判读的稳定性及鉴别诊断效果。
回顾性分析我院超声医学科2019年8—12月行FNA的甲状腺结节患者资料,所有患者均符合FNA标准[1,5]。恶性结节以术后病理检查结果为诊断依据,良性结节以术后病理检查或Bethesda甲状腺细胞病理学报告结果[6]为诊断依据。所有研究对象签署知情同意书。排除标准:(1)超声下结节最长径小于1 cm;(2)结节图像显示不完整、不清晰;(3)细胞病理学诊断不明确且未经手术证实。共纳入患者102例(106个结节),男25例,女77例;年龄21~78岁,平均(47.2±10.5)岁。病理检查结果:良性37个,恶性69个。
1.2.1 检测仪器 本研究所用彩色多普勒超声诊断仪型号为GE LOGIQ E9,配备9L及ML6-15探头,甲状腺超声CAD软件由浙江德尚韵兴医疗科技有限公司提供。
1.2.2 FNA及图像采集 甲状腺结节FNA由一位具有15年介入超声工作经验的医师进行操作。FNA前,由介入组医师采集结节横切、纵切及反映结节特征切面的声像图至少一张,记录结节最大径。基于介入组医师采集的声像图利用CAD软件进行鉴别诊断。
1.2.3 结节判读 CAD软件自动识别导入的图像并勾画感兴趣区域,量化分析结节影像特征(包括边缘、结构、高回声点、均匀性、回声类型、纵横比6个特征),综合分析后,对结节进行评分(评分范围0~1分,<0.4分为偏良性,≥0.4分为偏恶性),见图1。
图1 CAD软件自动量化结节声像图特征并评分
医师判读依据为Kwak建立的TI-RADS分类标准[7],将4~5类归为偏恶性结节,3类归为偏良性结节[8]。两名工作10年以上的高年资医师基于甲状腺结节图像独立判读并行TI-RADS分级,同时评估边缘、结构、高回声点、均匀性、回声类型、纵横比6个特征。两名工作一年的低年资医师进行独立判读及TI-RADS分级,一周后,再利用CAD软件对结节进行分级。判读过程中,医师不知晓患者病理检查结果,判读有分歧时由该组医师讨论后得出结论。
1.2.4 CAD软件及医师判读结果比较(1)比较高年资医师与CAD软件的诊断效能,包括诊断灵敏度、特异度、准确率、阳性预测值、阴性预测值;评估高年资医师与CAD软件对甲状腺结节6个影像特征及良恶性分类的观察一致性,Kappa值<0为观察一致性极差,0~0.2 为微弱,>0.2~0.4 为弱;>0.4~0.6 为适中,>0.6~0.8 为显著,>0.8~1.0 为最佳[9]。(2)比较低年资医师单独诊断与低年资医师利用CAD软件诊断甲状腺结节的诊断效能,包括诊断灵敏度、特异度、准确率、阳性预测值、阴性预测值,评价CAD软件的诊断价值。(3)比较CAD软件对不同大小、类型甲状腺结节的诊断准确率,评价其诊断各类型甲状腺结节的稳定性。
采用SPSS 21.0统计软件进行数据处理,对结节特征、良恶性的观察采用Kappa一致性分析,采用χ2检验或Fisher确切概率法进行组间比较,计算受试者工作特征曲线下面积(AUC)并采用Z检验进行分析。以P<0.05为差异有显著性。
高年资医师的诊断特异度高于CAD软件,差异有显著性(P<0.05);两者灵敏度、准确率比较差异无显著性(P>0.05),见表1。高年资医师的 AUC为 0.873(95%CI:0.795~0.930),CAD 软件的 AUC 为 0.780(95%CI:0.689~0.855),二者比较差异有显著性(Z=2.166,P<0.05),见图2。Kappa 一致性检验结果显示,CAD软件、高年资医师对甲状腺结节良恶性判读(Kappa=0.68)及回声类型(Kappa=0.77)的观察一致性显著,对高回声点(Kappa=0.60)、均匀性(Kappa=0.51)的观察一致性适中,对边缘(Kappa=0.36)、纵横比(Kappa=0.35)、结构(Kappa=0.25)的观察一致性弱,见表2。
表1 CAD软件与高年资医师的诊断效能比较(%)
图2 CAD软件及不同操作者的ROC曲线图
表2 CAD软件、高年资医师对甲状腺结节超声特征及良恶性判别结果比价(n)
低年资医师利用CAD软件判读的灵敏度、准确率比其独自诊断时高,差异具有显著性(χ2=4.923、P=0.022,χ2=7.563、P=0.004);特异度比其独自诊断时高,但差异无显著性(χ2=1.333、P=0.250),见表3。低年资医师利用CAD软件的AUC为0.751(95%CI:0.657~0.830),其独自诊断的 AUC 为 0.645(95%CI:0.546~0.736),两者比较差异有显著性(Z=2.502,P<0.05),见图2。
表3 低年资医师利用CAD软件诊断与高、低年资医师独自诊断的诊断效能比较(%)
CAD软件对各类型恶性结节的诊断准确率比较差异有显著性(P<0.05),CAD软件对不同大小的良性结节的诊断准确率比较差异无显著性(P>0.05),见表4。
表4 CAD软件对不同类型、大小结节的诊断结果比较(n)
对于甲状腺结节优先选择的是超声检查,指导医生决定结节是否行FNA[10],超声诊断结果易受操作医师经验的影响[11]。近年来,CAD技术在医学影像学科中的运用越来越广泛,利用CAD软件对甲状腺结节进行鉴别诊断有望提高超声医师的诊断效能,降低变异性[12]。
Wang等报道CAD软件的诊断准确率为90.3%,灵敏度为90.5%,与超声医师独自诊断的准确率、灵敏度比较差异无显著性(P>0.05);CAD软件的特异度为89.9%,高于超声医师(P<0.05)[13]。我们的研究发现,CAD软件的灵敏度(88.4%)和准确率(81.1%)与高年资医师相近(P>0.05),特异度(67.6%)低于高年资医师(P<0.05)。CAD软件的诊断效能不同于以往研究[13]的原因可能与软件使用者的自学能力、研究对象不同有关——本研究纳入的良性结节患者因超声诊断有难度而行FNA或诊断性手术。尽管不同研究中CAD软件诊断甲状腺结节的灵敏度和特异度存在一定差异,但其均能有效鉴别甲状腺结节的良恶性,对决定是否进行FNA有帮助。
本研究中,CAD软件和高年资医师对结节良恶性判读的观察一致性显著(Kappa=0.68)。有研究报道,4名具有5年以上工作经验的医师对甲状腺结节良恶性评估的观察一致性中等(Kappa=0.54)[11],低于我们的研究结果。因此,我们推测CAD软件对甲状腺结节良恶性的判读稳定,且与高年资医师有较好的观察一致性。CAD和高年资医师对结节超声特征的观察,仅在高回声点和回声类型方面一致性较好。两者对其他特征的观察一致性适中或弱,这种观察者间的变异性反映了医师自身对特征观察的变异性[11]。由于CAD软件对病灶声像图自动量化的特征数目有限,未来完善结节形态、钙化、后方回声、声晕、血流、弹性及部位等数据,有助于提高其准确率,便于医师出具智能诊断报告,提高工作效率。
低年资医师利用CAD软件诊断的灵敏度和准确率高于其独自诊断(P<0.05),ROC曲线下面积也证实了低年资医师利用CAD软件后诊断价值显著提高,且与CAD软件诊断接近(P>0.05)。分析原因为低年资医师参考了CAD软件对结节特征及最终类别的决策判断,使得判读更加客观准确,减少了主观错误。本研究中,经验丰富的高年资医师诊断特异度优于CAD软件及低年资医师利用CAD软件,提示经验对甲状腺良性疑难病例的鉴别有重要意义。因此,丰富低年资医师经验或增加CAD软件良性病例数量可提高诊断特异性。
CAD软件诊断准确率与甲状腺恶性结节的类型相关,差异有显著性(P<0.05),其中乳头状癌(92.2%)的诊断准确率最高,其在本组恶性病例中的占比最高(92.8%),也是临床上最常见的甲状腺癌类型。本研究中结节大小、良性结节类型对CAD软件诊断准确率无明显影响,表明CAD软件对不同大小、类型的良性结节检出率稳定。本研究中,甲状腺滤泡癌、髓样癌、转移癌、炎性结节病例数过少,还需扩大样本进一步研究。此外,9L探头和ML6-15探头扫查结节同一切面得到的CAD软件评分不同,其原因是不同的探头频率成像清晰度不同,因而影响CAD软件诊断准确性。CAD软件只能采集单帧静态图像,无法获取结节全部信息。因此,改进图像采集方式,实时、动态多切面显示结节,有助于提高CAD软件的诊断准确率。
CAD软件对甲状腺结节判读稳定,灵敏度和准确率与高年资医师一致,能有效提高低年资医师甲状腺结节诊断准确率,是当前甲状腺结节发病率逐年升高形势下具有发展前景的人工智能诊断技术。本研究的局限性包括纳入的甲状腺结节最大径不小于1 cm可能导致选择偏差,以及纳入样本数量有限。今后还需要大样本、多中心的研究进一步验证。