AI辅助诊断联合医师C-TIRADS分类对甲状腺结节的诊断效能分析

2022-10-27 06:33徐可石波周春美曾卓华谢杨刘家开
中国医疗设备 2022年10期
关键词:诊断系统准确度特异性

徐可,石波,周春美,曾卓华,谢杨,刘家开

成都医学院第二附属医院·核工业四一六医院 超声医学科,四川 成都 610057

引言

近年来的研究表明,成年人中甲状腺结节的患病率高达65%,其中甲状腺癌又是一类高发的恶性肿瘤,因此对甲状腺结节性质的准确判断显得尤为重要[1-2]。超声因其简单、无创、快速、便携等优势已广泛应用于甲状腺结节的筛查与诊断中[3]。甲状腺结节诊断指南是判断结节良恶性的重要依据与标准,结合我国国情,2020年中华医学会超声医学分会浅表器官与血管小组制订并推出《2020甲状腺结节超声恶性危险分层中国指南:C-TIRADS》[4]。林蔚等[5]研究发现,中国(超声)甲状腺影像报告和数据系统(Chinese Thyroid Imaging Reporting and Data System,C-TIRADS)评估甲状腺结节时有较高的敏感性。近年来人工智能(Artificial Intelligence,AI)技术得到了快速的发展,Lee等[6]利用VGG激活模型图开发了一个用于定位和区分转移性淋巴结的AI预测模型,该模型预测淋巴结转移的灵敏度、特异性、准确率分别为79.5%、87.5%、83.0%,与李盈盈等[7]研究的AI预测模型诊断效能相近。Peng等[8]研究发现,深度学习AI模型(ThyNet)辅助策略可以显著提高超声科医生的诊断能力,并有助于减少甲状腺结节不必要的穿刺。虽然AI技术在医学影像诊断方面已展现出一定优势,但尚处于起步阶段,有其自身的局限性,如产品性能不稳定、容易受超声图像质量及图像采集标准化影响,从而使判读结果的准确性大大降低,因此不能直接作为参考标准[9]。本研究旨在探讨AI诊断系统联合医师C-TIRADS分类对甲状腺结节以及不同大小结节的诊断效能,以期为临床工作中最大程度地发挥AI辅助的诊断作用提供依据。

1 资料与方法

1.1 研究对象

回顾性分析2020年10月至2021年5月于我院行甲状腺超声检查并有病理结果的514例患者的临床资料。纳入标准:① 结节以实性或实性部分为主(囊性部分<25%)者;② 术前行超声诊断且资料完整者;③ 手术或穿刺病理结果明确的甲状腺结节者;④ 术前未行内分泌、化疗及放疗、消融及同位素治疗者。排除标准:① 超声图像质量较差,对结节特征不能充分显示者;② 病灶过多,不能区分病理结果者。最终224例患者入组,结节共225个,其中男性56例、女性168例,平均年龄(43.88±12.70)岁,结节最大长径85 mm,平均长径(21.54±16.14)mm。根据结节最大长径分组,≤10 mm结节98个,>10 mm结节127个。所有患者均对本研究知情并签署知情同意书,且通过本院伦理委员会审查(2016016)。

1.2 仪器与方法

1.2.1 超声检查

采用法国声科公司的SuperSonic Aixplorer超声诊断仪,SL15-4探头(频率4~15 MHz),将探头探查条件调整为甲状腺模式,由1名高年资医师进行甲状腺超声扫查,嘱患者取仰卧位,充分暴露颈部,横切、纵切动态扫查甲状腺腺体,详细记录结节的大小、位置、形态、边界、内部回声、形状、纵横比、有无钙化等。结果判读:由另外1名高年资医师对结果进行判读,当结果不一致时进行讨论,以讨论一致的结果作为最终诊断结果。严格按照《2020甲状腺结节超声恶性危险分层中国指南:C-TIRADS》[4]对结节进行分类,指南中对满足垂直位、不规则、模糊、甲状腺外侵犯、实性、极低回声、微钙化的结节各加1分,对伴有彗星尾征象的减1分,对1个结节全面评估后进行计数。-1分为2类结节(恶性风险0),0分为3类结节(恶性风险<2%),1分为4A类结节(恶性风险2%~10%),2分为4B类结节(恶性风险10%~50%),3~4分为4C类结节(恶性风险50%~90%),5分为5类结节(恶性风险>90%),6类结节为经活检证实为恶性结节。将≤4A类定义为良性,≥4B类定义为恶性[10]。

1.2.2 AI甲状腺辅助诊断系统

AI甲状腺辅助诊断系统由浙江德尚韵兴公司研发,该系统采用自主研发的深度学习框架DE-Light,只检测灰阶二维超声图,不检测血流图、弹性图。由进行超声扫查的同1名高年资医师操作,操作前已经过系统的AI操作培训,分别于甲状腺横切面、纵切面采集图像,该AI辅助诊断系统直接与采集卡对接,图片实时进行传输,AI根据算法自动识别病灶,并圈画出该结节,同时给出结节良、恶性概率值,若发现AI无法自动识别结节,医师手动在辅助诊断系统勾画靶区结节,切忌随意勾画,必须沿着毛刺边缘进行勾画,不同切面系统给出的概率值不同,测量3次,取最高数值作为AI最终诊断结果,定义<0.6为偏良性,≥0.6为偏恶性。

1.2.3 联合诊断

以C-TIRADS分类诊断结果为基础,若AI诊断为恶性则上调一个类别,但5类不再上调;若AI诊断为良性,则C-TIRADS分类下降一个类别,但2类不再下调。

1.3 统计学分析

采用SPSS 23.0和MedCalc 18.2.1软件进行统计分析。以病理结果为金标准,绘制受试者工作特征(Receiver Operating Characteristic,ROC)曲线,计算各指标的灵敏度[即真阳性率=a/(a+c)]、特异性[即真阴性率=d/(b+d)],其中a代表真阳性,即病例组内阳性的例数;b代表假阳性,即对照组内阳性的例数;c代表假阴性,即病例组内阴性的例数;d为真阴性,为对照组内阴性的例数。并计算约登指数(即正确指数=灵敏度+特异性-1)。ROC曲线下面积(Area Under Curve,AUC)>0.8表示指标具有良好的诊断效果,采用Z检验进行C-TIRADS分类、AI、AI+C-TIRADS分类的各评价指标的差异比较,以P<0.05为差异具有统计学意义。

2 结果

2.1 结节穿刺或手术后病理结果

225个结节中恶性结节占比58.2%,良性结节占比41.7%,良恶性结节病理类型及分布数量如表1所示。

表1 225个结节病理结果[n(%)]

2.2 不同诊断结果与病理对照

225个结节中,医师C-TIRADS诊断良恶性结节准确度为91.1%,AI诊断良恶性结节准确度为82.7%,AI+CTIRADS分类诊断良性结节准确度为95.1%,联合诊断的准确度优于2种方法单独诊断,见表2。

表2 C-TIRADS分类、AI、AI+C-TIRADS分类的诊断结果及与病理对照

对于≤10 mm结节,医师C-TIRADS分类诊断良恶性结节准确度为81.6%,AI诊断良恶性结节准确度为89.8%,AI+C-TIRADS分类诊断良恶性结节准确度为98.0%,联合诊断的准确度优于2种方法单独诊断,见表3。

表3 医师C-TIRADS分类、AI、AI+C-TIRADS分类对≤10 mm结节的诊断结果与病理对照

对于>10 mm结节,医师C-TIRADS分类诊断良恶性结节准确度为98.4%,AI诊断良恶性结节准确度为77.2%,AI+C-TIRADS分类诊断良恶性结节准确度为92.9%,医师C-TIRADS分类诊断的准确度优于其余2种诊断方法,见表4。

表4 医师C-TIRADS分类、AI、AI+C-TIRADS分类对>10 mm结节诊断结果与病理对照

2.3 医师C-TIRADS分类、AI、AI+C-TIRADS分类诊断效能分析

AI+C-TIRADS分类诊断特异性(95.74%)、约登指数(0.9040)、AUC(0.952)均高于医师C-TIRADS分类诊断(Z=2.085,P=0.037)及 AI诊断(Z=5.547,P<0.001);医师C-TIRADS分类诊断灵敏度(96.95%)及AUC(0.900)高于AI单独诊断(Z=2.054,P=0.040),差异有统计学意义(P<0.05),见表5和图1。

图1 3种诊断方法对总体ROC曲线

表5 医师C-TIRADS、AI、AI+C-TIRADS分类对总体诊断效能比较

对于≤10 mm结节,AI+C-TIRADS分类诊断灵敏度(98.36%)、特异性(97.3%)、约登指数(0.9566)、AUC(0.978)均高于AI(Z=2.828,P=0.005)及医师C-TIRADS分类诊断(Z=4.185,P<0.001);AI诊断的特异度(89.19%)、约登指数(0.7940)、AUC(0.897)高于医师C-TIRADS分类诊断(Z=1.993,P=0.046,差异有统计学意义(P<0.05),见表6和图2~3。

图2 3种诊断方法对≤10 mm结节ROC曲线

图3 二维超声甲状腺左侧叶≤10 mm结节超声声像图及AI识别图像

表6 医师C-TIRADS分类、AI、AI+C-TIRADS分类对≤10 mm结节诊断效能比较

对于>10 mm结节,C-TIRADS分类诊断的灵敏度(100%)、特异性(96.49%)、约登指数(0.9649)、AUC(0.982)均高于联合诊断(Z=2.269,P=0.023)及AI诊断(Z=5.464,P<0.001);AI诊断的灵敏度(74.29%)、特异度(80.70%)、约登指数(0.5499)、AUC(0.775)不及联合诊断(Z=4.803,P=0.001),差异有统计学意义(P<0.05),见表7和图4~5。

表7 医师C-TIRADS、AI、AI+C-TIRADS分类对>10 mm结节诊断效能比较

图4 3种诊断方法对>10 mm结节ROC曲线

图5 二维超声甲状腺左侧叶>10 mm结节超声声像图及AI识别图像

3 讨论

3.1 医师C-TIRADS分类诊断结果分析

目前甲状腺结节的检出率逐年增加,临床用于甲状腺超声检查的指南也在不断更新,从2011年韩国学者Kawk在Radiology发表的Kawk-TIRADS(甲状腺影像及数据报告系统)[11]、2016年韩国放射学会和甲状腺放射学会发表的Korean-TIRADS指南[12],再到2017年美国放射学会发布的ACR-TIRADS[13],每一种指南都有其优势和局限性,且各个医院对指南的使用并不统一,会给患者和临床医生带来困惑。《2020甲状腺结节超声恶性危险分层中国指南:C-TIRADS》[4],从我国的实际出发,是一种全新的计数分类的方法,指南中通过回归方程筛选出5个可疑恶性征象并对其赋值进而计数分类,使用简便快捷,可操作性强。Zhu等[14]对2309个甲状腺结节分别用美国放射学会ACRTIRADS指南、中国版C-TIRADS指南、韩国版Kawk-TIRADS指南及美国甲状腺协会ATA指南对甲状腺结节进行良恶性诊断,发现C-TIRADS指南的准确性为84.71%,高于其他3种指南,并且AUC最大为0.905,进一步说明C-TIRADS相比其他3种指南有较高的诊断效能。本研究发现医师C-TIRADS分类对总体样本诊断的灵敏度高于联合诊断及AI单独诊断,即可筛出较多的恶性结节,差异有统计学意义(P<0.05)。李潜等[15]研究发现,应用C-TIRADS指南诊断比AI诊断技术S-detect联合医师C-TIRADS诊断有更高的灵敏度(97.37%vs.96.21%),与本研究结果相近。本研究认为医师C-TIRADS分类诊断灵敏度高而特异性偏低的原因为良恶性结节在超声征象上有重叠,且C-TIRADS指南是通过对可疑恶性征象进行计数进而分类,这可能会导致部分良性结节如腺瘤、结节性甲状腺肿、炎性病变等分类过高,假阳性率上升。

3.2 AI、AI+C-TIRADS分类诊断效能分析

AI技术可对复杂的医学图像特征进行定量评估,已经被越来越多地应用于甲状腺结节的诊断中[16]。本研究发现AI单独诊断的AUC及约登指数低于联合诊断及C-TIRADS单独诊断,与方明娣等[10]的研究结果一致。Wildman-Tobriner等[17]研究发现,运用AI辅助诊断系统来修正ACR-TIRADS分级后,相比医师ACR-TIRADS分级,AUC由0.91提高至0.93,特异性也由47%提高至65%,本研究中AI单独诊断及AI联合医师C-TIRADS诊断特异性较医师C-TIRADS单独诊断特异性高,与Verburg等[18]的研究结果一致。本研究采用的德尚韵兴公司研发的AI辅助诊断系统是基于算法的学习来自主识别结节,继而得出结节的良恶性概率值,与传统的通过识别结节恶性征象而判读结节良恶性有所不同,其诊断的过程不依赖人的主观性。

3.3 医师C-TIRADS分类、AI、AI+C-TIRADS分类对不同大小甲状腺结节诊断效能分析

对于≤10 mm的甲状腺肿瘤,其被定义为甲状腺微小癌,其中绝大多数为甲状腺乳头状癌,鉴于其病灶微小,恶性征象表现不显著,且部分患者甲状腺腺体内常出现良恶性病灶并存的表现,常规超声常出现漏诊、误诊的情况,因此探寻一种新的可靠的诊断方法显得尤为重要[19-20]。本研究将甲状腺腺结节按最大长径分为≤10 mm组及>10 mm组,发现AI、AI+C-TIRADS分类对≤10 mm结节诊断的特异性、约登指数及AUC均大于医师C-TIRADS分类单独诊断,差异有统计学意义(P<0.05)。本研究中部分甲状腺小结节在早期并不会出现典型的恶性征象,即沙砾样钙化,且向周围组织浸润性生长也不明显,纤维化改变不显著,所以医师主观上可能会出现误判的情况。AI是对10万余例有病理结果的结节进行深度学习继而研发所得,所以其能快速对异常区域进行标记,进而量化分析得出良恶性概率值,降低了误判的概率[21-22]。

本研究发现对于>10 mm结节,AI及联合诊断的诊断效能低于医师C-TIRADS分类诊断。方贞燕[21]的研究发现,随着结节体积增大,AI诊断的灵敏度及准确性呈下降趋势,且AI诊断的准确性与该系统的技术原理和系统的稳定性密切相关,不同品牌的AI诊断系统在临床实践中的表现可能会出现较大的差异,因此医师需要对所使用的AI系统的优势充分了解,最大程度地发挥AI的辅助作用。

本研究存在的局限性:① 样本量过少,在今后研究中进一步将>10 mm结节按照大小进行分组,探讨AI诊断系统联合医师C-TIRADS分类对其的诊断效能;② 样本中恶性结节偏多,绝大部分是乳头状癌,对分类诊断准确性有一定影响。

4 结论

AI诊断系统联合医师C-TIRADS分类可提高对良恶性结节诊断的准确度、特异性,尤其对于≤10 mm结节,其整体诊断效能更优;对于>10 mm结节,医师C-TIRADS分类诊断的准确度、灵敏度、特异性更好。

猜你喜欢
诊断系统准确度特异性
CT联合CA199、CA50检测用于胰腺癌诊断的敏感性与特异性探讨
老年慢性非特异性腰痛综合康复治疗效果分析
影响重力式自动装料衡器准确度的因素分析
血清铁蛋白、IL-6和前列腺特异性抗原联合检测在前列腺癌诊断中的应用
欧克诊断仪推出行业高配极致双模诊断系统
论提高装备故障预测准确度的方法途径
基于APP汽车电子诊断系统的ISO标准通信协议
数控机床故障诊断系统的设计与实现
Word中“邮件合并”功能及应用
婴幼儿湿疹800例血清过敏原特异性IgE检测结果分析