人工智能软件辅助诊断新鲜肋骨骨折的效能评估

2022-03-02 04:57朱雅茹王梦悦徐蕴潮纪执琳邹月芬

南京医科大学学报（自然科学版） 2022年2期

朱雅茹，祁良，徐磊，王梦悦，徐蕴潮，纪执琳，邹月芬

南京医科大学第一附属医院放射科，江苏南京 210029

胸部创伤导致的直接死亡占创伤相关病死率的25%［1］，胸部创伤可分为胸壁、肺及心血管损伤，而肋骨在胸部创伤中最易受累。钝性胸部损伤由减速性、挤压性、撞击性或冲击性暴力所致；约40%的钝性胸部损伤会引起肋骨骨折［2］。肋骨骨折一定程度上代表着损伤严重程度，患者病死率随着肋骨骨折数量增多而增高，80%两根肋骨以上的肋骨骨折会引起血胸或气胸。肋骨骨折患者的住院率和病死率高于无肋骨骨折的患者［3-4］。传统诊断肋骨骨折的常用方法是胸部X线平片，但由于照射体位、肋骨骨折位置、隐匿性骨折等原因易导致骨折的误诊或漏诊。CT 扫描显示外伤性肋骨骨折较X 线平片能提供更加丰富、准确的影像学信息［5-6］。

由于肋骨数多而形态不规则，临床工作中需要从上百张CT 图像中观察肋骨骨折，工作量巨大，有研究报道，仅有约2/3的肋骨骨折在胸部CT 中被诊断［7］。肋骨骨折的漏诊及误诊经常会引起医疗纠纷，特别是在打击或车祸等病例中，骨折的数量、对位情况有时在伤害的程度及伤残等级的认定上起着决定性作用［8］。

目前已有研究报道基于卷积神经网络（convolu⁃tional neural network，CNN）深度学习的人工智能软件可以对海量CT图像进行初步筛查并标记可疑肋骨骨折，可以帮助医师减少工作量并提高诊断准确率［9-10］。

本研究旨在评估基于深度学习的人工智能软件（artificial intelligence，AI）辅助放射科医师在胸部CT 新鲜肋骨骨折诊断中的应用价值及骨折形态和骨折位置对骨折检出率的影响。

1 对象和方法

1.1 对象

收集南京医科大学第一附属医院放射科2018年6月—2020年5月期间共637例7 d内有外伤病史并行胸部CT 检查发现肋骨有新鲜骨折的病例。图像纳入标准：①有薄层胸部CT图像（层厚≤1.25 mm）；②有临床胸部损伤史。排除标准：①图像有引流管或金属内固定物；②肿瘤肋骨转移的病理性骨折；③严重运动伪影；④肋骨肿瘤及转移瘤；⑤有陈旧性骨折病史的病例；⑥肋骨先天发育异常。最终共508 例患者纳入本研究，平均年龄（56.19 ± 14.86）岁，年龄范围12～97 岁；其中，男316 例，平均年龄（54.11±14.09）岁，年龄范围12～87 岁；女192 例，平均年龄（59.60±15.49）岁，年龄范围18～97岁。

1.2 方法

1.2.1 CT检查

患者取仰卧位，上臂上举（部分患者因肩部或上肢外伤不能上举则自然置于身体两侧），扫描范围自胸廓入口至肺底部或全部肋骨，患者1次吸气后屏气完成扫描。扫描方式：螺旋扫描；管电压110 kV或120 kV；层厚：5.0 mm，使用骨算法重建1.25 mm或1.5 mm层厚轴位图像，图像矩阵：512×512，视野：360 mm。

1.2.2 AI

本研究使用的AI是由杭州依图医疗技术有限公司开发，该软件基于CNN对左右肋骨进行分割及分段，同时三维重建，并检出骨折，标记其骨折位置和骨折类型（图1）。将508例胸部CT原始数据传输至工作站，软件系统自动批量进行肋骨骨折识别和标记。

图1 人工智能软件检测肋骨骨折流程及结果界面Figure 1 The process of AI system detecting rib fracture and display of results

1.2.3 骨折标准认定

2 名高级职称影像诊断医师在胸部CT 薄层图像上对肋骨骨折进行判读，通过多平面重建、三维重建等方法并结合复查胸部CT 观察有无骨痂形成来判定有无骨折；如无复查CT，以两者的一致性意见为骨折诊断标准，同时记录骨折的数目及形态。骨折形态按照骨折断端是否移位分为3 类，即无错位骨折［包括裂隙状骨折（图2A）及骨皮质扭曲（图2B）］、部分错位骨折［骨折断端不完全错位（图2C、D）］及完全错位骨折［包括分离骨折（图2E）及粉碎性骨折（图2F）］［11］。

图2 不同肋骨骨折形态示意图Figure 2 Different patterns of rib fractures

1.2.4 阅片

6名影像医师对508例患者胸部CT图像进行两轮判读，6 名医师中3 名为工作年限≤5 年的低年资医师，3名为工作年限＞5年的高年资医师。第一轮独立阅片时，6 名影像医师使用医疗影像存储与传输系统（picture archiving and communication system，PACS）对CT图像进行独立阅片，阅片过程中医师可根据需要调整窗宽、窗位、放大和缩小、使用多平面重建（MPR）、容积重现（VR）等。在间隔为期4周的洗脱期后，6 名影像医师在结合AI 辅助诊断结果的前提下对胸部CT 图像进行第二轮判读。诊断过程中记录骨折位置、类型及阅片用时。

1.3 统计学方法

应用SPSS 26.0统计学软件进行资料录入、整理及统计学分析，P＜0.05 为差异有统计学意义。采用配对卡方检验（McNemar 检验）比较AI 辅助前后影像医师检出肋骨骨折的能力差异有无统计学意义，并计算灵敏度与特异度。绘制受试者操作特征（receiver operatiny characteristic，ROC）曲线，并计算曲线下面积（area under curve，AUC），应用Medcalc软件对AUC 进行显著性检验。采用Cohen’s kappa系数分析低年资医师和高年资医师诊断肋骨骨折的一致性。AI 辅助前后影像医师诊断每个肋骨骨折病例的时间使用配对t检验进行检验。

2 结果

2.1 肋骨骨折分类特征

508例CT图像经2位影像医师判读共包含2 883处骨折，共累及2 368根肋骨。其中，无错位骨折1 401处、部分错位骨折973处、完全错位骨折509处（表1）。

表1 骨折分类特征Table 1 Characteristics of rib fracture

2.2 肋骨骨折诊断灵敏度和特异度

低年资医师在独立阅片时，诊断肋骨骨折的灵敏度和特异度分别为77.95%、99.53%，对无错位骨折的诊断灵敏度和特异度分别为64.41%、99.54%，部分错位骨折的灵敏度和特异度分别为88.59%、99.99%，完全错位骨折的灵敏度和特异度分别为94.90%、100.00%；在AI 辅助诊断后，诊断肋骨骨折的灵敏度和特异度分别为88.52%、99.85%，对无错位骨折诊断的灵敏度和特异度分别为78.49%、99.86%，部分错位骨折的灵敏度和特异度分别为97.43%、99.99%，完全错位骨折的灵敏度和特异度分别为99.08%、100.00%，不同类型肋骨骨折的诊断灵敏度均显著提升，差异有统计学意义（P＜0.001），无错位骨折的诊断特异度差异有统计学意义（P＜0.001）；部分错位及完全错位骨折的诊断特异度差异无统计学意义（P=1.000）。

高年资医师在独立阅片时，诊断肋骨骨折的灵敏度和特异度分别为83.96%、99.83%，对无错位骨折的诊断灵敏度和特异度分别为71.38%、99.84%，部分错位骨折的灵敏度和特异度分别为94.76%、99.99%，完全错位骨折的灵敏度和特异度分别为97.97%、100.00%；在AI 辅助诊断后，诊断肋骨骨折的灵敏度和特异度分别为90.98%、99.96%，对无错位骨折的诊断灵敏度和特异度分别为82.27%、99.95%，部分错位骨折的灵敏度和特异度分别为98.87%、100.00%，完全错位骨折的灵敏度和特异度分别为99.87%、100.00%，不同类型肋骨骨折的诊断灵敏度均显著提升，差异有统计学意义（P＜0.001），无错位骨折的诊断特异度差异具有统计学意义（P＜0.001）；部分错位及完全错位骨折的诊断特异度差异无统计学意义（P=1.000）。

典型CT图像见图3。

图3 右侧第6后肋无错位骨折及1个月后复查CT图像Figure 3 Undisplaced fracture of the right 6th rib and re⁃view images after one month

2.3 ROC曲线及AUC

应用AI辅助诊断后，影像医生对肋骨骨折的检测性能提高，平均AUC 从0.902 增加到0.948（图4，表2）。每个阅片者的AUC变化范围为0.034～0.080，6 名诊断医师AI 支持下的AUC 均升高，P值均＜0.001。

表2 AI辅助前后的AUCTable 2 AUC before and after AI assistance

图4 6名诊断医师在独立阅片和AI辅助下的ROC曲线Figure 4 ROC of 6 radiologists when diagnosing indepen⁃dently and with the assistance of AI

2.4 一致性检验

采用Cohen’s kappa 系数分析不同年资医师对肋骨骨折诊断的一致性。结果显示在独立阅片时，低年资和高年资医师诊断肋骨骨折的Cohen’s kap⁃pa系数为0.832±0.004；AI辅助诊断后低年资和高年资医师诊断肋骨骨折的Cohen’s kappa 系数为0.900±0.003。

2.5 阅片时间

在阅片时间上，AI辅助后诊断医师诊断每个肋骨骨折病例的时间［（117.28±53.23）s］比AI 辅助前［（145.71±58.78）s］的时间减少了28.43 s（95CI：27.73～29.13 s），差异具有统计学意义，t=79.697，P＜0.001。低年资医师（图5，诊断医师1和2）AI辅助前后每个病例平均阅片时间缩短最为显著，分别为（36.35±21.70）s（95%CI：34.46～38.24 s；t=37.756，P＜0.001）、（32.56±16.64）s（95%CI：31.11～34.01 s；t=44.105，P＜0.001）。

图5 使用AI诊断肋骨骨折前后时间Figure 5 Time to diagnosis of rib fractures before and af⁃fer using AI assistance

3 讨论

CT 扫描显示外伤性肋骨骨折较X 线平片能提供更加丰富、准确的影像信息［5-6］。而临床上肋骨骨折误诊及漏诊率较高［7］。CNN 是深度学习（deep learning）的代表算法之一，在骨骼肌肉放射学中已有多种应用［11］，本研究采用基于CNN的人工智能软件，对肋骨骨折实现检测。目前已有基于CNN的人工智能软件在提高肺结节及乳腺癌检出能力的相关研究表明，AI 辅助后检出能力明显提高［13-15］。基于CNN 的深度学习技术辅助肋骨骨折诊断的研究多集中于算法和模型［9-10，16-17］。

在诊断效能方面，本研究结果显示，AI 辅助诊断后不同年资的影像医师诊断肋骨骨折的能力均升高。独立阅片时低年资医师的诊断灵敏度及AUC 均低于高年资医师，差异有统计学意义；而AI辅助诊断后低年资医师与高年资医师的诊断灵敏度及AUC 均提升。一致性分析结果显示AI 辅助阅片后，低年资医师与高年资医师之间的Cohen’s kappa 系数明显高于独立阅片时的系数（0.900vs.0.832），说明AI 辅助诊断后可以使不同年资医师在诊断肋骨骨折的一致性上趋于相同。这是因为基于CNN 深度学习的人工智能软件可以对肋骨骨折进行准确标记，从而降低了诊断经验对影像医师的影响。谭辉等［18］使用深度学习的计算机辅助诊断系统诊断急性肋骨骨折的检出效能，结果显示相比独立阅片，辅助诊断后的检出效能明显提升，本研究结果与其一致。

在临床工作中，完全错位骨折容易诊断，在本研究中，无论是低年制医生还是高年资医生，在没有AI的辅助下，几乎均能对完全错位的骨折得出准确的诊断；对于部分错位的骨折，低年制医生诊断的敏感性稍低于高年制医生诊断的敏感性，但运用AI 辅助诊断后，低年制医生诊断敏感性显著提高（P＜0.001），几乎和高年制医生相同，达到98%左右；对于无错位肋骨骨折，因为骨折处没有明显形态改变，不同年资的诊断医师均容易误诊或漏诊。在AI辅助下，不同年资的诊断医师对无错位骨折灵敏度均明显提高（P＜0.001），其中低年资医师与高年资医师对无错位骨折的诊断效能提升更加显著（64.41%vs.78.49%，P＜0.001；71.38%vs.82.27%，P＜0.001）。虽然AI辅助后无错位骨折的诊断灵敏度提升显著，但其诊断灵敏度仍较低。漏诊的骨折常是裂隙状骨折及骨皮质屈曲型骨折，误诊原因常包括血管沟、呼吸伪影、肋软骨移行处等。

在诊断时间上，本研究显示，AI 辅助后诊断医师的阅片时间显著下降［（145.71±58.78）svs.（117.28±53.23）s，P＜0.001］，这是因为AI 软件提供了准确的骨折所在层面及位置，能使诊断医师更快速地做出诊断并定位骨折。Zhou 等［10］建立了肋骨骨折检测模型，对比独立阅片与AI辅助后诊断时间显示，阅片时间缩短了约73.9 s，本研究显示AI辅助后诊断医师的阅片时间缩短约28.43 s，缩短时间的差异可能和软件选用的算法模型及阅片者的诊断经验有关。

本研究有一定的局限性。首先，数据集病例为回顾性收集，病例均为已被诊断的病例，无法获得临床上漏诊的病例，存在一定的选择性偏倚；第二，本研究是单中心研究，不是多中心研究，但样本量较大，包括各种类型骨折，研究结果具有一定可靠性。其次，本研究中肋骨骨折的诊断基于资深放射科医师的诊断，而不是病理结果，但此情况也无法避免，因为临床上很多肋骨骨折的患者无需手术；最后，在胸部CT图像上出现憋气不良和严重呼吸伪影的患者被排除在研究之外。然而，此类患者在日常工作中并不少见，在以后的进一步研究中，应该考虑继续优化模型，把此类患者纳入研究。

综上所述，AI辅助医师诊断肋骨骨折能够提高肋骨骨折检出的灵敏度，并减少诊断时间，使不同年资医师的诊断效能趋于一致。