深度学习在脊柱影像及诊疗中的应用进展

2023-08-03 13:12帕哈提吐逊江杨来红常玉山

分子影像学杂志 2023年3期

帕哈提·吐逊江，杨来红，常玉山，何雄，郭辉

新疆医科大学第一附属医院影像中心，新疆乌鲁木齐830054

近年来，我国人口老龄化的现状正加速推进，这大大增加了相关群体的脊柱局部损伤，脊柱疾病的患病风险呈上升趋势［1］。为了方便临床医生观察并迅速判断脊柱各正常及异常结构，脊柱影像学检查显得尤为重要。即使X线成像、CT、MRI等技术逐渐或已成为在脊柱疾病诊疗过程中一线且常用的检查手段，但相当一部分脊柱疾病的诊断、脊柱术前及术后的评估预测仍存在诸多挑战及困难，患者无法及时得到精准的早期诊断及治疗，难以满足当今的临床诊疗需求［2］。积极寻求一种快速而又无创的方法，实现对脊柱图像精准识别及对脊柱相关疾病早期诊断及预测是非常有必要的。

现如今，腾飞的人工智能（AI）技术与脊柱影像及诊疗的融合，迅速推动并促进了临床脊柱诊疗工作向智能、精准化方向发展，尤其是深度学习（DL）方法［3-4］。DL是机器学习研究中一个新的无监督学习的神经网络领域。它是建立并模拟人脑进行分析学习，进而模仿人脑的机制来解释数据［5-6］。DL强调的是模型结构的深度，并通过构建具有很多隐层的机器学习模型和海量的训练数据，使各层次特征学习变得更加容易，从而最终提升分类或预测的准确性［7］。DL主要应用于图像识别、语音识别及自然语言处理等领域，特别是在脊柱医学领域得到了广泛研究与应用［8-9］。然而，DL在脊柱方面的研究相对较少并仍处于起步阶段，在与临床实践相结合的研究更是缺乏，未来具有较大发展潜力及进步空间。本文将从DL在脊柱图像识别、分割及测量，脊柱疾病的诊断及脊柱手术预后评估3个方面中的应用及研究进展进行综述，助力DL在脊柱影像及脊柱诊疗研究更深入、更高水平的发展。

1 DL在脊柱图像识别、分割及测量

脊柱具有复杂的组织解剖，与神经、血管走行关系密切，提高对脊柱各结构的精准识别、分割和术前各测量指标的评估能力是开展高水平脊柱手术的关键环节。DL在脊柱分割及测量相关的研究相对较集中，文献报道主要在椎体的定位，椎体及椎间盘的分割，角度测量及植入物识别等方面研究。

1.1 X线图像

有学者构建了一种基于X线的颈椎图像全自动分割框架，该DL框架的任务包括椎体定位、椎体中心定位及椎体分割［10］。利用卷积神经网络椎体定位获得的敏感度及特异性均为0.97，中心定位框架能够检测到93.73%的椎体，损失函数-形状感知分割产生的平均Dice系数为0.944；该完整的、全自动的基于X线图像椎体分割框架所产生的最终Dice系数为0.84。Kónya等［11］采用语义分割模型（U-Net、PSPNet、DeepLabv3）和实例分割模型（Mask R-CNN、YOLACT）对腰椎侧位X线图像中的椎体进行识别。建模完成后分割结果显示，语义分割模型与实例分割模型的像素精度和交并比相差不大；而实例分割模型的椎体识别率在统计学上显著优于语义分割模型的识别率。即使椎体在严重病变或者处于术后状态的情况下，实例分割模型仍能够分割重叠椎体，而语义分割模型不具备这样的优势。有学者回顾性分析了腰椎术后患者的X线图像并对不同来源的5种椎弓根螺钉植入物进行标记，进而通过CNN对它们作相应识别，发现三种不同的DL模型对椎弓根螺钉植入物的识别准确率为76.0%～98.7%，召回率为72.0%～98.4%［12］。在不久的将来，该方法或许能够应用于临床，为患者护理及再次实施翻修治疗提供更有价值的信息。

1.2 CT图像

有学者提出了在脊柱三维CT图像上全自动椎体形态测量和Cobb角测量的DL框架，并在外部数据集中验证了该框架的可行性［13］。使用U-Nets方法以椎体和椎间盘高度作形态学测量，并以冠状位和矢状位Cobb角行脊柱弯曲度的测量。DL框架与人工测量值的误差极小，线性回归结果显示出极好的一致性。

1.3 MRI图像

有研究引入了一个新型区域-图像匹配深度神经网络模型，该模型能够自动、同步的识别椎间盘和分割多模态MRI图像［14］。该研究通过准确度、Dice系数、平均对称表面距离、杰卡德相似系数,豪斯多夫距离及F1分数等多个指标综合评价了模型的性能。该模型识别分割准确率达94%，Dice系数为91.7±0.01，杰卡德相似系数为0.87±0.02，平均对称表面距离为0.54±0.04，豪斯多夫距离为0.62±0.02。研究人员在后期采用外部的数据集对结果进行了验证并与其他方法做比较。该DL方法不仅能够对椎间盘MRI图像进行高精度的同步识别和分割，并且具有较高的鲁棒性和准确性。为了进一步探索DL算法在脊柱医学图像分割领域的临床价值，有学者研究设计了一种改良BN-U-Net算法，从准确度、敏感度、特异性和AUC四个方面评价了该算法在MRI图像处理中的应用价值［15］。结果表明，改良BN-U-Net算法较全卷积网络和U-Net算法的图像处理时间相比，前者的图像处理耗时缩短（P<0.05）；改良BN-U-Net分割算法的准确率、敏感度和特异度分别为94.54%±3.56%、88.76%±2.67%和86.27%±6.23%，较全卷积网络和UNet算法均提高（P<0.05）。因此，改良BN-U-Net分割算法可以进一步提高脊柱MRI图像的分割质量和精度，对MRI图像的特征和处理效果具有积极作用，值得在脊柱医学图像分割领域进一步推广。

AI技术显著影响着脊柱影像及成像的每一环节，如椎体定位、分割、角度测量等，它可以精准识别影像图像中的各解剖构，自动化完成多种测量问题，并提高了图像质量及成像效率。未来这些技术的应用普及将为影像科医生及脊柱外科医生带来极大的方便，提高工作效率。

2 DL在脊柱疾病的诊断

利用DL来解决脊柱疾病的分类、鉴别诊断问题是目前最突出的研究领域。基于脊柱各种成像技术的DL算法已被应用于多种脊柱疾病的诊断，包括脊柱肿瘤、脊柱感染、脊柱骨质疏松、脊柱侧弯畸形、脊柱骨折、脊柱退行性疾病等。

2.1 脊柱肿瘤

脊柱肿瘤的诊治复杂且难度大，已成为全球脊柱领域重点研究的焦点。DL在脊柱肿瘤方面的研究渐渐增多。有学者借助图灵测试开发了一个检测脊柱原发性肿瘤DL模型-快速R-CNN［16］。该网络的主干包括3种路径，分别是R-CNN50、R-CNN101、R-CNN152。5位医生在训练集和测试集上MRI图像标注准确率及平均标注准确率分别为94.44%、97.90%、97.88%。当交并比>0.3时，3种路径的精确率在脊柱轴位图像分别为79.1%、79.8%、80.6%；在矢状位图像上分别为84.5%、85.2%、86.1%。快速R-CNN模型对每个受试者做出了超过30%的误判并通过了图灵测试。因此，该模型对脊柱肿瘤的自动检测与医生的标注范围是相一致的，未来能协助放射科医生或骨科医生快速检测到原发性脊柱肿瘤，这使临床工作既省时又高效。有学者通过585例脊柱肿瘤患者的MRI图像及年龄特征开发了鉴别诊断脊柱良恶性肿瘤的多模态融合DL模型，采用的快速RCNN方法包涵肿瘤检测、MRI多序列及年龄统计三大模块［17］。患者年龄信息存在或者没有的情况下，快速RCNN模型在脊柱良恶性肿瘤组织病理学分类上均获得了较高的准确率，分别为0.821、0.800，且均高于3位医生的诊断准确率；除此之外，将年龄信息纳入模型内，有助于提高模型的诊断准确性。与医生人工定位相比，该DL模型不仅降低了肿瘤定位的错误率，还对组织学类型复杂的脊柱良恶性肿瘤具有较好的诊断价值。此模型的开发，将来或许能为脊柱外科在脊柱肿瘤诊疗方面提供精准医疗服务。

2.2 脊柱感染

感染性脊柱炎患者数量正逐年增加，归因于多个方面，如中老年患者的抵抗力下降、脊柱有创手术的大量开展、自然环境因素影响、生活习惯饮食不当等［18］。由于临床上感染性脊柱炎的鉴别诊断较为困难，提高早期诊断准确率及检出率显得尤为重要［19］。Kim等[20]构建了基于MRI图像分类结核性脊柱炎（TS）与化脓性脊柱炎（PS）的深度卷积神经网络。模型通过计算所有纳入患者的DL 评分，综合评估患者为TS 或者PS 的可能性。深度卷积神经网络模型鉴别诊断TS与PS的AUC值为0.802，3位放射学专家所产生的AUC值为0.729，两者诊断性能表现相当。该模型或许能构为临床提供更大的帮助，更精准地作出脊柱感染具体疾病的诊断。由于CT检查对脊柱结核检出率较低，有学者开发了基于CT图像的计算机辅助诊断TS的DL框架［21］。该框架融合了4种图像特征提取算法，包括尺度不变特征变换、加速稳健特征、快速定向与旋转及CNN。此外，该学者还提出了通过虚拟数据增强的方法来扩大了TB数据集的手工特征。该DL框架由匹配网络、骨干网络（ResNet-18/50、VGG-11/16、DenseNet-121/161）、下降网络和门控信息融合网络4个主干组成。该研究通过多模态特征、增强算法、模型稳定性和聚焦热图进行了详细的网络框架性能分析。结果表明，VGG-11网络在准确率、AUC、敏感度和特异性获得了最佳诊断性能，分别为98.33%、99.84%、98.33%、98.33%。模型聚焦热图范围明显在结核杆菌所致的骨质破坏区域聚集。虽然该研究局限在TS的识别诊断，但它具有一定临床应用前景，必要时可在偏远的基层医院推广。DL在脊柱感染性疾病方面的研究相对较少，需要广大临床及科研工作者重点关注及探索。

2.3 骨质疏松

有学者将6908例患者分成正常骨密度组、骨量减少组及骨质疏松组，构建并探讨了基于CNN的联合模型与影像模型对骨量减少与骨质疏松的筛查性能［22］。在影像模型中，基于腰椎X线侧位与正位图像的联合模型获得了最好的诊断性能，测试集与验证集的AUC值为0.909～0.937。临床信息与影像相结合的CNN联合模型与影像模型相对比，前者的AUC 值增加了2%～4%，同时其特异性和阳性预测值也有所提高。骨质疏松和骨量减少的早期发现有助于识别椎体骨折风险的人群，并实施早期干预措施，防止病情进一步进展。

2.4 脊柱侧弯

脊柱侧弯的患病群体以青少年和中老年为主，诊疗过程中患者需要接受放射检查，不可避免的增加了辐射暴露。另外，脊柱侧弯的严重程度是DL脊柱外科手术干预的重要评估指标之一，其评估过程受主观因素较大。因此，非侵入性方法在脊柱侧弯方面的应用大大解决了上述的短板。Chen等［23］在脊柱X线图像上采用DL方法对患者脊柱区域进行了定位，同时利用Faster R-CNN+Res-Net、TX+SVM及LBP+SVM 3种分类器对脊柱侧弯严重程度分类性能作出了详细评价。根据脊柱Cobb角的大小将脊柱侧弯分为4个等级（无疾病、轻度、中度及重度脊柱侧弯畸形），用AI的方法实现了脊柱侧弯的分类。Faster R-CNN+Res-Net模型对脊柱侧弯的二分类、轻度及重度脊柱侧弯的二分类获得了最佳的分类性能明，AUC值均大于0.86。将CNN方法和机器学习中的经典特征提取方法与传统的SVM算法相结合，提高了模型的可靠性及模型的泛化能力。该模型可为脊柱外科医生对脊柱侧弯严重程度分级诊断提供参考。青少年特发性脊柱侧弯畸形是青少年中最常见的脊柱疾病，全球发病率为0.5%～5.2%［24］。也有学者同样构建了基于脊柱X线图像的Faster R-CNN模型，并使用外部验证集验证了其在脊柱侧弯检测和严重程度分级方面的可行性及有效性。大量青少年可以通过远程健康体检进行疾病筛查，尽可能避免不必要的放射线接触［25］。

2.5 脊柱骨折

脊柱骨折严重威胁着患者的生活质量，患者面临瘫痪，甚至生命危险。不同类型的脊柱骨折致病因素不同。DL在不同因素所致的脊柱骨折问题方面的研究也正逐渐开展。将MRI图像作为参考标准，有学者建立了可识别腰椎X线图像中椎体新鲜压缩性骨折与陈旧性压缩性骨折的DL模型［26］。该模型的识别准确率达74%，敏感度为80%，特异性为68%，AUC值为0.80。此外，模型在腰椎侧位片较正位片对新鲜压缩性骨折的识别性能更好，尤其是对严重的骨折或椎体粉碎性骨折的识别。为了提高缺乏临床经验的临床医生对脊柱良恶性骨折的MRI诊断能力，有研究采用ResNet50算法开发了一种辅助识别脊柱良恶性骨折的DL模型，与临床经验仅为1年的医生诊断性能对比，该模型的诊断准确率为92%，其敏感度、特异性均明显提高了20%以上［27］。有学者通过构建DeepSurv模型和Cox比例风险模型并预测了骨质疏松所致的椎体骨折风险。该研究利用影像和临床资料训练了DeepSurv模型，使用一致性指数比较了DeepSurv模型、骨折风险评估工具以及Cox比例风险模型的性能。结果显示，基于CNN的预测算法-DeepSurv模型在腰椎侧位X线平片上预测骨质疏松所致骨折的性能优于骨折风险评估工具和Cox比例风险模型［28］。

2.6 脊柱退行性疾病

随着人口老龄化的问题日益突出，脊柱退行性疾病的发病率逐年升高［29-30］。DL在脊柱退行性疾病的研究成为热门。有研究根据颈椎X线侧位片的影像结果运用CNN模型来判断了患者是否患有脊髓型颈椎病，该DL模型对脊髓型颈椎病的检测准确率为87.1%，AUC为0.864（95%CI:0.780～0.949），对脊柱外科医生诊断脊髓型颈椎病有一定的参考及帮助［31］。为了帮助医生和患者准确有效地评估腰椎间盘退变，Zheng等［32］提出了通过MRI T2WI图像中提取腰椎间盘退变信息的分割网络和定量方法。语义分割网络实现了椎间盘退变相关区域的高精度分割。采用定量方法计算椎间盘退变的信号强度和几何特征。该研究亦纳入了椎间盘退变参数与人口统计学信息（如患者年龄、性别、体位和椎间盘退变等级等）之间的关系。考虑到这些参数与椎间盘退变等级有较强的相关性，该研究还建立了椎间盘退变的定量标准。该椎间盘退变全自动分割与定量系统可为临床试验和更深入的机制研究提供更精确的信息。脊椎滑脱指的是上部椎体相对于下部椎体的移位，可引起相应的神经根症状、腰腿痛等。它通常发生在下腰椎，尤其好发于60岁以上的女性。随着全球人口的老龄化，腰椎椎体滑脱的患病率逐年上升，临床医师需采取必要的手段迅速识别它。有研究采用P分级、分段斜率检测、动态移位检测及P分级与分段斜率，开发了一种计算机辅助诊断下的腰椎网络框架（Lumbar-Net），并评估了该模型从腰椎X线图像上自动预测腰椎滑脱的性能［33］。该网络框架的设计旨在准确地检测椎体滑脱发生的位置，并评估上下两个相邻椎骨的相对位移。此模型能够分析包括腰椎X线侧位、过伸过屈位图像上的复杂结构。研究结果表明，该模型在分割椎体区域时获得的平均交并比值为0.88，在检测椎体滑脱时获得的准确率为88.83%。除此之外，Lumbar-Net在医学图像的识别分割优于U-Net，可以作为一种可靠的识别脊柱滑脱的方法。腰椎MRI是评估腰椎椎管狭窄的重要工具，可准确评估腰椎中央管、侧隐窝和椎间孔狭窄情况。每个区域的狭窄程度在确定适当的治疗方法方面起着作用，但在报告中详细描述这些信息可能是重复的和耗时的。有学者在MRI轴位T2WI及矢状位T1WI图像上构建并分析了CNN对腰椎中央管、侧隐窝和椎间孔狭窄的分类价值，该研究亦运用外部测试集对模型的性能作出了外部验证，更具有可靠性。与高年资放射科医生相比，该DL模型在MRI检测和分类腰椎管狭窄中侧隐窝和腰椎中央管狭窄（正常与轻度狭窄、中度与重度狭窄）的性能显示出高度一致性，与低年资的放射科医生结果相似；模型对椎间孔狭窄识别亦具有较高的一致性，但其性能略低于低年资的放射科医生［34］。Lehnen等［35］开发了一种基于腰椎MRI常规图像可标记椎体及椎间盘的CNN模型，并使用该模型检测了患者是否存在腰椎间盘膨出及突出、椎管狭窄、神经根压迫和腰椎滑脱等疾病。结果表明，一方面，该模型在椎体及椎间盘分割上表现出100%的最佳性能；另一方面，其在检测腰椎退行性疾病方面具有中等至较高的诊断敏感度和特异性，分别为52%～89%、80%～99%。其中，模型对椎间盘突出及椎管狭窄显示出较高的诊断准确性，而对于椎间盘膨出和椎体滑脱的检测性能相对较低。由此可见，笔者所构建的CNN对各种不同类型的腰椎退行性疾病的检出是可行的。然而，临床工作者使用该工具的时间消耗、阅片者的一致性等问题有待进一步科学研究验证。

3 DL在脊柱手术预后评估

脊柱手术领域充满着诸多挑战及机遇，如术前危险因素评估，术后并发症预测，疗效评估等。在AI腾飞的大背景下，该领域的研究无疑是科研工作者的未来重点攻克的方向。

前路颈椎间盘切除融合术是治疗退行性神经根或脊髓型颈椎病应用最广泛的手术策略之一［36］。有学者在颈椎X线图像的基础上评估了CNN对前路颈椎间盘切除融合术术后融合情况-是否融合或者骨不连。该DL模型具有较高的预测性能，其预测准确率为89.5%，AUC为0.889［37］。不久的将来，它有望成为诊断假关节病的实用辅助手段。后路腰椎间融合术是一种用于治疗腰椎各种退行性疾病常用而有效的手术策略［38］。既往有学者用DL模型对接受PLIP的患者是否需要在30 d内再入院治疗作出了预测。该模型的平均和中位阳性预测值分别为78.5%和78.0%，平均和中位阴性预测值均为97%［39-40］。由于该研究纳入的样本量较大，为研究结果的可行性及应用价值做出了强有力的支撑。他的研究团队还通过深度神经网络模型预测了后路腰椎间融合术术后手术部位感染情况，模型的中位AUC值、阳性预测值及阴性预测值分别为0.787、92.56%、98.45%。

一项研究将接受经皮椎体成形术（PVP）的患者作为对照组，探讨了基于CT三维重建图像的V-Net模型对经皮椎体后凸成形术（PKP）治疗骨质疏松性胸腰椎压缩性骨折的疗效［41］。其将V-Net改进优化后与U-Net及CNN进行了比较，优化后的V-Net的Dice系数高于U-Net、V-Net和CNN，而豪斯多夫距离低于U-Net和VNet（P<0.05）。研究发现，PKP 组患者术后椎体后凸Cobb角低于PVP组；同时，椎体前高、中心高、后高均高于PVP 组；PKP 组的视觉模拟评分及镇痛评分低于PVP组；PKP组的优良率高于PVP组。因此，优化后VNet比传统的DL网络具有更好的分割和重构效果。与PVP组相比，PKP有助于骨质疏松性胸腰椎压缩性骨折患者术后椎体高度的恢复和脊柱后凸畸形的矫正，镇痛效果及安全性更好。

诸多证据表明，神经网络和脊柱手术的交叉应用，成功地实现了对脊柱手术的术前风险评估及术后管理及转归的预测。AI未来必将成为脊柱外科医生重要辅助手段，有效而又高效的服务临床。

4 总结与展望

本研究总结了近些年来DL在脊柱影像分割、脊柱疾病检测及分类、脊柱手术预测相关研究，进一步证实了DL在脊柱方面的应用及发展潜力。AI技术越来越多地被用在脊柱研究，以DL为代表的AI技术与脊柱影像的融合应用，不仅促进了影像诊断学的精准化、智能化发展，还将为广大脊柱影像医生、脊柱科医生及受脊柱疾病长期困扰的患者提供诸多方便，助力医学事业的发展。

与此同时，DL在脊柱的应用研究仍存在诸多局限性及挑战，如研究样本量不够充足；不同设备及参数所产生的图像质量问题；研究过程中缺乏外部验证和结果的可泛化性等。大数据、大样本是AI解决各类医学问题的基础，更是提高模型准确性的重要一环，必要时通过多中心疾病数据资料的共享来实现，这一方面需要我们重点关注并加以改进。影像图像质量也是各项研究中不容忽视的一部分，它直接影响着研究结果的准确度。当然，通过使用验证数据集和调整模型的超参数可验证当前模型泛化能力，达到对模型能力初步评估的目的，再采用测试集评估模型的最终效能。广大科研人员需要投入更多的工作来开发相关的预测模型，解决模型的可重复性问题，将其实际应用价值真正发挥到医疗的各个角落，以解临床之需、患者之急。