Transformer模型在胃镜视频部位实时识别的研究探索

2022-04-20 14:36张希钢赖春晓戴捷鹿伟民李峰何顺辉王湘雨江海洋白杨

现代消化及介入诊疗 2022年1期

张希钢，赖春晓，戴捷，鹿伟民，李峰，何顺辉，王湘雨，江海洋，白杨，

得益于光学、电子物理及计算机技术的发展，消化道内窥镜技术的应用范围快速扩大，于提升消化系统疾病临床诊疗能力具有巨大意义。目前内镜诊断技术已从单纯白光发展至内镜窄带成像系统(Narrow Band Imaging，NBI) 及放大 NBI、放大内镜、共聚焦激光显微内镜、智能色彩增强技术(FICE)、超声内镜、胶囊内镜等[1-6]。同时内镜技术的应用受临床医生经验、内镜设备、操作规范能力等因素影响，使得不同区域内镜医师诊治水平具有差异。国家癌症中心于2021年发布了2015年中国癌症统计[7]，其中食管癌、胃癌、结直肠癌年发病和死亡人数分别为103.7万和66.6万，分别占恶性肿瘤总发病数和总死亡数的26.4%、28.5%。消化道恶性肿瘤是全身恶性肿瘤家族中比重最大的部分，其中绝大多数消化道恶性肿瘤是执行内镜操作时确诊。胃癌患者确诊时超过70%为进展期胃癌[8]。进展期胃癌[9]的5年存活率约10%。但如果诊断时为早期胃癌，则5年生存率为90%～98%[10]。在临床工作中胃镜操作同时存在癌症漏诊、误诊等情形，国外报告提示漏诊的胃癌、食管癌占新发病人群比例为7.7%[11]。提高内镜医师操作规范、增强内镜操作辅助提示功能是降低病变漏诊率的可行方法。深度学习(Deep Learning)在消化内镜领域的研究探索目前成为热点方向，涉及的内容包括食管恶性肿瘤、萎缩性胃炎、幽门螺杆菌感染、早期胃癌、下消化道疾病等[12-15]，主要以内镜图片为研究内容，少部分以内镜视频参与结果验证做有效性评价[16-18]。本研究前期已通过胃镜图像的部位学习验证Transformer模型对胃镜图像上消化道部位识别的有效性[19]，拟进一步探索Transformer模型通过对胃镜视频的学习分析，生成基于胃镜视频的人工智能系统对上消化道部位实时识别是否具有优势。

1 研究资料

收集由深圳市第二人民医院内镜中心于2021年5至7月2名高年资主治医师完成拍摄的50部胃镜视频，均为Olympus公司260或290内镜主机设备及镜身。共收集胃镜图像25 525张，来源于南方医科大学南方医院、深圳市第二人民医院、南方医科大学顺德医院、湖北沙洋县中医医院，执行时间为2018年8月至2020年8月。纳入标准：①患者年龄18～65岁之间；②首次行胃镜检查；③内镜诊断为“慢性非萎缩性胃炎”或“慢性非萎缩性胃炎伴糜烂”；④录制设备为Olympus公司260、Olympus公司290主机及胃镜；⑤内镜下白光为主要观察对象。排除标准：①存在上消化道良性或恶性肿瘤性病变、胃潴留、上消化道手术改变等情形；②非研究设备拍摄的图像或视频。

2 实验方案

研究组前期完成Transformer模型基于胃镜图像形成胃镜图像智能系统的性能评价，结合既往研究过程及结果，本研究将胃镜视频中随机抽取40部为训练集1，25 525张胃镜图像集合为训练集2，剩余10部胃镜视频组成测试集，分别验证评价Transformer基于胃镜视频学习形成的胃镜视频智能系统(研究组1)、基于胃镜图像学习形成胃镜图像智能系统(对照组)、基于胃镜视频及图像学习形成的视频图像智能系统(研究组2)的准确度、特异度、整体有效度，研究路线流程如图1。具体过程如下述。

图1 研究路线

2.1 前期处理

由深圳市第二人民医院2名高年资主治医师使用Olympus260胃镜设备、Olympus290胃镜设备录制胃镜视频50部，符合“胃镜视频质量判定”。胃镜视频质量判定标准为：①符合纳入标准；②符合胃镜操作规范，操作规范参考日本学者细井董三主编的《标准胃镜检查》教材，按照教材标准执行胃镜操作 ③包含胃镜标注34部位，且图像清晰；④胃镜观察时间不少于5分钟。胃镜图像符合“胃镜图像质量判定”。由于视频是由连续图像组合而成，在不造成部位信息丢失的情况下按照一定比例抽帧形成“视频图像集合”。“视频图像集合”中随机抽取40部形成“训练集1 ”(含视频图像26953张)；“胃镜图像集合”中25525张胃镜图像形成“训练集2”，“测试集”由10部胃镜视频形成，含6398张视频图像。

2.2 上消化道部位标注

训练集1、训练集2、测试集均由标注人员进行部位标注，2名消化内科高年资主治医师对标注结果进行审核。标注人员均接受《胃镜标注规范》培训并通过本研究组制定的标注一致性评价测试，为标注质量控制评价项目，上消化道部位标注细分为34个，具体分布见表1；每幅图像由2名标注人员对上消化道部位标注，并由2名消化内科医师审核入库，对于有意见分歧的图像由副主任医师裁定。与大多数研究所采用的单标签不同，本研究标注过程中采用多标签标注体系，即一个胃镜图像中如含有多个上消化道细分部位，按照图像内容给予多个上消化道部位标注。

表1 上消化道细分部位

2.3 训练集学习

Transformer模型为人工智能学习模型，是2017年Vaswani提出基于注意力机制的计算机学习程序[20]，已应用于图像领域人工智能的研究。Transformer模型包含编码器和解码器两部分，其中编码器中特征提取器对输入图像信息进行特征序列提取，编码形成信号序列。通过图像向量、特征学习，该模型能根据已知信息对未知信息生成预测值[21-23]，其模型网络结构如图2。由计算机技术人员参与，Transformer模型通过对已完成标注的“训练集1”、“训练集2”、“训练集1+训练集2”学习训练分别形成“视频智能系统”、“图像智能系统”、“视频图像智能系统”，它们均具有胃镜上消化道部位预测识别功能。

图2 Transformer模型网络结构图

2.4 将“视频智能系统”、“图像智能系统”、“视频图像智能系统”分别测试于已经完成部位标注的“测试集”，测试集由10胃镜视频组成，共含有6398张视频图像、12162部位标签。视频智能系统、图像智能系统、视频图像智能系统可根据“测试集”图像对所有测试集中胃镜图像部位进行识别及预测，根据预测结果，结合测试集原始部位标注结果，可计算出视频智能系统、图像智能系统、视频图像智能系统的准确度、特异度、整体有效度。计算公式为：准确度(Precision)=TP/(TP+FP)；特异度(Specificity)=TN/ (TN+FP)，相当于Recall值。计算原理如下：P、N分别指部位标签有、没有，以T、F用于预测行为的正确、错误，TP的具体含义指，具有真实标签P，模型测试结论是的(T)。FP、FN、TN的含义以此类推。整体有效度为F1-Score值，为P值、R值加权计算所得。

3 研究结果

结果提示Transformer模型基于单独视频学习形成的视频智能系统(研究组1)的准确度、特异度、整体有效度分别为84.3%、78.9%、81.5%；Transformer模型基于视频及图像同时学习形成的视频图像智能系统(研究组2)的准确度、特异度、整体有效度分别为82.9%、81.5%、82.2%；对照组基于胃镜图像智能系统准确度、特异度、整体有效度分别为80.0%、76.8%、78.4%。Transformer模型视频学习效果优于胃镜图像，Transformer模型学习视频+图像效果优于单独视频学习。具体结果见图3、4。

4 讨论

截至目前关于人工智能以内镜视频为原始研究资料的报道极少，本研究中视频图像集合有视频图像26953张，胃镜图像集合有胃镜图像25525张，Transformer模型基于整体等量胃镜视频图像、胃镜图像学习分别形成视频智能系统、图像智能系统，结果证实前者准确度、特异度、整体有效度均高于后者，意义重大。以胃窦前壁的黏膜观察为例，内镜操作者需正面或者最接近正面的角度进行观察、拍摄，以能拍摄清晰的图像为目的，照片数量有限，优点为能清晰显示某个角度及距离的部位或病灶；而与此相应，实际胃镜视频为动态连续摄影，部位或病变进入内镜操作者视野范围内，就以连续变化的角度、距离不断地进行记录，这些过程中的信息不会记录到胃镜图像中，但会记录于胃镜视频中，深度学习技术能在胃镜视频中从更多角度、距离、不同清晰度中获取更多图像信息，提取更多图像特征，具备更强的学习能力，结合本次研究结果，笔者认为人工智能技术基于胃镜视频学习将比图像学习获得更好效果；在后期疾病的研究中，以胃镜视频的形式研究病变，能通过距离、角度、边界区域动态变化，从更多维度观察病变形态，能高效获取病变特征信息，这点对于我们进一步研究具有启发意义。视频联合图像学习效果优于单独胃镜视频学习，提示在临床研究中视频学习结合图像学习的方法将获得优于单独视频学习的结果，为进一步提高人工智能在胃肠镜领域的临床应用能力提供可以参考的路径。

图4 特异度

基于测试集结果中对比发现，Transformer模型基于胃镜图像形成的图像智能系统于正镜贲门、十二指肠乳头部位的识别整体有效性明显高于视频智能系统，笔者认为这是由于胃镜操作过程中正镜贲门、十二指肠乳头部作为常见拍摄的部位，Transformer基于胃镜图像集合学习，可学到含有较多含正镜贲门、十二指肠乳头的图像，与此同时40部胃镜视频中含有相对少的正镜贲门、十二指肠乳头的视频图像。因此，该两部位基于图像学习效果优于基于视频，但通过视频学习量的增加可以得到改善。其次，于正镜胃体中上部后壁、十二指肠球部两处，Transformer模型基于视频学习效果明显优于胃镜图像。笔者认为因为胃镜常规操作中胃体中上部后壁在被观察的时候一部分医师可能疏于拍摄或者不完整拍摄，而在十二指肠球部经常拍摄一个角度的单张或数张胃镜图像，而在胃镜视频中正镜胃体中上部后壁及十二指肠球部观察都是连续、动态的，将获得更多角度的视频图像，这也是Transformer基于视频学习智能系统的优势表现所在。

本次研究是以胃镜视频为研究对象的探索，目前国内及国外涉及胃镜视频的研究主要为以视频参与研究结果验证，评价深度学习模块基于胃镜图像疾病学习后的有效性。本项目从上消化道部位研究起步，一方面部位为胃镜实时操作中病变识别的基础及前提；另一方面，在内镜操作中因为内镜医师个人经验、病变外形隐匿等原因客观存在着一定比例的胃癌、食管癌漏诊患者，其中食管癌漏诊率3.2%，胃癌漏诊率4.4%～9.4%，这些患者3年内均曾行胃镜检查并未发现肿瘤线索，统计提示食管中下段、胃体、胃窦为漏诊最常分布的部位[11, 24, 25]。该研究应用于临床，具有胃镜下实时部位监测、提示、提出操作建议，具有减少胃镜检查盲区、提高新学内镜医师操作规范水平、诊断能力及学习效率的作用；此外，通过完成Transformer模型基于胃镜视频、胃镜图像上消化道部位的学习训练，形成具备实时识别上消化道部位的功能，在此基础之上，进一步探索Transformer模型基于胃镜视频条件下上消化道病变如食管疾病、胃炎、消化性溃疡、胃恶性肿瘤等疾病的学习，评价Transformer基于上消化道病变视频学习所形成的人工智能模型的有效性，将提高相关人工智能产品的应用能力。

本次研究中使用的计算机学习模型为Transformer模型，作者目前未检索到其他计算机模型应用于胃镜视频的研究，在内镜视频的研究领域，将来会有越来越多的人工智能学习模块用于研究，通过比较验证，将获得更强内镜视频学习能力的深度学习技术。随着计算机技术的发展和研究者们更多范围的探索，将有更多关于包含病变的内镜视频的学术成果，将推动人工智能消化系统疾病领域的学习能力进一步增强，最终能更好服务于临床。

目前视频研究中面临着一定的难题，如图像量大、重复图像多等。通常一部时长5～7 min胃镜视频大约7 000～10 000帧胃镜图像，其中包含大量高存储、内容重复的连续视频图像，合理的“视频图像抽帧方案”既能保证视频信息保真，同时合理降低每部视频标注工作负荷，增加标注胃镜视频总数，可间接提高人工智能学习模块基于视频学习的能力。同时胃镜操作中存在因镜身运动、气泡、反光、漂浮物体等影响图像质量情形，降低人工智能系统图像信息获取及学习能力，国外研究有尝试全自动恢复框架计算机技术，使视频增加25%帧合格胃镜图像[26]，该技术为提升胃镜视频图像质量提供一种思路和可能的选择。