病灶大小对肺结节辅助检测产品测试结果的影响

2022-10-27 06:33孟祥峰李佳戈郝烨王浩

中国医疗设备 2022年10期

孟祥峰，李佳戈，郝烨，王浩

中国食品药品检定研究院光机电室，北京 100050

引言

目前国内外已有多种类型及用途的人工智能（Artificial Intelligence，AI）医疗器械上市[1]，且种类及数量呈逐年上升的趋势。2018年4月11日，美国FDA批准了IDx公司IDx-DR糖尿病视网膜病（以下简称糖网）筛查软件，这是美国FDA批准的第一款采用新一代AI技术的糖网筛查软件产品，该产品严格限定了眼科相机硬件为拓普康NW400，并绑定硬件控制措施，可在一定程度上防止由于泛化能力不足导致的非预期风险[2]。目前已有相关机构展开了AI医疗器械评价方法的研究[3-9]，并且国内也已开始起草相关标准，但还未正式发布[10-11]。

肺部CT影像AI产品的预期用途可能关联结节大小，如在国家药品监督管理局网站公布的肺结节CT影像辅助诊断软件，其可对≥4 mm的肺结节进行自动识别分析[12]。本文通过探究肺结节大小对于肺部CT影像AI产品性能的影响，分析产品对于病灶大小的泛化能力。目前不同的肺结节诊疗准则对结节的大小有不同的定义，如有研究者[13-14]将直径＜5 mm的结节定义为微小结节，直径5～10 mm的结节定义为小结节，直径10～30 mm的结节定义为大结节。而如何定义结节的直径，目前临床中也尚未统一，如有研究者建议对于不同大小或类型的结节，可采用最大层面的最长径、平均径或长径加短径的方式表示，但不同的表示方式结节的截取数量存在差异，进而影响评价结果[15-16]。

不同对象对于不同大小范围结节的辅助检测指标的期望可能存在差异，如医院、体检机构可能对于不同大小结节检测敏感度的要求不同，如医生可能更关心某些特定大小结节的检测能力。在AI产品的验证与确认环节，评审人员除评估AI算法在测试集上的总体性能表现外，开始关注不同结节大小是否对性能指标造成影响，因此需要对关联不同大小结节的截取方式及截取后的评估方法进行研究。目前，不同厂家在对于不同大小结节的检出性能方法存在差异，基于此，本文旨在分析同一产品在不同样本上的性能差异，比较不同大小病灶的测试结果，以期为相关领域的研究提供一定的理论依据。

1 实验方法

1.1 实验用数据集构建

本文所采用数据集参照《胸部CT肺结节数据集构建及质量控制专家共识》[17]进行构建，数据标注流程参照《胸部CT肺结节数据标注与质量控制专家共识（2018）》[18]，数据来源于国内22个医院，数据获取的CT机型共15个，对数据合规性、唯一性、重建层厚等信息进行了清洗和预处理。本文选取包含0～30 mm结节的588例CT数据进行了算法结果分析。数据集包括肺内实性、肺内部分实性、肺内纯磨玻璃、肺内钙化、胸膜实性、胸膜钙化6类结节。参考标准对于长径≥4 mm的肺内结节（实性、部分实性、纯磨玻璃、钙化）在各层描绘边界，以此定义结节区域；长径＜4 mm的肺内结节，以4 mm的正方形定义结节区域；对于胸膜实性/钙化结节，以紧包裹方框定义结节区域。被检产品是基于深度学习的肺结节辅助检测软件，可输出结节分类、结节大小、分割边缘等辅助诊断信息。

1.2 数据集参考标准和匹配方法

数据集的参考标准由人工标注产生，包括结节中心点位置、紧包裹方框端点坐标、结节类型，对于长径≥4 mm的结节还包括具体的边界、结节长短径端点及数值，而被检产品算法输出的预测结果也包含上述信息。在判定参考标准与AI预测结果的匹配关系时，如何截取所关注结节的大小范围，是开展测试的关键。根据常见的测试需求，在评价召回率和精确度指标时可按照以下3种方法评价所关注大小范围结节的表现：① 方法1：全体产品输出结果与某大小范围内的参考标准进行匹配，计算检出指标；② 方法2：某大小范围内的产品输出结果与该大小范围内的参考标准进行匹配，计算检出指标；③ 方法3：使用方法1计算召回率，某大小范围内的产品输出结果与全体参考标准进行匹配，计算精确度。

1.3 指标计算方法

在计算匹配关系时，判定结果分为3种：如果算法输出的区域中心落入参考标准区域范围内，记为真阳性结果（True Positive，TP）；算法输出的区域中心未落入参考标准区域范围内，记为假阳性结果（False Positive，FP）；参考标准中的结节未与算法输出的任何结节建立匹配，则该参考标准记为假阴性结果（False Negative，FN）[19]。在评价检出性能指标时[20]，召回率计算方式如公式（1）所示，精确度计算方式如公式（2）所示，在评价分割性能指标时，Dice系数的计算方式如公式（3）所示。

式中，A表示参考标准的分割区域；B表示算法的分割区域；C表示A和B的重合区域。

1.4 结节大小截取与评价指标

本文选择参考标准中全部结节、0～4 mm、4～6 mm、6～8 mm、8～10 mm、10 mm以上结节，根据1.2中的3种评价方式，分别截取算法预测结节，并按照以上公式依据方法1、方法2建立匹配关系并计算召回率；依据方法1、方法2、方法3建立匹配关系计算精确度；同时，使用全体参考标准与算法的全体输出结果建立匹配关系，计算召回率、精确度，以及全部TP的Dice系数。

1.5 统计学分析

对于召回率，以所有参考标准与所有算法预测结果计算的检出召回率为基准值，对于大小范围在0～4 mm、4～6 mm、6～8 mm、8～10 mm及10 mm以上的结节，分别使用方法1与方法2计算检出召回率，并计算与基准值的相对误差（正偏差越大，召回率越高，且超过基准值；负偏差越大，召回率越低，且低于基准值）；以结节大小范围为横坐标、以基准值的相对偏差为纵坐标绘制曲线进行对比分析。对于精确度，对大小范围在0～4 mm的结节，分别使用方法1、方法2、方法3计算检出精确度，以不同方法及其对应精确度相对值绘制柱状图进行对比分析。对于Dice系数，对于大小范围在4～6 mm、6～8 mm、8～10 mm 及10 mm以上的结节，采用方法1计算检出Dice系数，以不同大小范围及其对应Dice系数相对值绘制柱状图进行对比分析。

2 结果

2.1 不同大小结节召回率结果与基准值的相对偏差

不同大小结节召回率结果如图1所示。由图1可以看出，使用方法1计算的召回率结果明显高于方法2，且方法1的召回率随结节大小的增大不断增加，其数值超过基准值；方法2的召回率仅在6～8 mm大小范围超过基准值，在其他大小范围出现了不同幅度的降低。

图1 不同大小结节召回率结果与基准值的相对偏差

2.2 不同方法下精确度相对比例

对于大小范围在0～4 mm的结节，方法1、方法2、方法3的检出精确度的相对值如图2所示。由图2可知，方法1、方法2、方法3的精确度呈递增的趋势，方法3的精确度值最高。

图2 不同方法下精确度相对比例

2.3 不同结节范围大小的Dice系数相对比例

不同结节范围大小的Dice系数相对值的结果如图3所示。从图3可以看出，Dice系数随结节范围大小的增大不断增加。

图3 不同结节范围大小的Dice系数相对比例

3 讨论

本研究结果表明，产品随结节大小的增大，召回率随之增大，即在不考虑大小正确的情况下，参考标准中小的结节发现难度大于大的结节，且如果关联结节大小的正确性，其正确与否会影响检出的结果。产品在检出问题上如不关联结节大小，虽可以提高召回的概率，但这也引入了更多的假阳样本，降低了精确度。因此无论采用何种方法，产品评价的过程并不是某一个指标高或低就代表产品性能的优劣，有些相互制约的指标有必要同时给出，如检出的召回率和精确度，对产品综合进行评价。

同一产品对于不同结节大小的分割性能也存在差异，该产品随结节大小的增大，Dice系数随之增大，表明大结节更容易被准确分割。值得注意的是，交并比在结节匹配过程中有可能被研发人员作为判断依据或阈值，从而对匹配结果造成影响。产品对于不同大小结节的检出具有不同的表现，在真实世界中如果数据集结节的大小构成存在变化，应关注由此带来的性能波动，这也提示算法应关注提高对不同大小病灶的泛化能力。

目前国际上一些公开的数据集，如LIDC[21]，仅给出结节的位置信息，并未对结节的大小进行标注，其评价统计也是无差别地对所有大小范围结节进行分析[22]。然而在实际应用过程中，不同的应用场景如体检、门诊等，其真实数据的结节大小构成与分布存在明显差异。且目前通过国家药品监督管理局检索已获批的产品，其适用范围也对结节大小进行了明确限定。但目前如何按结节大小对产品进行评价还没有相关研究报告。本文给出了3种方法评价所关注大小范围结节的表现，初步探讨了方法的可行性，同时通过对比分析，也揭示了大小差异导致的评价指标的波动，证明了区分大小测量的必要性。除结节范围大小外，在实际应用场景，随着季节或流行病的发生，辅助检测产品在现实中遇到病例的结节类型、结节类型或大小的分布、混合其他疾病等情况，均可能成为影响产品性能的因素，但本文并未对这些因素逐一考量，这也是下一步的工作重点。

4 结论

同一产品依据不同的评价方法得到的结果有明显的差异，测试人员需重视该问题。同时本文分析了不同结节大小下AI产品的性能表现，结果表明基于结节大小范围的算法性能存在差异，但泛化性能评价有待进一步细化，这也说明AI产品在使用范围、应用场景的宣称上应慎重，给出明确的界限，避免由于泛化能力导致的非预期风险。