基于可变形上下文感知网络的多尺度仪表检测

2023-05-05 03:00何永春申永伟陈淑波

重庆邮电大学学报(自然科学版) 2023年2期

何永春,申永伟,吴涛,陈淑波,费丹

(1.国网内蒙古东部电力有限公司兴安供电公司,内蒙古乌兰浩特 137400;2.北京交通大学轨道交通控制与安全国家重点实验室,北京 100044)

0 引言

随着变电站智能化技术的不断发展,许多场合致力于实现无人值守的运行模式。调度中心通过实时监看前端采集的环境数据等信息,进行远程的监控,并对突发情况做出及时的处理。变电站中存在大量的电力仪表,其中指针式仪表因其制造成本低、容易维护等特点,被广泛用于电力设备监测。由于现有的监测技术有限,因而需要采用人工方式进行巡检。为了降低人工成本、减少主观因素的干扰,智能化的仪表检测技术成为新的研究热点[1]。

实际应用中,仪表检测主要存在以下几点困难:其一,工业环境复杂,传统仪表检测技术难以应对干扰严重的环境(例如雨、雪、雾、强光等);其二,仪表数量众多、外观差异较大且分布不固定,难以进行高效且精准的检测;其三,前端获取的图像质量受到拍摄角度、距离、环境等因素的影响,仪表设备存在较大的尺度、成像差异,容易出现漏检、误检等问题。因此,研究和发展适用于复杂场景的多尺度仪表智能化检测技术具有重要的学术意义和应用价值。

传统仪表检测主要基于人工设计特征的方法。文献[2]提出一种基于模板匹配和霍夫圆检测的方式,将预先定义的仪表模板与图像进行匹配获取目标大致位置,再通过霍夫圆检测获得表盘位置及中心坐标。文献[3]提出一种图像增强算法滤除图像噪声干扰,并利用基于形态学和边缘检测的方式来提取目标。文献[4]结合仪表的结构特性,利用尺度不变特征变换特征对目标进行定位。这些方法对于特定场景而言具有较好的适应性,然而对于复杂的工业场景来说仍然存在较多的问题。特别是在干扰较强、仪表几何纹理特征不明显的情况下,算法泛化能力较弱,难以对多尺度仪表设备进行高效的定位。

近年来,深度学习技术发展迅速,神经网络被成功应用于计算机视觉领域并成为目标检测任务的主流方法[5-6]。由于具有强大的特征提取和表征能力,卷积神经网络(convolutional neural network, CNN)逐渐代替传统仪表检测算法并取得了卓越的成效[7]。文献[8]在Mask R-CNN方法基础上,修正网络因上采样导致的关键点偏差,从而提升了仪表设备定位精度。文献[9]针对小目标检测问题在SSD网络上进行改进,加入多尺度特征金字塔结构丰富底层特征的语义信息,使用GIoU损失函数使得仪表边界框回归更加高效。文献[10]提出一种改进的YOLOv3仪表检测算法,对主干网络、先验框聚类等进行提升,检测精度和速度达到了较好的平衡。虽然现有方法一定程度上提升了仪表检测性能,但是对于复杂的工业场景来说,多尺度的仪表检测效果仍然不够理想,漏检、误检情况较多,且泛化能力较差。

针对以上问题,本文提出了一种基于可变形上下文感知网络(deformable context-aware network, DCA-Net)的多尺度仪表检测算法。主要工作及创新点如下:①设计了一种新颖的多尺度特征金字塔结构。通过引入可变形上下文信息,对感受野进行自适应调整。提出动态特征融合机制充分利用目标的空间及语义信息,有效提升多尺度目标的检测效果并降低虚警率。②对网络中通用的检测头进行改进。为了抑制特征图上预测不准的低质量检测框,引入额外的定位分支,加强多任务之间的联系,使得模型对仪表设备的定位更加精准。

1 算法介绍

本文提出的仪表检测网络结构如图1所示,其中主要包括3个部分:①主干网络,用于特征提取;②金字塔结构,用于多尺度特征融合;③检测头,输出最终结果。考虑到一般场景中仪表数量较少,基于锚框的网络会造成大量计算冗余,本文采用基于密集预测的无锚框网络[11-12]作为基准网络。在此基础上,设计了可变形上下文感知的金字塔(deformable context-aware pyramid, DCAP)结构,对语义及空间特征进行自适应选择。此外,本文对多任务检测头进行改进,目的是得到更加精准的检测框。

1.1 基准网络

基于密集预测的无锚框网络采用通用范式,即在特征金字塔后连接两个任务相关的子网络。本文采用FCOS[11]作为基准网络,去掉原有特征金字塔结构最顶层,如图1所示。特征金字塔是连接在主干网络后具有横向连接的自上而下的结构,顶层特征图分辨率较小、语义信息丰富,低层特征图分辨率较高、空间细节信息丰富。本实验使用ResNet-50[13]作为主干网络,根据网络中各层特征图的尺寸大小将其分为5个阶段,最后3个阶段的输出定义为(C3,C4,C5),对应的特征金字塔各层输出定义为(P3,P4,P5)。其中,Pi∈R(W/si)×(H/si)×C(i=3,4,5);W×H是输入图像大小;C是通道维数,C=256;si=2i是下采样率。检测头中包含两个任务分支,其中一个分支用于在特征图每个像素上预测物体存在的概率,另一个分支用于预测编码后的边界框。每个分支含有4个3×3卷积层及1个1×1卷积层。

图1 仪表检测网络结构图Fig.1 Overall framework of the proposed method for instrument detection

本文采用与FCOS相同的训练策略,物体边界框被编码为一个4维向量来描述特征图上像素点到目标框边界的相对距离。如果某个像素点在真值框内,则该点被视为正样本点,否则记为负样本点。实验中,分类分支采用交叉熵损失函数,回归分支采用交并比(intersection-over-union, IoU)损失函数。

1.2 可变形上下文感知金字塔结构

仪表的背景环境较为复杂,存在变电箱、管道等物体的干扰,复杂场景下的仪表检测任务较为困难,容易出现漏警、虚警等问题。通常情况下,目标周围环境可以提供更多的语义信息来对物体进行鉴别。为了更有效利用物体的上下文信息,本文在原特征金字塔[14]的基础上设计DCAP结构,对不同尺度目标的空间及语义特征进行自适应选择,DCAP结构如图2所示。

图2 DCAP网络结构图Fig.2 Structure of the DCAP

Ui=Up(Fi+1)+Ei

(1)

(1)式中,Ui通过可变形上下文(deformable context,DC)提取器后得到Vi∈R(W/si)×(H/si)×256。DC提取模块结构如图3所示。图3中,输入特征先通过3×3卷积预测空间采样点的偏移量,然后送入可变形卷积[15]自适应调整感受野的大小。后续对提取特征{up}的全局上下文信息进行建模。对于输出特征图上任意位置vp,有

(2)

特征Vi通过全局平均池化得到通道加权向量w∈R256。后续的多层感知机变体用于指导特征自适应选择。具体而言,全连接层fc先被用于生成中间向量o∈R256/ε(ε为维度压缩率,默认为16);然后,两个分开的全连接层fc1和fc2用于增加中间向量的维度,输出分别记为m=(m1,m2,…,m256)∈R256和n=(n1,n2,…,n256)∈R256。通过Softmax操作可以得到

(3)

最终输出为

(4)

1.3 多任务检测头

传统的非极大值抑制(non-maximum suppression, NMS)算法中,所有的检测结果都是根据分类置信度进行排序的,忽略了定位置信度。换言之,具有低分类置信度高IoU的检测框会被具有高分类置信度低IoU的检测框抑制。文献[11]引入了centerness的概念,以降低靠近目标边界位置的权重。虽然此方法可以抑制一些远离目标中心位置预测的低质量检测框,但是仍然没有考虑到分类和回归任务之间的联系。针对此问题,本文对网络的检测头进行了改进,引入额外的IoU预测分支用于指导检测框的选择。

如图1所示,本文引入的IoU预测分支同样包含4个3×3卷积层及1个1×1卷积层,用来预测回归框和真值框之间的IoU。IoU分数可以看作是一种定位置信度,有助于自适应降低不准确边界框的权重。网络将分类和回归的特征相加后通过3×3卷积层与IoU分支特征进行融合,用于后续预测。在推理过程中,最终的检测置信度通过将分类分数与IoU分数相乘来得出。

2 实验与结果分析

2.1 数据集及参数设置

本实验采用开源及项目提供的不同电力场景仪表数据构建数据集来验证提出方法的有效性。该数据集一共包含4 376张图像,不同背景下的多种样式仪表共计5 119个。本文按照7∶2∶1的比例将数据集随机划分为训练集、验证集和测试集。实验中,采用随机尺度、平移、颜色变换等数据增强的方式,所有图像的尺寸调整为640×360像素作为检测器的输入。

本文使用在ImageNet数据集上预训练的ResNet-50网络权重对主干网络进行初始化。特征金字塔和检测头中的卷积层采用与FCOS相同的初始化方式。模型采用随机梯度下降法(stochastic gradient descent, SGD)训练40轮,批处理量设置为8。初始学习率为0.001,并在第30轮时下降为原来的十分之一。所有实验基于MMDetection[16]实现,并使用NVIDIA Tesla P100 GPU进行运算。

2.2 评价指标

为了评估模型的仪表检测效果,本文采用召回率(Recall)、精度(Precision)、F1值及平均精度(Average Precision,AP)作为评价指标,召回率和精度计算公式为

(5)

(6)

(5)—(6)式中,NTP、NFP、NFN分别代表正确检测的目标数量、虚警数量以及未检测到的目标数量。通常情况下,当检测框与真值框的IoU大于0.5时,该检测框被视为正确的。多个检测框匹配到同一个真值框时,具有最高检测置信度的被视为正确检测结果。F1值是召回率和精度的调和平均值,定义为

(7)

AP指标用于评估检测器的综合性能,定义为一组召回率R= {0, 0.01, …, 1}下对应的平均精度,计算公式为

(8)

由于AP一般情况下是在IoU阈值为0.5时计算得到的,因此,将其表示为AP0.5。除此之外,本文还使用了更加严格的IoU阈值,即0.75,此时的AP指标记为AP0.75,其可以更好地评估检测框的质量并反映定位准确性。

2.3 实验结果及分析

本文在基准网络之上进行了两方面的改进:①构建DCAP结构;②在检测头中添加IoU预测分支。为验证每种改进对网络性能的影响,本文进行了消融实验。所有对比实验使用相同模型参数设置,实验结果如表1所示。由表1可以看出,相比于基准网络,每种改进都有一定程度的提升,同时单张图像推理时间只略有增加。DCA-Net的AP0.5提高了0.0778,相应的精度-召回率 (precision-recall, PR)曲线对比如图4所示。AP0.75提升了0.092,这意味着预测的检测框更加精准。

表1 不同改进对所提出方法的影响

图4 本文方法与基准网络的PR曲线对比Fig.4 PR curve of the baseline and the proposed method

与基准网络相比,本文提出的DCAP结构在AP0.5和AP0.75指标上分别提升0.061 6和0.032 5,二者的检测结果对比如图5所示。基准网络对仪表周围几何特征相近的物体容易误判,而且在光照、天气不好的场景,会出现小目标漏检的情况。相比之下,DCAP结构能够有效提升复杂场景下的多尺度仪表检测效果,降低虚警率,且受光照、天气、背景环境等因素影响较小,鲁棒性更高。整体检测性能明显提升的主要原因是,通过引入可变形上下文信息,自适应地增大感受野能够捕获长距离依赖关系,这种动态结构充分利用了多尺度特征层级的空间和语义信息。

从表1可以看出,检测头中引入IoU预测分支,在AP0.75指标上可以带来0.057 7的显著提升,这意味着模型可以实现更高的定位精度。图6展示了改进检测头的效果。图6显示,改进后的检测头可以更加精确地定位仪表的边界。FCOS中引入centerness分支来提升定位效果,如表2所示,本文的IoU分支能够更好地抑制一些低质量的检测框,模型的整体性能更佳。

图5 DCAP的效果Fig.5 Effect of DCAP

图6 改进检测头效果Fig.6 Effect of improved detection head

表2 不同检测算法性能对比

本文将提出的方法与近期经典检测算法进行了对比,实验结果如表2所示。表2中,Faster R-CNN[17]、Cascade R-CNN[18]和RetinaNet[19]是有锚框检测算法代表,FCOS[11]和CenterNet[20]是无锚框检测算法代表。由表2可以看出,本文方法在所有指标上均取得了最优的效果。

图7为本文方法和Cascade R-CNN、CenterNet算法检测效果对比图。Cascade R-CNN方法在光线较暗的情况下存在漏检的问题,此外仪表附近几何形状相似的物体易被误判,部分目标边界框回归不够准确。CenterNet方法虽然指标相较于其他算法有所提升,但是也存在小目标漏检的问题。相比之下,本文提出的方法在复杂场景下能够取得较优的检测效果。本文对不同方法进行了定位误差分析,这里的定位误差指检测框的4个角点和相应的真值框4个角点间的距离,该距离的值用目标尺寸进行了归一化。3种方法的定位误差分布如图8所示。由图8可以看出,本文提出的方法定位误差的标准差较小,这表明该方法具有更强的目标定位能力,对于不同尺度的仪表可以得到更加精准的检测框。

图7 不同检测算法效果对比Fig.7 Comparison results of different detection methods

图8 不同算法定位误差分布Fig.8 Distribution of localization error of different detection method

3 结论

本文提出的基于可变形上下文感知网络的多尺度仪表设备检测算法,对原有特征金字塔结构进行改进,引入可变形上下文信息,自适应捕获长距离依赖关系,能够充分利用目标的空间及语义信息,显著提升检测效果并滤除虚警;对模型通用的检测头进行优化,通过引入定位置信度预测分支,有效抑制低质量的检测框,使得目标框的回归更为精确。实验表明,所提出的方法相比于基准网络效果有显著提升,能够对多尺度的仪表设备进行精准定位。