自适应置信度阈值的非限制场景车牌检测算法

2023-02-03 03:01刘小宇陈怀新刘壁源
计算机应用 2023年1期
关键词:锚框置信度车牌

刘小宇,陈怀新*,刘壁源,林 英,马 腾

(1.电子科技大学 资源与环境学院,成都 611731;2.成都天奥信息科技有限公司,成都 611731)

0 引言

近年来,世界各国都在积极引导和支持智慧城市的建设,智慧交通作为智慧城市的重要组成部分,得到了大量关注与发展,出现了诸多如自动驾驶、电子收费、停车场门禁控制、交通监控与执法等技术与应用场景的结合。在这些应用的实现中,车牌作为车辆的唯一身份标识,对其进行检测是首要解决的问题。但智慧交通中的车牌检测应用场景由于自然天气与环境光照、拍摄设备选择与架设,以及车辆位置与驾驶速度等因素影响,拍摄图像具有不同背景、不同分辨率、不同拍摄角度、不同车牌尺度以及不同清晰程度等特点,如何使车牌检测模型在不同工程应用场景中适用于以上非限制条件,仍是一个有待研究的问题。

目前,大多数车牌检测方法在Faster R-CNN(Faster Region-Conventional Neural Network)[1]、SSD(Single Shot MultiBox Detector)[2]、YOLO(You Only Look Once)系列[3-4]等锚框类目标检测方法基础上针对单一场景的条件特点进行了改进,并在特定数据集上取得了良好的检测性能。如:艾曼[5]选用以ResNet101[6]作为主干的Faster R-CNN 作为车牌检测方法,其首先使用基于锚框机制的区域建议网络(Region Proposal Network,RPN)生成适配实验数据集的车牌建议区域,再通过Fast RCNN(Fast Region-Conventional Neural Network)[7]对建议区域进行对车牌的分类回归;何颖刚等[8]选择SSD 作为车牌检测方法,在多尺度特征图上基于多尺寸锚框进行车牌分类回归。吴仁彪等[9]针对民用民航车牌数据集中车牌目标尺寸较大的情况,选择YOLOv3[4]作为车牌检测方法并改进。首先使用层次聚类方法得到适配数据集的锚框数量和初始簇中心,更改YOLOv3 的锚框参数;然后移除网络对小目标的检测模块,提高检测速度。马巧梅等[10]针对中国城市停车场数据集(Chinese City Parking Dataset,CCPD)[11]等复杂环境数据集,同样选择YOLOv3 作为车牌检测方法并改进。首先使用多尺度(Multi-Scale Retinex,MSR)算法[12]对图像进行数据增强预处理,降低环境噪声干扰;然后根据K-means++算法[13]为数据集选取适配锚框尺寸,并增加对大尺度特征图的融合与检测,提升小目标检测精度。但上述锚框类方法训练得到的网络模型泛化性较差,均需针对实际数据集设置适配的锚框参数,甚至改进了多尺度融合机制,增加或减少对某种尺寸目标的检测,使其难以直接复用在限制条件不同的真实应用场景中。

为此,本文构建了一种适用于非限制场景下非限制条件的车牌检测深度神经网络(Deep Neural Network,DNN)模型架构,主要工作如下:1)在传统卷积神经网络(Convolutional Neural Network,CNN)目标检测模型的基础上,使用图像语义分割预测头,实现无锚框检测方式,避免锚框检测算法的尺寸适配问题,复用简单;2)使用边框回归预测头,提高模型泛化性能;3)使用自适应置信度阈值预测头,减少漏检与误检情况,提高模型检测精度;4)在网络模型训练中设计可微分二值变换联合学习置信度与置信度阈值,优化分割结果,提高模型检测精度;5)考虑到智慧交通存在移动平台端的存储要求与实时处理要求,本文在网络模型部分使用轻量级神经网络作为模型的特征提取骨干,减少网络参数量,使其可以在移动平台部署,并提高网络检测速度;然后,提出连通感知非极大值抑制(Connectivity Aware Non-Maximum Suppression,CANMS),减少顶点还原数量与交并比(Intersection over Union,IoU)计算次数,提高后处理效率。

实验结果表明,本文所提方法在非限制场景的非限制条件下均能获得优异的检测结果,泛化性强,而且不必考虑锚框与目标尺寸适配问题,模型复用简单,处理速度快,具有工程应用前景。

1 非限制场景车牌检测方法

针对智慧交通的应用场景,本文提出了一种基于自适应置信度阈值的非限制场景车牌检测(Unrestricted Scene License Plate Detection,USLPD)方法,从模型构建与网络参数优化来提高车牌检测泛化能力;从选取轻量级骨干网络与改进非极大值抑制(Non-Maximum Suppression,NMS)后处理方法来提高车牌检测速度,考虑实际应用中的移动平台部署。

1.1 USLPD模型构架

本文提出的车牌检测网络模型构架如图1 所示。首先,使用轻量级骨干网络提取图像特征,然后根据U-shape[14]的思想完成高低层特征{C1,C2,C3,C4}的多尺度融合,最后在下采样4 倍的融合特征图P上密集预测分类置信度S(score map)与自适应分类置信度阈值T(threshold map),同时回归旋转候选边界框的几何信息G(geometry map)。其中,置信度分数图与自适应置信度阈值图经过二值变换得到图像的车牌二值分割图B(binary map)。

1.1.1 目标特征提取骨干网络

在特征提取方面,本文考虑了三种当前比较流行的轻量级网络:基于残差网络的ResNet18[6]、基于深度可分离卷积的MobileNetV3[15],以及结合CNN 与ViT(Vision Transformer)[16]优势的MobileViT[17],其中,深度残差网络(Deep Residual Network,ResNet)是目前应用最广泛的CNN 特征提取网络,获得了ImageNet 分类任务精度第一名。它引入残差学习单元,提高信息流通,避免因网络过深引起的梯度消失问题与退化问题,加速网络收敛,提升了图像分类水平。

本文通过实验研究的效果分析及技术指标对比,选取ResNet18 网络作为模型特征提取骨干,最适用于车牌检测应用场景。

1.1.2 自适应置信度阈值分割回归预测头

本文对基于锚框的车牌检测算法(如Faster R-CNN、YOLO 系列[3-4]等)进行分析,该类算法需要提前根据不同场景预设贴合目标尺寸的锚框,并用实际数据对网络参数进行微调,否则易出现模型检测精度下降等问题,对场景迁移不够友好,泛化性较差;而若在模型训练时设置多种锚框尺寸,又会带来冗余计算的问题。

对此,本文采用分割与回归相结合的无锚框检测方式,如图1 所示,在输出层中,使用1×1 卷积对融合层输出的多尺度特征图P进行密集预测,得到置信度分数图(score map)、候选边界框几何信息图(geometry map)以及自适应置信度阈值图(threshold map),它们的作用如图2 所示,其中DB 表示可微分二值化(Differentiable Binarization,DB),C 表 示Concat。

图1 USLPD网络结构Fig.1 Network structure of USLPD

图2 USLPD预测头设计Fig.2 Prediction head design of USLPD

图2 中,score map 是对输入图像下采样4 倍的语义分割结果,每个像素点的值代表其属于车牌类别的置信度。基于分割的方法可以避免使用锚框,但需要复杂的后处理来将像素预测结果分组到检测的车牌实例中,导致推理过程中带来较大的时间成本,并且对目标尺度的鲁棒性有限,无法完整检测出大尺度目标。

因此,在USLPD 的预测头中通过geometry map 加入了对候选边界框的几何信息回归预测。geometry map 共包含5 个通道,分别代表对应像素点(x,y)到基于该点预测的车牌边界框的四边界距离(d1,d2,d3,d4)与旋转角度θ,如图3 所示。geometry map 中的值均是假设像素点在车牌内部预测得到,而后经过式(1)变换,得到候选车牌边界框的顶点坐标

图3 边框回归的几何信息Fig.3 Geometric information of bounding box regression

在score map 与geometry map 的预测结果中,无论是基于分割的目标检测方法还是基于回归的目标检测方法,均需根据置信度阈值过滤低置信度的像素点与候选边界框,保留高置信度的预测结果。在传统方法中,置信度阈值往往是根据经验预设的一个固定值,但这会导致出现车牌边缘部分因为特征不明显、置信度较低而被漏检的情况,以及干扰目标因为相似的文本特征、置信度较高而被误检的情况。

因此,本文在预测头部分加入了threshold map,在预测置信度的同时,使用同一特征生成匹配的置信度阈值,改善固定阈值造成的误检与漏检情况,提高分割精度。

1.2 可微分二值网络模型训练

本文使用监督学习的方法训练车牌检测模型USLPD。对于边框回归预测信息,使用图3 所示的标签信息与IoU 损失进行学习。对于分类信息的预测,不同于以往的监督学习方法(每张预测图都拥有对应的监督标签),考虑了置信度分数图与置信度阈值图之间的紧密联系,将二值变换加入训练过程,结合置信度与阈值得到二值图,然后与最终的车牌分割监督标签协同计算二分类Dice 损失,联合学习置信度与阈值。

标准的二值变换如式(2)所示,不可微,无法通过反向传播学习网络参数,因此,采用行为类似于标准二值变换的近似阶跃函数来替代标准二值变换,使其能够在训练阶段随网络进行优化,如式(3)所示:

其中:Bi,j为二值图B中第i行、第j列的元素;Si,j为置信度分数图S中第i行、第j列的元素,t为预设的固定阈值。

同时,为了加速网络的学习,使用相同的二值监督标签与Dice 损失对分数图进行学习。

本文构建的网络模型损失函数L由分类部分的损失LC与几何信息部分的损失LG组成,如式(4)所示:

其中:分类部分的损失LC为置信度分数图(score map)的损失Ls和近似二值图(appriximate binary map)的损失Lb之和,如式(5)所示;Ls与Lb均采用二分类Dice 损失,如式(6)所示:

其中:为分数图或近似二值图的预测值;S*为二者的监督标签值。

另一方面,几何损失LG由旋转矩形框中轴对齐边界框(Axis Aligned Bounding Box,AABB)部分的IoU 损失LAABB和旋转角度损失Lθ组成,如式(7)~(8):

1.3 基于CANMS的车牌区域检测后处理

根据分割回归预测机制的特性可知,在分割图上,预测同一车牌目标的像素点邻接,不同车牌的像素点分离,并且边框回归的预测图(geometry map)与二值分割图(binary map)像素点一一对应。因此,本文对NMS 进行改进,提出CANMS 的后处理方法。

CANMS 首先利用网络输出的置信度分数图(score map)与置信度阈值图(threshold map)做标准二值变换,得到二值分割图(binary map);然后,在分割图(binary map)上使用牛连强等[18]提出的方法快速求得连通区域,并根据置信度对同一个连通区域内像素点所对应的几何信息进行加权融合,得到该连通区域所对应的候选边界框几何信息,并使用式(1)进行顶点坐标还原;最后,针对少数同一车牌存在多个连通区域的情况,继续使用局部感知非极大值抑制(Locality-Aware NMS,LANMS)[19]融合筛选连通区域候选边界框,得到最终检测结果。

CANMS 可以大幅减少密集预测中的顶点还原数量与NMS 中的IoU 计算次数,提高车牌区域检测的后处理速度。

2 实验与结果分析

本实验硬件配置为Intel Xeon E5-2620 处理器,64 GB 内存,NVIDIA TITAN RTX 显卡。软件运行环境为64 位Ubuntu 18.04 操作系统下搭建的PyTorch1.7 深度学习框架。

本文从CCPD 数据集中选取6 000 张图片作为训练数据集,对模型进行端到端训练,整个训练过程使用Adam 优化器对损失函数做优化,完成100 轮训练。初始学习率为0.001,权重衰减率为0.1,批量大小为24,在网络进行50 轮训练后,学习率设为0.000 1。当模型训练至79 轮时,精度达到最佳。

2.1 数据集

为验证非限制场景车牌检测算法USLPD 的检测性能,本文选用了4 个数据集:公共数据集CCPD[11]、能源车绿色车牌数据集、实采停车场场景数据集与实采天桥场景数据集。并且与其他研究不同的是,本文仅使用CCPD 作为训练数据集,其余3 个数据集则用于泛化性测试,不参与训练。

1)CCPD 数据集。

CCPD 由中国科学技术大学团队创建,是用于车牌检测识别的大型国内停车场车牌数据集。该数据集在合肥市停车场进行采集,采集时间为7:30 — 22:00,拍摄的车牌图像涉及多种复杂环境,包括模糊、倾斜、雨雪雾天等,共35 万张,每张图像尺寸为720×1 160×3。

在实验中,本文从CCPD 数据集的9 个场景中随机选取了Base、Blur、Weather、Rotate、DB、FN 等6 个场景各1 000 张图片作为训练数据集,各500 张图片作为基本的性能评测数据集,训练测试比例为2∶1。其中:Base 数据集是各种常见情况下的车牌;Blur 数据集是相机抖动造成图片模糊的车牌;Weather 数据集是雨雪雾天气下拍摄的车牌;Rotate 数据集是水平倾斜[20°,25°]、垂直倾斜[-10°,10°]的形变车牌;DB 数据集是光线较暗或者较亮情况下拍摄的车牌;FN 数据集是距离摄像头相对较远或相对较近的车牌。这6 个场景基本包含了车牌检测应用场景的各种非限制条件特点。

2)能源车绿色车牌数据集。

CCPD 数据集中图像均为蓝色车牌,缺少近年来日益增多的新能源汽车车牌。因此,为验证仅学习蓝色车牌的USLPD 模型对能源车车牌的检测泛化能力,本文从互联网搜集了1 000 张绿色车牌图像作为测试数据集。

3)实采停车场景数据集。

为验证USLPD 模型对自动驾驶、电子收费、停车场门禁控制等近距离应用场景的泛化性,本文在实际停车场中根据应用特点的限制条件拍摄了500 张类似图片作为测试数据集,包含日间与晚间、拍摄距离远中近、多个车牌目标并存等图像,分辨率为1 280×720、1 920×1 080、3 840×2 160,质量比CCPD 数据集更高。

4)实采天桥场景数据集。

为验证USLPD 模型对道路监控类等远距离、大场景、多车道的应用泛化性,本文在天桥拍摄了500 张图片作为测试集,包含因车速快而造成的运动模糊图片、CCPD 数据集缺少的车辆密集图片和大型新能源汽车的黄绿色车牌等,分辨率为1 280×720、1 920×1 080、3 840×2 160。

2.2 评价指标

为了评估本文方法对车牌检测的有效性,实验使用准确率(Precision,P)与召回率(Recall,R)作为评价指标,具体定义如式(16)~(17)所示:

其 中:TP(True Positive)、FP(False Positive)、FN(False Negative)分别表示正确检测的车牌边界框数、错误预测的车牌边界框数与漏检的车牌边界框数。准确率越高,代表误检越少;召回率越高,代表漏检越少。

2.3 结果分析

2.3.1 网络模型分析比较

在特征提取骨干网络方面,MobileNetV3、MobileViT 与ResNet18 各有优势,实验性能对比结果如表1 所示,在车牌检测应用中,以MobileNetV3 与MobileViT 为主干的USLPD 模型虽然参数量(Params,即模型所需学习的参数总数)比以ResNet18 为主干的USLPD 模型少,但在精度、每秒处理帧数(Frames Per Second,FPS)上都不及ResNet18,因此,最终选择ResNet18 作为USLPD 模型提取图像特征的骨干网络。

表1 不同骨干网络CCPD数据集检测性能比较Tab.1 Comparison of detection performance among different backbone networks on CCPD dataset

2.3.2 车牌检测对比实验

对所提出的网络模型进行公共数据集检测效果评估,结果如图4 所示,可以看出本文模型能够准确、完整检测出不同背景下不同形态的车牌区域。

图4 CCPD上的车牌检测结果Fig.4 License plate detection results on CCPD dataset

为了定量评估算法性能,将训练得到的USLPD 模型与目前具有代表性的车牌检测方法进行性能对比,结果如表2所示。从表2 中的实验结果可以看出,本文所提出的USLPD模型在准确率与召回率上优于Faster R-CNN、SSD、YOLO 系列等基于锚框的检测方法,达到了99.5%的准确率与99.8%的召回率,验证了USLPD 具有良好的学习能力与优越的非限制条件车牌检测能力。

表2 在CCPD上的不同检测方法的性能对比 单位:%Tab.2 Performance comparison of different detection methods on CCPD unit:%

Faster R-CNN、SSD 和YOLO9000[3]方法由于对小目标的检测缺陷,在CCPD-FN 数据集上的准确率较低,YOLOv3 则因在YOLO9000 基础上加入了特征金字塔网络(Feature Pyramid Network,FPN)[20],解决了YOLO[21]和YOLO9000 方法对小目标的检测难题,使得检测精度大幅提升。YOLO 是YOLO 系列方法[3-4,21]的基础,它将输入图像划分为n×n个网格(n由用户确定,一般取值为7),每个网格预测中心点落于其中的目标,并回归目标边界框。

除此之外,由于结合了Faster R-CNN 的锚框机制和YOLO[21]的回归思想,SSD 方法检测精度整体优于Faster RCNN,而YOLO9000 虽在SSD 的基础上增加了批量归一化(Batch Normalization,BN)[22]、数据增强和高分辨率分类器等改进,但在车牌检测任务上的精度却低于SSD。

2.3.3 车牌检测模型泛化性评测

本文对所提出的网络模型在不同场景数据集的检测效果结果如图5 所示,可以看出本文模型能够准确、完整地检测出不同真实应用场景下不同特征的车牌区域。

图5 实采测试集上的车牌检测结果Fig.5 License plate detection results on real-world test sets

为了定量评估算法的泛化性能,本文将训练得到的USLPD 模型在能源车绿色车牌数据集、实采停车场场景数据集、实采天桥场景数据集上进行车牌检测,评估结果如表3所示。在这3 个与训练数据不同的数据集中,USLPD 模型在不经过任何调整优化的情况下,仍能达到90%以上的检测精度,复用简单,泛化性能满足工程实用要求。

表3 不同数据集上的检测性能 单位:%Tab.3 Detection performance on different datasets unit:%

3 结语

本文结合多个预测头的不同优势,构建了一个具有良好检测能力及泛化能力的非限制场景车牌检测算法网络模型。通过可微分二值网络模型训练方法,完成对分割、回归预测头的监督学习,以及对自适应置信度阈值预测头的无监督学习;同时,提出CANMS 算法提升后处理速度,通过实验对比MobileNetV3、MobileViT 与ResNet18 等多个轻量级网络,确定模型骨干,提升网络检测速度。在CCPD 数据集、能源车绿色车牌数据集、实采停车场场景数据集及实采天桥场景数据集上的实验结果表明,本文所提出的USLPD 算法检测精度高、处理速率快、泛化能力强、模型复用简单,可以满足非限制场景非限制条件的车牌检测性能要求。今后将进一步研究车牌识别算法,将USLPD 应用于端到端非限制场景车牌检测识别系统。

猜你喜欢
锚框置信度车牌
基于YOLOv3锚框优化的侧扫声呐图像目标检测
锚框策略匹配的SSD飞机遥感图像目标检测
基于SSD算法的轻量化仪器表盘检测算法*
一种基于定位置信度预测的二阶段目标检测方法
基于GA-RoI Transformer的遥感图像任意方向目标检测
硼铝复合材料硼含量置信度临界安全分析研究
系统可靠性评估与更新方法
数字图像处理技术在车牌识别系统中的应用
正负关联规则两级置信度阈值设置方法
第一张车牌