浅析复杂场景下的湿地鸟类目标检测

2021-02-01 14:01周铁林
科学与信息化 2021年2期
关键词:置信度识别率网格

周铁林

沈阳理工大学 辽宁 沈阳 110000

1 YOLOv3目标检测及原理

目标检测是将图像或视频中的目标与感兴趣区域分开,确定目标是否存在,以及是否存在目标,确定目标的位置。YOLO系列目标检测网络是单次目标检测网络中最具代表性的网络结构,YOLOv3是YOLO系列的网络之一,因为在检测精度上可以与两次目标检测网络相媲美,同时可以达到实时检测速度,因此成为主要的,广泛应用的目标检测算法之一。

2 YOLOv3对于湿地鸟类检测算法的改进

2.1 对于检测框及网络层的改进

针对拍摄采集的数据大多模糊不清,对于需要采集的目标容易造成采集模糊,无法识别,无法定位的这个问题,需要在算法的预测框方面改良,使其更好地检测到实际需要采集的目标。一个目标的每个边界框都要预测边界框位置信息(x,y,w,h)和置信度(cinfidence),置信度的计算公式如公式1所示:

由于算法存在着高分类准确率和低定位准确率,我们需要将YOLOv3算法的预测框输出信息中加入显示预测框准确程度的指标,在网络训练过程中指导网络学习预测更加准确的预测框,从而降低YOLOv3 算法的定位误差[2]。可通过建立模型将显示预测框的中心点坐标和概率输入设定为x,输出设定为y,为平均值,用来表示预测框相对位置,为方差,用来表示预测框相对的准确度。模型公式如公式2所示:

改进后每一个预测框输出8个位置和尺寸信息,1个有无目标的置信度信息和多个类别信息。在网络预测层加入对预测框的不确定性回归使网络整体性能提升了6.81个百分点,平均交并比提升了5.2%,这证明了加入预测框不确定性回归减小了YOLOv3算法的定位误差。为了获得更高性能的训练模型,在网络训练阶段会使用多种有利于网络训练的方法。特征提取网络是由高质量图像分类的尺度架构截断而成,主要用于提取图像特征[3]。将Darknet53结构进行裁剪后,在数据集较少的情况下更加符合实际应用。借鉴上述思想,设计了全新的Darknet-Bird网络结构。改进后的Darknet-Bird模型层数比原有的Darknet53模型层数少了11层,整体的运算量,网络深度等都大幅下降。

2.2 YOLOv3改进后和已有的网络对比

原始的YOLO v3网络将输入图像拆分为SxS网格。如果将对象的中心坐标折叠到网格中,则该网格负责跟踪对象。由于Darknet网络引入residual结构,结构优势远远超过传统VGG-16网络,优化了冗余的回归金字塔结构,速度会快很多。增加了Libra R-CNN模型,包含候选区域生成与选择、特征提取、类别分类和检测框回归等多个任务的训练与收敛。与Faster-RCNN相比,COCO两步目标检测任务的LibraR-CNN模型精度超过2%,效果非常明显。

3 结果展示

将数据集分别通过改进后的YOLOv3网络和正常的YOLOv3网络训练后得出的结果如图1所示:

图1 数据集训练结果对比图

将本文算法与其他算法的实验结果比较如下:Faster-RCNN的识别率为89.2%,YOLO v3的识别率为79.6%,本文算法识别率为86.6%。召回率分别为82.3%,80.7%,89.2%;FPS分别为14.7,30,37;用时分别为11.4s,8.3s,6.1s。

4 结束语

目前存在的检测算法很多,论实用性来说本文经过改进的YOLOv3算法比较符合需求,但仍相差很大,距离实际应用仍有很大距离。由于实际应用的复杂性,还需根据实际应用情况来选择符合条件的算法。

猜你喜欢
置信度识别率网格
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
追逐
正负关联规则两级置信度阈值设置方法
重叠网格装配中的一种改进ADT搜索方法
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
校核、验证与确认在红外辐射特性测量中的应用
人工智能现状和发展