水下图像目标检测技术研究

2022-07-17 12:16方俊邱春荣
科技资讯 2022年12期
关键词:跨域目标检测

方俊 邱春荣

摘要:运用目标检测技术,水下机器人海底打捞技术可替代人工捕捞,解决人工作业危险系数高、经济效益低的问题。该文水下目标检测研究对象为海参、海胆、扇贝、海星四类生物,针对水下图像颜色偏移严重、存在明显跨域等问题,提出了一种基于Cascade-Rcnn的海底生物目标检测方法,结合传统图像处理,解决水下图像跨域问题,最终精度达到0.507(iou0.5:0.95 Map)。

关键词:目标检测   Cascade-Rcnn    跨域   颜色偏移

中图分类号:TP29   文献标识码:A   文章编号:1672-3791(2022)06(b)-0000-00

Research on Object Detection Technology of Underwater Image Based

FANG Jun  Qiu Chunrong

(Changsha Social Work College,Changsha,Hunan Province,410004 China)

Abstract: Using target detection technology, underwater robot seabed fishing technology can replace manual fishing and solve the problems of high risk coefficient and low economic benefit of manual operation.The research objects of underwater target detection in this paper are four types of organisms: sea cucumbers, sea urchins, scallops, and starfish. In view of the serious color shift of underwater images and the obvious cross-domain problems, this paper proposes a Cascade-Rcnn-based underwater biological target detection method, which combines traditional image processing to solve the cross-domain problem of underwater images, and the final accuracy reaches 0.507 ( iou0.5:0.95).

Key Words: Target detection; Cascade-Rcnn; Domain shift; Color shift

中图分类号:TP29   文献标识码:A   文章編号:1672-3791(2022)06(b)-0000-00

人工潜水捕捞海产品的方式存在危险系数高、作业时间短、身体伤害大等诸多问题,故研究水下机器人进行海生物捕捞任务具有重大的意义[1-2]。水生物目标检测主要技术难点在于:一方面,水下图像存在严重的颜域问题,给水下水生物目标检测带来困难,容易导致过拟合问题;另一方面,水生物形状多变,又附着于环境,运用传统的人工特征点筛选提取很难达到精度需求[3-4]。

深度学习在目标检测领域发展迅速,诸如Faster-rcnn、Cascade-rcnn、Yolo等模型的出现促进了计算机视觉在工业领域的应用[5-7]。该文针对复杂的海底捕捞作业场合提出了一种基于Cascade-rcnn的目标检测方法,运用传统图像处理方法解决图像偏移和跨域问题,实现深度学习和传统视觉算法的结合应用。

使用Cascade Rcnn模型作为基线,主要是为了解决水下目标检测任务的高准确性需求,Cascade Rcnn的复杂模型结构在水下图像这种颜色偏移严重、存在明显跨域的图像检测任务中其泛化性能更好,更能准确地抓取水产生物的具体位置。

1 数据预处理与数据增强

1.1实验数据集

数据集来自于鹏城实验室水下目标检测算法赛(光学图像赛项),其中训练集为5543幅,A组测试集800幅,B组测试集1200幅,见图1。检查目标生物有海参、海胆、扇贝、海星,见图2。该实验采用COCO mAP[@0.5:0.05:0.95]指标(mean Average Precision) 进行计算,即将10个不同IOU阈值下的mAP取平均值作为最终结果。对于任意一IOU阈值,其对应的mAP计算公式如下:

其中r为召回率(recall),p(r) 为当召回率为r时,检测结果的准确率(precision),mAP为4个类别的AP平均值。

观察数据集肉眼即可发现数据集存在明显颜色偏移,即大部分图像呈明显蓝绿色,且图像对比度较低,主要原因是自然光在水中传播时会呈指数衰减。设I0代表某一水层的光量,经过传输L距离后的光量I为:

其中,c为体积衰减系数,单位m−1,而不同深度,不同波长,光的衰减是程度不同,这就导致图像存在明显色偏,且在不同海域存在色偏程度不同,图像跨域(domain-shift)的问题。

针对上述多种问题,提出以下的数据预处理和数据扩充方案。

1.2 数据预处理

针对色偏问题常用的做法为白平衡,但白平衡易造成目标色素损失,特征表示能力下降,影响建模结果。故采用Oparam方法进行颜色通道矫正,缓减由于光线衰减程度不同而造成的色偏问题,主要的计算公式如下:

其中Ur、Ug、Ub分别为红绿蓝三通道的像素值之和,Uref为三通道像素值算术平均值,Pr、Pg、Pb为颜色矫正前像素点的值,Pr’、Pg’、Pb’为颜色矫正后像素点的矫正结果。通过矫正后可得到接近于现实世界状况的正常图像,由图3可见矫正效果。

1.3 数据扩充

域间差异(domain shift)是指不同的数据集之间存在数据分布差异,训练的模型一般只能用在与训练集分布相似的数据集上,否则会产生具有明显差距的结果。水下图像中,不同海域、不同深度下所采集的图像往往存在不同的色偏,这样就产生了域间差异问题,会导致网络泛化性能差、容易过拟合等问题,该文采用了两种不同方向的数据扩充方法,分别为:直方图规定化,图像度量扰动。

直方图规定化(histogram specification)是指通过图像变换将一幅图像的直方图变成规定形状的直方图的增强方法。假设Pr(r)表示原始图像的灰度概率密度,Pz(z)表示规定化图像的灰度概率密度(r和z分别是原始图像的灰度级、规定化后图像的灰度级)。

在本实验中具体的方式为,以一定概率针对一张原始图像随机选取一张其他的训练集图像作为模板图像,在HSV空间中对原始图片的直方图进行规定化处理,得到扩充图像,见图4

图像度量扰动指的是以一定概率对图像进行不同程度,不同方式的度量扰动,主要包括:随机光亮度扰动、随机对比度扰动、随机饱和度扰动、随机色调扰动、随机通道交换。考虑到单纯使用直方圖规定化,域的适应范围依然在训练集中,故加入一些扰动,在域中进行随机偏移,模拟出更多的图像域,进一步解决跨域问题,见图5。

除上述两种解决跨域问题的数据扩充之外,加入常用形变类扩充增强网络的鲁棒性能,主要包括随机翻转,随机旋转等,并采用多尺度训练增强网络对不同尺度目标的建模能力。

2 基于cascade-rcnn的模型

2.1 cascade-rcnn

Cascade-rcnn主要用于解决faster-rcnn中正样本采样IoU设定困难的问题:IoU设定过低会导致图像引入太多周边环境信息,最终导致bbox回归效果较差以及模型歧义不收敛的问题,而iou设定过高则会导致正样本数量太少,模型较易过拟合。Cascade-rcnn提出了muti-stage的结构,每个stage都有一个不同的IoU阈值,每个stage的proposal为上个stage的回归结果,通过这样的方式来逐步地提升IoU的阈值,达到了更高的精度。图6是模型流程图。

水下图像目标检测任务,对于最终结果的IoU准确度要求较高,选择常用的faster-rcnn很难达到准确的回归结果,故选择cascade-rcnn作为baseline进行建模,提升在高iou要求下的map结果。

2.2 roi-align

选择roi align替换roi pooling,roi align取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作。

2.3 Deformable Convolutional Networks

海生物目标形状不规则(海参、海星此类问题比较突出),标准卷积核会提取到很多无用信息,加入可变形卷积提高网络学习空间几何形变的能力。在该任务中,在模型的backbone中加入3层可变形卷积,强化模型形变建模能力。

2.4 Global context block

海底生物生存地点一般具有一定的规律,不同种类的生物生存的海域、深度是不同的,而相同生物存在群居现象,背景知识、全局信息的加入可强化建模效果,尤其是增加中小尺度目标的召回率。故引入注意力机制,选择了GCB(Global context block)作为注意力网络加入到后backbone的后3个stage中,增强模型的全局建模能力,加大中小目标的召回。

3 实验结果

为体现各种优化带来的精度提升,做了如表1的消融实验。

实验结果表明,Cascade-rcnn在水下目标检测任务中更具优势,而Dcn和GCB模块的加入增强了模型的性能,使得模型能够更精确地提取水下的形变目标和中小目标。Oparam、直方图匹配、图像度量扰动三种方法能带来2个百分点的精度提升,验证了使用图像扩增方法来解决水下图像颜色偏移严重、存在明显跨域问题的有效性,最终融合各类改进,获得了iou0.5:0.95 Map 0.507的不错成绩。

4结语

该文提出了一种基于Cascade-rcnn的水下图像目标检测方案,该方案通过使用传统图像处理算法解决跨域问题,通过使用深度学习算法实现水下目标建模,良好地结合了两方面算法的优势,取得了较好结果。根据具体情况方案可做相应改进,一方面可以使用精度更高的目标检测算法,如EfficenDet、Trident等,另一方面可以在组成模块上做更多的探讨,如CBAM、SE等。

参考文献

[1] 张悦.面向海产品的水下图像处理及目标检测研究[D].济南:山东大学,2021.

[2] 林森,赵颍.水下光学图像中目标探测关键技术研究综述[J].激光与光电子学进展,2020,57(6):26-37.

[3] 吴宇,蔡永斌,汤荣华.水下视觉图像处理和识别技术研究[J].舰船电子工程,2019,39(5):93-96.

[4] 顏小红.基于深度学习的水下目标检测方法研究[D].哈尔滨:哈尔滨工程大学,2021.

[5] 彭豪,李晓明.基于改进Faster R-CNN的小目标检测模型[J].电子测量技术,2021,44(24):122-127.

[6] 夷德.基于YOLO的目标检测优化算法研究[D].南京:南京邮电大学,2021.

[7] CAI Z,WASCONCELOS N.Cascade r-cnn: Delving into High Quality Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:6154-6162.

猜你喜欢
跨域目标检测
中国工程院航天航空航海国际工程科技论坛跨域运载技术创新平行论坛征文函
为群众办实事,崂山区打出“跨域通办”组合拳
G-SRv6 Policy在跨域端到端组网中的应用
基于专用网络的应用系统跨域集中监控系统设计与实现
视频中目标检测算法研究
行为识别中的人体运动目标检测方法
基于云服务的文件跨域上传的研究与实践
移动机器人图像目标识别
基于背景建模法的运动目标检测
基于P3电位的目标检测研究