基于改进Mask R-CNN 钢纤维混凝土裂缝检测模型

2021-02-22 07:09周双喜袁海强邓芳明

华东交通大学学报 2021年6期

周双喜，袁海强，邓芳明

（1.华东交通大学土木建筑学院，江西南昌 330013；2.华东交通大学电气工程学院，江西南昌 330013 ）

实际工程中，混凝土结构作为桥梁、房屋和公路等建筑物重要组成部分，对建筑物使用寿命起着决定性作用，混凝土耐久性[1-2]作为混凝土寿命重要影响因素，是国内外学者研究的热点。影响混凝土耐久性因素主要有碳化、氯离子腐蚀、钢筋锈蚀等，表面裂缝是对混凝土耐久性评价的重要表现之一。

传统裂缝检测由人工肉眼检测发展到利用高频率声波[3-4]和电磁波[5]方法进行人工检测，李俊如[6]利用超声波单面平测法对混凝土裂缝进行深度检测。徐波[7]采用声波穿透法判断混凝裂缝缺陷及深度。谢慧才[8]采用雷达图像识别方法对混凝土结构孔洞和裂缝缺陷进行检测。Hilloulin[9]提出了一种非线性声混合的超声方法，有效地全面检测混凝土中小裂纹。 Chakraborty[10]采用嵌入式传感器超声信号检测混凝土早期裂缝，但以上方法由于操作人员专业水平的不同从而造成检测结果产生差异，且超声波检测设备昂贵，成本较高。

图像处理方法很好解决上述问题，该类算法通过计算与统计特征分布进行特征提取。靳华中[11]结合梯度方向直方图构建路面裂缝检测模型。王保宪[12]利用HOG 特征、LBP 特征和矩特征3 种算法提取混凝土裂缝特征。朱力强[13]提出一种基于Hough 变化的算法，结合连通区域提取算法对隧道裂缝进行识别。但传统手工提取特征方法存在计算量大，特征相对简单且耗时久等不足。

机器学习的发展有效解决了图像处理算法不足，也减少了成本和因为人员技术操作所造成的误差。王丽苹[14]针对现有路面裂缝分类模型性能弱现状，设计卷积神经网络对路面裂缝分类。韩晓健等[15]运用深度卷积网络经典模型Alexnet 来对裂缝做分类应用，运用滑动窗口来对裂缝进行定位。李良福[16]对窗口滑动算法改进，提出一种基于卷积神经网络的深度桥梁裂缝分类模型。但以上文献仍存在计算时间较长，自动化程度还不够高的问题。裂缝作为小目标检测，一体化卷积网络的检测算法方法（如YOLO[17]和SSD[18]）相比较两阶段[19-20]方法准确率不够高。深度学习目标检测任务能区分个体类别但不够精确，语义分割可划分像素点但不可以区分个体类别。

针对以上问题本文提出一种改进后Mask RCNN 裂缝自动检测模型，通过对钢纤维混凝土进行加载试验得到裂缝数据，实验通过标记试块的数字词汇替代工程裂缝检测障碍类别，对裂缝数据进行图像采集和图像预处理，在残差网络基础上引入模块使注意力[22]跨越特征图组，通过在交并比基础上增加目标与锚框间距离、重叠率、尺度和惩罚项来提高回归精度。最后利用改进Mask R-CNN 模型进行训练、验证和预测，并与原始Mask R-CNN 模型进行对比，进一步体现本文提出方法的可行性。

1 裂缝检测模型设计

本文在Mask R-CNN 模型[21]基础上增加分散注意力模块和采用CIoU 来优化模型，对钢纤维混凝土试块进行目标检测和分割。整体结构如下，首先制作钢纤维混凝土，通过压弯试验获取带裂缝试块，采用智能手机获取裂缝图像，然后对获取裂缝进行裁剪，统一大小和数据增强等处理，对处理后数据进行软件标记，构建裂缝图像数据集，同时在网络模型中将数据集随机划分成训练集、验证集和测试集，构建改进Mask R-CNN模型，运用训练集对模型进行训练，再将采用验证集对训练后模型进行参数微调，获取最优模型，最终运用模型对图像进行测试，并与未改进模型进行比较得出结论。

1.1 基于改进Mask R-CNN 检测模型

结合实际工程，完成检测裂缝目标同时分割出裂缝的精准轮廓任务，提出基于改进Mask R-CNN裂缝检测实例分割模型，模型框架如图1。

图1 改进后Mask R-CNN 模型框架Fig.1 Improved Mask R-CNN model frame

模型主干网络采用残差网络，在网络基础上增加分散注意力，通过全局图像特征选择权重，使特征提取网络具有更好学习能力，再结合特征金字塔网络进行多尺度特征提取，选取感兴趣区域对齐特征图获得图像感兴趣区域，固定特征图大小通过掩膜和全连接层网络完成分类、边框回归和掩膜像素分类任务,回归任务引入CIoU（complete intersection over union）提高回归精度。

1.2 改进特征提取网络

为解决网络增加出现的退化问题提出残差学习模块，在网络中添加残差单元，如图2 所示。

图2 单个残差单元Fig.2 Single residual block

残差单元使用一种快捷链接方式，图2 中恒等映射模块，实际是恒等映射的快捷连接，残差部分残差映射是图中的学习差值，是从x 学习到通过激活函数后的输出y=f（x）+x 中间差值f（x）部分，式中快捷连接是带有权重的连接，如下式

式中：xl+1是图2 中后面一层输入；f（x）代表激活函数ReLU；h(x)是输出快捷连接处函数；F（x，w）由上到下经过激活函数和权重的映射函数。图2 中快捷连接采用恒等映射会造成残差部分变化，残差部分变化影响权重调节主要因素，保证了反向传播梯度值更大，更易于训练，也保证网络加深不会造成网络退化。现有残差网络有50 层、101 层和152 层，但更深网络层次会带来经济效益较低的问题，鉴于计算力有限，文章选取残差网络101 层。

以残差网络重复层策略网络为基础，对每个模块增加k-1 个基数，将拆分后基数进行分散处理，每个基数通过多个分割元素求和再融合得到特征图输出：h，w，c，通过分散注意力模块转换合并，进入分散注意力网络头部卷积后输出，将该基数组输入分成r 个分散块，每个分散块经过变换，进入到分散注意力模块中，对逐个元素相加将特征图融合输出维度：h*w*c，再对融合特征图全局池化，并将图像空间维度压缩输出维度c′，结合分类器计算出每个分散块权重图中Dense c，实现方式为两个全连接层，将模块输入特征图和其权重相乘得到基数组，再加权融合输出维度h*w*c。分散注意力将分散块特征图计算对应权重进行融合。如图3。

图3 ResNeSt 单元结构和split attention 模块Fig.3 ResNeSt structure and split attention block

研究骨干网络提取特征图中深层次特征图语义性较强，适合完成图像分割与分类，浅层卷积特征图分辨率高，位置信息强，适合做目标检测。

1.3 改进损失函数

感兴趣区域对齐输出的特征图通过2 个卷积层和1 个全连接层分为两部分，一部分用于分类和回归，另一部分用于掩膜生成，如图4。

图4 分类提议生成边界框和掩码Fig.4 Proposals generation bounding boxes and masks

Mask R-CNN 模型用于完成分类、定位和掩膜生成，其损失函数由3 个损失函数之和构成，如下式

式中：Lcls为分类损失函数；Lbox为回归损失函数；Lmask选取平均二值交叉熵作为损失函数。

其中：pi为预测到目标的概率；pi*表示是否为真实目标，是为1，否为0；Ncls为分类层数。原始Mask RCNN 模型交并比是测量在特定数据集中检测相应物体准确度的一个标准，但由于对物体特征规模不敏感，常用边框回归损失优化和交并比优化不完全等价，常用交并比无法直接优化没有重叠的部分。通过使用CIoU 作为回归优化损失函数LCIoU，将目标与锚框之间的距离，重叠率、尺度以及惩罚项都考虑进去，解决原始交并比出现训练过程中发散等问题，惩罚因子把预测框长宽比拟合目标框的长宽比考虑进去，使得目标框回归变得更加稳定。

回归优化损失函数LCIoU公式如下

式中：RIoU为交并比；ρ2（b，bgt）分别代表了预测框和真实框的中心点的欧式距离；c 代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离；Nreg为回归层数。

式中：s 为每一个像素是一个类别的总数和；si*为像素所在类别的标签；p（si）为预测类别的概率。

2 实验数据预处理

2.1 裂缝图像数据获取

为获得连续且混凝土试块完整的裂缝图像，而钢纤维混凝土其韧性和疲劳性能具有一定优势。而普通混凝土所得到的裂缝也可以作为实验数据，只要具有裂缝特征即可。通过实验对200 个钢纤维混凝土试块进行压弯试验，运用相机获取整张混凝土试块的图像，获取200 个4 032*3 024 试块的裂缝图像如图5（a）所示。由于输入原始图片会导致计算成本过大，将原始图片裁剪为仅含有混凝土试块图像，如图5（b）。

图5 裁剪前后图片Fig.5 Before and after images being cropped

数据样本数量不足会影响识别精度，容易导致欠拟合，为获得足够样本需进行数据增强，后期图像输入要求图像的分辨率一致，通过标记软件标记裂缝时清晰易见，通过代码进行统一大小致像素512*512。

2.2 数据集增强及数据标记

为实现裂缝以及腐蚀代替类别的分割网络模型训练，对裂缝数据集图片进行分割掩码标记，生成目标裂缝掩码和类别标注等文件，通过数据增强库对基础数据进行翻转、旋转、增加亮度、平移以及添加噪声（添加高斯噪声和椒盐噪声）得到2 000 张像素为512*512 图片，如图6 所示。

图6 通过数据增强后图片Fig.6 Images enhanced by data

随机选取其中1 200 张作为训练网络数据集。400 张作为验证数据集，400 张作为测试集。

3 数据仿真与结果对比分析

利用深度学习框架Keras2.16 和Tensorflow1.14.3 搭建改进Mask R-CNN 模型。计算机操作系统为Windows10，服务器配置为：酷睿i9 9900K 3.6 GHz，32 GB 内存，NVIDIA Corporation GP 102[GeForce GTX 2080]显卡。根据计算力以及模型需求对模型基本参数进行设计如表1 所示。

表1 模型基本参数Tab.1 Basic parameters of the model

数据在coco 数据集上使用训练好的模型作为训练模型初始化参数，进行训练。模型Mask R-CNN网络在训练数据集上损失变化曲线如图8。

由图7 看出模型损失不断减小，逐渐收敛，改进模型在迭代2 000 次左右开始收敛，先于原始模型。模型通过引入正则化对训练过后网络用验证集验证进行网络参数微调，在测试集上进行测试，通过训练好网络模型放入测试集进行测试结果如表2。

图7 Loss 曲线Fig.7 Curve of Loss

表2 测试集上面的准确率Tab.2 Accuracy on test set

由表2 看出裂缝准确率较其余两种类别较低，实验过程中，养护时期会造成混凝土试块外表出现不同颜色表状，后期拍摄因素也会对裂缝区域造成影响，而人工增加类别简易且特征易提取。在训练过程验证和测试数据集上显示出较好效果。测试后对具有3 种类别图像进行预测，如图8 所示。

图8 Mask R-CNN 训练后预测图Fig.8 Mask R-CNN prediction graph after training

图9 中显示预测效果较好，但也存在裂缝未识别，背景和裂缝相近的图片置信度较低，数字和词汇类别都显示出改进前模型已经拥有较高的鲁棒性，再对改进模型进行训练验证测试调参，进行预测，结果如图10 所示。

图9 改进后Mask R-CNN 训练后预测图Fig.9 Improved Mask R-CNN prediction graph after training

由图10 看出改进后模型对检测的裂缝呈现出很好的检测效果，再将裂缝以外类别设置为一类计算出TP，被正确预测为正样本的数量；FP，负样本被预测为正样本的数量；FN，正样本预测负样本的数量。 P 为精确率；R 为召回率。

图10 相比较Mask R-CNN 预测P-R 图Fig.10 Compared with that of Mask R-CNN,the P-R graph of prediction

绘制出P-R 图。再将该数据放在原始Mask R-CNN 中进行多任务学习，在CIoU 为0.5 时得出结果并与本文改进算法进行比较如表3 所示。

表3 与原始Mask R-CNN 算法比较Tab.3 Compared with the original Mask R-CNN algorithm

改进后裂缝检测精度由提升84.32%增加到92.57%，在原始检测精度较高基础上再次提升8.25%，数字和词汇的检出率也进一步提升，由于人工添加类别特征相对较简单，致使检测精度相对较高，平均精度均值也从90.44%提升到96.09%。改进后网络对单样本耗时也从210 ms 提升到198 ms。

4 结论

通过钢纤维混凝土进行试验获得裂缝，采用改进深度学习网络进行实例分割，获得下列结论。

1）本文建立裂缝自动识别改进后Mask RCNN 深度网络模型,用于裂缝检测。该模型对人工多类别图像进行分类、分割和定位，突破了仅含单一裂缝检测，能够高效完成实例分割任务。

2）试验结果表明，改进裂缝识别模型的准确率为96.09%，平均精度均值和图片处理速率分别提升6.2%和5.7%。表现出模型较强的鲁棒性和泛化能力。模型作为基于对象建议检测算法，与一体化卷积网络算法相比，图片处理速率较低，需要通过研究开发更好的网络模型来做到精度高，速度快。