基于YOLACT的行道树靶标点云分割方法

2022-08-03 07:07李秋洁童岳凯薛玉玺徐志强李相程刘旭
林业工程学报 2022年4期
关键词:测量点靶标行道树

李秋洁,童岳凯,薛玉玺,徐志强,李相程,刘旭

(南京林业大学机械电子工程学院,南京 210037)

由于温室效应、人为干扰等因素的影响,行道树病虫害日益增多,致使行道树枯萎或死亡,不仅严重影响行道树绿化与美化效果,而且直接影响城市生态环境与居民生活,成为园林绿化精细化管理的制约因素[1-2]。我国行道树防治药械主要采用手动喷雾器、踏板式喷雾器等人力药械,担架式喷雾机、背负式喷雾喷粉机等部分机动植保机械,部分地区采用高射程喷雾机。总体来说,操作人员劳动强度大、作业效率低。由于行道树间距较大,连续喷雾施药方式使得大量药液流失到地面或挥发到空气中,严重污染城市环境,影响居民生活工作[3]。

对靶施药技术采用红外[4]、超声波[5]、激光[6]、激光雷达(light detection and ranging,LiDAR)[7]、摄像头[8]实时传感器在线探测靶标信息,控制喷头进行有树喷药树间隙不喷的对靶喷雾,以及根据靶标大小、形状、体积调整施药剂量的变量施药[9]。目前,对靶施药技术已在果园病虫害防治中取得成功应用,与连续喷雾施药方式相比,可节省20%~75%的药液,并有效提高药液在树木上的沉积率,降低农药残留[10-11]。

在众多传感器中,激光雷达能够快速获取树木三维点云数据,实现高精度高效的靶标检测,广泛应用于果园对靶施药[7]。城市街道包含建筑物、路灯、电线杆、标志牌等多种地物目标,靶标识别难度增加,向对靶施药技术提出了更高的要求。当前行道树点云分割方法主要有两类:一类方法将点云数据划分为多个格网或体素,作为基本数据处理单元,然后分析地物目标的形貌,设计用于分割的特征和规则,逐步过滤非行道树点云[12-13];另一类方法直接处理原始点云数据,从每个点的邻域中提取多个特征,训练一个二分类器识别行道树点云[14-15]。已有方法由人工设计分割/分类特征,采用聚类、区域增长等手段提取出单株行道树,存在特征表达能力弱、难以描述地物复杂变化以及建模能力弱等问题。

行道树靶标点云分割是一个点云实例分割问题,需要从街道点云数据中分割出每一棵行道树靶标点云数据。目前,有众多基于深度学习的端到端点云实例分割算法,如SGPN[16]、JSIS3D[17]、3D-BoNet[18],这类方法无须人工设计特征或规则,以原始点云为输入,自动挖掘多层次点云特征,输出点云实例分割模型。然而,受点云离散化程度高和不均匀分布影响,上述方法的时间/空间复杂度较高,不满足对靶施药的靶标实时检测需求。另一类方法先将点云无损转换为图像,再利用时间/空间复杂度较低的卷积神经网络(convolutional neural net,CNN)、融合MobileNet特征提取器的Mask RCNN 等端到端图像实例分割算法建立点云实例分割模型,如PointIT[19]、SqueezeSeg[20]。这类方法在KITTI自动驾驶数据集[21]上取得了不错的分割结果,然而,它们处理的是三维LiDAR采集的点云数据,而对靶施药技术采用二维LiDAR构建移动激光扫描(mobile laser scanning,MLS)测量系统,因此,这类方法不适用于行道树靶标点云分割。

针对上述问题,本研究基于移动激光扫描采集的街道点云数据,将其无损转换为三通道图像,采用实时图像实例分割算法建立行道树靶标分割模型,实现行道树靶标点云的快速准确分割。

1 研究方法

本研究方法包括街道点云采集、街道点云转换和行道树点云分割3个步骤。首先,使用基于二维LiDAR的MLS测量系统采集街道三维点云数据;然后,建立由LiDAR扫描线组成的包含深度、回波强度和回波次数信息的3通道图像;最后,采用YOLACT图像实例分割算法在图像切片上训练行道树靶标分割模型。

1.1 街道点云采集

采用Hokuyo公司生产的二维LiDAR UTM-30LX-EW,该款LiDAR根据发射激光束和目标反射回波的时间,测量目标与LiDAR的距离,最大测量距离为60 m。如果发射激光束击中目标边缘,会反射一个以上的回波[22],UTM-30LX-EW记录前3次回波的距离r1、r2、r3(4字节无符号整数,mm)和强度I1、I2、I3(2字节无符号整数,无量纲)。若没有接收到回波,距离和强度值为0。

UTM-30LX-EW扫描角度范围为270°,每次扫描获取目标的一条轮廓线,又称为扫描线。相邻扫描线的时间间隔Δt为25 ms,同一条扫描线上相邻激光束的角度增量Δθ为0.25°,每条扫描线包含1 081 个激光束的测量数据。

实验采用文献[14]描述的MLS测量系统,UTM-30LX-EW搭载在智能小车上,扫描平面与车辆行驶方向垂直,扫描中心线平行于地面,指向被测目标。车轮上安装有测速编码器,采用比例-微分-积分(proportion-integral-differential,PID)算法控制车轮转速,控制小车沿道路直线匀速行驶。

建立坐标系如图1所示,LiDAR起始位置为原点,x轴为小车行驶方向,y轴为深度方向,z轴垂直地面向上。MLS 测量点可以用扫描线序号和扫描线内测量点的序号进行索引,第i个扫描线内第j个测量点的三维坐标为:

图1 MLS测量系统的坐标系Fig. 1 Coordinate system of the MLS measurement system

(1)

式中:v为车速;r1(i,j)为第i个扫描线中第j个测量点的一次回波距离;θ(j)为扫描线内第j个测量点的扫描角度,范围为[-135°,135°]。

智能小车于2021年5月沿(32°04′53.5″N,118°49′02.2″E)一段长300 m的街道“U”形行驶,采集街道两侧数据,如图2所示。采集场景包含121棵行道树和建筑、车道、人行道、自行车、行人、路灯、标志牌、栅栏、长椅、垃圾桶、灌木、草皮、花坛等地物目标。

图2 数据采集地Fig. 2 Location of data collection

由于UTM-30LX-EW存在90°盲区,只能完整采集街道单侧信息,因此,仅保留y轴正半轴街道点云数据,对应扫描角度范围[-90°,90°]。最终得到60 000条扫描线,每条扫描线包含720个测量点,共有43 200 000个测量点。街道三维点云数据如图3所示。为方便观看,采用高度信息(z坐标值)对点云进行染色处理。

图3 街道三维点云Fig. 3 3D point cloud of the street

1.2 街道点云转换

基于二维LiDAR的MLS点云数据可以用测量点的扫描线序号i和扫描线内序号j进行规则格网索引,因此,可将MLS点云数据无损转换为图像格式,扫描线对应图像中的一列,扫描线内测量点对应一个像素。

彩色图像仅包含R、G、B 3个通道,而LiDAR测量点信息包括三维坐标(x,y,z)、前3次回波的距离r1、r2、r3和强度I1、I2、I3,需要从中选择最能区分行道树和其他地物的3个点云数据。采用测量点的深度y、一次回波强度I1和回波次数n分别构建图像R、G、B通道。

1)深度y:测量点的x坐标刻画了它在街道长度方向上的位置,而行道树靶标可能位于一条街道的任何位置。此外,x坐标与像素列号(即扫描线序号i)成正比,其信息已经包含在图像中,因此,不使用x坐标。测量点的z坐标刻画了它的高度,行道树的高度有一定范围,因此,z坐标有助于行道树靶标检测。由于行道树垂直地面生长,其点云z坐标与像素行号(即扫描线内序号j)有较强的相关性,为避免冗余,也不使用z坐标。测量点的y坐标刻画了它在街道深度方向上的位置,由于行道树的种植位置存在特定范围,y坐标有助于行道树靶标检测。此外,行道树点云y坐标与像素行号不相关,与像素列号相关性较弱,因此,使用y坐标构建图像的一个通道。

2)一次回波强度I1:回波强度与目标的光谱反射特性有关,可以作为区分行道树和其他地物目标的一种手段[23]。前3次回波中,选取最先返回的一次回波的强度I1表征行道树的光谱反射特性。

3)回波次数n:激光束击中树叶边缘时会反射多次回波,因此,可以利用回波次数滤除表面无空隙的地物目标[24]。原始测量点数据不记录回波次数,可根据前3次回波的距离/强度值是否为0来统计测量点的回波次数n。

采用最大最小归一化将深度y、一次回波强度I1和回波次数n的取值范围变换到0~255。由MLS点云数据构建的2幅30 000×720彩色图像及其包含的3个单通道图像见图4。

图4 街道点云图像Fig. 4 Images of the street point clouds

1.3 行道树点云分割

1.3.1 行道树数据集构建

原始街道点云图像太宽,无法直接处理,对其切片,得到的每幅图像包含1或2棵行道树,再采用水平翻转进行图像扩充,最终得到1 948张行道树图像。

使用在线图像标注工具Labelme标注行道树,沿行道树轮廓取点构成一个多边形,如图5所示。标注完成后产生一个后缀为json的掩膜文件,里面记录了每个行道树的多边形顶点信息。

图5 行道树靶标标注Fig. 5 Annotation of street tree target

1.3.2 行道树分割模型建立

采用YOLACT算法训练行道树靶标分割模型。YOLACT将图像实例分割划分为掩膜原型生成和掩膜系数预测两个并行子任务,首次实现了实时图像实例分割[25]。

算法框架如图6所示。

图6 YOLACT算法框架Fig. 6 Annotation of street tree target

具体步骤如下:

1)特征提取。将输入图像调整至550×550,采用特征金字塔网络(feature pyramid networks,FPN)提取图像特征。

2)掩膜原型生成分支。采用全卷积网络(fully convolutional network,FCN),对整幅图像产生k个掩膜原型。

3)掩膜系数预测分支。生成多个大小和宽高比不同的锚框(候选行道树区域),对每个锚框,采用全连接层(fully connected layer,FC)预测它的类别、边界框系数和k个掩膜系数,然后采用快速非极大值抑制(non-maximum suppression,NMS)从全部锚框中筛选出行道树实例。

4)掩膜融合。对每个行道树实例,采用对应的掩膜系数线性组合k个掩膜原型,再经过Sigmoid函数运算、裁剪、阈值化等处理,得到每个行道树实例的最终掩膜。

2 试 验

2.1 试验平台

试验采用开源深度学习目标检测工具箱MMDetection实现YOLACT算法,建立行道树靶标点云分割模型,实验平台配置参数见表1。

表1 试验平台配置Table 1 Configuration of experiment platform

2.2 行道树分割模型训练

将1 948张图像按照6∶2∶2的比例划分出训练集(1 176张,共1 764棵行道树)、验证集(386张,共579棵行道树)和测试集(386张,共579棵行道树)。输入训练集和验证集的图像和对应json掩膜文件,训练行道树分割模型。设置掩膜原型个数k=32。8 091次迭代的损失曲线见图7,约5 000次迭代后损失趋于收敛。

图7 损失曲线Fig. 7 Loss curve

2.3 行道树分割模型测试

文献[14]中使用与本研究同样基于二维LiDAR的MLS测量系统获取街道点云数据,然后训练2个二分类器分别检测出树冠和树干点云,最后在树干分割的基础上提取完整的行道树点云数据。

将本研究方法与文献[14]进行对比,令检测框与真值框的交并比(intersection over union,IoU)阈值为0.5~0.9,以0.05为步长增加,若检测框与真值框的IoU大于阈值,判定为正确检测出行道树,否则,判定为错误检出。统计386张测试图像上各IoU阈值下行道树分割的精确率(precision)、召回率(recall)和F1分数,以及扫描线平均处理时间。此外,选用两阶段图像实例分割算法Mask R-CNN训练行道树分割模型,与单阶段图像实例分割算法YOLACT进行对比。试验结果如表2所示,可以看到,本研究方法的分割精度和效率显著优于文献[14],在全部IoU阈值下的平均精确率为0.973、平均召回率为0.985、平均F1分数为0.979、扫描线平均处理时间为12.903 ms,小于25 ms的扫描线周期,满足靶标实时检测需求。Mask R-CNN算法得到的行道树分割模型在精度上比YOLACT稍好,但处理时间为YOLACT的3倍,大于扫描线周期,因此,选择YOLACT算法训练行道树分割模型更加合适。

表2 行道树分割模型对比Table 2 Comparison of street tree segmentation models

本研究方法的部分分割结果见图8。左边是测试结果,右边是真值。可以看到,树冠不存在粘连和遮挡时,树冠轮廓分割较为完整,如图8a右树、图8c右树、图8d左树、图8f;树冠被路灯、行人等遮挡时,被遮挡部分能被正确分割,如图8a左树、图8b、图8c左树、图8e、图8g;树冠之间存在粘连时,粘连部分的分割不够准确,如图8d右树、图8g、图8h、图8i。

图8 行道树分割结果Fig. 8 Results of street tree segmentation

3 结 论

1)针对复杂城区环境下行道树靶标点云检测难度较大的问题,提出一种基于YOLACT的行道树点云分割方法,将MLS系统采集的街道点云数据无损转化为包含深度、回波强度和回波次数信息的三通道图像,采用实时图像实例分割算法YOLACT训练行道树靶标分割模型。

2)检测框与真值框的交并比阈值在0.5~0.9以0.05为步长变化时,得到的测试集行道树分割平均精确率为0.973,平均召回率为0.985,平均F1分数为0.979,平均每条LiDAR扫描线的处理时间是12.903 ms。实验结果表明,提出的方法能够快速准确地分割出行道树靶标,分割精度和效率明显优于现有方法。

猜你喜欢
测量点靶标行道树
纳米载体可缓解农药对靶标作物的负作用
飞机部件数字化调姿定位测量点的优选与构造算法
靶标龙伯球一体化反射器电磁和气动特性融合设计
基于网络药理学及分子对接技术分析清眩降压汤治疗高血压的作用机制
行道树
弯道
热电偶应用与相关问题研究
弯道情结
靶标评改,让习作评改有序更有效
DCM10kW数字循环调制中波广播发射机供电系统维护检修测量点的位置与电压