气电混合驱动全天候苹果收获机器人设计与试验

2020-03-09 07:35赵德安吴任迪刘晓洋张小超

农业机械学报 2020年2期

赵德安吴任迪刘晓洋张小超姬伟

(1.江苏大学电气信息工程学院，镇江 212013； 2.中国农业机械化科学研究院，北京 100083)

0 引言

苹果采摘属于高度重复的体力劳动，适合机器人完成[1-3]。随着收入水平的提高和饮食结构的调整，苹果消费需求将持续增加[4]，苹果生产机械化也显得愈发重要，其中采摘机器人是苹果生产机械化的关键技术之一。

综合国内外文献，大致有两种方法来实现树木果实采摘的机械化。第1种方法是使用摇动和捕获装置收获果实。文献[5]利用拖拉机振动器摇动柑橘树来收获柑橘，试验中能够在5 s内收获72%的果实；文献[6]利用由液压驱动、并由拖拉机动力输出装置驱动振动器收割开心果，在50 mm的振幅和20 Hz的频率下获得95.5%的收获率。此类采摘方法虽然效率高，但只适合坚果类果实的采摘，对苹果、梨等果实易造成损伤，影响果实的商业价值[7]。第2种方法是采用机器人进行选择性采摘，是将机器视觉系统和机械手结合起来，以便在尽可能不损伤果实的情况下摘取果实[8]。在采摘过程中，果实的识别定位最为重要，研究人员为了解决动态光照、遮挡和粘连等问题，使用了不同类型的传感器以及与之配合的图像处理技术[9]，比如彩色摄像头、红外摄像头、激光测距仪等。文献[10]利用机器视觉识别水果，激光测距传感器确定距离，用末端执行器夹住并旋转果梗分离果实。为了节约成本，文献[11-12]使用机器视觉中的差分物体尺寸方法和双目立体图像方法确定末端执行器到果实的距离，并由此来建立果实的三维坐标。

以上方法都是在理想实验室环境下进行的，未在实际环境下进行验证，算法受自然光的干扰影响较大。为了减少自然光对识别的干扰，文献[13-14]在夜间受控的人工照明下使用双摄像头立体装置进行图像采集，对苹果园的作物进行产量估算。文献[15]运用红外摄像头和彩色摄像头识别树冠内遮挡的绿色苹果，使用投票方案从2个图像中确定需要检测的特征来提高准确率。除去基于颜色、形状的识别，还有采用支持向量机或神经网络的识别方法[16-18]。

除了机器人中的视觉系统，机械设计同样影响采摘动作的准确性和采摘后果实的品质。文献[19]将手工采摘方法作为候选抓取技术进行评估，利用在末端执行器上的力传感器和惯性测量单元获取三指动力抓握期间的正常接触力以及围绕前臂轴线的旋转角度，针对每个苹果品种开发出相对最佳的采摘方法。文献[20]提出一个带有真空驱动柔性抓手的7自由度机械臂，由硅胶漏斗和内置摄像头组成的夹具能够无损地抓取果实，可在一定程度上减少对目标形状的依赖。文献[21-22]提出一种多末端收获机器人，每个手臂都装有末端执行器，利用深度神经网络在自然光下识别目标，通过动态调度系统协调4个机械臂，采摘速度为5.5 s/个。文献[23]基于可见/近红外光谱检测技术设计了苹果内部品质分级机械手，实现了在夹持苹果的同时准确预测苹果可溶性固形物的含量。

当前的果树采摘机器人应用难点在于不稳定的视觉识别和低效的抓取动作。复杂环境对机器人搭载的视觉识别系统提出了很高的要求，鲁棒性差的视觉识别限制了机器人的工作时长和范围；现有采摘机器人的机械臂多由电机模块组成，抓取时需要进行复杂的定位动作，导致抓取时间占整个采摘时间的比例很大。

本文讨论采摘机器人快速柔性摘取苹果的能力，快速且鲁棒的视觉识别能力和能够全天候长时间工作的能力。设计额外的气动源可使采摘过程中机械臂能够快速并柔性抓取苹果，提高整体的采摘速度。采用深度神经网络的视觉算法提高识别系统对变化光线和复杂环境的鲁棒性，同时延长机器人的工作时间，以提高机器人的整体工作效率。

1 材料与方法

1.1 研究对象

本文设计的机器人需要全天候进行作业，所以其搭载的视觉系统目标是能够识别各种环境下的苹果，视觉算法需要有足够的泛化性和鲁棒性。

苹果图像采集地点是江苏省徐州市丰县大沙河镇苹果示范基地和山东省烟台市蓬莱县苹果示范基地，采集时间为2018年10月24日13:00—20:00，采集时摄像头的位置模仿末端执行器所在的高度和姿势。试验共采集图像2 460幅，分辨率为640像素×480像素，其中训练集1 600幅，验证集860幅。

苹果树高度一般为3～5 m，直径为1.5～3 m，并且呈主干形，苹果分布均匀。设计的机械平台需要能够达到不同的高度，并且末端执行器需要无损地将苹果从树上分离。

为了使苹果收获机器人具有商用价值。本文的设计策略是以采摘效率和低成本为最高优先级，并将其作为评估整体性能的基准。

1.2 系统构成和流程

1.2.1整体系统组成

本文设计的苹果收获机器人由2自由度电动移动平台和5自由度机械臂组成。机械臂包括1个手动调节升降平台、3个电机控制的腰部和大小臂部分、气动控制的小臂直动推杆及末端执行器部分、视觉识别部分、各个系统之间的通信部分以及整体控制中枢部分。机械臂内各部分间关系如图1所示。

视觉系统负责目标苹果的识别，包括摄像头；气动系统负责小臂直动推杆的升缩及末端执行器的柔性抓取，包括气动直动推杆、Festo气动装置、红外传感器、压力传感器、割刀、抓手；电机系统负责机械臂的伺服控制，包括伺服驱动器、电机及转动关节；通信系统将各个模块产生的数据与主控机进行交互。

1.2.2整体系统流程

本文的苹果收获机器人整体系统的运行流程包含3个线程，分别是控制气动装置和显示调试界面的气动线程，控制电机驱动机械臂移动的电动线程，以及刷新视频流和检测苹果的机器视觉线程，三者之间的协同工作如图2所示。

图1 整体系统构成

图3 YOLO V3网络结构

图2 整体系统流程图

当苹果收获机器人开始工作时，会同时启动3个线程，其中电动线程的“等待目标坐标”和气动线程的“等待目标对准”会阻塞直到条件满足，首先进入搜寻状态，此时机械臂以“Z”形往复运动，使得摄像头的视野尽可能覆盖有效的采摘范围。当摄像头视野中出现苹果时，机械臂的转速降低进入对准模式。当机械臂上的末端执行器对准苹果之后，会启动气动装置伸出末端执行器，此时末端执行器上的传感器感应到目标之后抓紧目标，抓手的抓力随着压力传感器的数值变化自动调节，使得能够柔性抓取目标。抓到一定紧度后启动割刀割断果梗，接着收回末端执行器，抓手松开目标，使目标从输送管送到果篮。至此，一次采摘的循环完成，机器人重新进入搜寻模式，继续下一次采摘。

1.3 视觉系统

1.3.1识别网络

为了让视觉系统能够检测各种环境下的苹果，具有足够的鲁棒性，让视觉系统达到快速和鲁棒的识别效果，选用深度卷积神经网络YOLO V3[24]实现苹果检测。深度神经网络能够自适应地学习目标特征，实现端到端的目标检测，并且已经被证明能够检测各种动态环境下的目标。对网络模型进行修剪，具体结构如图3所示。输入的图像通过卷积层提取特征，池化层降低维度，两者交替放置得出输出张量。由于检测目标单一，不需要过深的神经网络，相比于原算法，本文用VGG结构代替残差网络，并将输出张量的尺寸由3种缩减为2种，网络在第4层浅层网络处提取信息与第11层深层网络进行融合，最终输出13×13和26×26两种不同尺寸的预测张量。其目的是提高整体模型的召回率，使其能够更好地检测到苹果粘连的情况。

设计了苹果图像采集试验，用于网络训练和准确性验证，采用PASCAL VOC数据集的格式并用LabelImg制作数据集。使用Darknet框架在GTX 1080 8G显卡下进行训练，训练时采用64个样本作为一个处理单元，使用BN(batch normalization)进行正则化，并且加入比例为0.5的丢弃层(dropout)，以保持每层提取特征的相互独立，动量(momentum)设置为0.9，权值衰减(decay)设置为0.000 5，起始学习率(learning rate)设为0.001，并在每迭代4 000次后衰减0.1倍。

总计训练12 000次，每100次输出一次权值文件，其训练模型基于验证集计算出的平均准确率(mean average precision,mAP)随迭代次数的变化如图4所示，可以看出mAP稳定在92%。关于模型更具体的描述(如与其他算法的性能对比、实际测试集的评估和实际检测图像实例)参照文献[24]。

1.3.2传统机器视觉

虽然深度神经网络具有较高的准确率和泛化能力，但是对计算力的要求较高，通常将其部署在并行计算能力强的GPU上运行，用额外的成本换取检测效率的提高。本文采用神经网络主要是为了应对动态变化的光照环境，但在实际试验中在一定的时间段内环境光照不会发生剧烈变化，这时传统的机器视觉算法也能够得到稳定的检测结果，并且会消耗更少的计算资源，加快检测速度。

图4 mAP随迭代次数的变化曲线

本文传统视觉算法流程分为4个步骤：①将所采集的RGB图像转换至HSV空间，提取H分量，设置阈值为红色范围并二值化，初步分割出苹果区域。②用开运算消除细微的噪声。③找到所有的连通区域。④利用最小外接矩形标注各个连通区域，其中面积最大的矩形框设为当前的主要目标。其具体流程如图5所示。算法最终会得到矩形框的尺寸及其中心点。由于该算法仅利用目标颜色进行识别，实际计算量非常小，远低于深度神经网络的算法。

图5 苹果检测步骤

1.3.3算法融合

为了利用前面2种算法的优势，将两者结合使用。视觉系统在运行时会根据当时环境的变化而切换算法，在复杂环境下启用鲁棒性更强的深度神经网络，而在单一环境下启用速度更快的传统机器视觉。其中视觉系统的切换需要在两者之间设计一个算法进行沟通，并以一定的阈值控制两者的切换，阈值计算公式为

(1)

式中 (x、y)——目标中心坐标

w、h——目标外包矩形框的宽度和高度

其中下标1表示深度神经网络输出结果，下标2表示传统机器视觉输出结果。

这里将前者算法的检测结果作为可靠数据，然后计算后者算法结果与前者的偏差，当偏差τ越大时，说明传统机器视觉的结果越不可信。当τ大于τo时，会使用深度神经网络的结果作为系统检测结果，反之将传统机器视觉的结果作为系统检测结果，τo是二者切换的阈值，初始算法设为深度神经网络算法。这样的切换机制会在两种情况下触发：机器人工作10 min之后；末端执行器采摘失败2次之后。具体流程如图6所示。

图6 视觉系统切换流程图

1.4 机械系统

1.4.1机械臂

图7 采摘机械手结构简图

机械结构是由5自由度的PRRRP机械臂和末端执行器构成，如图7所示。第1个自由度由升降平台控制，用来调节整体机器人的高度，以适应不同高度的果树；第2个自由度由腰部电机控制，实现机械臂的x轴移动；第3和第4个自由度由大臂和小臂电机控制，实现机械臂的y轴移动；第5个自由度由气动推杆控制，以实现末端执行器的伸缩。

机械臂在整个运动过程中负责将末端执行器对准目标苹果，它会在视觉系统获得目标坐标后开启对准模式。因为视觉传感器放置在末端执行器的中央位置，属于手眼模式，由此视觉系统传回的目标坐标是局部坐标。手眼模式的优势在于机械臂基于局部坐标进行工作，可以不断地进行位置的矫正判断，相比于利用全局相机得到的精准坐标进行一次性定位，手眼模式对机械结构本身的精度要求很低，不会因为机械臂有稍微的磨损而无法正确地抓取到目标。

机械臂控制模型如图8所示，视觉系统在获得目标坐标(xt,yt)之后，计算目标到摄像头图像中心点的偏移ex、ey，由此可以计算出将目标对准中心点所需要的机械关节转动角，转换关系为

(2)

式中 Δθ1、Δθ2、Δθ3——腰部、大臂、小臂电机转动角

k1、k2——机械臂的控制参数

Δd——将图像中移动的像素距离调整为电机转动角的系数

图8 机械臂控制模型

1.4.2末端执行器

收获机器人采摘流程中，对采摘苹果品质影响最大的是末端执行器的机械结构。为了保护苹果在采摘过程中不被损伤，需要使用具有柔性抓取能力的抓手，本文使用的末端执行器的机械机构如图9所示。末端执行器由两个气动装置驱动，第1个气动装置负责抓手的张开和闭合，第2个气动装置负责割刀的圆周运动以割开果梗；同时上面附有3个传感器：抓手同轴心的摄像头、2个抓手内侧的红外光电传感器和压力传感器。

图9 末端执行器机械机构

抓取苹果分3个步骤：

(1)当采摘流程进入抓取苹果阶段时，接收到机械臂对准目标的信号之后，直动推杆的启动装置持续伸出末端执行器，此时抓手上的红外光电传感器检测到抓手目标存在后停止直动推杆的伸缩，并激活末端执行器上的第1个气动装置合并抓手，此时合并压力会随着压力传感器传回压力的逐渐增大而逐渐减小，其关系式[25]为

p=k3/(f+s)2

(3)

式中k3——气压公式的参数

f——压力传感器转换的压力

s——从启动气动装置开始的时间

p——供给气动装置的气压

直到p为零时，完全抓住目标。

(2)激活第2个气动装置启动割刀割断果梗，使苹果与树分离。

(3)收回直动推杆，回到其初始位置激活第1个气动装置张开抓手释放苹果，让苹果顺着回收管道成功回收，其具体流程如图10所示。

图10 末端执行器抓取流程图

2 试验与结果分析

2.1 测试环境

苹果收获机器人试验地点位于实验室内。试验对象是一棵高度仿真的苹果树，有错落的树枝、大量的树叶和颜色质地不同的苹果分布设置，苹果树和真实果树尺寸一致，如图11所示。

图11 收获机器人试验图

除了以上介绍的机械部分，试验中的硬件包含负载机器人的底盘平台、提供动力的移动电源和提供气压的空压机、控制电机的伺服驱动器、控制气动的伺服定位控制器、辅助照明光源等。机器人硬件组成如表1所示。

表1 试验硬件

工控机CPU为Intel Core i7-7700HQ，内存8 GB，操作系统为Windows XP，使用编译器为Visual Studio 2010，编译语言为C++，人机交互界面使用MFC框架，使用的库包括OpenCV3.4、Festo SDK、台达SDK。其中视觉系统中深度神经网络运行在Intel CPU的集成显卡中，运用openMP进行加速检测，传统方法也同样运行在CPU上。

2.2 视觉试验

视觉试验单独测试视觉系统中2种算法的运行时间和用以调整机械臂对准模式下的运行频率。先改变运行逻辑单独测试2种算法，测试2种算法在白天和黑夜环境下的运行时间。将摄像头对准目标持续检测3 min，收集算法的运行时间，计算出平均检测单幅图像所需的时间。为了实现在空旷环境下夜间识别的测试，使用黑色的幕布吸收光线来模拟夜间环境，以避免墙壁反光造成的二次光源。试验环境如图12所示。

图12 黑夜模拟环境

试验结果表明，传统机器视觉运行时间白天为10 ms，黑夜为9 ms，深度神经网络白天为60 ms，黑夜为55 ms。由于白天背景复杂，算法运行时间普遍比黑夜长，传统算法的效率约为深度神经网络算法的6倍。

为了模拟果园环境下的视觉识别，分别在白天和夜晚进行视觉系统试验，其检测结果和人工检测结果进行对比，人工检测的目标限定为离末端执行器80 cm的可摘取苹果。

打开机械臂扫描模式，每隔10 s将摄像头采集的图像及其检测结果保存到工控机中，持续采集3 min，让机器人扫描到大部分采摘区域。试验共进行5次，从14:00开始，到22:00结束，将每次检测苹果的个数除以人工从图像计数得到的个数作为试验的准确率，结果如表2所示。

可以看出整体视觉检测时间都较短，白天由于光照的复杂性，会采用深度神经网络作为主要的检测算法，检测时间较长，同时准确率因为不同时间段光照的变化而不同；黑夜在辅助光源下检测时，单调的背景使得传统机器视觉也能适用，检测时间大幅下降，并且准确率得到提高。本次试验得到系统总体识别准确率为94.14%，白天单幅图像平均检测时间为66 ms，夜间单幅图像平均检测时间为11 ms，总体单幅图像检测时间为44 ms。

表2 视觉试验结果

2.3 采摘试验

苹果收获机器人需要评估采摘率和采摘时间2个参数，采摘率为收获的苹果占采摘范围内可视苹果总数的比例；采摘时间为采摘单个苹果需要的平均时间，包括各个工作环节的时间。

进行采摘试验之前，在仿真树的一面上随机挂好苹果。然后让机器人进入自动采摘模式，采摘苹果的同时在后台记录各个阶段的运行时间，进行4次试验，其中第4次为夜间试验，每次试验苹果悬挂的位置随机，仿真树也会旋转一定角度。试验结果如表3所示，表中平均时间是指采摘单个苹果所用时间的平均值。

表3 采摘试验结果

由表3可知，单个苹果采摘时间为7.81 s，采摘率为81.25%。占用时间较长的是对准和抓取阶段，其中对对准阶段用时影响最大的是视觉识别的刷新速度和机械臂的转动精度，对抓取阶段用时影响最大的是直动推杆的移动速度。相比于电动推杆，气动直动推杆动作迅速，能够显著缩短采摘时间。在整个抓取动作中，涉及到推杆的伸出和缩回，抓手的张开与闭合还有割刀的划动，这些动作全部由气动实现需要2.69 s，对比文献[26]电动机器人的6 s，效率提高了近1倍。

相比于电动推杆驱动机器人[26]15.4 s的单个苹果抓取时间，本文机器人抓取时间降低了48%。

所以采用的实时视觉系统和以气动作为动力的抓取系统对整体采摘时间有极大的优化作用。

3 结论

(1)设计了能够自动识别并采摘的苹果收获机器人。阐述了整体系统构成、机械系统和视觉系统的设计，并针对视觉系统的识别能力、机器人的采摘效率和采摘速度进行试验。

(2)相比于纯电动机器人，基于气电混合动力的机械臂设计使采摘效率得到大幅提升。视觉系统中2种算法的切换模式提高了系统对光线变化和复杂环境的鲁棒性，机器人在不影响实时性的条件下增加了工作时长，同时搭载的辅助照明增加了机器人夜间工作的能力。

(3)视觉试验和采摘试验表明，视觉系统的总体识别准确率为94.14%，时间为44 ms；采摘单个苹果平均需要7.81 s，采摘率为81.25%，视觉系统和末端执行器的优化缩短了整体的采摘时间。