基于改进Resnet18的垃圾分类收运监管方法研究

2023-01-11 02:25何彦弘徐怡宁傅嘉琪陈书航李俊峰
软件工程 2023年1期
关键词:垃圾清运垃圾桶残差

何彦弘,徐怡宁,傅嘉琪,陈书航,李俊峰

(1.浙江理工大学信息科学与工程学院,浙江 杭州 310018;2.浙江理工大学计算机科学与技术学院,浙江 杭州 310018)

2019330301193@mails.zstu.edu.cn;2019329621218@mails.zstu.edu.cn;2019330301190@mails.zstu.edu.cn;2019330361008@mails.zstu.edu.cn;ljf2003@zstu.edu.cn

1 引言(Introduction)

随着经济的发展、城市化进程的推进及人们生活水平的提高,垃圾产生量迅速增加,从而增加了城市垃圾收集、运输及垃圾处理系统的压力[1]。2020 年我国城市固废量达310.9百万吨,同比增长1.5%。预计2022 年我国城市固废处理量将达到349.3百万吨,大量的垃圾严重阻碍了城市发展与人们的健康生活,因此研究如何更好地进行垃圾的分类回收对解决上述问题具有重要意义。垃圾分类是指按一定规定或标准将垃圾分类储存、投放和运输从而转化成公共资源的一系列活动的总称。垃圾分类可以分为三个步骤:前端分类、中端清运和后端回收利用。

近年来,机器学习迅速发展,在很多领域得到广泛运用,很多学者提出了采用机器学习方法辅助垃圾分类[2-4],FENG等[5]提出了一种基于Inception-v3迁移学习模型的办公室垃圾智能分类方法,WANG等[6]提出了一种基于机器视觉的垃圾分类和回收系统,通过机器人对垃圾进行智能识别,根据垃圾类别进行分类回收。但是,上述研究的应用场合分别为办公室垃圾和散落的建筑垃圾,不适用于产生量更大的生活垃圾的分类和回收,在这个领域具有一定的局限性;赵珊等[7]提出了基于MobileNetV2网络和隐式特征金字塔网络(IFPN)改进的单步多框目标检测器(SSD)垃圾实时分类检测,提高了对小目标的检测能力。

同时,刘南杉等[8]提出了利用人工智能虚拟现实等技术对垃圾分类进行整体规划检测;CHUNG等[9]提出了一种智能分类和环境监测系统实现垃圾自动分类和环境监测;YU等[10]提出了利用人工智能技术,提高方程式废物处理的准确性和效率;CHEN等[11]提出了一种基于“互联网+”的城市垃圾分类回收与输运体系框架,给出了垃圾分类运输系统智能化和信息化的解决方案,但并未提出如何对垃圾分类运输过程形成有效监管以提升垃圾分类的效果。

上述研究为应用计算机技术实现垃圾分类提供了重要的参考,但上述研究的重点均在垃圾分类前端,而在将机器视觉技术运用于垃圾的清运过程的监管方面有所欠缺。通过走访某市的环境卫生和生活固废处置保障中心得知,垃圾收集和运输过程中混装率极高,存在“前端分类,后端混装”的现象。清运混装垃圾会挫伤市民实施垃圾分类的积极性,增大垃圾后续处理的难度,同时会影响垃圾分类效果,因此对该过程进行有效的监管是非常有必要的。清运过程会受到作业环境、时间等多种因素的影响,因此对其进行监管的难度大。若依赖于人工监控,工作量大且效率低。如果利用垃圾清运车上安装的工业摄像头对垃圾清运图像进行实时采集,并应用图像处理等技术进行分析,用计算机替代人工进行实时监控,就能有效提高对清运过程的监管效率,减少不规范清运和垃圾混装现象的发生,从垃圾分类的中端提升垃圾分类效果。结合深度卷积网络的相关研究[12-15],本文提出一种基于改进Resnet18的垃圾桶颜色分类与匹配算法,解决垃圾清运过程中的监管问题。首先,通过在Resnet18添加SE-Net通道注意力机制模块对模型实现改进,并提出了一种多尺度感受野融合模块,添加在Resnet18中构成晚期融合用于提升网络性能;其次,提取垃圾车作业期间的监控视频的关键帧构建垃圾桶分类数据集;最后,利用改进后的Resnet18对上述数据集进行训练,从而实现对垃圾清运的有效监管。

2 垃圾清运监管问题分析(Problem analysis of waste clearing and transportation supervision)

经过调研和访谈发现,垃圾清运过程主要存在以下问题。

(1)装车过程中挂载的垃圾桶数量超量。按照垃圾清运作业规定,垃圾车作业时,每次只能将两个垃圾桶挂在车上,并将桶内垃圾倒入清运车内,这是为了保证垃圾桶的垃圾不掉落地面上,保证作业场地的清洁;保障收运工人的作业安全,以免产生安全隐患。但在实际作业现场,作业人员为了提升工作效率而挂载三个垃圾桶,存在违规操作行为。

(2)垃圾桶盖未完全打开。在垃圾清运作业时,为了确保桶内的垃圾能够被清运干净,要求将垃圾桶盖完全打开后再进行作业。但在实际作业现场,作业人员为了方便而没有人工打开部分闭合的垃圾桶盖,从而影响了垃圾清运的效果。

(3)垃圾桶颜色(对应垃圾类别)与垃圾清运车收运垃圾类别不匹配。为了实现垃圾的分类清运,通常会将分类后的不同类型垃圾装在对应颜色的垃圾桶中并采用不同的垃圾清运车运送。这就要求垃圾桶的颜色(即垃圾的类别)要与垃圾清运车收运的垃圾类型相匹配。但是实际收运过程中,常有不匹配的垃圾桶被错误清运的问题,导致垃圾的混装混运,降低了垃圾分类效果。

针对上述问题,本文提出了一种垃圾清运监管解决方案(图1),可实现对垃圾分类清运过程中的有效监管,具体可以分成两个部分实施:一是使用目标检测网络实现对垃圾桶及其状态的识别;二是使用分类网络对检测到的垃圾桶的类型进行判断。

图1 垃圾清清运监管解决方案Fig.1 Solution to waste clearing and transportation supervision

本文就“垃圾桶颜色(对应垃圾类别)与垃圾清运车收运垃圾类别不匹配”的问题,提出了一种基于改进Resnet18的解决方案,该方法可以对目标检测网络检测到的垃圾桶目标加以识别分类。按照不同的收运垃圾类型,本文对垃圾桶做出以下分类,分别为蓝色垃圾桶(可回收垃圾)、绿色垃圾桶(厨余垃圾)、灰色垃圾桶(其他垃圾)、红色垃圾桶(有害垃圾)、黄色垃圾桶(其他垃圾)和未知颜色垃圾桶(未知垃圾),由于在清晨或夜晚等作业条件下的光线不足和垃圾袋反光问题,以及部分垃圾过大对垃圾桶造成遮挡,造成难以识别的问题,因此添加了未知颜色这一类别)。

3 Resnet18及其改进方法(Resnet18 and its improving method)

3.1 Resnet18

深度残差网络是由HE等[16]于2016 年提出的,残差网络结构如图2所示。该研究证明了引入跳层连接能有效解决梯度弥散导致的模型难以收敛和深度神经网络退化两大问题,并使计算轻量化。

图2 残差网络基本结构Fig.2 Basic structure of Resnet network

Resnet18是一种基于上述残差结构构造的网络,其模型如图3所示。Resnet18的残差模块中首先进行一次3×3卷积,其次进行批标准化和ReLU激活,再次进行一次3×3卷积和标准化,最后与输入特征图相加后进入ReLU激活。残差模块Ⅱ在跳层连接中加入了1×1卷积进行下采样。

图3 Resnet18模型Fig.3 Resnet18 model

3.2 SE-Net注意力机制

SE-Net(Squeeze-and-Excitation Networks)是由HU等[17]提出的一种通道注意力机制,其主要原理是根据全局信息学习通道特征权重,对通道信息重标定从而增大有效通道特征的权重,减小无效或效果较小的通道特征的权重,提升模型特征提取能力,其结构如图4所示。

图4 SE-Net结构Fig.4 SE-Net structure

该算法可以分为三个部分,即通道特征压缩(Squeeze)、通道特征激发(Excitation)和通道权重重标定(Scale)。首先Squeeze操作通过全局平均池化操作将C通道H×W的特征图压缩成C通道1×1的特征图;然后Excitation操作对上一步结果进行全连接,得到C/r维的向量后进行ReLU激活,再对该结果进行一次全连接,将C/r维变换成C维向量,并通过Sigmoid激活,使其值分布在0—1;最后将通道权重加权到原始特征图上,完成对原始特征的重标定。

结合本文分类任务和图像数据特征,从图5中可以直观地看到,对垃圾桶分类识别较为关键的信息是闭盖垃圾桶的垃圾桶盖和开盖垃圾桶的垃圾桶边缘部分。通过SE-Net学习通道权重,理论上能抑制通道权值较小的特征,提升模型对通道的敏感性和模型的特征提取能力。

图5 垃圾桶颜色识别关键信息(黑色部分)Fig.5 Key information of trash can color

SE-Net常与Resnet残差网络按图6中的方法结合,但要注意到在Resnet残差结构的不同位置加入SE-Net,可能会产生不同的效果。本文拟提出三种方案,分别将其插入在Resnet残差结构的始端(Pre-SE)、末端(Post-SE)和残差连接(Res-SE)处,其结构如图7所示。

图6 Resnet与SE-Net结合方法Fig.6 Combination of Resnet and SE-Net

图7 三种SE-Net与Resnet结合方法Fig.7 Three approaches to combining SE-Net and Resnet

3.3 多尺度感受野融合残差结构

Inception结构[18]通过输入不同尺度的特征图预测不同大小的目标,受此启发,若对输入特征图进行多尺度融合,就能够增加模型对特征信息的感受野。结合本文图像数据特点(图8),可以直观地感受到多尺度融合的效果。本文数据集可以按照垃圾桶状态分为两大类,即开盖垃圾桶(Open Garbage Can)和闭盖垃圾桶(Close Garbage Can):对于开盖垃圾桶的颜色分类任务,最重要的信息位于垃圾桶图像的四周,而垃圾桶内的颜色对该任务影响甚微;而对于闭盖垃圾桶,其图像主体为垃圾桶颜色。进行多尺度融合后可以直观地发现(图8),开盖垃圾桶的特征信息增加了,而对于闭盖垃圾桶,多尺度融合导致其特征信息的减少是有限的。综上所述,理论上多尺度融合有利于提升本文数据集特征提取能力。

图8 多尺度变换后的图像Fig.8 Image of multi-scaled transformation

结合上述分析与残差网络的思想,拟提出一种针对本文数据集的多尺度感受野融合残差模块(Multi-Scaled Receptive Field Fusion Residual Module,MSRM),其结构如图9所示。

图9 多尺度感受野融合残差模块结构图Fig.9 Residual module structure of multi-scaled receptive field fusion

上述多尺度感受野融合模块首先进行1×1卷积将特征图变换为2C×H×W,然后采用空洞率不同的空洞卷积对特征图进行下采样和融合,最后利用3×3转置卷积进行上采样,将特征图的尺度变换为C×H×W并与输入进行残差融合,最终得到输出特征图。需要注意的是,每次卷积后都进行了批标准化和ReLU激活。

图10 不同空洞率的空洞卷积感受野比较Fig.10 Receptive field comparison of the dilation convolution with different dilation rates

空洞卷积[19]可以在保持卷积核大小不变的前提下扩大感受野,从图11中可以直观地感受到使用空洞率不同的空洞卷积能够提取到更大范围的信息,使得融合后的特征图具有更丰富的语义信息。

考虑到在中期和晚期融合的过程中,特征图自身的通道数较多,上述模块可能对网络性能有较大的影响,但普通的标准卷积可以由深度卷积和点卷积两个部分替代,因此使用深度可分离卷积[20]重构上述模块中计算量较大的卷积,从而提升网络计算效率。

将上述模块插入Resnet18的不同位置分别构成早期融合(Early-Fusion,EF)、中期融合(Mid-Fusion,MF)和晚期融合(Late-Fusion,LF),具体如图11所示。

图11 不同位置的MSRMFig.11 MSRM of different positions

4 实验与分析(Experiment and analysis)4.1 数据集

本文研究使用的图像来源于某市垃圾清运车搭载的工业摄像机拍摄的视频,通过提取视频关键帧和裁剪的方法构建数据集。原始图像共7,753 张,具体分为6 类,即黄色、灰色、红色、绿色、蓝色和未知颜色的垃圾桶。

由于不同颜色的垃圾桶使用的频率存在显著差异,导致数据集中样本分布失衡,原始数据集分布如图12(a)所示。为了使数据集分布均衡,通过人工重新拍摄和数据增强扩增数据集。最终数据集共包含6,818 张图像,数据分布如图12(b)所示,统一缩放为224×224 像素,并按照7∶2∶1的比例划分训练集、验证集和测试集,分别为4,773 张、1,362 张和683 张。

图12 数据集数据分布Fig.12 Data distribution of the dataset

为了扩增数据集以提高模型的泛化能力,使其适应垃圾收运作业环境的复杂性,采用亮度调整、0°—20°随机旋转、水平垂直翻转、高斯模糊和GridMask方法[21]对数据进行增强。同时,本文采用开放计算机视觉库(OpenCV)模拟降雨、降雪和大雾等天气,提高模型在不同天气条件下分类的准确性。部分数据增强方法如图13所示,天气模拟如图14所示。

图13 数据集增强Fig.13 Dataset argumentation

图14 模拟天气Fig.14 Weather simulation

4.2 实验环境

本实验的硬件环境:处理器为Intel(R) Core(TM) i5-9300H CPU @ 2.40 GHz,内存为8 GB,显卡为Nvidia GTX 1650,操作系统为64 位,磁盘大小1 TB。

软件环境:操作系统为Windows 10,深度学习框架为Pytorch 1.10.1,开发环境为PyCharm,开发语言为Python,包管理器和环境管理器为Anaconda,GPU加速库为CUDA 11.3和cuDNN 8.2.1。

4.3 超参数设置

4.3.1 学习率

本文实验中,学习率采用具有重启机制的余弦退火调整策略[22](Cosine Annealing with Warmup Restart),该方法使学习率在一个周期内按照余弦函数随着迭代次数的增加而发生改变,同时通过热重启在设定的Epoch(一个Epoch相当于使用训练集中的全部样本训练一次)增大学习率跳出局部最优解。通过预训练调整初始学习率和余弦退火策略的相关参数值,实验所用的学习率与迭代次数的关系如图15所示。

图15 余弦退火调整策略Fig.15 Cosine annealing adjustment strategy

4.3.2 其他超参数

本实验输入的图像尺寸为224×224 像素,训练100 Epoch;采用随机梯度下降(SGD)策略进行训练,初始学习率设为0.01,动量设置为0.9,衰减因子设置为0.000484,batch设置为16。

4.4 实验结果与分析

4.4.1 SE-Net实验

根据SE-Net通道注意力机制插入在Resnet18残差结构的不同位置,分别构成始端(Pre-SE)、末端(Post-SE)和残差连接(Res-SE)处的通道注意力机制。对三种不同位置的网络按照上述超参数设置进行实验,得到实验结果如表1所示。

表1 SE-Net实验具体结果Tab.1 Specific results of SE-Net experiment

考虑到不同颜色的垃圾桶在本研究的对象城市中的使用频率不同,因此对不同颜色的垃圾桶的查准率(查全率)进行加权作为该模型的加权平均查全(准)率。根据本文“4.1”中提到的数据集,将原始数据集中不同颜色的垃圾桶的出现频率作为权值,得到以下加权算法:

通过表2中的数据发现,加入SE-Net通道注意力机制后对模型的大小和检测速度影响较小,但能够在一定程度上提升网络的性能,从各个颜色分类的性能指标来看,对网络性能的提升较为全面。与Resnet18相比,是对未知颜色的垃圾桶有了更高的检测性能。Pre-SE、Post-SE和Res-SE分别较未改进的Resnet18在加权F1值上分别提升了9.26%、9.01%和8.81%。同时,加入SE-Net对模型的大小和每秒识别帧数(FPS)指标并没有太大的影响,该指标仅小幅度降低,但是综合上述指标对三种位置的SE-Net进行比较,显然在残差结构的始端(Pre-SE)加入SE-Net通道注意力机制对模型的性能有更大的提升。因此,本文选择Pre-SE作为一种改进方案。

表2 SE-Net实验结果Tab.2 Results of SE-Net experiment

4.4.2 MSRM实验

在Resnet网络结构的不同位置加入MSRM模块,分别形成早期融合、中期融合和晚期融合。对三种不同位置的网络按照上述超参数设置进行实验,实验结果表明,对于早期和中期融合,随着训练集Loss的降低,验证集上的精确率难以提升,如图16和图17所示,早期融合和中期融合会导致模型泛化能力恶化。同时,上述实验也发现MSRM加入在网络中的位置越深,对模型的影响逐渐从恶化转变为提升,晚期融合能在一定程度上提升网络的性能,尤其体现在对黄色垃圾桶和未知颜色垃圾桶的识别上。

图16 早期融合位置1和早期融合位置2训练准确率和损失Fig.16 Training accuracy and loss of early-fusion at position 1 and 2

图17 中期融合位置1和位置2训练准确率和损失Fig.17 Training accuracy and loss of mid-fusion at position 1 and 2

对网络性能有较明显效果的晚期融合进行进一步的数据分析,实验结果如表3和表4所示。

表3 MSRM 实验具体结果Tab.3 Specific results of MSRM experiment

表4 MSRM 实验结果Tab.4 Results of MSRM experiment

对表3和表4中的数据进行分析,在具体分类上,MSRM模块对黄色垃圾桶和未知颜色垃圾桶识别的准确率有较明显的提升,LF-1和LF-2对于未知颜色垃圾桶的查全率分别提升了12.41%和0.38%;对黄色垃圾桶的查全率分别提升了13.94%和5.67%,但是对绿色、灰色和红色垃圾桶的识别的准确率均有不同程度的降低。从整体的实验结果来看,LF-1的加权查全率、加权查准率和加权F1值较Resnet18分别提升了7.17%、7.58%和7.36%,LF-2较Resnet18分别提升了6.47%、5.98%和6.22%。

但是,随着MSRM模块加入的位置越深,Resnet18加入节点的特征图通道数也随之增加,从而导致模型变大和检测速度降低。相比Resnet18,LF-1和LF-2的模型大小分别增加了18.92%和75.25%,检测速度也有所下降。

综上所述,实验结果表明,MSRM模块以晚期融合的方式加入网络的末端对网络性能有所提升,同时综合各种因素,本研究选择晚期融合在LF-1位置将MSRM模型加入网络中。

4.4.3 消融实验

结合实验“4.4.1”和“4.4.2”,本文改进后的Resne18网络如图18所示。

图18 改进的Resnet18Fig.18 Improved Resnet18

对其进行消融实验以验证其效果,实验结果如表5和表6所示。

表5 消融实验具体结果Tab.5 Specific results of ablation experiment

表6 消融实验结果Tab.6 Results of ablation experiment

研究人员通过消融实验结果,发现Pre-SE和LF1-MSRM都能提升网络的性能,Pre-SE对网络整体性能都有所提升,LF1-MSRM的部分性能较Resnet18有所下滑,例如对红色垃圾桶查准率下滑7.05%,对灰色垃圾桶查准率下降1.3%,但对于未知颜色和黄色垃圾桶的查准率有较大幅度的提升。将上述两种模块叠加使用后,使网络性能有了较大的提升,尤其是对于未知颜色的垃圾桶,较单独的Pre-SE和LF1-MSRM查准率分别提升了9.66%和5.12%,但这是以牺牲一定的对其他颜色的检测性能为代价的,例如针对红色垃圾桶的查准率,改进后的Resnet18较单独使用Pre-SE改进的网络下降了3.75%。但从总体来看,改进后的Resnet18的性能是得到提升的,加权查全率、加权查准率和加权F1值较单独使用Pre-SE改进的网络分别提升了1.12%、0.88%和1%,较单独使用LF1-MSRM改进的网络分别提升了3.37%、2.4%和2.9%。

因此,改进后的网络的检测性能更加均衡,在牺牲少量速度的前提下,较未改进的Resnet18性能有了较大幅度的提升。

4.4.4 对比实验

将改进后的Resnet18与其他网络对比,得到结果如表7和表8所示。

表7 对比实验具体结果Tab.7 Comparison of specific experiment results

表8 对比实验结果Tab.8 Comparison of experiment results

从以上研究结果中可以看到,Resnet系列随着网络深度的加深,性能并没有得到较好的提升,检测速度降低明显。改进后的Resnet18的检测速度略低于Resnet34,但网络性能远超同类网络。

5 结论(Conclusion)

本文主要对Resnet18在垃圾分类收运和监管方面的应用展开了研究,并针对本文建立的垃圾桶数据集的特点,对Resnet18进行改进。通过上述实验,得了如下结论。

(1)在网络中加入SE-Net通道注意力机制能在几乎不影响检测速度的前提下提升模型性能,通道注意力机制提升了模型对通道的敏感性,提高了模型的特征提取能力。其中,将SE-Net加入Resnet残差结构的始端相比与加入末端和残差连接处具有更好效果。

(2)本文提出了一种多尺度感受野融合的残差模块,在垃圾桶数据集上有较为突出的表现,尤其是能够大幅度提升对未知颜色垃圾桶识别的准确率。同时,上述模块若加入在Resnet18的不同位置,则对模型性能有不同的影响,早期融合会导致模型性能恶化,使得训练过程难以收敛,晚期融合虽然在一定程度上降低了网络的检测速度,但是能够有效提升网络的性能。

(3)使用上述两种模块同时对Resnet18进行改进,通过消融实验表明,同时加入两种模块能够使网络性能更加均衡,并能有效提升网络对垃圾桶分类的正确率。

图像识别方法与深度学习应用于垃圾收运管理有着很大的研究空间和应用前景。下一步的研究方向是如何将目标检测网络和分类网络结合,或是集中嵌入智慧城市管理系统中或嵌入垃圾清运车车载设备上,从而实现对垃圾分类清运的实时监管和反馈,最终提高垃圾分类效果,实现更有效的资源再利用。

猜你喜欢
垃圾清运垃圾桶残差
基于双向GRU与残差拟合的车辆跟驰建模
投进垃圾桶的信
投进垃圾桶的信
飞进垃圾桶
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
解决城市环卫作业扰民问题的思考与实践
三江农商行向乡村捐赠清运车
压缩式垃圾车技术改造见成效
形形色色的垃圾清运专用车——HEIL全系列垃圾车掠影