基于可变形卷积的侦察视频增强方法

2022-11-04 04:17赵彦杰崔海斌谌德荣宫久路
探测与控制学报 2022年5期
关键词:时空卷积维度

赵彦杰,崔海斌,陈 振,谌德荣,宫久路

(1.北京理工大学,北京 100081;2.中国人民解放军91515部队,海南 三亚 572099)

0 引言

小型低功耗侦察平台在获取侦察视频的过程中,由于高压缩比的有损压缩以及无线信道产生的误码,解压缩后的视频中会出现模糊、噪声、块效应等失真现象,导致解码视频质量较差,不利于对侦察目标的识别与处理。对压缩视频进行增强处理能够有效提高侦察视频的质量。

目前,基于深度学习的视频增强方法发展迅速且效果良好,根据利用视频帧数量的不同可以分为两类:第一类方法是基于单帧的视频增强方法[1-2],这些方法利用单帧图像的空间相关性来增强图像质量,但是没有利用其他相邻视频帧的时空相关性,对于侦察视频的整体性能提升还是有限的;第二类方法是基于多帧的视频增强方法,该类方法利用相邻视频帧间的时空相关性来增强目标视频帧的质量。这类方法首先估计相邻视频帧的运动,然后对相邻视频帧进行运动补偿,最后融合补偿后的相邻视频帧的信息来增强目标视频帧的质量,其关键在于视频帧运动估计的是否准确。根据运动估计的方法不同可以分为基于显式运动估计的增强方法和基于隐式运动估计的增强方法两种。

基于显式运动估计的增强方法主要利用光流网络预测出相邻帧相对于目标帧之间的逐像素运动向量,以运动向量的形式代表时间维度上的相关关系[3-4];但是,压缩后视频中出现的模糊、块效应等失真现象,会使得光流预测得不准确,导致神经网络不能完成准确的运动估计与补偿,最终视频帧增强的效果有限。

基于隐式运动估计的增强方法一般采用插值或有效的特征提取模块,将运动估计与卷积操作相结合,省去了光流估计[5-6]。当前,该类方法的主要发展趋势是采取有效的时空特征提取方案,借助相邻帧与目标帧之间的时空相关性增强目标帧的质量。

为了充分利用相邻视频帧间的时空相关性,增强侦察视频的质量,提出一种基于可变形卷积的侦察视频增强方法。

1 可变形卷积

可变形卷积[7-8]基于普通卷积的空间采样位置增加了自适应学习的水平方向和垂直方向的偏移,使得采样位置形成的形状不再是固定的矩形,后来还为每一个位置的偏移增加了注意力机制,即调制因子。因此,可变形卷积可以适应目标的位移和几何变形,更有效地从目标区域提取特征。

普通卷积和可变形卷积的采样位置对比如图1所示。

图1 普通卷积和可变形卷积采样位置比较Fig.1 Comparison of sampling position between ordinary convolution and deformable convolution

对于卷积核大小为s的可变形卷积,一共有s2个采样位置,wk和pk分别表示普通卷积第k个采样位置的权重和距离采样中心点的偏移量,pk∈{(-1,-1),(-1,0),…,(1,1)}(以s=3为例)。令x(p)和y(p)分别代表输入特征x和输出特征y在位置p处的特征,可变形卷积方程如式(1)所示。

(1)

式(1)中,Δpk和σk分别表示对于第k个采样位置自适应学习的偏移和调制因子,当p+pk+Δpk不为整数时,x(p+pk+Δpk)处的值通过双线性插值的方法给出。

2 侦察视频增强方法

(2)

图2 视频增强网络结构Fig.2 Structure of video enhancement network

2.1 分组预测模块

由于视频帧间物体的运动,与目标帧中待增强的区域相比,参考帧中对应的区域经历过一定的位移和变形,且每一个参考帧所经历的位移和变形一般均不相同,为避免与其他参考帧的信息混合,需要针对每一个参考帧预测出专属的偏移和调制因子,因此,将每一参考帧与目标帧进行两两配对分组,共分成2R+1组,分别送入预测网络,输出该参考帧对应的偏移Δpk和调制因子σk。

预测网络主要是由跳跃连接的“编码器-解码器”(Encoder-Decoder)[9]的结构组成,如图3所示。目标区域由于位移和变形,两个图像中目标区域位置已经改变,所以需要感受野较大的神经网络提取特征,计算偏移和调制因子。因此,本模块选择Encoder-Decoder结构的网络进行特征提取和预测,该网络通过多次上采样和下采样,具备融合多尺度特征的特性,适应不同尺度的目标。由于跳跃连接,代表图像整体结构的深层特征又可以融合代表图像细节的浅层特征,在具备更大感受野的同时,还能保持一定的语义特征。

图3 预测网络结构Fig.3 Structure of prediction network

通常,Encoder-Decoder网络的上采样采用步长为2的转置卷积,下采样采用步长为2的普通卷积。但是,普通卷积的步长为2时会遗漏部分特征信息,根据文献[10]可知,步长为2的转置卷积经常会引入干扰,导致生成的图像产生棋盘效应。因此,为了更好地提取、保留特征信息,本文采用像素混洗(PixelShuffle)和像素反混洗(PixelUnShuffle)[11]操作来进行上下采样。两种操作都是利用通道维度来存储或弥补长和宽维度在上下采样时多余或缺少的信息。例如,对于维度为(B,C,H×r,W×r)的特征图,r表示下采样或上采样的倍数,经过PixelUn Shuffle下采样后,特征图的维度变为(B,C×r2,H,W),再经过PixelShuffle上采样后,特征图维度变为(B,C,H×r,W×r)。对于某输入图像,经过下采样和上采样后得到的特征图如图4所示,特征图含有多个通道,这里只取其中一个通道示意(后续特征图、残差图同理)。

图4 上/下采样后的特征图Fig.4 Feature map after up/down-sampling

2.2 时空特征融合模块

时空特征融合模块利用预测网络输出的每一参考帧的运动特征估计,即偏移和调制因子,对所有参考帧进行可变形卷积操作,来有效地提取和融合相邻视频帧间的时空相关性。

预测网络针对每一参考帧的特征输出维度为(B,3s2,H,W),其中,偏移Δpk的维度为(B,2s2,H,W),调制因子σk的维度为(B,s2,H,W),偏移包括水平方向的偏移和垂直方向的偏移。时空特征融合模块的处理流程如图5所示,对2R+1帧视频图像,分别应用其专属的通过预测网络预测出的偏移和调制因子,进行可变形卷积,通过卷积操作能够融合多帧图像的时空特征,得到融合后的特征Ft0,融合特征图见图6。

图5 时空特征融合模块处理示意图Fig.5 Schematic diagram of spatio-temporal feature fusion module processing

图6 融合特征图Fig.6 Fused feature map

2.3 质量增强模块

图7 质量增强网络结构Fig.7 Structure of quality enhancement network

图8 质量增强网络残差图Fig.8 Residual map of quality enhancement network

2.4 损失函数

由于该网络模型的模块都是完全卷积的,因此是可微的,我们以端到端的形式进行共同优化。为了同时降低像素误差和感知误差,整体损失函数L结合了Charbonnier损失函数(L1损失函数)和多尺度结构相似度(multi-scale structural similarity,MS-SSIM)LMS-SSIM损失函数,如下式所示:

L=α·LMS-SSIM+(1-α)·L1,

(3)

式(3)中,α为权重因子。

(4)

式(4)中,η是一个非常小的正数,可以避免梯度消失。

为了增加对重建图像结构的保持,使之更符合人眼的视觉感受,使用基于多尺度结构相似度的损失函数来降低感知误差。基于MS-SSIM的损失函数定义如下:

(5)

式(5)中,MS-SSIM()表示计算实际值与目标值之间的多尺度结构相似度。

3 模型训练与测试

训练和测试时所用的服务器配置:CPU为Intel Xeon,10核20线程,频率为2.4 GHz,GPU为Nvidia RTX 2080ti,11 G显存,内存为DDR4 128 G。

3.1 数据集准备

本节使用文献[4]中的数据集,视频收集自Xiph等机构或网站,这些视频常被应用在视频质量测试等领域,内容和分辨率涵盖范围广。数据集中包含108个视频作为训练集,11个视频作为测试集,另外,还增加了6个无人机拍摄的侦察视频作为测试集。使用HEVC[13]的参考实现HM16.5的低延迟模式对视频进行压缩,以模拟侦察视频,对数据集处理时使用的量化参数(quantization parameters,QP)为37。

3.2 模型训练

使用Pytorch 1.2框架实现整个网络,其中可变形卷积模块来自EDVR[14]。在训练时从压缩后和未压缩视频中随机剪裁168×168的图像块作为训练数据。训练中优化器选择Adam,卷积核大小s=3,参考帧的半径R=3,损失函数中α=0.8,η=1×10-6。每个实验均在训练集上遍历400次,批次大小设置为16,学习率设置为1×10-4,未使用任何学习率衰减算法。定量效果的评估准则为PSNR和SSIM,PSNR计算公式为

(6)

式(6)中,MSE表示图像I和K残差值的平方,

(7)

SSIM计算公式为

SSIM(I,K)=L(I,K)·C(I,K)·S(I,K),

(8)

(9)

(10)

(11)

式中,uI和uK分别表示图像I和K的均值,σI和σK分别表示图像I和K的标准差,σIK表示图像I和K的协方差,C1、C2、C3为常数,避免分母为0。

3.3 测试结果

3.3.1消融实验

为验证分组预测方案和密集连接网络结构的有效性,进行消融实验。所有的模型都按照相同的训练策略进行训练测试。

首先,为了验证分组预测方案的有效性,不再将每一参考帧与目标帧进行配对分别送入预测网络中,而是将参考帧和目标帧串联,共同送入预测网络,预测出参考帧共同的偏移和调制因子,网络其余部分保持不变,其网络模型记为No_Group。然后,为了验证密集连接网络结构的有效性,将密集连接网络变为相同层数的普通卷积,网络其余部分保持不变,其网络模型记为No_Dense。

实验结果见表1。根据表格的第一行和第三行数据,可以看出分组预测方案可以更准确地提取和融合参考帧的时空特征,提高目标帧的增强效果。此外,从表格的第二行和第三行数据中,可以看出密集连接网络结构可以充分利用来自参考帧的时空特征,并重建出高质量的目标帧。

表1 消融实验结果Tab.1 Results of ablation experiments

3.3.2对比实验

在本节中,选择具有代表性的基于单帧的视频增强网络Dn-CNN[2]和基于多帧的视频增强网络STDF[6]来进行对比实验。实验结果如表2—表5所示,实验结果表明,本文提出的网络的增强效果在PSNR和SSIM指标上分别比Dn-CNN网络高出0.81 dB和0.036 4,比SDTF网络高出0.16 dB和0.009 6,增强效果要优于经典的压缩视频增强方法。

表2 416×240分辨率视频实验结果Tab.2 Experiment results of 416×240 resolution video

表3 832×480分辨率视频实验结果Tab.3 Experiment results of 832×480 resolution video

表4 1 280×720分辨率视频实验结果Tab.4 Experiment results of 1 280×720 resolution video

表5 无人机拍摄视频实验结果Tab.4 Experiment results of video taken by UAU

3.3.3结果可视化

为验证本文提出网络模型的主观增强效果,对无人机拍摄的侦察视频进行了增强处理,结果如图9所示。

图9 增强前后图像对比Fig.9 Comparison image before and after enhancement

可以看出:侦察视频因各种压缩伪影而失真;Dn-CNN网络去除压缩伪影较为彻底,但是图像纹理细节丢失严重;STDF网络在增强时虽然能够较好地保留图像细节,但是压缩伪影去除不够彻底;本文提出的网络可以充分利用相邻视频帧间的时空相关性,在保持图像纹理细节的同时较为彻底地去除压缩伪影,提升侦察视频的质量。

4 结论

本文提出一种基于可变形卷积的侦察视频增强方法。该方法通过基于编码器-解码器结构的分组偏移预测网络能够准确地捕捉相邻视频帧在不同尺度下的运动特征;利用可变形卷积能够适应运动目标的位移和几何变形,可以有效地提取相邻视频帧间的时空相关性;使用密集连接的增强网络能够充分利用相邻视频帧间的时空相关性,重建出高质量的视频帧。实验结果表明,该方法的增强效果在PSNR和SSIM指标上要优于其他经典的压缩视频增强方法。

猜你喜欢
时空卷积维度
跨越时空的相遇
理解“第三次理论飞跃”的三个维度
基于3D-Winograd的快速卷积算法设计及FPGA实现
镜中的时空穿梭
卷积神经网络的分析与设计
浅论诗中“史”识的四个维度
从滤波器理解卷积
玩一次时空大“穿越”
基于傅里叶域卷积表示的目标跟踪算法
光的维度