基于空间自适应卷积LSTM的视频预测

2020-09-09 03:09吴哲夫张令威刘光宇刘光灿
计算机应用与软件 2020年9期
关键词:卷积像素预测

吴哲夫 张令威 刘光宇 刘光灿

(南京信息工程大学江苏省大数据分析技术重点实验室 江苏 南京 210044)

0 引 言

近年来,随着算法研究的深入和硬件的飞速发展,深度学习[1]在计算机视觉、自然语言处理、模式识别等诸多领域的应用愈加广泛。随着社会数据的体量不断增大,我们能够利用海量的历史信息进行预测。视频预测因其先天的数据量优势和无须人工标注的特点,逐渐成为深度学习的一个火热领域。

视频预测,即给定初始的若干帧图像信息,要求深度网络模型可以预测并输出后若干帧的图像信息。该技术多用于行为预测、气象预测、自动驾驶等领域。预测任务的关键在于同时捕捉给定视频的内容和动态。将卷积神经网络(CNN)[2]与循环神经网络(RNN)[3]结合,是近年来视频预测的主流方法。Lotter等[4]提出了PredNet,将图像预测误差在网络中前向传递,虽然学习视频表征能力较强,但测试时存在误差,因此只能实现单帧预测,预测时间短且不清晰;Kim等[5]将CNN嵌入RNN模块中,提出了卷积LSTM,提高了预测时间长度,但无法保持细节;Villegas等[6]利用卷积LSTM的优势提出了MCNet,将视频预测任务分为预测内容和预测动态信息两个子任务,将子任务的输出整合后进行编码最后输出预测视频,其细节效果比卷积LSTM略优,但依然没有解决复杂时空变化的预测问题。本文旨在解决视频预测中的复杂变化的预测问题。

本文基于卷积LSTM,在经典的卷积操作之前加入空间变换网络[7]获得位置参数,用位置参数指导卷积位置,提高模型的精准度;提出多分支预测以解决气象雷达图预测的强降水预测问题。实验表明,本文模型能够更加高效地预测复杂动态,并提高针对强降水的预测性能。

1 卷积LSTM

LSTM的内部的计算为矩阵乘算,多用于处理时序数据如语音、语句,若直接将其用于图像处理,其覆盖整幅图片的全连接操作计算代价过高,且全连接操作忽视了图像的空间信息,因此无法保留空间特征。文献[8]提出了卷积LSTM, 将CNN与长短时记忆网络(LSTM)结合,使模型不仅具有时序建模能力,而且能刻画局部空间特征。

ConvLSTM的结构与FC-LSTM[9]相同,利用三个门限层来控制记忆的存取,内部结构如图1所示,公式如下:

it=σ(Wxi*xt+Whi*Ht-1+Wci∘Ct-1+bi)

(1)

ft=σ(Wxf*xt+Whf*Ht-1+Wcf∘Ct-1+bf)

(2)

Ct=ft∘Ct-1+it∘tanh(Wxc*xt+Whc*Ht-1+bc)

(3)

ot=σ(Wxo*xt+Who*Ht-1+Wco∘Ct+bo)

(4)

Ht=ot∘tanh(Ct)

(5)

式中:σ代表激活函数;W代表各个门限层的权重;xt代表当前时间步t的输入图像;bi代表输入门对应的偏置;“*”表示卷积操作;“∘”表示Hadamard乘积;X、C、H、i、f、o均为三维的张量,分别对应于图像的通道、空间的行、列信息。ConvLSTM将传统的FC-LSTM中“input-to-state”和“state-to-state”的前馈神经网络操作替换成卷积操作,不仅可以使网络接收图像输入,而且能够捕捉空间局部特征,更好地针对图像进行时序预测。

图1 卷积LSTM结构

ConvLSTM有一些变体,如ConvGRU[10]等,多数变体通过改变门限层结构,使网络适应不同任务需要。

2 模型设计

在LSTM中加入卷积操作使其可以接受图像级的输入,但并没有触碰到视频预测的痛点,单纯地利用卷积操作并不能充分表征图像序列的空间变换信息。卷积网络对旋转、缩放等变化的表征能力不强,不能满足视频预测的性能需求,普通的CNN由于池化层的加入使之具有一定的平移不变性,并通过数据增强使网络能够隐式地获得一定的旋转、缩放不变性。但文献[11]提出,与其让网络隐式地学习到某种能力,不如为网络设计一个显式的处理模块,专门处理以上的各种变换。基于以上思想,本文提出空间自适应卷积LSTM网络模型。

2.1 网络结构

本文网络结构(图2)与经典视频预测网络结构相似,即编码器-预测器的结构,网络堆叠了三层隐藏层,即空间自适应卷积LSTM层,隐藏层之间插入降采样层或上采样层。本文中的采样层为一次卷积操作,使网络有针对性地分别对低级局部细节动态和高级全局动态信息进行表征。网络输出端置于网络底层,因此高级时空特征能够由上至下指导低级局部时空特征的校准与更新,并利用低层的状态信息提升对细节的预测性能。

图2 自编码预测结构

此外,可以根据预测对象优化网络结构:在本文对气象雷达回波图进行预测时,会有针对性地训练4个模型,4个模型的结构完全相同,根据各个数据的降水类型决定每个数据的输入分支。

2.2 空间自适应卷积LSTM

2.2.1卷积操作的等价形式

在卷积LSTM中,卷积操作的对象是当前时间步的输入和上一时间步的状态变量,通过多层卷积操作提取输入和状态的空间特征,以决定在每个空间位置上的状态变量和输入信息的取舍。

卷积计算是将输入图片的目标位置及其周围若干固定位置的像素信息映射到输出图像的对应位置。以3×3卷积操作为例,其实质为输入到输出的映射,输出的每个位置的像素值都与输入的对应位置周围的9个点有关,分别找到所有目标位置对应输入的位置后,再对同一位置的不同通道给予不同的权重后求和,最后将不同位置的加权结果求和,得到输出(如图3所示),计算过程如下:

(6)

式中:L代表输出的每一点与输入相关的连接数,对应于传统卷积操作的卷积核尺寸, 3×3卷积操作中L=9;pl,i,j和ql,i,j表示与输出位置为(i,j)的第l个连接的位置参数,本例中p1,i,j=i-1,q1,i,j=j-1,p2,i,j=i,q2,i,j=j-1,…,p9,i,j=i+1,q9,i,j=j+1。

图3 普通3×3卷积

在面对复杂的时空变化时,当前时间步的某类信息所在的位置不一定与上一时间步状态变量的对应类信息位置相同,用尺寸固定、参数固定的卷积核进行卷积操作难以进行精确的空间信息的取舍。基于这一情况,本文提出不固定卷积核尺寸。改变“input-to-state”的卷积方式,令卷积操作中的每一个卷积空间位置都能够随时间自适应改变(见图4),以提高模型对时空相关性的捕捉能力。

图4 两种卷积操作

2.2.2引入位置参数

本文受式(6)和空间变换网络启发,引入空间自适应卷积操作。首先确定卷积连接数L,其含义与式(6)中的L相同,用位置参数Ut和Vt表示输入中所有与输出相关的位置,根据位置参数寻找对应位置的输入。随后将输出图像中的每个位置都与输入图像中若干个位置对应起来,用新的卷积公式实现自适应卷积,具体公式如下:

(7)

(8)

(9)

(10)

(11)

ht=ot∘tanh(Ct)

(12)

式中:Ut,l和Vt,l分别表示第l个连接位置的横、纵坐标;Wfh、Wih、Wch、Woh为各个门限层的权重,通过训练学习获得权重参数,其尺寸为C×1×1,C为输入图像的通道数,文中每个门限层的权重均有L个,故参数量为C×L(对应于传统卷积核的尺寸C×W×H)。

本文的位置参数不能直接确定,需要通过深度网络训练获得。位置参数(i,j)本身是离散的,无法通过反向传播求导以学习位置参数。为使位置参数可导,本文引入双线性插值法[12]。令输出特征图某一位置(i,j)对应到输入特征图的卷积位置为(u,v),若u、v为小数,则利用双线性插值法求得小数位置的像素值,再将该像素值作为自适应卷积的输入。像素值的计算方法以warp函数表示,若Y=warp(X,U,V),则有:

max(o,1-|j+Ui,j-w|)

(13)

2.2.3位置参数的学习

为学习位置参数,本文为网络设计一个显式的处理模块,将当前时间步的输入和上一时间步的隐状态通道联结后对其进行卷积操作,其结果的尺寸为(2×L)×w×h,公式如下:

Ut,Vt=γ(xt,ht-1)

(14)

式中:xt表示当前时间步的输入,ht-1表示上一时间步的隐状态,两者空间尺寸均为w×h;将xt与ht-1通道级联后做一次普通卷积操作,以γ表示,该卷积的输出尺寸为结果为(2×L)×w×h,将其沿通道维度拆分,获得2个尺寸为L×w×h的张量,用Ut和Vt表示,其空间尺寸为w×h,通道数为L。

空间自适应卷积的输出特征图内位置(i,j)的结果来源于输入特征图中位置(Vi,j,Ui,j)的权重求和,若相关连接数为L个,则第l个相关连接的位置为(Vl,i,j,Ul,i,j)。

进一步完善军民融合发展的法规体系。从国家层面应尽快颁布“军民融合促进法”,并结合已经颁布的《中华人民共和国国防法》《中华人民共和国国防动员法》,制订完善促进各动员领域军民融合发展的专项法规,加快“国防勤务法”“民用资源征用法”“国民经济动员法”“信息动员条例”“装备动员条例”等立法进程,推进《中华人民共和国国防教育法》《中华人民共和国人民防空法》修订工作;在企业法、金融法、基本建设法、交通法、投资法、物权法等法律法规中,补充民营企业参与国防建设、经济建设贯彻国防要求等条款,增强法律法规的执行力和可操作性。

传统的卷积LSTM中,直接将当前时间步的图片或上层卷积RNN的输出作为当前时间步的输入。而本文空间自适应卷积LSTM结构在输入图像之前,通过γ卷积操作获得自适应卷积层的输出与输入之间的拓扑链接(即位置参数),利用拓扑链接对当前LSTM的输入作空间变换,使其与隐状态中的信息对齐,以此实现精准的记忆保存和图像序列预测。

2.3 损失函数

在进行普通视频预测时,我们的损失函数采用L2损失函数:

(15)

预测雷达降水回波图时,为更精准预测高降水区,本文为不同降水等级设定不同权重,根据权重比决定不同降水程度的误差对损失的影响。本文将像素值在[0,30)区间的权重设定为0.3,像素值在[30,50)的权重设定为0.3,像素值在[50,80]的权重设定为0.4。在计算损失时,先根据GroundTruth判断当前像素位置的损失权重,最后按照权重比计算损失:

(16)

(17)

3 实 验

3.1 手写体视频

3.1.1数据集

本文手写体视频实验数据来源于MNIST手写体数据集[13]。MNIST手写数据集有60 000幅图片,取其中50 000幅作为训练素材,另10 000幅图片作为测试素材。训练集为50 000幅训练集素材生成的80 000个长度为20帧的图像序列;测试集为测试集素材生成的20 000个长度为20帧的图像序列。由素材生成数据集的方式为:从0~9中随机选取3个数字,再从MNIST素材中随机选取对应的3幅数字图片,设定好随机旋转角度范围、平移速度、缩放尺寸倍率等超参数,根据超参数结合帧生成算法生成20帧的手写体视频,其中前10帧作为输入,后10帧作为GroundTruth。

3.1.2模型参数

3.1.3实验结果及分析

量化评估如表1和表2所示,训练迭代4个epoch,即训练32万次图像序列。误差计算方式为预测的10个图像序列分别与测试集的后10幅正确图片的MSE。

表1 预测结果的误差对比

表2 MNIST视频预测逐帧的结构相似性评估

为分析预测序列的差异,本文额外计算结构相似性(SSIM),由表2可知,在用PredNet进行多帧预测时,由于缺少GroundTruth来计算误差,因此无法在预测时进行误差前向传播,具体表现为从预测的第二帧开始迅速模糊,最终的多帧预测效果很差。本文提出的空间自适应卷积LSTM相较于传统的卷积LSTM和PredNet,预测结构相似度以及长期预测的清晰度都有可观的提升。

MNIST实验效果如图5-图8所示,由于版面限制,使用泛用性最好的卷积LSTM对比。从上至下分别为Ground Truth、经典的卷积LSTM预测序列、空间自适应卷积LSTM(L=9)预测序列,以及空间自适应卷积LSTM(L=17)预测序列(L代表自适应卷积的相关连接数),由左到右为从预测的序列中抽出的第2帧、第5帧、第10帧的实验结果。可以看出,经典的卷积LSTM处理较明显的旋转、缩放等复杂变换时,图像开始变得模糊,而9链接和17链接的自适应卷积LSTM,都能很好地预测到旋转缩放等复杂变换,且17链接能够相对更好地保持清晰度,同时对动态变化预测得更加精准。推断其原因是17链接的输出到输入的映射连接数更多,因此能够在不过拟合的情况下用更多的参数来更加精细地表征视频序列中的时空变化。实验过程中,17链接的迭代速度也略慢于9链接的速度,相对于性能的提升,这种计算代价是可以接受的。

图5 MNIST实验结果对比1

图6 MNIST实验结果对比2

图7 MNIST 实验结果对比3

图8 MNIST实验结果对比4

3.2 雷达降水回波图

3.2.1数据集

为获取预测模块的实际应用中的泛用性,本文额外使用雷达回波图来进行气象预测。气象雷达图数据集来自四川自贡气象局,共6万组回波数据。每组回波记录有61幅图片,雷达回波图为501×501的单通道灰度图像,初始缺省值均为255,为方便观测预测效果,输入网络前将所有雷达回波图的缺省值更改为0。本文取前31幅图片作为输入,后30幅作为Ground-Truth。在针对降水雷达回波图的预测时,由于硬件性能限制,故先将501×501的灰度图像降采样为64×64的单通道灰度图像,然后针对64×64的图像序列进行预测。

3.2.2模型框架

针对雷达回波图进行训练时,本文将所有雷达回波数据分为4部分:当某个雷达回波图片段中第11帧和第31帧中白点个数均大于5万个时,将此片段分至Ⅰ类;第11帧少于5万,第31帧大于5万,将此片段分至Ⅱ类;第11帧多于5万,第31帧小于5万,分至Ⅲ类,第11帧与第31帧均少于5万个白点,分至Ⅳ类。在训练时,向网络中输送数据之前首先对图片序列进行分类,再根据类别送入4个不同模型中的其中一个模型,不同模型处理不同的气象变化趋势,以此提高模型对不同气象类别的精准预测能力。多分支预测结构如图9所示。

3.2.3实验结果及分析

雷达回波实验效果如图10和图11所示,实验迭代次数为8万次,在预测的30帧视频中,每6帧中抽出1帧作为实验结果对比,共抽出5帧。可以看到,即使是将回波图压缩至64×64大小,预测结果依然有所区别,传统的卷积LSTM在预测后期图像时部分细节会丢失。与之相比,本文的自适应卷积LSTM和多分支网络结合的方法能够在一定程度上改善预测结果,尤其在降水量较高地区(图10、图11中的偏白地区),采用空间自适应卷积模型能够更好地预测对应范围内的时空变化,推测其原因是用了带权重判定的损失函数。其他灰色区域的预测也能够更好地拟合GroundTruth的轮廓。

图10 雷达回波实验结果1

图11 雷达回波实验结果2

预测降水雷达回波图主要预测目标是强降水区域,为清楚地表示实验结果,本文对有代表性的强降水序列进行gray2RGB处理,如图12所示。可以看出,本文的自适应LSTM与多分支编码预测网络架构在处理强降水序列时有更加精准的结果。

图12 雷达回波实验结果RGB化

4 结 语

本文对基于深度学习的视频预测进行研究,基于传统卷积LSTM改变其“input-to-state”的计算过程,在其中添加空间转换层以显式学习时空变化特征。通过手写体视频片段的预测结果评测模型性能。实验证明,在某些情况下,单独设计一个模块让网络显式地学习某种特征会使网络有更好的泛化性能。本文的空间自适应卷积LSTM相较于传统的卷积LSTM确实有可

观的性能提升,且捕捉复杂时空变化特征的能力更强,更能胜任像素级视频预测的任务。若针对任务内容对网络结构进行改进,会获得更加可观的性能提升。

此外,本文提出的网络结构依然具有改进的空间,在面对像素级预测任务时,可以加入注意力机制,在每次提取特征时都可以对不同通道加入不同的权重,以提高预测深度的效果。

猜你喜欢
卷积像素预测
无可预测
像素前线之“幻影”2000
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
“像素”仙人掌
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法