基于全卷积神经网络的图像缩略图生成算法

2017-07-10 08:27张靖仪
电脑知识与技术 2017年14期

张靖仪

摘要:为提高缩略图生成中有效信息的保留率,该文提出一种基于全卷积人工神经网络并以图像显著性图驱动的缩略图生成算法。算法可有效识别图像中显著性区域,并以此为依据通过滑动窗口截取图像主要信息点,进而生成有效的缩略图。

关键词:全卷积神经网络;显著性预测;缩略图生成

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)14-0149-02

1概述

缩略图是一种经压缩方式处理后的图片,在小尺度下包含了原图像大部分有效信息,可广泛应用于图像快速索引、网页超链接等多个领域。目前相关算法多采用固定分辨率缩放及中央裁剪等固定规则进行缩略图生成,而忽视图像自身具有的内容信息。为提高缩略图携带的有效信息,该文利提出一种利用全卷积神经网络对图像进行显著性预测,再由显著点密度自动获取图像中包含最有意义信息的区域进行截取,进而生成图像内容相关缩略图的算法。

2算法设计

为生成面向图像信息的自适应缩略图,该方法由两部分组成。第一部分为图像识别模块,主要工作是得到图像的显著性图;第二部分为自适应滑动窗口模块,主要工作是得到窗口内平均显著度最强的窗口坐标。

2.1显著性預测

该文在缩略图截取区域识别阶段采用显著性预测算法作为识别手段。显著性预测是目前非常活跃并正在不断取得突破性进展的机器视觉领域下的一个子领域,是一种模拟人类注意力机制的算法。其主要目标是对图像(画面)中吸引人注意的地方(显著性区域)进行自动的识别与提取,并生成与输入图像尺度对应的一张灰度图。其生成的灰度图中的高亮度区域代表具有显著性物体,如汽车、人脸、字母等,并且服从高斯分布。根据特征融合理论(Feature Integration Theory),目前已有多种基于卷积神经网络的显著性预测算法被提出(如DeepFix、SALICON等),并极大的提高了显著性识别的精度。

2.2卷积神经网络概述

为生得到面向内容的缩略图截取坐标,首先需要对图像内容进行识别,并对图像每个区域的重要程度进行分类。近年来由于GPU并行运算性能的突破性进步以及基于大数据技术的训练数据集扩充,深度卷积神经网络(Deep Convolutional Neu-ral Networks,DCNNs)在包括图像识别、目标跟踪及显著性预测等多个图像处理领域上的任务都取得了极大的提升。而预训练参数(Pretraining)与转移学习(Transfer Learning)等技术进一步提升了CNNs在多项图像处理任务中的泛化能力及可用性,因此该文采用截断VGG19模型为预训练网络,进行显著点识别及缩略图。全卷积神经网络与传统的全连接神经网络类似,均采用梯度下降算法对权值进行更新。不同点在于,全卷积神经网络每次更新的值包括卷积核的值以及该卷积核的权值。

2.3网络结构

该文所采用的全卷积神经网络采用截断的VGGl9预训练模型的前10层组成。VGGl9由进行图像识别(物体分类)的ImageNet数据集训练而成,可精确识别数据集中1000中物体分类,故其所学习的卷积核参数包含有丰富的物体信息。

其中网络的具体成分主要由10层卷积模块及3层最大池化层组成,而卷积模块依次由一层卷积层,一层批量归一化层以及一层ReLU(Rectified Linear Unit)激活函数层组成。其中前8层卷积层由普通3×3大小,1×1步长的卷积核组成,后两层卷积层由带2×2洞的3×3大小(故实际感受野为5×5),步长1×1的卷积核组成。

网络结构如图1所示。

2.4缩略图生成

由全卷积神经网络识别并得到的显著性图为灰度值为0-255的灰度图,大的灰度值代表高显著性激活度。在得到对应图像的显著性图之后,方法采用步长为10像素的滑动窗口对显著性图进行遍历,并选择所窗口内激活程度最高的区域所处坐标作为缩略图截取坐标。对于有多个相同激活值的区域则选取距离图像中心最近的区域所处坐标为缩略图截取坐标。最后通过对原始输入图像中对应缩略图截取坐标进行截取,得到最终缩略图。

3实验设计

根据算法流程,该方法中实验设计也可分为两部分:第一部分为训练用于得到显著点坐标的全卷积神经网络,第二部分为设计并实现基于显著性图的动态步长滑动窗口方法。

3.1网络参数及训练数据设置

该方法训练数据选自开放数据集MIT1003及SALI-CONt31。实验采用批量训练方法,每批数据由128个样本组成,共训练2000个批次。网络采用绝对平均误差(Mean AbsoluteError,MAE)为损失函数(如公式1所示),并采用改进的梯度下降算法Adam算法进行权值更新,以提高网络鲁棒性及收敛性。网络收敛曲线如图2所示。

3.2滑动窗口设计

在得到输入图像的显著性图之后,所提方法通过滑动窗口截取缩略图,并通过自适应步长降低算法的时间复杂度。自适应步长通过由当前窗口内显著性图的平均激活值得到。步长的最大分辨率为40像素,最小分辨率为5像素,当当前窗口内平均激活值小于预设阈值时,下一次窗口的滑动步长增加为当前步长2倍,直至增大到最大分辨率步长。当当前窗口呢平均激活值大于预设阈值时,则每一次滑动减小位原步长的1/2,直至衰减到最小分辨率步长。

3.3实验结果

在验证及测试阶段,采用的测量标准为AUC-Judd,相关系数(Correlation Coefficient)以及KL散度(Kullback-Leibler Diver-gence)。其中AUC-Judd越大越好,KL散度越小越好。训练收敛后以以上测量标准在MIT1003数据集上进行了验证测试,所得结果如表一所示。表一表面该方法在显著性预测上超过了传统方法,取得了较好的结果。

图3对所提方法得到的缩略图进行了直观展示。从中可知所提方法在缩略图生成的过程中对图像本身信息进行了有效提取且得到了有效的显著性图,并由该显著性图通过滑动窗口得到了缩略图所需的正确截取坐标。最后得到的缩略图对于原图像本身信息具有高代表性,且并未损失分辨率信息。

4结束语

本文提出一种基于全卷积神经网络与显著性预测的缩略图生成算法,通过实验可知:利用预训练的全卷积神经网络,可根据图像本身信息对图像显著点进行有效提取,进而由所得显著点坐标对原图像进行面向图像显著信息的缩略图截取。该方法提高了缩略图生成时的自适应性。同时该方法还通过截断预训练网络以及动态滑动窗口步长的方法降低了网络所需存储空间,运行内存消耗以及运行时间复杂度。