基于全子带栈式稀疏自编码的水果图像融合

2017-07-18 11:48罗晓清王鹏飞

现代计算机 2017年14期

关键词：子带隐层编码器

罗晓清，王鹏飞

（江南大学物联网工程学院，无锡 214122）

基于全子带栈式稀疏自编码的水果图像融合

罗晓清，王鹏飞

（江南大学物联网工程学院，无锡 214122）

为提升我国水果质量检测水平，提出一种基于全子带栈式稀疏自编码的水果图像融合方法。首先利用滑动窗口技术将红外与可见光水果图像分块。接着，利用图像小块训练栈式稀疏自编码网络。然后，利用平移不变剪切波将待融合图像分解为低频子带和高频子带。低频子带与高频子带先利用滑动窗口技术提取子带分块，接着对每一对子带分块利用训练好的网络进行编码，并提出基于稀疏自编码的融合规则来实现子带分块的融合。最后，利用滑动窗口逆变换生成融合后水果图像。实验证明该方法在辅助水果质量检测的应用中是可行的、有效的。

栈式稀疏自编码；图像融合；水果质量检测

0 引言

水果是我国的第三大种植产品，近年来我国的水果产量居世界首位。然而我国虽是水果生产大国却不是强国，每年都有大量的国外水果进入国内市场，而本土水果出口量占总产量不到10%，这主要是因为我国水果的品质监控体系不成熟[1]。为了提升我国水果产品在国际市场中的竞争力，急需改善水果生产和销售中的质量检测技术。红外光谱检测技术是水果质量检测中常用的方法，它利用水果对近红外光的吸收、散射、反射和投射等来确定水果成分的一种方法，红外光谱检测法具有测量速度快、成本低、不破坏样本的优点，但由于红外光谱易受到环境温度等外部环境的影响而产生光谱假相，导致水果检测中产生的误差较大[2]。可见光图像可以记录水果表皮中的纹理和细节信息。将水果的红外图像和可见光图像中各自表达的信息结合，就能显著提升水果质量检测的效率和准确性。基于上述分析，本文提出了一种基于栈式稀疏自编码的红外图像和可见光图像的水果图像融合方法，用于提升水果质量检测水平。

图像融合是图像处理领域中一个重要的分支，它利用多个传感器采集到关于同一场景的图像，生成一幅更适合人类视觉感知或更适合计算机处理的融合图像。融合的图像可以显著的改善单一图像的清晰度和信息包含量。图像融合的方法一般分为像素级图像融合、特征级图像融合和决策级图像融合[3]。像素级图像融合是当前研究和应用最为广泛的方法。像素级图像融合又可以分为简单的图像融合方法、基于塔型变换的图像融合方法和基于多尺度变换的图像融合方法，其中基于多尺度变换的图像融合方法为目前研究的热点。多尺度变换是基于对人眼视觉系统对高维信号表示方法的研究而提出来的，多尺度变换具有更强的方向选择能力，可以较好的表达出图像中具有方向性的特征。多尺度分解工具包括了小波变换（DWT）[4]、平稳小波变换（SWT）[5]、轮廓波变换（CT）[6]、非下采样轮廓波变换（NSCT）[7]、剪切波变换（ST）和平移不变剪切波变换（SIST）[8]。其中SIST作为其中最新且最优的技术，具备平移不变、高频子带方向多和计算速度快等优点。相比其他几种多尺度分解的方法，更适合运用于图像融合的应用中。

近年来，深度学习在计算机科学与技术相关领域成了一个研究热潮，深度神经网络模拟人类大脑的结构，对数据提取分级特征，在模式识别和图像处理领域取得了巨大的成功。特征提取的方法在图像融合中有着重要的研究意义，合适的特征提取方法对融合结果有着巨大的影响。由于图像数据的复杂性，相比于传统的特征提取方法，深度学习的方法更加适合图像中的特征提取。栈式稀疏自编码（SSAE）作为一种非监督的深度学习工具，不仅拥有深度学习方法提取分层特征的能力，同时还无需带标签的训练数据[9]，这两个特性决定了SSAE在图像融合领域有着广阔的应用前景。

基于上述分析，本文提出了一种基于SSAE的水果图像融合方法。考虑到子带系数和原图内容的相关性，本算法利用原图像训练SSAE，采用训练好的SSAE对子带系数编码的策略。该策略相比于直接利用子带系数训练SSAE减少了计算量，从而提升了算法的时效性。所提算法首先利用滑动窗口技术将原图像分块，利用图像小块训练SSAE；利用SIST将待融合的两幅图像分解为低频子带和高频子带；对低频子带系数采用基于SSAE编码的加权融合规则进行融合；对高频子带系数采用基于SSAE编码的取大融合规则进行融合；待所有子带融合完成，利用SIST的逆变换生成融合后的图像。

1 平移不变剪切波变换简介

平移不变剪切波变换（SIST）是一种多尺度、多方向的分解工具，它具有平移不变性、方向敏感性和运算速度快等优点。SIST由非下采样金字塔分解和剪切滤波器组两部分组成，其中非下采样金字塔使得SIST具有多尺度特性，剪切波滤波器使得SIST具有多方向特性。关于SIST的细节可以参考文献[8]。

2 栈式稀疏自编码介绍

由于深度学习模型具有对复杂数据的卓越学习能力而越来越受到关注。相比传统的机器学习方法，深度学习模型的多层网络结构能有效地从数据中提取出更多抽象层次的特征，从而更好地表示数据[10]。其中栈式稀疏自编码（SSAE）作为深度学习的一个分支今年来发展迅速。此外由于图像融合应用中缺乏带标签的训练数据，具有无监督特性的SSAE相比其他的深度结构更适合应用到图像融合中。本节将简要地介绍稀疏自编码器和SSAE的基本原理和训练方法。关于SSAE的详细训练过程请参考文献[11]。

2.1 稀疏自编码

如图1所示，自编码是一个典型的三层结构的神经网络，其三层结构分别为输入层、隐层和输出层。自编码的输入层的值和输出层相同，这意味着如果不对隐层加以限制，自编码学习得到的将是一个无意义的恒等函数。如果在自编码网络的隐层限制其神经元的数目小于输入（输出）层，则自编码将学习到输入（输出）数据的压缩表示。如果将隐层神经元的平均激活度（aavg）限制为接近0的数，则该自编码网络将学习到输入（输出）数据的稀疏特征。

图1 稀疏自编码结构示意图

如图1所示，从结构上来看，稀疏自编码中输入层到隐层的结构称为编码器，隐层到输出层的结构称为解码器。

其中a（i）为第i个输入数据在隐层的激活值，x（i）为输入（等于理论输出y（i）），hW，b（x（i））为网络实际输出，其中1≤i≤m，m为输入数据的数量。W1，l、b1，l、W1，l、b1，l和a（i），l分别代表第l个自编码器中编码器的权值矩阵、编码器的偏置项、解码器的权值矩阵、解码器的偏置项和第i个输入的隐层神经元激活值，sl为第l层稀疏自编码器隐层神经元数目，特别的s0为第一层稀疏自编码的输入层神经元的数目，由于本文采用了两层结构的SSAE，故0≤l≤2。

编码器负责将x（i）转换成编码。解码器负责从编码中重构出原数据，x（i）和hW，b（x（i））之间存在的误差称为重构误差。

稀疏自编码的代价函数如下：

其中，公式（3）中J（W，b）定义的第一项是均方差项，它描述了实际值x（i）和理论值hW，b（x（i））之间的差别。第二项为权重衰减项，用来防止过拟合，其中λ为权重衰减参数，nl为自编码结构的层数，sl为第l层中神经元的数目为第l-1层中第i个神经元到l层中第j个神经元的连接权值。第三项中，代表了第j个隐层神经元的激活值与稀疏性参数ρ之间的KL距离，β为稀疏惩罚项的系数，用来控制稀疏性惩罚因子的权重。

自动编码器的训练过程是利用梯度下降法求解W1，1和b1，1的过程：

步骤1：设置：W1:=0，b1:=0，ΔW1:=0，Δb1:=0；

步骤2：根据公式（3）计算编码器的重构误差J（W1，b1）；

步骤3：while J（W1，b1）>10-6：

其中ΔW1和ΔW2为W1和b1的增量，α为更新速率，max_Iter为最大迭代次数。

当解出最优的W1，1和b1，1后，利用公式（1）对所有的输入数据进行编码，计算隐层神经元的激活值a（i），1。

2.2 稀疏自编码的深度结构

栈式稀疏自编码（SSAE）为稀疏自编码的深度结构，本文使用了两层稀疏自编码级联而成的SSAE的编码器部分来提取图像深度特征，并以此作为融合规则中的活动测度。其中，nl=2，s0=25，s1=9，s2=1。本文算法的SSAE结构如图2所示，该SSAE网络可以将25维的输入数据转化为1维的编码，此编码为输入数据的压缩和稀疏表示，1维的编码可以更方便地用来构造融合规则。与稀疏自编码器类似，SSAE也是在寻找使代价函数值最小的权值，其训练策略为逐层贪婪训练。

（1）首先利用输入数据训练第一层编码器，解得最优的W1，1和b1，1；

（2）接着利用第一层自编码的隐层神经元的激活值a（i），1=sigmoid（W1，1x（i）+b1，1）作为输入训练下一层的自编码，解得最优的W1，2和b1，2；

（3）当SSAE训练完毕，利用公式（4）对所有的输入数据进行编码，提取深度的稀疏特征a（i），2：

其中，a（i），2为第i个输入数据在第2层稀疏自编码器的隐层激活值，也是第i个输入数据在该两层结构SSAE中所得的编码。

图2 本文使用的具有两层结构SSAE中编码部分结构示意图

3 基于SSAE的水果图像融合

考虑到水果图像内容的复杂性，具有深度结构的SSAE能挖掘出水果图像的分级特征。其次，为了尽可能高效地获取融合后的水果图像以供水果质量检测，本算法利用各子带与原图像之间的相关性，采用原图像训练SSAE，再用训练好的SSAE对低频子带系数和高频子带系数直接进行编码提取特征。该策略不仅能提取出水果图像的分级特征，而且能减少SSAE训练的耗时。接着利用SSAE编码构造子带系数融合规则。图3为本文提出的基于全子带SSAE的水果图像融合方法的框架，其实施步骤为：

（1）利用SIST将待融合图像将ImageA和ImageB

（2）CLA和CLB为原图像的近似表示，对CLA和CLB使用基于SSAE编码加权的方法融合；

（4）待所有的子带都融合完成，利用SIST逆变换将融合后的高频和低频子带转变为融合图像。

为提高融合速度增加本文算法的时效性，本文利用原图像小块训练SSAE网络，然后利用该训练好的SSAE网络对各子带编码。

图3 基于SSAE的水果图像融合框架

3.1 编码器的训练

（1）利用滑动窗口技术将ImageA和ImageB分块，得到图像小块IBA（k）和IBB（k）；

（2）将IBA（k）和IBB（k）拉伸成向量后拼接成矩阵IPA（k）和IPB（k）；

（3）利用IPA（k）和IPB（k）训练一个两层的SSAE，得到最优的W1，1、b1，1、W1，2和b1，2；

3.2 低频融合规则

低频子带为原图像的近似图像，合适的低频融合算法可以保证融合图像中整体结构的完整。SSAE编码能够有效地发现低频子带中复杂的结构信息，此外加权融合的策略能较好的保证融合过程中不丢失重要的结构信息。因此，本文使用的低频子带融合规则是基于SSAE编码的加权融合规则，其实施步骤如下：利用滑动窗口技术将CLA和CLB分块，得到低频系数小块CLA（k）和CLB（k）；

（1）将CLA（k）和CLB（k））拉伸成向量后拼接成矩阵CLPA（k）和CLPB（k）；

（2）利用3.1中训练好的SSAE网络，计算CLPA（k）和CLPB（k）的SSAE编码CodeLA（k）和CodeLB（k）作为融合规则中的活动测度；

（3）对每一对小块CLA（k）和CLB（k）按公式（5）的方法进行加权融合：

利用滑动窗口变换的逆变换生成融合后的低频子带CLF。

3.3 高频融合规则

高频子带系数包含了细节信息，其融合规则的优劣决定融合图像能否将待融合图像中清晰的纹理细节保存下来。SSAE编码能较好地区分出纹理信息和噪声，此外取大的规则也能较好地处理融合过程中存在的噪声干扰情况。因此，本文提出的高频子带融合规则是基于SSAE编码的取大融合规则，其实施步骤如下：

4 实验结果与分析

为了验证本算法的可行性和有效性，本文以两组苹果图像作为实验对象来测试本算法，并与传统的融合方法进行对比。测试数据来自文献[13]，对比的方法包括了简单加权融合法（AVG）、基于离散小波分解的融合方法（DWT）[14]、基于脉冲耦合神经网络的图像融合方法（N-PCNN）[15]。进一步，本文利用了峰值信噪比（PSNR）、信息熵（EN）、互信息（MI）和边缘转换率（Qabf）[16]这四组客观评价指标来验证本文算法的优越性。PSNR表示图像信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值，其值越大越好；EN反映了图像携带信息量的多少，其值越大越好；MI反映了待融合图像和融合图像之间信息的相关程度，其值越大视觉效果越好；Qabf反映了待融合图像的边缘信息转移到融合图像中的程度，其值越接近1视觉效果越好。

实验中，SIST的滤波器选择maxflat，各层分解的方向数为4、4、8。SSAE的稀疏性参数ρ设为0.01，权重衰减参数λ设为0.15，稀疏惩罚项的系数β设为1，SSAE由两层自编码组成，故nl=2，其中第一层自编码的隐层神经元个数s1设为9，第二层自编码的隐层神经元个数s2为1。滑动分块的窗口大小为5×5，滑动步长为2。

4.1 第一组水果图像融合

图4（a）为待融合的可见光图像，图4（b）为待融合的近红外图像，图4（c）展示了基于DWT方法的融合结果，图4（d）展示了基于AVG方法的融合结果，图4（e）展示了基于N-PCNN方法的融合结果，图4（f）为本文方法融合的结果。图4（a）清晰地显示了水果图像果皮中的细节和纹理，但是不能明显的标记处水果中的受损点。从图4（b）中可以清晰地看出水果的受损处，但是缺失了细节信息。本组实验的融合目标应该是将图4（a）中果皮纹理信息和图4（b）中受损点位置信息都包括到融合图像中。图4（c）中没能将图4（a）的细节和纹理融入结果，同时图4（c）在受损点处也较为模糊。图4（d）和图4（e）有少量的表皮纹理丢失，但是，图4（f）成功的将果皮中的纹理信息和内部的受损信息融入结果中，从主观的角度来看本文方法效果较好。表1展示了本组实验的客观评价指标，其中加黑的为最优指标。可以看到本文的算法在EN和Qabf这两个指标上是最好的，MI指标排第二。尽管，DWT的MI排名第一，但是其主观效果较差。因此，本文算法在客观评价上取得了较好的效果。这是因为本文的方法采用了SIST作为多尺度分解工具，可以将图像的轮廓和纹理区分地更细致，此外归功于SSAE特征较好的区分度，可以有效地区分图像中的结构信息、纹理信息和噪声信息。综合比较主观效果和客观评价指标，不难得出本文方法优于其他三者。用于辅助水果质量检测这一目的，本文方法能提供更为有价值的信息。

表1 客观评价指标（图4）

4.2第二组水果图像融合

图5（a）为待融合的可见光图像，图5（b）为待融合的近红外图像，图5（c）展示了基于DWT方法的融合结果，图5（d）展示了基于AVG方法的融合结果，图5（e）展示了基于N-PCNN方法的融合结果，图5（f）为本文方法融合的结果。图5（a）清晰的展示了水果表皮中的纹路但没能完整地描绘出水果的轮廓。图5（b）完整的描绘出了水果的轮廓且受损点比图5（a）更为明显，但是图5（b）中缺失了果皮表面的纹理信息。图5（c）融合出了水果的整体轮廓和受损点，但是表皮上的纹理只融合了一半。图5（d）和图5（e）丢失了部分表皮纹理，图5（f）成功地融合了纹理、受损点和完整轮廓。表2展示了本组实验的客观评价指标比较，可以看出本文方法在四种指标里有两种指标排第一。基于DWT的融合方法在MI指标上取得了最佳值，但是主观效果较差。排除DWT的MI指标值，本文方法的MI是最佳的。因此，从客观评价指标的角度来比较，本文也是优于其他三种方法的。因此在辅助水果质量检测这一应用中，本文的方法是优于其他三种方法的。

图4 第一组水果图像融合结果

5 结语

本文提出了一种基于全子带栈式稀疏自编码的水果红外与可见光图像融合新方法。由于SIST具有多尺度、多方向、平移不变等优点，本文方法将待融合的水果图像进行SIST分解，从而针对各尺度、各方向的子带设计更合适的融合规则。此外，由于SSAE具有非监督、针对复杂数据能提取深层特征等优点，基于SSAE编码的融合规则能更好的兼顾各待融合子带的差异性和统一性。实验结果表明，相比于传统的图像融合算法，本文所提的算法能更充分的融合两种待融合图像的优点，融合图像有效地整合水果表皮上的细节信息和内部的缺陷信息。利用本算法得到的融合图像能有效地提升水果品质监控的效率和水平。因此本算法是可行的，也是有效的。

表2 客观评价指标（图5）

图5 第二组水果图像融合结果

[1]何凤姣.中国农产品的国际竞争力研究[D].东北财经大学，2014.

[2]李军良.基于机器视觉和近红外光谱的水果品质分级研究[D].南京航空航天大学，2011.

[3]王耀南，李树涛.多传感器信息融合及其应用综述[J].控制与决策，2001，16（5）:518-522.

[4]Mallat SG.A Theory for Multiresolution Signal Decomposition:TheWavelet Representation[J].IEEE Transactions on Pattern Analysis &Machine Intelligence，1989，11（7）:674-693.

[5]Rockinger O.Image Sequence Fusion Using a Shift-InvariantWavelet Transform[C].International Conference on Image Processing，1997.Proceedings.IEEE Xplore，1997：288-291 vol.3.

[6]Do M N，VetterliM.The Contourlet Transform:an Efficient Directional Multiresolution Image Representation[J].IEEE Transactions on Image Processing，2005，14（12）:2091-2106.

[7]Cunha A L D，Zhou J，Do M N.The Nonsubsampled Contourlet Transform:Theory，Design，and Applications[J].IEEE Transactions on Image Processing，2006，15（10）:3089-3101.

[8]Easley G R.Optimally Sparse Image Representations using Shearlets[J]，2006:974-978.

[9]Bourlard H，Kamp Y.Auto-Association by Multilayer Perceptrons and Singular Value Decomposition[J].Biological Cybernetics，1988，59（4）:291-294.

[10]冯鑫，李川，胡开群.基于深度玻尔兹曼模型的红外与可见光图像融合[J].物理学报，2014，63（18）:211-219.

[11]UFLDL Tutorial.http://ufldl.stanford.edu/wiki/index.php/UFLDLTutorial

[12]Kullback S，Leibler R A.On Information and Sufficiency[J].Annals of Mathematical Statistics，1951，22（1）:79-86.

[13]王树祺.基于图像融合和机器学习的水果质量分级与信息追溯技术[D].北京，北京航空航天大学，2012.

[14]Pajares G，Cruz JM D L.AWavelet-bBased Image Fusion Tutorial[J].Pattern Recognition，2004，37（9）:1855-1872.

[15]Yang S，Wang M，Lu Y X，et al.Fusion of Multiparametric SAR Images Based on SW-nonsubsampled Contourlet and PCNN[J]. Signal Processing，2009，89（12）:2596-2608.

[16]Xydeas C S，Petrovic V.Objective Image Fusion Performance Measure[J].Electronics Letters，2000，36（4）：308-309.

Fruit Image Fusion Based on Stacked Sparse Autoencoders of All Subbands

LUO Xiao-qing，WANG Peng-fei

（School of IoTEngineering，Jiangnan University，Wuxi 214122）

Proposes a Stacked Sparse AutoEncoders(SSAE)of all subbands based fruit image fusion method to detect the quality of fruits.First, source images are divided into image blocks by sliding windows technology to train a SSAE network.Second,source images are decomposed into low frequency subbands and high frequency subbands by Shift Invariant Shearlet Transform.Next,all frequency subbands are divided into subband blocks by sliding windows technology to learn codes by the SSAE network trained in the first step.Then,proposes two SSAE based fusion rules to fuse the frequency subbands.At last,the composite subbands are converted into fused image by the inverse shift invariant shearlet transform.Experimental results show the proposed method is sufficient and efficient in the application of fruit quality inspection.

罗晓清（1980-），女，江西南昌人，副教授，博士，研究方向为模式识别与图像处理

2017-03-06

2017-05-10

1007-1423（2017）14-0057-07

10.3969/j.issn.1007-1423.2017.14.012

王鹏飞（1992-），男，江苏盐城人，硕士，研究方向为图像处理、机器学习

SSAE;Image Fusion;FruitQuality Inspection