基于三维旋转卷积核的高光谱图像分类研究

2022-11-01 09:27浩,徐聪,姚
北京联合大学学报 2022年4期
关键词:池化层扇形步长

龙 浩,徐 聪,姚 浩

(1.北京联合大学 北京市信息服务工程重点实验室,北京 100101;2.北京联合大学 机器人学院,北京 100027)

0 引言

近几年,一些深度学习网络模型被逐步应用到高光谱图像分类任务中。文献[1]从类别的角度提出一种类特征加权的高光谱分类方法,从感兴趣的类(Category of Interest)中提取三类特征(intra-CFs,inter-CFs, total CF)用于改进高光谱分类的特征。文献[2]针对采用卷积神经网络(Convolutional Neural Network,CNN)的方法处理高光谱图像容易出现的过拟合问题,提出了一种新的基于多尺度协方差图的手工特征提取方法,改进了高光谱分类效果。文献[9]提出了一种迭代训练样本增强算法及一种结合了该算法和最大边距投影的新分类模型,该模型使小的初始样本集和不平衡的数据集得到有效增强,从而获得更高的分类精度。文献[10]首先利用超像素分割法来给数据集降维,然后利用层注意力机制对分类目标进行特征自适应选择,实现端对端的半监督分类。文献[11]讨论了基于卷积核的哈希学习方法在高光谱分类中的应用,在核哈希学习中引入径向基函数以提高运行效率,并采用四维卷积表达空间邻域信息,达到了很好的分类效果。文献[12]采用3D-CNN 在高光谱图像数据上直接提取分类特征,与2D-CNN的特征提取方式不同,3D-CNN以空间维的某像素为中心, 提取该像素邻域范围内的谱信息,组成三维空谱特征。

以上各类方法虽然取得了较好的分类结果,但与应用于自然景观目标分类任务的大型数据库相比,现有的高光谱分类数据库中的训练样本较少,对于参数量比较多的深度学习分类方法来说容易出现过拟合(Over-fitting)问题。本文设计了一种新型的旋转卷积受限波尔兹曼机(Rotating Convolutional Restricted Boltzmann Machine,RCRBM)无监督图像分类网络框架,在没有卷标数据的情况下对高光谱图像进行分类。

1 旋转卷积受限波尔兹曼机

1.1 卷积受限波尔兹曼机

为了能够使用受限波尔兹曼机(Restricted Boltzmann Machine, RBM)处理高维图像并且获得局部旋转不变的特征,Lee等人提出卷积受限波尔兹曼机(Convolutional Restricted Boltzmann Machine, CRBM)和卷积深度信念网络(Convolutional Deep Belief Network, CDBN)[13],如图1所示。CRBM包括一个可视层V和一个检测层H,CRBM的目的是学习到可视层V和检测层H之间的统计关系。在图1中,H包括了K组单元,最大池化层P使用池化窗口Bα,缩减了检测层的维度,Bα的宽度为G个像素,学习得到的卷积核Wk(k∈[1,K])在图像中的所有位置是共享的[14]。

图1 受限波尔兹曼机

可视节点v和检测节点h的联合概率为

(1)

其中,Z=∑v∑hexp(-E(v,h)),是一个归一化的参数或者分离函数。

CRBM的能量函数定义为

1.2.4 流式细胞术检测细胞周期 细胞转染48 h后,收集各组细胞,加入预冷70%乙醇,4℃固定2 h,弃去上清液,PBS清洗2次,离心5 min,弃上清,每管细胞样品中加入染色缓冲液500 μL,缓慢并充分重悬,加入碘化丙啶染色液25 μL混匀,加入 RNase A 10 μL,混匀,37 ℃避光温育30 min,冰浴避光存放,随即进行流式细胞术检测。

(2)

Gibbs采样使用的条件概率分布定义为式(3)和(4),其中sigmoid函数定义为g(x)=(1+exp(-x))-1。

(3)

(4)

(5)

其中,检测层中第α个池化窗口Bα的宽度为G。

本文提出的RCRBM是以CRBM为基础的,并且旋转卷积深度信念网络(Rotating Convolutional Deep Belief Network, RCDBN)也可由多个概率最大池化RCRBMs叠加构成。对RCDBN的训练采用贪婪的学习方式,即一层一层的训练。当某一层RCRBM训练好之后,它的参数即被固定,它的激励值被用于下一层RCRBM的训练。

1.2 旋转卷积

为了解决高光谱三维数据中光谱数据无规则连接的问题,本文提出用旋转卷积来卷积一个三维局部区域。旋转卷积定义了一个新型的卷积窗口和一个新型的卷积窗口移动方式,是一种特殊的设计,并能够在三维数据上直接进行卷积。

旋转卷积采用一个扇形卷积窗,通过绕着区域中心点法向量旋转的方式,卷积一个局部区域。如图2所示,一个红色扇形窗口绕着中心点法向量到达蓝色扇形窗口,旋转时保持两个相邻的扇形窗口具有一定的重叠区域。当该扇形区域绕着中心点法向量旋转时,扇形区域便能够扫描整个三维局部区域,且定义旋转方向满足右手定则,即当视角对着中心点法向量时,红色扇形区域将沿着逆时针方向旋转。

图2 旋转卷积

旋转卷积有两个参数:扇形窗口尺寸、旋转步长。由于在三维模型上参数化扇形窗口和旋转步长十分困难,而二维卷积窗口的尺寸及运动与三维卷积窗口的尺寸及运动是同步的,因此使用二维扇形窗口来参数化对应的三维扇形窗口。二维扇形窗口的顶角角度θc控制着二维扇形窗口及三维扇形窗口的覆盖面积;二维扇形窗口的旋转步长角度为θs。本文使用符号(*)表示旋转卷积,依据扇形窗口及它的移动方式,将其表示为

(6)

其中:X表示三维局部区域的原始表征;W是卷积三维局部区域的卷积核。使用旋转卷积,一个抽象图像Y可由节点组成,节点的位置由θs确定。

总之,由于旋转卷积能够覆盖整个局部区域,并且有合理的参数,这两点保证了旋转卷积能够编码三维形式的空谱局部特征。

1.3 RCRBM的结构

RCRBM包括三层:可视层V,检测层H,最大池化层P。RCRBM和CRBM最大的区别在于每层节点的排列方式。RCRBM每层中的节点是排列成环状的,而不是像CRBM中的二维矩阵。在可视层V,通过N个步长从一个局部区域计算得到fPDD,即从所有扇形窗口中提取的投影距离分布(Projection Distance Distribution, PDD)。其中,N=360°/θs。从一个扇形卷积窗口内计算得到的PDD是一个m维的向量,其中m=25(投影距离间隔),并在所有的实验中保持不变。然后,fPDD作为RCRBM的输入,被传送到可视层V的N×m个节点中。

检测层和池化层都包括K组节点。对每个k∈[1,K],旋转卷积使用1×m维的卷积核Wk卷积可视层,卷积的结果存放在N个节点的环状检测层Hk中。在检测层Hk,通过选择池化窗口B内邻近的P个节点的最大值,缩减后得到对应的池化层Pk,并且每个池化层包括N/P个节点。通过最大池化进行缩减有两点好处:高层表征中对低层表征的微小波动不敏感;减小后续计算过程的计算量。

输出层通过傅立叶变换的模(Fourier Transform Modulus, FTM)变换池化层。当把环状池化层的节点拉伸成N/P维度的向量Fk时,Fk不可避免地依赖于切割池化层的位置。为了消除切割位置对Fk的影响,使用FTM得到不依赖于切割位置的表征Fk。局部特征通过串联所有Fk得到,它是K×N/P维的向量。

根据RCRBM的结构,RCRBM的能量函数、可视层V和检测层H的联合概率分布分别定义为

(7)

(8)

1.4 RCDBN

RCDBN是一个为三维局部区域设计的阶层式生成模型,由几个最大池化卷积受限波尔兹曼机层叠而成。RCDBN的训练可以贪婪(Greedy)地对RCRBM进行逐层训练[17]。

尽管最大池化RCRBM能够通过堆栈形成RCDBN,但是由于PDD是一个分布,如果PDD的分辨率太高,即投影距离间隔太多,就会引入噪声,使PDD不能很好地获取和表达光谱信息中的最重要特征,造成分辨率下降。所以,一般PDD的分辨率比较低,即投影间隔通常设置较少。然而,如果PDD的分辨率很低,PDD就对小的光谱变化不敏感。具体来说,PDD获取光谱变化主要是通过扇形窗口的旋转来获取,当旋转步长很小并且PDD的分辨率很低时,光谱变化就体现不出来或者被忽略。为了解决这个问题,旋转步长一般被设置的相对较大,这样就能够在PDD分辨率很低的情况下识别光谱变化。然而,大的旋转步长将会为高层RCRBM提供较少的池化层节点,这样就减少了信息量的提取。作为权衡,旋转角度步长在实验中被设置为10°,来捕捉两个相邻扇形窗口的光谱和空谱信息。

2 实验分析

2.1 参数设置

RCRBM共有5个参数:顶角角度θc,步长角度θs,局部区域的半径R,卷积核个数K,以及训练样本个数T。由于步长θs=10°,以便更多地获得相邻扇形卷积窗口之间的空谱特征的变化,相应地,检测层Hk的节点个数N=360°/10°。

在实验中,当卷积核的个数K=20时,训练效果最好;当T= 30%样本、θc=40°时,将R尝试使用0.07、0.09、0.11 及0.13倍的LGD,当R为0.11倍的LGD时,取得了最好的结果。

2.2 实验结果

在国际通用数据集Indian Pines及Pavia University上,对比最新的高光谱分类方法,评估本文方法的性能表现。为了表述方便,将数据集中的各类数据名称用编号代替,如表1和表2所示。

表1 Indian Pines数据库数据类型编号表

表2 Pavia University数据库数据类型编号表

表3、表4表明了不同方法在不同数据集上的性能表现,评价一个高光谱图像分类方法的优劣通常需要计算一些定量指标,主要包括总体准确度(Overall Accuracy,OA)、平均准确度(Average Accuracy,AA)和分类精度平均值Kappa系数。从表3可以看出,在Indian Pines 数据集上,具有多项式核的SVM-Poly的结果与文献[18]中相同;CNN[19]没有显示数据结果,因此在表格中用“-”表示;本文的RCDBN方法比传统DBN方法的性能有显著提升;半监督方法GL获得了OA为90.84%、AA为93.23%、Kappa系数为0.888 4的结果,这个结果与RCDBN相近。在Indian Pines数据集中共有16类不同地物类别,然而其中8种只有少量的训练资料,因此为了实验统计更有区分度和比较性,这8种数据被忽略不计。

表3 不同方法在Indian Pines数据集上的性能比较

表4 不同方法在Pavia University数据集上的性能比较

不同方法在Indian Pines数据集上的分类结果如图3所示,在Pavia University数据集上的分类结果如图4所示。RCDBN优于其他方法的原因在于,针对高光谱特殊的三维数据特点,采用了全新设计的RCRBM网络结构,用旋转卷积对每个光谱波段进行扇形局部特征的提取。旋转卷积能够在每个波段与空间数据构成的三维曲面上进行特征提取,特别是当高光谱图像存在混合像素时,可以通过设置采样点数来扩充空间维的分辨率,而不局限于传统的2D-CNN以像素为提取单位,从而利用提取到的每个采样点局部区域的PDD光谱数据特征对地物目标进行高精度分类。

图3 不同方法在Indian Pines数据集上的分类结果

图4 不同方法在 Pavia University数据集上的分类结果

3 结束语

本文提出的RCRBM通过叠加可以得到更深层的RCDBN,在训练样本较少的情况下,可以无监督地学习三维高光谱特征,弥补了手工设计描述符的不足,解决了使用深度网络阶层式学习三维模型的一些困难。本文还提出三维原始局部表征PDD,这说明RCRBM的旋转结构具备了通过旋转卷积直接在三维模型表面提取特征的能力。使用RCRBM进行高光谱图像分类,无需对高光谱数据进行PCA降维,而是采用旋转卷积核,直接在原始数据上进行有序卷积运算,最大限度地保留了原始数据信息,因此在性能表现上优于实验中的其他方法。

猜你喜欢
池化层扇形步长
基于Armijo搜索步长的BFGS与DFP拟牛顿法的比较研究
各种各样的扇形
卷积神经网络模型研究分析*
扇形统计图 教学设计
基于卷积神经网络的纸币分类与点钞
基于随机森林回归的智能手机用步长估计模型
基于深度学习卷积神经网络的人体行为识别研究
探源拓思融会贯通
———《扇形的认识》教学廖
基于全卷积神经网络的SAR图像目标分类*
多弱连接扇形超流体干涉栅陀螺的性能分析