基于改进型变分自编码器的不确定性空间信息重建方法

2021-11-05 01:29屠红艳夏鹏飞
计算机应用 2021年10期
关键词:解码器空间信息信息量

屠红艳,张 挺*,夏鹏飞,杜 奕

(1.上海电力大学计算机科学与技术学院,上海 200090;2.上海第二工业大学工学部,上海 201209)

0 引言

空间信息是指包含空间特征的数据集合[1-2]。空间信息的特征表征是地质勘探、空间科学、石油工程和生物学等领域的重要研究课题之一[3-4]。直接获取大范围空间信息的成本较高,通过数值方法重建是获取空间信息的主要手段之一。目前数值重建方法主要分为“确定”性重建方法和“不确定”性重建方法[5]。“不确定”性重建方法的不确定性主要体现在重建结果的随机性。目前,作为典型的“不确定”性重建方法,多点信息统计法(Multiple-Point Statistics,MPS)通过提取训练图像(Training Image,TI)的内在特征完成空间数据重建[6],但在每次重建时都需要重新扫描TI而导致整体重建速度较慢。

近年来,深度学习已经广泛应用于与特征提取相关的研究领域,在深度生成模型方面,无监督学习模型取得了突破性进展[7],其中,变分自编码器(Variational Auto-Encoder,VAE)被视为无监督学习领域的重要工具之一,在深度生成模型领域得到了越来越多的应用[8-9]。

本文结合信息论将VAE 应用于空间信息的不确定性重建研究,将结合了信息论的VAE 方法——信息变分自编码器(Information Variational Auto-Encoder,IVAE)与原始VAE 方法作对比,在重建效果上有一定改进;与一些传统的重建方法相比,在速度上更具有优势,可以大大缩短训练时间。实验验证了本方法的有效性。

1 本方法核心思想

1.1 变分自编码器模型

VAE 是一种基于变分贝叶斯网络结构的深度生成模型,它使用两种神经网络建立了两种概率密度分布模型:一种用于对原始输入数据进行变分推理,生成隐式变量的变分概率分布,称为编码器(Encoder);另一种是根据生成的隐式变量变分概率分布,生成训练数据的近似概率分布来重建数据,称为解码器(Decoder)。VAE结构如图1所示。

图1 VAE结构Fig.1 Structure of VAE

图1中,“+”和“*”分别表示元素相加和相乘,X'表示重建结果。在编码阶段,由于给定的数据集X通常是高维的,具有复杂的依赖关系,所以VAE 首先通过编码器学习训练数据特征,由于误差在传播过程中需要经过一个不连续的、没有梯度的采样层,而随机梯度下降(Stochastic Gradient Descent,SGD)虽然可以处理随机输入,但不能处理随机操作,所以需要“重新参数化”,即通过引入辅助参数ε来实现。ε从标准正态分布N(0,1)中采样得到,使得中间隐变量z和高斯分布的标准差和均值σ、µ之间的关系可用式(1)表示,从而可以使用SGD 方法进行优化。如图1所示,σ和µ由编码器深度神经网络计算得到,z的采样可以通过以下方式完成[10]:

VAE 模型通过引入参数φ和θ分别控制编码器和解码器的神经网络优化。由于真实数据X的隐变量z的分布是不可知的,为此在编码器网络中引入用φ参数化的神经网络编码器模型qφ(z|x)来取代无法确定的真实后验分布Pθ(z|x),并采用KL(Kullback-Leibler)散度[11]来度量编码器模型qφ(z|x)和真实后验分布Pθ(z|x)的相似性,训练优化约束参数φ和θ,目标是最小化KL 散度,即最大化证据下界函数L,具体的相关含义见参考文献[12]。证据下界函数定义如下:

其中:DKL表示KL散度;lb表示以2为底的对数;Pθ(x'|z)是用θ参数化的神经网络解码器;Pθ(z)表示隐变量z的概率分布。最后将中间隐变量z输入到解码器模型Pθ(z)Pθ(x'|z)得到最终的空间数据重建结果X'。

1.2 香农信息熵与费雪信息量

从上节VAE 模型的证据下界的定义可以发现,原始VAE模型只考虑KL 散度作为正则化惩罚项,所以很难在隐变量z的表示学习和重建结果的似然最大化之间取得平衡[13]。因为散度误差只控制VAE 编码网络的表示方式,对解码网络没有控制,所以提出将随机向量X的香农信息熵和费雪信息量相结合应用于VAE 的编码阶段和解码阶段。设X的香农信息熵为H(X),费雪信息量为J(X)。在香农信息熵的使用中通常将之转化为熵权形式[14]:

其中exp 表示以e 为底的指数函数。当X表示随机向量时,费雪信息量J(X)表示一个费雪信息量矩阵,那么N(X)与J(X)的迹之间满足关系:

其中:K取决于分布形式和随机向量的维数,K≥1 是当且仅当X为一个高斯随机向量时成立,这个性质的证明见参考文献[15],tr表示矩阵的迹。由式(4)可以发现信息量J(X)与香农熵权N(X)之间存在一个平衡关系,可以通过香农熵权和费雪信息间的关系来平衡似然估计和真实数据与隐变量z之间的依赖关系。

1.3 IVAE主要思想

在本节中利用信息量来平衡VAE 模型的编码阶段和解码阶段,并提出新的规则惩罚项。IVAE 模型不仅考虑KL 散度作为惩罚项,而且在编码阶段和解码阶段分别考虑其费雪信息作为惩罚项,即在费雪信息量的约束下最大化证据下界,并重新构造证据下界L(θ,φ;X)如下:

与原证据下界式(2)相比,式(5)增加了两个分别调节编码器和解码器的惩罚项,λz调节编码器网络,λx'调节解码器网络。Fx'和Fz均为正常数,分别表示解码器网络和编码器网络中期望的费雪信息值。Fx'和Fz越大,表明更倾向于用θ和φ参数化的模型进行分布估计;反之则表明弱化了分布建模,增强了香农熵权的影响,而费雪信息的估计可以根据它的定义直接计算。

下面根据编码器网络和解码器网络分别讨论模型的优化目标。先以编码器网络为例,在编码器网络中考虑费雪信息量,则设式(5)中λx'为0,编码器网络的优化目标Le(θ,φ;X)包含了散度误差项和信息误差项:

后验分布qφ(z|x)为正态分布,Pθ(z)为标准正态分布,故式(6)中的KL散度计算为:

式(6)中的费雪信息量根据定义[12]得到:

将式(7)和(8)代入式(6),得到优化目标为:

同理,在解码器网络中将费雪信息量与证据下界函数结合,则设式(5)中λz为0,解码器网络的优化目标Ld包含了重建项和信息误差项:

对比IVAE 与原始VAE,可见IVAE 的证据下界公式(5)包含一个重建项和两个分别考虑了信息量和KL 散度的惩罚项,而VAE只考虑KL散度正则化惩罚项,IVAE通过结合费雪信息量和香农信息熵来平衡似然估计和数据与隐变量之间的依赖关系,并提出新的规则惩罚项,使得VAE 模型结合考虑KL散度和空间数据的信息量,从而提高空间数据重建质量。

2 空间信息重建方法的流程

2.1 算法步骤

VAE 本质上是在传统自编码器的基础上,将神经网络计算结果的平均值加上“高斯噪声”,用方差神经网络来动态调整噪声强度。引入编码噪声和KL 正则化使编码到隐空间中的数据特征分布不断地迭代优化以接近标准高斯分布。本文将IVAE模型应用于空间信息重建,分别在编码器网络和解码器网络中将信息误差作为约束项。具体步骤如下:

步骤1 设计训练网络结构,初始化所有参数,应用SGD更新参数,选择学习率。

步骤2 使用设计好的深度神经网络对训练数据进行迭代拟合,得到训练数据的概率分布和信息量,根据式(6)对编码器网络进行优化。

步骤3 从N(0,1)中进行随机采样,将随机采样结果和编码器网络得到的σ、µ代入式(1)计算中间结果z,当训练误差达到要求时保存网络参数。

步骤4 将中间结果z作为解码器网络的输入,根据式(10)对解码器网络进行迭代优化,对z进行逐层解码,解码器的解码结果即为重建结果,保存网络参数。

2.2 技术路线

首先通过数字图像处理技术对采集的图像的色彩空间进行分析,确定分割阈值,对分割后的图像进行形态学处理,最终获得孔隙几何形态结构较好的训练数据。然后对训练数据应用本文所提方法,先将数据输入编码器进行编码,然后通过采样得到中间结果,最后将中间结果输入到解码器中进行解码得到最终结果。技术路线如图2所示。

图2 技术路线Fig.2 Technology roadmap

3 实验与结果分析

本实验拟采用真实岩石数据作为空间信息重建的数据源。由于真实岩石孔隙数据难以用数学公式或者某种定量的语句描述,故岩石的孔隙分布具有很强的不确定性特征,适合采用不确定性重建方法重建孔隙结构。实验样品为直径3 mm 的圆柱形砂岩,通过采用同步辐射射线扫描砂岩样品获得该砂岩样本的三维空间数据,分辨率为每体素10 μm。

3.1 训练图像

从上述真实砂岩中截取80×80×80体素的体数据作为TI,孔隙度为0.170 5,外表面、剖面图(X=40,Y=40,Z=40)和孔隙如图3 所示。图3 的砂岩中仅包含两种状态值:孔隙和骨架,其中蓝色表示孔隙,灰色表示骨架。输入数据集为80×80×80的三维矩阵,矩阵中的元素有两种状态值{0,1},1 表示孔隙,0表示骨架。训练数据共512 000(80×80×80)条。

图3 训练图像Fig.3 Training image

3.2 重建结果比较

在下面的实验中,分别采用IVAE、VAE 和其他几种经典的不确定性空间信息重建方法SNESIM(Single Normal Equation SIMulation)[16]、DS(Direct Sampling)[17]重建砂岩图像并进行对比分析。重建图像如图4所示。

图4 各方法的重建图像对比Fig.4 Comparison of reconstructed images by different methods

可见四种重建方法的结果均与TI(图3)具有相似的结构和长连通的孔隙空间,下面将量化比较各重建结果。

3.2.1 孔隙度比较

孔隙度是指岩样中所有孔隙空间体积之和与该岩样体积的比值,孔隙度ϕ的定义如下:

其中:VP表示孔隙体积,V表示岩石体积。多次重建结果的孔隙度均值在一定程度上反映了重建方法的重建质量,孔隙度方差则表明重建方法的稳定性。本文使用的训练数据的孔隙度为0.170 5,分别用IVAE、VAE、SNESIM 和DS 进行30 次砂岩重建。如表1 所示,IVAE 重建的三维图像的孔隙度更接近训练数据,而且方差最小,说明重建质量好而且波动性小。

表1 各方法30次重建结果的孔隙度均值与方差Tab.1 Porosity mean and variance of 30 reconstruction results by using each method

3.2.2 变差函数比较

变差函数通常作为空间数据的空间连续性的评价工具,定义如下:

其中:Var 表示方差,h表示空间距离,x和x+h分别表示空间两点位置,Z(x)表示空间点的状态值。

本文分别比较了TI 和IVAE、VAE、SNESIM 以及DS 的重建图像在X、Y、Z方向的变差函数,如图5 所示,IVAE 重建的空间数据与TI在3 个方向上(尤其是Z方向)的变差函数更为接近,表明IVAE 重建图像的孔隙结构特征与TI 更相近,说明IVAE重建图像的质量最好。

图5 TI与SNESIM、VAE、DS、IVAE重建图像的变差函数Fig.5 Variograms of TI and reconstructed images by using SNESIM,VAE,DS and IVAE

3.2.3 孔隙分布比较

通过对TI 和SNESIM、VAE、DS 以及IVAE 的重建图像的孔隙进行分析,可以得到重建图像内部孔隙的数量、大小和孔隙直径的分布情况。孔径近似定义为:

其中V为孔隙的体积。表2表示TI和30次重建图像的平均孔隙数目,表3 表示TI 和重建图像中的孔径。如表2 和表3 所示,IVAE与TI的孔隙数和孔径更为接近。

表2 TI和每种方法的30张重建图像的平均孔隙数Tab.2 Average numbers of pores in TI and 30 reconstructed images by using each method

表3 TI和每种重建方法重建图像中的孔径Tab.3 Pore diameters in TI and reconstructed images by using each method

图6 为TI 和每种方法的重建图像的孔隙分布情况,由于孔径分布图像不能为TI 和重建结果之间的差异度提供定量测量,因此,在孔径分布中引入差异度函数DD,定义为:

图6 TI和各方法的重建图像孔隙直径分布Fig.6 Distribution of pore diameters of TI and reconstructed images by using each method

其中:reSNESIM表示重建图像方法;Nd和nd分别表示孔径为d的训练图像与重建图像的孔隙数,DD越小表示差异度越小,从表4可以看出IVAE 与TI的孔径分布差异度最小,表明了本方法更具有优越性。

表4 四种方法与训练图像的孔径分布差异度Tab.4 Differences of pore diameter distribution between four methods and TI

3.2.4 CPU性能与内存比较

本文的实验环境:CPU 型号为Inter Core i5,8 GB 内存,GPU 型号为Nvidia GeForce GTX970(4 GB)。为了比较每种方法的平均性能,表5 记录了IVAE、VAE、SNESIM 和DS 方法30次重建时的CPU/GPU 平均利用率和重建时间。表5的重建时间列出了各方法第1次重建时间和剩余29次重建的平均时间。因为IVAE和VAE第1次重建时间包含了模型的训练时间,经过第1次重建时的训练,IVAE和VAE模型的参数被保存,之后的每次重建时间将被缩短。而如SNESIM和DS传统空间数据重建方法在每次的训练过程中都需要重新扫描数据,所以将IVAE 和VAE 与传统空间数据重建方法分成第1 次和其余29次时间比较。如表5 所示,IVAE 和VAE 在第1 次重建时间和其他29次重建时间上均具有较大优势,并且均可利用GPU 进行重建计算,而其他经典的重建方法只能依靠CPU完成重建,所以在重建时间和CPU负荷方面IVAE和VAE更有优势。

表5 四种方法在30次重建中的平均内存消耗、CPU/GPU利用率和运行时间Tab.5 Average memory consumption,CPU/GPU utilization and running time of each method in 30 reconstructions of each method

包括IVAE 的深度学习方法比传统方法具有的另外一个明显优势在于:每次进行新的空间数据重建时,SNESIM 和DS等传统重建方法都要重新扫描训练数据来建立一个新的模式库,但IVAE并不需要重新学习。因为传统重建方法一般只在内存中存储训练模式,导致每当重建过程结束,内存中的训练模式数据就被清除;但是IVAE模型经过第一轮的训练后将训练模型的参数永久地存储在硬盘,可以用于未来的重建过程,当需要重建与之前训练模型同类的空间信息时,可直接将空间信息的结构特征参数用于重建,大大减少了重建的总时间。

4 结语

传统的不确定性空间信息重建方法在每次重建时都需要扫描训练数据以建立训练模型,因此会花费较多训练时间,并且会占用大量的CPU 和内存资源。本文将费雪信息量和变分自编码器结合应用于空间信息不确定性重建。通过编码器提取输入数据的特征,再建模得到输入数据的概率分布并在编码器中根据信息量重新定义证据下界函数,然后通过无偏采样得到与输入数据具有相似分布的数据作为解码器的输入数据,最后的输出数据具有与输入数据相似的结构特征。实验表明本方法得到的重建结果具有更高的精度和更优的结构特征,在内存/CPU 占用率和时间消耗方面也优于传统不确定性空间信息重建方法。

猜你喜欢
解码器空间信息信息量
结合多层特征及空间信息蒸馏的医学影像分割
重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!
基于Android环境下的数据包校验技术分析
浅谈SCOPUS解码器IRD—2600系列常用操作及故障处理
共建空间信息走廊 助力“一带一路”
城市空间导示系统中的空间信息编码研究
做一个二进制解码器
走出初中思想品德课的困扰探讨
因人而异调整播放设置
让多媒体技术在语文课堂飞扬