基于条件生成对抗网络的稀疏样本回归预测模型

2023-06-03 03:15薛嘉南孙学宏刘丽萍

宁夏大学学报（自然科学版） 2023年1期

薛嘉南 , 孙学宏 , 刘丽萍,3

(1.宁夏大学物理与电子电气工程学院,宁夏银川 750021; 2.宁夏大学信息工程学院,宁夏银川 750021;3.宁夏沙漠信息智能感知重点实验室,宁夏银川 750021)

回归预测是一种根据已知因变量与一个或多个自变量之间关系进行回归分析,构建数学模型探寻变量之间关系,进而预测可能存在变量的回归分析过程.其中概率回归,作为估计变量之间非线性关系的一种有效方法,可以利用变量之间的条件概率分布估计其可能存在的非线性关系.然而,这些回归分析都需建立在具有足够观察数据的基础上,进行统计学上的数据分析,显然这并不符合大多数现实状况.近年来,针对样本数据过少的问题学者们都尝试过不同的解决方法.谭少卿针对计算机视觉领域中少样本目标识别问题,提出了具备快速学习能力的少样本学习深度网络,并通过引入衡量图像像素级别差的L1损失函数加快网络收敛速度,从而提升对少样本的识别精度和识别率[1].贾宇峰在生成对抗网络数据增强方法的基础上,提出一种基于监督学习的条件自我注意生成对抗网络数据增强方法,通过额外信息指导生成网络构造数据,提升视觉样本特征与语义表征之间的兼容度,进而能够合成高质量的目标类别样本特征,大幅降低度量学习的难度[2—3].作为概率回归模型中的一种机器学习算法,高斯过程回归(Gaussian Process Regression, GPR)是使用高斯过程先验对数据进行回归分析的非参数模型.它将点与点之间同质性的度量作为核函数,根据输入的训练数据预测未知点值的回归模型[4—7].近年来,通过利用最大信息向量机(Maximum Informative Vector Machine,MIVM)等方法,GPR也可在多模态稀疏样本下获得较好的回归预测结果,但是高斯过程的计算需求是以训练集的立方形式进行增长的,这加大了GPR在多模态数据样本的计算代价[8—9].

作为一种利用生成网络与判别网络进行对抗学习,互相权衡的深度学习网络[10],生成对抗网络(Generative Adversarial Network,GAN)避免了许多难以处理的近似概率计算问题,在图像、分类、自然语言处理等领域有广泛应用.基于GAN的各种衍生网络中,条件生成对抗网络(Conditional Generative Adversarial Network,CGAN)原本作为指定图像处理生成对抗网络,通过在生成网络与对抗网络的输入端添加标签作为条件概率进入深度学习网络,从而指定网络生成所需的标签数据[11].鉴于CGAN网络自身条件概率分布的特性,可以认为其生成网络是近似回归模型的隐层网络,因而也可以认为是概率回归模型[12].由于自身的神经网络特性,CGAN可以有效地逼近相对复杂的拟合过程.同时,利用生成网络与判别网络的对抗特性可最小化两者的输出误差,直接应用于回归问题中[4].由此可见,CGAN在解决GPR多模态稀疏样本问题的同时,简化了拟合过程所需要的复杂计算过程,并可在此基础上利用贝叶斯理论,将概率回归中的边缘化方法改为随机梯度哈密顿量蒙特卡罗等其他方式[13],进一步优化CGAN网络以达到理想的预测结果.

本文提出一种基于CGAN的稀疏样本概率回归预测模型.将GPR作为概率回归模型的预测精度基准线,通过对比实验研究影响CGAN模型的网络因素,构建适用于稀疏样本回归预测的CGAN模型.

1 实验环境设置

本文实验采用4种非线性函数构成模拟数据,分别为指数型、异向型、蝴蝶型以及混合多模态型,其中混合多模态型由1组异向型函数和3组线性函数叠加而成.此外,本实验中的误差衡量标准选择均方误差(Mean Square Error,MSE)以及平均绝对误差(Mean Absolute Error,MAE).MSE是真实值与预测值之差平方后的求和平均,可以反映算法的鲁棒性.MAE是真实值与预测值之差的绝对值,可以更好地反映预测值误差的实际情况.此外,为了模拟数据稀疏的特征状况,通过随机丢弃部分特征和减少训练样本数,将完整的非线性模拟数据变为相对稀疏的数据样本.图1为4种非线性原始数据与稀疏数据分布对比示意图,左侧是样本量为1 000的原始数据分布图,右侧是经过稀疏处理后样本量为200的数据分布图.

图1 4种非线性原始数据与稀疏数据对比分布示意图

2 GPR回归预测基准线

作为本文概率回归模型的预测精度基准线,GPR是一种非参数的贝叶斯回归方法.通过贝叶斯推断寻找下列方程的回归过程:

y=wx+ε.

(1)

其中贝叶斯推断需满足

(2)

式中p(w|y,x)为后验分布.根据贝叶斯推断可知先验分布的似然估计是后验概率的边缘似然率.因此,针对可能的未知样本x*的预测分布可以表示为

(3)

这里为了简化计算过程,假设先验和似然均为高斯过程.从而针对未知样本x*的预测分布也为高斯过程,进而可以使用均值获得预测点,并使用方差获得不确定性量化.GPR是在贝叶斯推断的基础上,在函数空间上指定先验,并使用训练数据计算后验,最后再利用(3)式计算未知样本x*的后验预测分布.因此在高斯过程回归中,首先假定一个由均值m(x)、协方差函数k(x,x′)、标签分布以及噪声分布组成的高斯过程:

(4)

其中高斯过程就像一个无限维的多元高斯分布,其数据集标签的任何集合均服从联合高斯分布.继而从高斯过程先验出发,训练样本和测试样本的集合同样也服从联合多元高斯分布:

(5)

式中K为协方差核矩阵,其元素对应于观测评估的协方差函数.至此,高斯过程回归预测逻辑已经完成,均值m(x)以及协方差函数k(x,x′)的选择将决定GPR的先验模型选择.本实验选取Matern32作为GPR的核函数. 作为径向基核函数(Radial Basis Function, RBF)的泛化内核,Matern内核的本质是一种类似于RBF的恒定核函数,通过附加参数控制核函数的平滑程度,其协方差公式为

k(x,x′)=

(6)

式中:d(·,·)为欧氏距离;Kv(·)为修改后的贝塞尔函数;Γ(·)是伽马函数;参数v为32.当v接近无穷大时,Matern32协方差公式与RBF一致.由此可见,Matern32核函数可有效控制学习函数的平滑度,进而使得底层函数具有更好的关联属性.至此,基于Matern32的GPR算法流程可表述如下.

算法1 基于Matern32核函数的GPR算法

高斯过程回归,径向基核函数算法流程:

(Ⅰ)条件:训练样本集和预测样本集分别为

Dn={(xi,yi)|i=1,2,…,n},

(Ⅱ)目标:寻找函数y=f(x).

(Ⅲ)算法流程:

Step 1 指定先验方程

p(f1:n)=GP(m(·),k(·,·)),

其中

Step 2 指定似然方程

Step 3 代入训练数据

Dn={(xi,yi)|i=1,2,…,n}.

Step 4 优化超参数

Step 5 通过超参数θ*训练先验概率p(f1:n)和似然方程p(y1:n|f1:n).

Step 6 代入新的样本

Step 7 计算后验分布

p(fnew|Dn)～N(μnew|Dn),σ2(xnew|Dn).

根据算法1分别获得4种非线性模拟数据基于Matern32核函数的GPR回归预测结果损失函数值(表1).

对于蝴蝶型、异向型以及指数型模拟数据样本,基于Matern32的GPR回归预测精度随着样本数的减少并无显著变化;对于混合多模态模拟数据样本,GPR的回归预测精度均较差.这是由于以Matern32为核函数的GPR并没有学习到多模态稀疏样本的本质特征,反而当样本特征范围下降时精度才有所提升.由此可见,多模态稀疏样本对GPR的预测结果影响较大.

3 CGAN回归预测比较

2014年Mirza等人[11]提出CGAN网络框架,期望通过代入标签数据以约束生成网络随意生成数据的行为,进而在图像生成领域简化获得指定图像的过程.额外标签信息在CGAN网络内作为约束信息控制生成器生成的图像样本,也作为额外信息提供判别网络的标准,其本质为基于标签信息的条件概率分布约束过程.这种约束生成标签数据的生成对抗网络框架如图2所示.

图2 条件生成对抗网络生成标签数据示意图

通过加入条件概率分布代替原来单纯的噪声和样本分布,可表示为

(7)

Εz～pz(z)[log(1-D(G(z|x)|x))]].

(8)

将pg作为噪声和y经过生成网络生成的隐性条件分布.(8)式可进一步改写为

Εy～pg(y|x)[log(1-D(y|x))]].

(9)

根据(9)式可知,相较于GAN而言,CGAN的样本同时约束生成网络和判别网络.因此,生成网络可以通过学习pg(y|x)的条件概率分布,近似逼近pd(y|x)原始数据的条件概率分布.所以,就回归问题而言,生成网络将噪声z和条件变量x作为输入,判别网络将样本y和条件变量x作为输入.由此,CGAN概率回归算法流程可表述如下.

算法2 基于梯度下降的CGAN概率回归算法

(Ⅰ)条件:训练样本集和测试样本集分别为

Dn={(xi,yi)|i=1,2,…,n},

(Ⅲ) 算法流程(分为判别网络与生成网络):

(ⅰ)判别网络

Step 1 根据批次m获得先验噪声

pg(z)={z(1),z(2),…,z(m)}.

Step 2 根据批次m获得原始数据

pdatay=(y1,y2,…,ym).

Step 3 根据批次m获得原始数据

(ⅱ)生成网络

Step 1 根据批次m获得先验噪声

pg(z)={z(1),z(2),…,z(m)}.

Step 2 根据批次m获得原始数据

pdatax=(x1,x2,…,xm).

根据算法2可以得到改进的条件生成对抗网络模型示意图(图3).

图3 改进的条件生成对抗网络模型示意图

从图3可知,相较于条件生成对抗网络,标签信息和噪声作为生成网络的输入信息,通过隐层后,在生成网络生成数据样本.在判别网络中,生成数据样本、原始样本及标签信息同时进入隐层,最后在判别器得出判别结果,进而优化生成网络.由此可得改进的条件对抗生成网络对4种非线性模拟数据的回归预测结果(图4).

图4 基于改进的CGAN模型的非线性模拟数据的回归预测结果示意图

图4中,左侧为稀疏后4种非线性数据样本的分布示意图,右侧为经过训练后噪声经过生成网络生成的预测结果示意图.由图4可以看出,对于指数型、异向型以及蝴蝶型预测结果,改进的CGAN模型的预测结果与原始样本数据的分布近似,均在各种类型数据的覆盖范围之内.但是对于混合多模态型模拟数据,改进的CGAN模型的预测结果相较于原始数据不存在断层,预测精度相较于指数型、异向型和蝴蝶型并不精准,但是相较于GPR而言具有更好的精度.这是由于混合多模态样本数据由多组非线性样本重叠构成,与真实数据的样本分布较为近似.在这种混合多模态样本分布中,GPR的核函数选取影响其收敛的区间,进而影响预测精度.但是CGAN模型的深度网络构造可以有效减少由核函数选取带来的影响,通过深度学习网络模拟构建函数过程,可以近似模拟较为复杂的样本分布空间,进而具有较为准确的预测结果.

定量分析结果见表2.由表2可知CGAN模型的4种非线性回归预测损失函数值均小于GPR模型.

表2 CGAN与GPR的4种非线性回归预测模型损失函数值

4 结论

本文把基于Matern32核函数的GPR作为概率回归模型在稀疏样本回归预测中的基准线,通过分析CGAN模型与概率回归模型的构造,提出利用CGAN解决稀疏样本回归预测问题.通过对比实验发现,本文提出的CGAN相较于GPR可以有效提高稀疏样本在回归预测中的预测精度.