最大后验推断在近似推断中的应用

2018-10-12 08:06来学伟

无线互联科技 2018年18期

来学伟

（三门峡职业技术学院信息传媒学院，河南三门峡 472000）

许多概率模型是很难训练的，其原因是很难进行推断。在深度学习中，我们通常有一个可见变量v的集合和一个隐变量h的集合。推断的挑战往往在于计算p(h|v)或者计算在分布p(h|v)下期望的困难性。而这样的操作在一些任务比如最大似然学习中往往又是必需的[1]。

1 推断是一个优化问题

为了构造这样一个优化问题，假设我们有一个包含可见变量v和隐变量h的概率模型。我们希望计算观察数据的概率对数logp(v;θ)。有时候如果边缘化消去h的操作很费时的话，我们通常很难计算logp(v;θ)。作为替代，我们可以计算一个logp(v;θ)的下界L(v,θ,q)。这个下界叫作证据下界（Evidence Lower Bound，ELBO）。这个下界的另一个常用名字是负变分自由能（Variational Free Energy）。具体地，这个证据下界是这样定义的：

L(v,θ,q) =logp(v;θ)−DKL(q(h|v)||p(h|v;θ)) （1）在这里q是关于h的一个任意概率分布。

因为logp(v)和L(v,θ,q)之间的距离是由KL散度来衡量的。因为KL散度总是非负的，我们可以发现L小于等于所求的概率的对数。当且仅当q完全相等于p(h|v)时取到等号。

令人吃惊的是，对某些分布q，L可以被化得更简单。通过简单的代数运算我们可以把L重写成一个更加简单的形式：

这也给出了证据下界的标准定义：

对于一个较好的选择q来说，L是容易计算的。对任意选择q来说，L提供了一个似然函数的下界。越好的近似q的分布q(h|v)得到的下界就越紧，换句话说，就是与logp(v)更加接近。当q(h|v) =p(h|v)时，这个近似是完美的，也意味着L(v,θ,q)=logp(v;θ)。

2 期望最大化

第一个最大化下界L的算法是期望最大化（Expectation Maximiza-tion，EM）算法，在隐变量模型中，这是一个非常热门的训练算法。在这里我们描述Neal and Hinton所提出的EM算法。EM并不是一个近似推断算法，但是是一种能够学到近似后验的算法[2]。

EM算法包含了交替进行两步运算直到收敛的过程：

M步（Maximization step）：使用选择的优化算法完全地或者部分地最大化关于θ的

这可以被看作通过坐标上升算法来最大化L。在第一步中，我们更新q来最大化L，而另一步中，我们更新θ来最大化L。

3 最大后验推断和稀疏编码

我们通常使用推断（inference）这个术语来指代给定一些其他变量的情况下计算某些变量的概率分布的过程。当训练带有隐变量的概率模型时，我们通常关注于计算p(h|v)。在推断中另一个选择是计算一个最有可能的隐变量的值来代替在其完整分布上的抽样。在隐变量模型中，这意味着计算：

主持人：为清理政府部门和国有大企业拖欠民营企业账款，国务院常务会议决定抓紧开展专项清欠行动，国办牵头督办，有关部门各负其责，审计部门要介入，对欠款“限时清零”。清欠行动有何意义？推进过程中可能会遇到哪些难点？如何克服推进？

这被称作是最大后验（Maximum A Posteriori）推断，简称MAP推断。

MAP推断并不是一种近似推断，它只是精确地计算了最有可能的一个h*。然而，如果我们希望能够最大化L(v,h,q)，那么我们可以把最大后验推断看成是输出一个q的学习过程。在这种情况下，我们可以将最大后验推断看成是近似推断，因为它并不能提供一个最优的q。

我们通过限定q分布属于某个分布族，能够使得最大后验推断成为一种形式的近似推断。具体地说，我们令q分布满足一个Dirac分布：

这也意味着我们可以通过µ来完全控制q。通过将L中不随µ变化的项丢弃，剩下的是一个优化问题：

这等价于最大后验推断问题：

因此，我们能够解释一种类似于EM算法的学习算法，其中我们轮流迭代两步，一步是用最大后验推断估计出h*，另一步是更新θ来增大logp(h*,v)。从EM算法角度看，这也是一种形式的对L的坐标上升，EM算法的坐标上升中，交替迭代的时候通过推断来优化L关于q以及通过参数更新来优化L关于θ。整体上说，这个算法的正确性可以得到保证，因为L是logp(v)的下界。在MAP推断中，这个保证是无效的，因为这个界会无限地松，由于Dirac分布的熵的微分趋近于负无穷。然而，人为加入一些µ的噪声会使得这个界又有了意义。

MAP推断作为特征提取器以及一种学习机制被广泛地应用在了深度学习中。在稀疏编码模型中，它起到了关键作用[3-4]。

可见的节点是由一个线性变化加上噪音生成的：

计算或者表达p(h|v)太过困难。每一对hi，hj变量都是v的母节点。这也意味着当v可观察时，图模型包含了连接hi和hj的一条活跃路径。因此，p(h|v)中所有的隐藏单元都包含在了一个巨大的团中。如果模型是高斯，那么这些关系可以通过协方差矩阵来高效地建模。然而稀疏型先验使得模型并不是高斯[5]。

如果我们将训练集中所有的h向量拼在一起并且记为H，并将所有的v向量拼起来组成矩阵Y，那么稀疏编码问题意味着最小化：

为了避免如极端小的H和极端大的W这样的病态的解，许多稀疏编码的应用包含了权值衰减或者对H列范数的限制[6]。

我们可以通过交替迭代最小化J分别关于H和W的方式来最小化J。两个子问题都是凸的。事实上，关于W的最小化问题就是一个线性回归问题。然而关于这两个变量同时最小化J的问题并不是凸的。

4 结语

本文提出一种基于逐层加速策略来加速深度学习中关于均值推断过程，缩短均值推断的时间，提高深度学习的学习效果，通过建立一个简单的识别模型，避免均值推断的过程中不能更改权值的缺陷，采用逐层的加速策略，利用深度学习得到的权值来调整识别模型每一层的识别权值，使得识别模型上的每一层的预测权值能更加逼近相应的每一层的均值[7]。从而加速了学习过程和获得更加符合数据特征的学习模型，进而提高在分类数据集上的准确性以及缩短分类的时间。