基于深度强化学习的移动群智感知调度研究

2022-01-07 01:58李璐

信阳农林学院学报 2021年4期

李璐

(安徽工商职业学院管理学院，安徽合肥 231131)

移动群智感知技术是一种新型的大规模感知技术，能从物联网的移动设备收集的数据和信息[1-3]。移动群智感知具有广泛的应用领域，并且具有从智能设备收集和分析多媒体数据的潜力[4]。但是，传输和处理大量数据所带来的开销限制了移动群智感知的应用[5]。边缘计算能将计算任务从云服务器转移到边缘计算节点，以减轻移动群智感知中处理多媒体数据的压力[6-7]。同时，边缘计算节点通常更靠近移动设备，因此减少了传输大型多媒体数据时的网络开销[8]。因此，边缘计算能解决移动群智感应在应用过程中出现的问题。本文提出了基于深度增强学习模型的任务调度方法，以适应边缘计算的结构和拓扑。

1 任务调度问题

1.1 边缘计算的层次化结构

通常，边缘计算具有层次结构，包括云计算层、边缘计算层和用户设备层。在云计算层中，数据中心中的云服务器执行每个服务的主要计算。在移动群智感知中，数据分析通常部署在云计算层中，感测到的数据集存储在云服务器中。在边缘计算层中，有许多类型的智能设备，例如智能手表、智能手机、个人计算机，这些设备将在移动群智感知场景中感知不同的数据。在传统的计算结构中，所有收集的数据将直接发送到云计算层进行进一步处理。在移动群智感知场景中，传统云计算框架存在两个问题：首先，将数据从边缘网络上载到核心云网络会增加实时数据分析的延迟；其次是云服务器难以处理所有感测到的数据，包括一些多媒体数据。

边缘计算在云计算层和用户设备层之间添加了一个边缘计算层，以减轻云计算层的计算负担，并预处理来自用户设备层的感知数据。边缘计算层中的边缘计算节点通常部署在用户设备和云服务器之间的传输路径中，并且更靠近用户层。例如，运营商可以将边缘计算节点部署在无线接入网络(RAN)中，以减少从RAN到核心网络的流量。

在移动群智感知中，边缘计算可以提高数据分析的效率并减少云层的流量。因此，可以在边缘计算的任何层中执行给定移动群智感知整个或者部分任务。

1.2 资源感知的奖励模型

在任务调度模型中，我们使用集合U表示用户集合，使用ui表示U中的用户。每个用户ui都有任务序列ti,j。我们定义变量Xi,j来表示任务是否完成：当li,j≤Li时，Xi,j=1；否则，Xi,j=0。其中，li,j是任务ti,j的实际完成时间(TTC)，Li是任务所需的完成时间。

(1)服务质量的计算

如果边缘计算系统可以在所需的TTC之前完成任务，则任务已完成。每个用户有很多任务，很难用有限的资源来完成调度中的所有任务。因此，对于用户ui，我们使用服务实现率Qi表示服务质量(QoS)，即

(1)

其中，Ni是用户ui已经完成的任务数量。

(2)任务完成时间的计算

对于给定的边缘计算系统，我们使用集合F表示边缘节点集合，使用fm表示集合F中的节点。任务ti,j的TTC计算方式为：

(2)

(3)带宽和时延的计算

(4)奖励模型

(3)

因此，我们使用强化学习来最大化边缘计算系统的总回报。令rn表示边缘计算系统的单步奖励，令Rn表示总未来折扣奖励，即

(4)

其中N是边缘计算系统的目标执行时间，而γ是折扣因子。在典型的MDP公式中，折现因子γ通常小于1，以使奖励Rn收敛。

在移动群智感知中，每条用户数据、上传流量和云资源都可以合理地定价。因此，我们设计了在时隙n的所有带宽和计算成本的奖励rn为

(5)

其中，α、β和η分别是用户数据、上传流量和边缘计算处理的单价。边缘计算中的移动群智感知任务调度问题：给定一组边缘计算节点和一组用户，任务调度的目标是尝试将边缘计算节点分配给用户提交的每个任务的步骤，并以最小的计算和带宽成本来保证每个用户的QoS。

2 基于深度增强学习的调度

在任务调度中，调度器首先收集所有边缘计算节点和任务请求的状态信息，然后生成多个调度决策。对于每个决策，调度器都会将状态位图作为神经网络的输入。神经网络学习并推断出输入调度决策的值。任务调度器选择并向边缘节点管理器发送具有最大奖励值的决策。节点管理器在任务请求的决策中分配节点，移动设备将数据上传到分配的边缘节点。

最佳调度是一个确定的固定策略(用π表示)。决策集合π由一系列函数{A1,…,AN}。调度的目的是找到最大总折现奖励的最佳集合π*。当采用策略π进行调度时，时隙n的动作为An=π(Xn)。因此，该决策的回报为rn=r(Xn,π(Xn))。

根据增强学习模型，最优Q函数的定义如下所示

(6)

传统的强化学习将使用Bellman方程迭代地计算Q*函数，然而，由于不存在用不同的π分别估计Q函数的通用方法，因此无法使用迭代计算Q函数。在此，我们需要一个函数逼近器来估计Q*。

传统的强化学习通常采用线性函数逼近器，而在深度强化学习中，逼近器是具有深度神经网络的非线性函数。在我们的解决方案中，我们使用Q网络以找到函数逼近器。损失函数Li(θi)的定义为

Li(θi)=Eρ(Xn,An[(Yi-Q(Xn,An;θ))2]

(7)

其中，Yi=EXn+1[rn+γQ(Xn+1,An+1;θi-1)]|Xn,An]

(8)

Yi是第i次迭代的目标，而ρ(X,A)是序列X和动作A上的行为分布。我们使用随机梯度下降来优化式(7)，以简化计算过程。我们应用ε贪婪策略来探索ρ(X,A)，即以概率1-ε选择使Q函数值最大的动作A，以概率ε随机选择动作。

在移动群智感知的深度强化调度算法中，首先初始化回放缓冲区R以存储用于小批量采样的转换(即经验回放)。缓冲器R用于在学习深度强化学习模型期间存储先前的经验。由于即时转换的差异较小，因此有必要利用过去的经验来使强化学习模型快速收敛。

我们设计了一种位图结构来描述边缘计算节点调度，以作为CNN网络的输入。在边缘计算环境中，尽管用户和边缘计算节点之间的距离会随着用户的移动而变化，但是边缘计算节点之间的连接通常是稳定的。因此，我们假设maxLi≤|F|，并设计一个大小为|F|×|F|的矩阵作为CNN神经网络的输入。在计算节点的分配中，同一任务的步骤将分配到相同的边缘计算节点或相邻的计算节点。

3 性能评估

在实验中，我们在服务器上采用Python及其networkx函数库搭建了一个网络模拟器。服务器配置有英特尔i7-6700 3.6GHz处理器，16 GB的内存，2TB的硬盘容量，NVIDIA GeForce GTX 2080的显卡。操作系统为Ubuntu 16.04，深度学习平台为Keras。我们使用从CRAWDAD获得的MIT Reality数据集来进行性能评估。该数据记录了100个用户节点在麻省理工学院内移动的数据。我们选择该学院内的10个位置作为边缘计算节点的位置，节点数量为10到50，而相同位置的计算节点数量设置为1到5。用户设备与边缘计算节点之间的带宽分配为[10，25] Mbps。边缘计算节点之间的带宽设置为10Gbps，边缘计算节点和云服务器之间的带宽设置为1Gbps。我们考察使用移动群智感知应用进行数据上传的场景，每个任务所上传的数据量服从[1MB，10MB]的均匀分布，每个任务的输出数据的大小设置为1KB。每个用户随机地请求这些上传任务。所需的TTC设置为1到5秒，接近平均页面加载时间。一个时隙的长度设置为100 ms，每个任务分为三个步骤，每个步骤的TTC分布为[100，300] ms。我们使用Keras来构造神经网络，并使用RMSProp优化算法来进行梯度下降。神经网络的结构如图2所示，神经网络的训练次数为10万次。我们将所有输入的数据存放在重放存储器中。神经网络的输入是当前网络的状态，例如图2中的输入I1是指分配了动作A1后网络的状态。然后经过两个卷积层和一个全连接层就能计算出相应的Q值。我们应用ε贪婪策略，即以概率1-ε选择使Q函数值最大的动作A，以概率ε随机选择动作。

我们将本文提出的DFS与现有的先入先出(FIFO)和DeepRM调度策略进行比较。我们探讨在不同的请求时间间隔μ、不同数量的边缘计算节点三种方法的奖励，结果如图3所示。两个请求之间的时间间隔服从均匀分布，μ表示均匀分布的期望。由结果可知，与另外两种方法相比，本文提出的DFS能获得更高的奖励。增加边缘计算节点的数量可以提高FIFO的性能。由于FIFO在联机调度中为任务分配了尽可能多的边缘计算节点，因此当可用边缘计算节点不足时，性能将迅速下降。由于强化调度可以在训练后了解未来分配的最佳决策，因此DFS和DeepRM的性能较好。另外，任务请求的频率明显影响调度的性能。任务之间的间隔越长，奖励就越减少，因为任务的总量减少了。随着任务间隔增加，DFS获得的奖励要高于DeepRM的奖励。DFS将深度学习的感知能力和强化学习的决策能力相结合，能够感知网络系统的动态变化。通过不断地观察网络状态并以迭代的方式不断地学习最优的策略，DFS综合考虑了用户上传流量、网络的带宽资源以及边缘计算处理的成本，因此能够获得更好的实时性能。

4 结论

面向移动群智感知中的任务调度问题，结合边缘计算技术，提出了一个基于深度学习模型的层次化任务调度方法，以实现高效的任务调度和资源分配。采用真实数据集进行仿真实验，实验结果验证了该方法的有效性。该结果同时也表明，深度强化学习具备强大的自学习能力，并且适用于诸如网络系统的动态环境。