基于深度强化学习的蜂窝无人机网络中的轨迹设计

2020-03-11 04:11吴凡毅徐开明吴建军

无线电通信技术 2020年2期

吴凡毅，王凯，赵頔，徐开明,4，吴建军

(1.北京大学信息科学技术学院，北京 100871;2.中国人民解放军军事科学院，北京 100091;3.中国人民武装警察部队特种警察学院，北京102211;4.中国空气动力研究与发展中心，四川绵阳 621000)

0 引言

无人机是一种新兴的感知设备，由于它机具有高灵活性和低部署成本等优势，应用场景非常广泛[1-2]。在现有的无人机系统中，其采集到的数据是通过未授权频谱(如ISM频段等)传输到移动设备端的。然而，由于未授权频谱的随机接入特性，移动设备端受到的来自周围环境的干扰是不可控的，这导致无人机感知服务的服务质量(QoS)难以保证[3]。因此，现在亟需一种更可靠的网络来支持无人机感知服务。

针对这一问题，目前的一种解决方案是利用地面的蜂窝网络来支持无人机感知服务，该方案又被称为蜂窝无人机网络[4]。在此网络中，无人机感知到的数据可以直接传输到移动设备，即直通的方式，这样可以有效提升近距离感知服务的吞吐量。此外，当感知服务的距离较远而直通通信无法满足速率要求时，无人机可以通过传统的蜂窝通信方式，通过基站将数据传输到移动设备端，这样可以有效保证服务质量。

本文研究了一个蜂窝无人机网络，其中包含了多个无人机执行感知任务。假设存在2种无人机的通信模式：直通模式和蜂窝模式，其中直通模式作为蜂窝模式的一种“Overlay”来工作。在这一网络中，无人机采集到的感知数据可以通过这2种模式中的任何一种传输到移动设备端。此外，为了组织多个无人机完成感知和传输，将设计一个边感知边传输协议，该协议可以使用嵌套马尔科夫链[5]来分析。由于无人机的传输模式会影响到它们的轨迹，因此在考虑了传输模式的情况下研究了无人机轨迹设计问题，以最大化系统的总效用。该问题是一个马尔科夫决策问题，其状态行动空间非常大，因此提出了一种基于深度强化学习[6]的多无人机轨迹设计算法解决这一问题。

在现有的文献中，有关蜂窝无人机网络的研究工作可以分为两类：无人机与基站的通信[7]及无人机之间的通信。文献[7]联合优化了一个蜂窝无人机网络中无人机的飞行轨迹、感知地点和调度方案，以最小化无人机完成任务的时间。文献[8]则分析了一个多无人机协作的蜂窝无人机网络中的协作控制、吞吐量、丢包率和中断概率。然而，作为一个重要的实际场景，无人机与终端直接通信的场景并没有在现有的文献中考虑到。因此，本文考虑了一个存在直通通信的蜂窝无人机网络，并研究了此场景中的无人机轨迹设计问题。

1 系统模型

本文的蜂窝无人机网络，如图1所示，系统中的多址方式采用正交频分多址(OFDMA)。在这个系统中，有N个无人机需要执行感知任务，记这些无人机为N= {1,2,…,N}。每个无人机都需要从感知任务处采集感知数据，然后将感知数据传输到对应的移动设备。为了支持无人机的数据传输，假设系统中存在2种模式：

① 直通模式：无人机直接将数据传送给移动设备；

② 蜂窝模式：数据传输分为两个阶段，第一阶段，无人机将数据传送给基站；第二阶段，基站把数据传送给移动设备端。

图1 系统模型Fig.1 System model

本文假设2种模式传输的时间单位为帧。具体来说，直通模式下的传输利用完整的一帧；蜂窝模式下的两段传输分别利用半帧。

假设系统中存在K个正交的子信道来支持OFDMA通信，记这些子信道为K= {1,2,…,K}。子信道的分配由基站来完成。为了避免同信道干扰，假设直通模式采用Overlay的方式与蜂窝模式共同工作，即每个无人机都使用相互独立信道。需要说明的是，蜂窝模式下的两段传输将使用同一个信道。

为了评价无人机的感知和传输质量，使用三维笛卡尔坐标描述无人机、基站、移动设备和感知任务的位置。具体来说，基站的坐标为x0=(0,0,H0)，其中H0为基站的高度。第i个无人机及其对应的移动设备和感知任务的坐标，分别为

由于无人机机载传感器的物理限制，每一次感知不一定能保证是成功的。因此，本文将采用文献[9]中的概率感知模型评估无人机的传感器的感知质量。具体来说，第i个无人机的成功感知概率可以表示为无人机与任务距离的指数函数，即

Pss,i=e-λtf li，

无人机的飞行高度通常较高，因此无人机与地面设备(包括基站和移动设备)通信的信道与传统的地面通信信道具有不一样的特性。本文将采用文献[10-11]中的空对地信道模型与地面信道模型对无人机的传输建模。对于直通模式下的无人机，其移动设备处的信噪比可以表示为：

2 边感知边传输通信协议

为了协调无人机完成感知任务，本文将采用一个边感知边传输通信协议，如图2所示。在此协议中，假设无人机的感知和传输是通过一系列循环周期的形式来完成。具体来说，每个循环周期包含了感知和传输两部分。当一个周期结束后，下一个周期即开始。因此，无人机的感知过程是交替进行的，即无人机会“一边感知，一边传输”地完成感知任务。一个周期的总长度为Tc帧，感知部分和传输部分的长度分别为Ts帧和Tu帧。

在感知部分，为了保证传输的质量，规定只有Ts个帧全都感知成功时才可判定该无人机感知成功。在传输部分的开始，基站会首先执行子信道分配。本文规定分配规则是最大化系统中的总成功传输概率，相当于把系统中的K个子信道分配给成功传输概率最大的K个无人机。如果一个无人机被分配到子信道，它会从直通模式和蜂窝模式中选择能成功传输的模式来完成数据传输。如果无人机在这2个传输模式下都可以成功传输数据，那么它会选择传输速率更大的模式。如果无人机在任何一个模式下都不能成功传输数据，则视为它在这一帧传输失败。因此，在每个循环周期的传输部分中，无人机在每一帧的状态都有5种可能：未分配信道、传输失败、直通模式传输成功、蜂窝模式传输成功以及空闲，如图2所示。

在边感知边传输通信协议下，无人机的感知和传输具有马尔科夫特性。由于感知和传输过程是耦合在一起的，因此可以使用一种特殊的马尔科夫链，即嵌套马尔科夫链，对该协议进行分析，嵌套马尔科夫链的细节可参见文献[11]，在此模型下，本文定义无人机感知成功之后的成功传输为有效传输。进一步的，本文定义无人机的效用为该无人机在执行任务时有效传输的次数。当一次传输为有效传输时，无人机获得效用1，反之为0。

图2 边感知边传输通信协议Fig.2 Joint sense-and-transmission protocol

3 基于深度强化学习的轨迹设计

3.1 轨迹设计问题

本文的研究目的是在考虑无人机传输模式的同时对无人机的轨迹进行设计。需要强调的是，基于边感知边传输通信协议，无人机的模式选择结果将取决于无人机的位置，因此对无人机轨迹进行设计的同时，无人机的传输模式已经被确定好了。

为了能够更方便地设计无人机轨迹，本文将把连续的空间离散化。如图3所示，离散化的空间将可以用网格模型来表征。在该模型中，无人机在一个周期内的移动可以有最多27种可能。相邻2个空间位置点的距离表示为Δ，它取决于无人机的最大飞行速度。

图3 网格模型Fig.3 Lattice model

本文定义第i个无人机在第t个周期的位置为xi(t)，则该无人机从该时刻起的飞行轨迹可以表示为一系列位置的集合，即Ti(t)={xi(t),xi(t+1),...}。此外，为了表征无人机的位置选择，定义第i个无人机在第t个周期可以选择的位置为集合A(xi(t))。为了评估无人机在一个周期内的感知和传输情况，把无人机在第t个周期内的效用表示为ri(t)。如果本周期内的传输是有效的，ri(t) =1；反之，ri(t)=0。考虑到感知任务的时效性，引入折旧因子ρ。

本文假设无人机选择使其总效用最大的轨迹飞行，则无人机的轨迹设计问题可以写成如下形式：

3.2 轨迹设计算法

由于边感知边传输通信协议可以使用嵌套马尔可夫链来分析，所以本文研究的无人机轨迹设计问题是一个马尔科夫决策问题。在这个问题中，无人机的状态行动空间非常大。因此，本文将采用强化学习的方法来解决这个问题。在强化学习的框架下，每个无人机都可以视为一个智能体，而网络设置(包括基站、移动设备和感知任务等)都视为环境。在每个循环周期开始时，每个智能体需要观察当前时刻的所有智能体的状态(记为s)。然后每个智能体将根据自己的策略(记为π)来决定自己的在这一时刻的行动(记为a)。每个智能体在采取行动之后，会获得回报(记为r)，并且观察下一时刻的状态(记为s′)。因此，在强化学习的框架下，设计无人机的轨迹相当于优化每个智能体的策略。

对于状态行动空间不大的马尔科夫决策问题，可以通过Q-learning的方法求解[12-13]。然而，本文研究问题的状态空间非常大，使传统的Q-learning不可行。因此，提出了一种基于深度Q网络的多无人机轨迹设计算法。首先，定义第i个无人机的Q值为Qi(s,a)，含义为该无人机在状态s采取行动a，而且之后的状态都按照自己现有的策略来行动时，该无人机获得的累计收益回报。在本算法中，每个无人机的策略都可以使用一个深度神经网络来表示。记第i个无人机的网络为Qi，该网络的输入是所有无人机的状态，而网络的输出为该无人机在当前这一时刻所有可能的行动对应的Q值。而无人机在一个状态的策略为选择对应Q值最大的行动[14-15]。

多无人机轨迹设计算法初始化第i个无人机的网络Qi及其目标网络Q⌒i;初始化无人机的状态;循环开始:以-greedy策略选择一个行动;执行该行动,观测到回报和下一个状态;将当前状态、行动、回报和下一个状态作为训练数据,并储存在一个经验池中;从经验池中选择一组数据作为训练集;利用训练集训练网络Qi;每隔一定周期更新目标网络Q⌒i循环结束

4 仿真结果

首先对比了提出的算法与单智能体Q-learning算法[14]的性能。在单智能体Q-learning算法中，每个无人机在更新策略时只观察自己的状态，而视其他无人机的状态为环境。图4给出了2种算法在不同信道数目K下的性能对比。

图4 不同算法的积累总效用对比图Fig.4 Performance comparison on the accumulated reward of different algorithms

从图4中可以看到，本文提出的算法性能要好于单智能体Q-learning算法。这是由于无人机的行为彼此会相互影响，而本文的算法考虑到了无人机之间的协调。此外，2个算法的总效用都随着信道数的增加而增加，这是因为有了更多的子信道可以被利用。

图5给出了在不同的基站-设备距离LBD和基站-任务距离LBT下，无人机的传输状态分布图。在仿真中，假设基站、移动设备和任务是共线的。此外，假设无人机在任务点上空100 m处采集感知数据并传输。从图5中看出，当感知任务靠近移动设备时(靠近白色虚线LBT=LBD的区域)，无人机更可能通过直通模式成功传输感知数据；当感知任务靠近基站(LBT较小)，而移动设备位于小区边缘(LBD较大)时，无人机倾向于通过蜂窝模式成功传输感知数据；最后，当感知任务位于小区边缘(LBT较大)，而移动设备靠近基站(LBD较小)时，无人机容易传输失败。

图5 无人机传输状态分布图Fig.5 Distribution of the UAV’s transmission states

5 结束语

本文研究了一个蜂窝无人机网络中的多无人机轨迹设计问题。其中无人机可以通过直通模式和蜂窝模式来传输数据。本文采用了一种边感知边传输通信协议来协调无人机完成感知任务。该协议可以使用嵌套马尔科夫链来分析。在这一分析下，本文研究的无人机轨迹设计问题是一个马尔科夫决策问题。由于这一问题的状态空间很大，本文利用了深度强化学习分析这个问题，并提出一种基于DQN的多无人机轨迹设计算法解决了该问题。

仿真结果验证了所提出的算法比单智能体算法的性能更好。此外，还可得到如下3条结论：① 当感知任务靠近移动设备时，无人机倾向于通过直通模式成功传输感知数据；② 当感知任务靠近基站，而移动设备位于小区边缘时，无人机倾向于通过蜂窝模式成功传输感知数据；③ 当感知任务位于小区边缘，而移动设备靠近基站时，无人机倾向于传输失败。