基于强化学习的智能超表面辅助无人机通信系统物理层安全算法

2022-07-27 09:13胡浪涛毕松姣刘全金吴建岚

电子与信息学报 2022年7期

关键词：轨迹速率辅助

胡浪涛毕松姣刘全金吴建岚杨瑞王宏

①(安庆师范大学电子工程与智能制造学院安庆 246133)

②(智能感知与计算安徽省高校重点实验室安庆 246133)

③(安徽省铁路投资有限责任公司合肥 230601)

1 引言

随着5G无线网络的快速发展，无人机(Unmanned Aerial Vehicle, UAV)因其具有低成本、高机动性、覆盖范围广、可以按需部署等优点，在无线通信领域引起了广泛的研究[1–6]。UAV可以按需部署至当前地面通信设备无法覆盖的区域，用于缓解突发状况下场景的通信压力，进而提高通信质量。UAV作为一个空中基站为服务区内的用户提供信号的覆盖[1,2]。例如，当地面出现紧急情况，地面基站被摧毁，UAV可临时代替被损坏的基站，以维持正常的通信；考虑较远的用户之间的通信场景，采用UAV作为中继，可改善传播环境，增强信号的传播范围，提高系统的通信性能[3,4]；此外，UAV还作为空中用户，用于辅助信息传播和数据收集[5]。

在上述UAV通信应用中，由于无线信道的广播特性，其传播没有明确的物理边界，这将导致通过无线方式传播的机密信息很容易被非授权用户窃听或者受到攻击。UAV网络的安全和隐私问题受到研究者的广泛关注[7–10]。传统的加密技术可以部分解决UAV网络的安全问题。然而，找到一种有效的方法来解决其潜在的数学问题是困难的，加密技术的安全性将受到极大的限制。因此，物理层安全成为解决UAV网络安全问题的理想选择，通过传输设计基本实现了安全通信[7,8]。文献[9]考虑UAV和地面用户的双向通信中，在窃听者存在的情况下，通过联合优化UAV轨迹和合法发射机的发射功率，提高合法信号质量并降低窃听信号质量，以最大化平均安全速率。文献[10]提出一种新型的UAV移动干扰方案，利用UAV来传输干扰信号，以防止窃听者窃听机密信息，通过联合优化UAV的轨迹和干扰功率，提高安全速率。

然而在复杂的城市环境中，UAV和地面用户之间的视距链路可能会被阻挡[11]，这严重降低了信道质量。针对这一问题，智能超表面(Reconfigurable Intelligent Surface, RIS)可以通过反射UAV和用户之间的传输信号来辅助UAV安全通信，改善无线环境[12–14]。RIS是目前被广泛认可的潜在6G关键技术之一[15]，RIS由大量低成本的可重构反射单元组成，不需要复杂的编码、解码和射频处理操作，可以有效地控制入射信号的相位、振幅、频率等，改善无线传播环境，可以实现更快、更可靠数据传输[16–19]。在UAV通信中搭建智能反射面，通过直射与反射信号叠加，可增强用户收到的信号。由于RIS 的低成本、易部署特性，有望实现大范围的航路信号覆盖。文献[12] RIS引入UAV网络并被证明可以显著提高数据速率，但未考虑其安全性能。文献[13]研究了RIS辅助下的UAV网络的安全通信问题，通过联合优化RIS的相移、UAV的轨迹和功率最大化安全速率。文献[14]考虑了一种RIS辅助的UAV网络，其中UAV加装一个RIS作为无源中继，提出了一种迭代算法，通过联合优化UAV位置和RIS的相移最大限度地提高系统的保密率。

上述研究主要是利用传统的优化技术，对RIS辅助安全通信系统中的UAV轨迹和RIS相移进行联合优化，对于大规模系统效率较低。受深度强化学习可以实现对高维数据处理的启发，一些研究者尝试利用人工智能算法进行优化RIS的反射波束形成[20]和UAV轨迹[21–23]。然而，文献[21–23]没有引入RIS这一先进技术，文献[13]引入了RIS技术，但是UAV的轨迹是在2维平面上进行优化，UAV的高度是固定的，这在真实的系统中是不现实的。本文基于双深度Q网络(Double Deep Q Network,DDQN)设计了一种联合优化RIS相移矩阵和UAV的3D轨迹算法，最大化系统可达到的安全速率。

2 系统模型

图1 RIS辅助UAV安全通信系统

其中，式(12a)表示在时隙t的用户调度，式(12b)表示传输数据的任务量约束，式(12c)、式(12d)分别表示在UAV的水平速度、垂直方向速度约束，式(12e)表示UAV飞行高度约束，式(12f)表示每个时隙的飞行时间约束。式(12)描述的优化问题是非凸的。为求解此类问题，本文提出一个基于DDQN的数据驱动学习算法。

3 深度强化学习算法设计

动态的无线环境可以建模为马尔可夫决策过程(Markov Decision Process, MDP)，强化学习中的智能体通过与未知环境交互不断学习，最大化智能体得到的奖励。在动态的网络环境中，经常使用无模型强化学习算法，学习估计每个状态-动作值函数 (称为Q值函数)。在t时隙，智能体从环境中获取状态st，执行动作at，与环境交互后对应的到达下一个状态st+1，并得到奖励值rt。

本文的目标是优化UAV的3D轨迹和RIS的相移以最大化合法用户平均安全速率。为此，本文将平均安全速率最大化问题表述为 MDP并随后采用深度强化学习算法获得累积平均安全速率奖励。本文以深度Q网络(Deep Q Network, DQN)为基础，为克服DQN的Q值高估问题，本文采用了DDQN框架，通过训练深度神经网络，以最大化可实现的平均安全速率。将RIS辅助的UAV安全通信系统建模为一个环境，UAV可视为一个智能体。

3.1 预备知识

3.1.1 Q学习

Q学习算法[25]中使用Q函数表示智能体在状态s下，采取动作a，所获得的累计奖励值，Q函数表示为Qπ(st,at)

α是用以更新Q函数的学习率。

3.1.2 深度Q网络(DQN)

Q学习用表格存储Q值，对于维度较大的状态空间和动作空间实时更新难以实现，DQN将值函数估计与神经网络相结合，解决Q学习的“维度爆炸”问题。

3.2 基于DDQN的3D轨迹算法设计

图2 RIS辅助无人机DDQN网络结构图

本文设计了基于DDQN算法来优化UAV的3D轨迹，通过介绍该算法的结构，给出了优化UAV轨迹过程。DDQN优化算法见表1。

表1 联合优化UAV轨迹和RIS相移算法(算法1)

4 仿真结果

本节通过仿真验证所提算法在RIS辅助UAV无线通信系统安全传输的数值结果，并将数值结果与没有RIS辅助的系统、有RIS但不优化相移的系统进行比较。

4.1 模型训练及参数设置

本文使用Python 3.7, TensorFlow 1.15.0搭建RIS辅助UAV安全通信模型：选用两层的神经网络，输入层包含3个神经元，隐含层包含20个神经元，使用RMSProp优化器训练深度神经网络，激活函数为ReLU函数，每个回合包含3000个时隙。将{st,at,rt,st+1}存入经验池，待经验值存满后，随机抽取32个经验序列进入神经网络进行训练。

UAV在所给定服务范围内飞行，m个用户被随机地分配在UAV服务区域内，设Lu0=[0,0]T,zR=50,qw=[700,320],d=λ/2。参数设置见表2[24]。

表2 仿真参数设置

4.2 仿真分析

本文将DDQN的优化效果与DQN的优化效果进行比较，本文算法框架通过将选择动作网络与目标Q值生成网络分离，克服了DQN的Q值过高的问题，而获得比DQN更好的最优奖励。图3显示了4种方案的平均安全速率对比，随着迭代次数增加，动作价值函数随着步长增加而收敛。从图3可以看出，所有方案的安全速率随着步长的增加而逐渐增加。本文所提RIS辅助UAV方案(DDQN_优化RIS相移)的平均安全速率分别是DQN算法(DQN_优化RIS相移)、有RIS但没有优化相移(DDQN_RIS随机相移)和没有RIS辅助(DDQN_无RIS)的1.58倍、1.97倍和5.21倍。仿真表明部署优化后的RIS辅助UAV是可以提高无线通信安全性。

图3 4种方案下的平均安全速率对比

图4仿真了优化UAV的3D轨迹算法和固定高度算法的平均安全速率，优化3D轨迹的方案(优化H)和固定高度的方案，固定高度方案分别为60 m和100 m。从仿真中可以看出，用户所达到的安全速率与UAV的飞行高度也有着密切的关系。优化UAV的3D轨迹明显比固定高度的方案取得更好的性能。当UAV高度的增加时，路径损耗增加，所达到的安全速率的值较低。由图4可知，本文所提方案即优化UAV的3D轨迹达到的平均安全速率分别是固定高度60 m和100 m的1.31倍、1.83倍，即本文所提优化UAV的3D轨迹算法的可以实现较高的平均安全速率。

图4 不同高度下所达到的平均安全速率

如图5所示，本文所提基于DDQN的优化算法与文献[13]中使用到的传统连续凸逼近SCA算法和基于DDQN未部署RIS算法进行对比。仿真3种智能反射单元个数，即{N=128, 192, 256}，文献[13]中设置无人机的高度为100 m保持不变。在本文DDQN算法中，UAV在3D空间里飞行，高度需要优化。从图5比较3种算法可以看出：优化RIS的相移和UAV的3D轨迹，可以取得比固定高度的SCA算法获得更大的安全速率，没有部署RIS算法的UAV获得最差的安全速率。从实验结果可以看出，优化UAV的高度非常重要。另外仿真结果还可以看出，不同反射单元个数情况下，平均安全速率随着反射单元的增加而增加。

图5 不同反射面下不同算法所达到的平均安全速率

本文采用的是视距/非视距混合信道模型，因为存在障碍物等因素使得通信环境的信道增益是随机的，相应的UAV优化轨迹也不是唯一的。UAV希望在服务用户时尽可能远离Eve，降低合法用户传输被Eve发现的概率。将本文所提RIS辅助UAV方案与有RIS但没有优化相移、没有RIS两个方案对比。图6、图7分别为UAV飞行3D轨迹图和2D平面图，图中黄色菱形小方块表示RIS，黑色菱形小方块表示Eve，黑色“×”号表示合法用户。由图6和图7可知，优化RIS相移的UAV在获得信息传输速率的保障下，优化自己的水平位置和高度，靠近用户飞行，从2D平面上看，它尽可能地远离窃听者。没有RIS的方案UAV更接近Eve，这显然降低系统的安全性能。RIS随机相移方案的性能是在优化相移和无RIS方案之间，从水平面上看，它远离Eve，但是它也远离了用户。RIS辅助UAV方案在满足用户所需服务的同时，试图远离Eve，从2D平面图和3D轨迹图可以看出本文所提方案具有可行性。

图6 UAV的3D轨迹图

图7 UAV的2D平面图

在SCA算法中，算法的复杂度为O(NiteN3.5),Nite表示迭代的次数，N表示智能反射面单元数；在本算法中，神经网络包含两个全连接层和1个批标准化(Batch Normalization, BN)层，忽略BN层的开销，计算全连接层的计算复杂度，UAV的3维坐标作为输入层，即神经元个数为3，中间隐含层的神经元个数为2 0，输出层为动作的个数L×H×C×Γ，1次训练的计算量为3×20+20×(L×H×C×Γ)：那么总体的复杂度为O(E×T×(3×20+20×(L×H×C×Γ)))，其中E表示回合数，T表示1个回合的训练步长数目。和SCA算法对比，所提算法训练的复杂度较高，但是强化学习一旦训练完毕，进行预测时，算法的复杂度就非常小了。算法的收敛性是通过在每个回合中不断地降低DDQN目标网络的Q值和训练网络的Q值之间的误差来实现的。随着回合步长的增加，误差会逐渐减小，从而算法达到收敛。

5 结论

本文基于深度强化学习中的DDQN算法提出一种联合优化RIS相移和UAV的3D轨迹以保障物理层通信安全的方法，目的是在Eve存在的情况下，UAV基站向合法用户发送的消息被安全传输，最大化平均安全速率。仿真表明，本文所提的算法可以对UAV的3D轨迹进行优化，尽可能远离Eve，降低被窃听的概率。本文所提方案与固定飞行高度的传统SCA方案、RIS辅助没有优化相移和没有RIS辅助的方案相比，可以达到最高的平均安全速率，验证了所提算法的可行性。