基于5G的强化学习算法分析与挑战

2022-09-21 01:34董春利王莉
电子测试 2022年17期
关键词:蜂窝无线网络代理

董春利,王莉

(南京交通职业技术学院电子信息工程学院,江苏南京, 211188)

0 引言

强化学习(RL)是指通过在环境中采取一些行动,来增加奖励。这种学习涉及执行使这些奖励最大化的那些行动。这种类型的学习行为与自然学习相同,其中代理必须通过命中和试验机制自己学习以获得最大奖励[1]。机器学习(ML)可分为监督、无监督和半监督学习。RL(半监督)不同于有监督和无监督学习。在监督学习中,每个动作都有一组指令,目标是映射输入对应的输出并从标记数据中学习规则。此类中使用回归和分类模型,取决于值是连续的,还是离散的。而在无监督学习的情况下,代理必须发现未标记数据的隐藏结构[2]。无监督学习与有监督学习相反,通常可以在数据不足且未标记时应用。但是在RL的情况下,代理具有初始点和终点,并且要到达其目的地,代理必须通过操纵环境来找到最佳可能的行动。达到最终解决方案后,代理会获得奖励,但如果未能达到,则不会获得任何奖励,因此,代理必须学习环境才能获得最大的奖励。在RL中,问题的制定是使用马尔可夫决策过程(MDP) 完成的,解决方案可以是策略或模型库,并且可以是无模型的,即 Q-learning、SARSA。在这种技术中,代理与环境交互并根据奖励生成策略,最后系统被训练并提供改进的性能。

1 RL模式

RL有两个主要特征:(i)试错搜索;(ii)延迟奖励。图1显示了RL和深度Q学习模式。

图1 (a)RL示意图,(b)深度Q学习示意图

模型用于预测环境的性质。同时使用规划和模型的ML设计是基于模型的机制。如果没有环境模型,则可以通过试错法进行学习。RL算法的实现一般有2种方式。

基于值:在基于值的RL算法中,用户试图实现最大值函数,这意味着智能体期望现有状态的长期回报。

基于策略:在这种方法中,用户设计一个策略,其中在每个状态下执行多个动作,以在未来获得最大奖励。策略描述了代理必须在某些环境条件下采取行动的方法。基本上,策略总是映射状态和动作的功能。许多格式可以作为策略来实现,例如它可以是一个表格、任何搜索过程或可以是一个函数。RL的想法是最大化该策略的方法。信号奖励描述了代理采取的行动是好是坏。这个奖励信号的目的是夸大整体奖励。策略依赖于信号奖励,如果代理收到不好的奖励,它必须修改它的策略,然后再次执行操作。奖励可以分为即时奖励或延迟奖励。在延迟奖励的情况下,代理必须找出导致该奖励的原因。价值函数计算即将到来的整体奖励,价值函数背后的核心思想是弄清楚状态并相应地执行操作。上面给出了RL的基本图,它显示了状态及其相关动作。

基于策略的方法进一步分为以下类型:

(1)确定的:对所有状态执行相同的操作,并由策略模块处理。

(2)随机的:每个动作都对应一个基于特定策略的模型。在这种方法中,为所有类型的周围氛围或环境设计了一个虚拟模型。创建虚拟模型后,智能体的学习过程开始在该环境中执行。

2 深度学习(DL)

在DL中,使用近似于复杂函数的神经元操作来建立规则。在移动通信中,DL对于解决复杂的非凸挑战和高计算问题具有重要意义。由于神经网络用于特征提取和学习阶段,因此该算法可用于多种场景,即非线性模型增强、连续变化的移动环境评估、过拟合程度和复杂度降低以及数据最小化的重构误差。DRL是许多科学领域的革命性和新兴工具,特别是在移动通信领域,用于有效地提供各种挑战的解决方案。深度卷积神经网络(DNN)旨在学习信道的特征并预测适当的调制编码方案。对于无需人工干预的智能决策,采用多层构建人工神经网络。为了改善网络的参数,人工智能(AI)、机器/深度学习技术是最好的方法,因为有更少的物理干预和先进的计算约束。

如今,诸如HetNets、物联网和无人机网络等先进的网络被重塑为自主、临时和分散的形式,在这种形式中,移动用户、无人机和物联网设备自行做出决策,即小区关联、功率控制、数据传输等。在这些场景中,MDP 塑造的问题值得做出相应的决策,并且算法和学习技术的数量有助于解决MDP[3]。事实证明,求解计算复杂的高级和大型网络是非常困难的。在这方面,DRL提供了一些必要的好处,例如独立决策、通过大状态和动作空间提高学习速度、学习和发展对通信和环境的网络理解、复杂的网络优化、数据卸载、干扰管理和网络物理攻击建模。需要在5G环境下研究基于DRL的5G HetNet联合资源管理功能、基于多目标DRL的资源管理、灵活的资源管理设计、基于DRL的5G HetNet负载均衡。图2显示了使用机器学习工具的HO优化技术的类别。

图2 HO优化技术

对于预测分析,AI需要在渠道建模方面更加成熟。主要问题是由于巨大的天线导致的高维搜索、发射和接收信号的关系、发射和接收波束的更快组合学习、AI模型训练的收敛性。AI/ML/DL的先进技术为5G和超5G的无线网络注入活力,以支持现实世界中引入的新兴用例。然而,尽管取得了进展,但仍然需要解决开放的研究问题和未来的方向。在实际实施中,训练过程的效率需要成熟度,例如学习算法的最佳可能参数更快地收敛。为了从广泛的测量操作中获取数据,从密集的城市传播区域、陆地区域上的高速移动节点和动态变化的环境中,获得的真实实验结果仍然存在差距,以证明学习算法的精度[4]。在分层网络中,架构设计、网络实体通信参数控制、计算能力、集中或分布式控制性能以及精度要求,仍需要使用 AI/ML/DL方面进行探索。先进的算法和操作期间的网络攻击技术,也是该领域的一个公开挑战,例如无人机系统的可靠通信,会话劫持,中间人攻击等。

3 RL的类型

正面及负面,是RL的两种类型,定义如下:

(1)正面

正面的RL是指由于特殊行为而发生的事件。它放大了行为的强度和振荡度,并影响了代理执行的活动。它最大化了事件的性能,并在较长时间内保持变化,而RL的过度实施,会产生影响活动结果的过度优化状态。

(2)负面

在这种类型的RL中,会采取措施来提高由于不良条件而发生的行为的强度。应停止或减少这些不良条件,以达到最低性能要求。然而,需要付出很多努力才能达到该要求的条件。

4 结论

已经进行了许多研究来解决未来无线网络的最大挑战,例如5G小型蜂窝中的HO管理。新兴技术,即D2D、M2M、MIMO、EC、SC、BF、WiFi和SDN、NFV和 CC的融合,以及mMTC、eMBB和uRLLC等即将推出的用例和服务,带来了新的挑战。此外,5G超密集小蜂窝( UDSC)网络中的高速移动性、高数据速率应用和有限的资源,也面临着众多挑战,仍然需要使用先进的ML算法,以优化的方式解决一些重大挑战。

(1)多媒体流量的QoS/QoE;多媒体业务对服务质量和服务能力的要求不同于数据和语音业务。HO技术在不同的用例中提供不同的QoS/QoE,以执行各种类型的多媒体流量。在考虑HO管理中的QoS/QoE的同时,提供最佳机器学习解决方案是超5G无线小型蜂窝网络的一个活跃研究领域,在该网络中,将以低延迟和最佳连接性驱动大量数据。

(2)控制通信开销;现有的HO解决方案需要在所有可用于通信的节点,即宏小区、小型小区和UE之间进行复杂且频繁的协作。这种现象需要大量的网络资源来交换必要的信息。同时考虑提供最好的机器学习解决方案来控制通信开销,是超5G无线小型蜂窝网络的活跃研究领域。

(3)无线回程频谱效率;在超5G的无线网络中,小区BS需要具有强大能力的无线回程网络来处理大量无线连接和灵活的部署。因此,为频谱资源管理、网络复杂性,和基础设施成本,提供最佳机器学习解决方案,以处理超5G无线网络中的大量小区,是一个活跃的研究领域。

(4)先进技术整合;在5G小蜂窝网络中,毫米波、大规模MIMO和mMTC是使网络容量提高100倍的关键推动力[5]。这些先进技术的大量信令开销,产生了密集的通信和信号处理。因此,在5G无线网络中,使用机器学习提供资源效率、成本效率和抑制干扰,也是一个活跃的研究领域。

(5)安全和隐私问题;超密集5G小型蜂窝网络的 HO管理中,最关键的挑战是安全和隐私问题,因为蜂窝和UE的高密度化。处理通信数据的新功能和应用程序的数量,对安全妥协和隐私问题提出了新的挑战。 因此,在5G小蜂窝无线网络中,使用机器学习进行有效反击也是一个积极的研究方向。

猜你喜欢
蜂窝无线网络代理
热塑性蜂窝板的平压性能分析
时间触发卫星无线网络同步仿真研究
蜂窝住宅
滤波器对无线网络中干扰问题的作用探讨
无线网络信息安全技术及风险分析
“蜂窝”住进轮胎里
基于信令分析的TD-LTE无线网络应用研究
复仇代理乌龟君
108名特困生有了“代理妈妈”
胜似妈妈的代理家长