认知无线网络频谱共享中的强化学习和深度学习*

2021-12-23 03:04白雪敏李淑丰张凤霞孙久会
通信技术 2021年10期
关键词:频谱信道神经网络

谢 然,白雪敏,李淑丰,张凤霞,于 江,孙久会

(1.31107 部队,江苏 南京 210000;2.陆军工程大学,江苏 南京 210000)

0 引言

随着先进宽频无线技术快速和广泛的发展,以及对高速率高质量服务的需求增加,传统的静态频谱分配政策正变得过时。为了尽可能地提高授权频谱的利用率,认知无线电(Cognitive Radio,CR)的概念被提出。认知无线电是一种智能无线通信系统,能够自动感知周围频谱的使用情况,并在不影响授权用户正常通信的情况下机会式地接入空闲频谱(Opportunistic Specturm Access)。通常来说,授权用户被称为主要用户(PUs),非授权用户称为次要用户(SUs)或认知用户。认知用户应当具有频谱感知能力以检测是否存在频谱空洞,并且能够根据感知结果重配置或调整软硬件参数和工作参数。

认知无线电技术在不改变现有频谱分配政策的情况下使有价值的频谱资源得到复用,从而解决了频谱利用率低的问题。其核心思想是通过动态频谱接入来实现频谱共享[1],频谱共享的含义是SUs 可以使用PUs 的空闲频谱,但前提是不能对PUs 的通信产生干扰。频谱共享通常包括四个步骤:频谱感知(Spectrum Senseing)、频谱分配(Spectrum Allocation)、频谱接入(Spectrum Access)、频谱切换(Spectrum Handoff)。而这些功能的实现,除了必须的软硬件条件外,还必须依靠复杂的学习和决策机制。如何协助无线电用户进行智能自适应学习和决策,以满足无线网络的多样化要求,是无线通信技术面临的挑战。

机器学习(Machine Learning)作为强大的人工智能工具之一,近年来被广泛地用于无线通信网络,如大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)、终端直通(Device-to-Device,D2D)网络、由femtocells 和small cells 组成的异构网络等[2]。机器学习可大致分类为监督学习、无监督学习、强化学习3 大类。机器学习应用在无线网络特别是认知无线网络中的优势主要体现在以下3个方面[3]。

(1)允许CR 用户以分布式的方式独立自适应地感知、决策并接入频谱资源,减少了对控制单元的需求,避免了获取全局观测值所需的信息交互和信令开销。

(2)区别于传统方法中预设或提取特征,基于机器学习的方法可以自动从数据中提取特征,以便CR 用户(agent)在不需要任何先验知识或对无线网络环境的假设的情况下实现其网络效能目标。

(3)通过周期性的训练,数据驱动方法的性能不会受到无线电环境变化的显著影响,因此对环境具有较强的鲁棒性。

本文主要探索机器学习中的强化学习和深度学习在认知无线网络频谱共享方面的应用。

1 研究背景

强化学习依赖于一个动态的迭代学习和决策过程。可用于推测未知网络条件下的移动用户决策,如频谱共享中未知信道可用性条件下的信道接入,蜂窝网络中未知资源质量条件下的分布式资源分配。深度学习算法如卷积神经网络(Convolutional Neural Network,CNN)和长短期记忆(Long Short Term Memory,LSTM)递归神经网络,作为目前最先进的分类任务,已经被应用于包括频谱感知、频谱分配等各个无线网络领域[4]。其他经典的机器学习技术,如支持向量机(Support Vector Machine,SVM)和K-nearest neighbor(KNN)分类器已经被广泛用于包括涉及多个传感器的分布式(或合作)频谱感知当中,并有效提高了方案性能。

1.1 强化学习和MDP 模型

强化学习(Reinforcement Learning,RL)是机器学习的一个重要分支,主要用来解决连续决策的问题(如频谱接入和切换)。强化学习也可以应用到有序列输出的问题中,因为它可以针对一系列变化的环境状态,输出一系列对应的行动。

大多数的强化学习问题都可以用马尔科夫决策过程(Markov Decision Process,MDP)来进行问题建模。对于一个为了达到目标状态的决策问题,一般存在一个智能体(Agent)来感知周围的环境状态(State),同时根据策略(Policy)在当前环境中执行一个动作(Action)从而达到另一个环境状态(next state),同时得到一个奖励(Reward)。可以通过包含5 个元素的元组来表示这一过程(S,A,P,γ,R)。其中:S表示智能体的状态集;A表示智能体的动作集;P表示状态转移矩阵;γ∈(0,1)表示折扣因子,用于计算累积奖励,表明越远的奖励对当前的贡献越少;R表示奖励值函数,Agent 每执行一个动作(或离开某一状态)都会得到一个奖励值。此外,模型中应含有但未提现在元组中的策略π,表示从状态到动作的一种映射,也可表示为a=π(s)。

由于延迟回报的特性,要度量一种策略的好坏程度,则需要定义在某种策略情况下的一个函数来表明当前的状态下所做的策略对长远的影响,即衡量该状态的好坏程度,这个函数被称作值函数(Value Function),可表示为:

式(1)表明值函数V π(s)在初始状态为s的情况下采取策略π得到的一个累积的奖励期望值。根据其马尔科夫性质进行迭代可得到Bellman 方程[5]:

可简单表达为:

通过Bellman 方程,可以得知值函数的求解是一个动态规划的迭代过程。使用动态规划算法进行迭代计算便可得出所有状态稳定的值函数值。在实际的强化学习问题中,往往使用的是动作值函数(Action-Value Function),用Q(s,a)表示,表达式为:

处于状态s的情况下,经过某种策略π达到状态s′,两个状态都有自己的值函数对应的值,同时知道这两种状态之间的转换奖励r,就可以通过Bellman 方程进行迭代求解。

对于强化学习问题的求解,主要的算法分为两种:基于动态规划的算法和基于策略优化的算法。基于动态规划(Dynamic Programing,DP)的算法主要包括值迭代(Value Iteration)、策略迭代(Policy Iteration),在无模型的算法中又可以分为蒙特卡洛(Monte Carlo,MC)算法和时序差分(Temporal-Difference,TD)算法。最有名的Q-Learning 算法也是一种值迭代,其更新表达式为:

计算出来的Q值存储在Q 表中,以便下一次更新使用。

1.2 深度学习

近年来,深度学习极大地促进了计算机视觉(Computer Vision,CV)和自然语言处理(Natural Language Processing,NLP)的发展。作为DL 的核心技术,人工神经网络被用来近似输入与输出之间的关系。典型的神经网络一般由三部分组成,即输入层、输出层和隐含层。在每一层中,放置许多具有不同激活功能的细胞,相邻层的细胞按预先设计的方式相互连接。随着网络神经网络的发展,对于不同类型的数据有不同的网络结构。例如:卷积神经网络由卷积层、池化层和全连接层组成,适合于图像;递归神经网络(Recurrent Neural Network,RNN)在隐含层中包含许多递归细胞,适合用于时间序列数据。文献[6]在神经网络的设计中引入了dropout 等技术,以提高DL 的泛化和收敛性能。

(1)深度神经网络(DNN)。深度神经网络是一种判别模型,可以使用反向传播算法进行训练,权重更新可以使用随机梯度下降法进行求解。广义上,深度神经网络就是深度学习的总称,包括其他一系列的神经网络结构,如卷积神经网络、循环神经网络等;狭义上,DNN 指的是只有全连接的网络结构。

(2)卷积神经网络(CNN)。卷积神经网络由一个或多个卷积层和顶端的全连接层组成,同时也包括关联权重和池化层(Pooling Layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。

(3)循环神经网络(RNN)是一种处理时间序列数据的强大工具。与传统的神经网络不同,递归网络的每一层都有许多相互连接的细胞(cells)。同一层中的所有cells 都具有相同的结构,并且每个cell 都将其信息传递给它的后续cell。RNN 的输出不仅取决于它的当前输入,还取决于过去时间的记忆。虽然RNN 的目的是学习长期依赖性,但理论和经验表明它很难学习并长期保存信息。长短时记忆网络(Long Short-Term Memory,LSTM)的提出就是为了解决长期保存输入的问题。LSTM 网络被证明比传统的RNN 更加有效。

1.3 深度强化学习

随着机器学习的应用和发展,各种机器学习方法正在融合和升级。深度强化学习(Deep Reinforcement Learning,DRL)是Google 的Deep Mind团队提出的一种算法框架,是一种用于决策学习的算法。该算法结合了深度学习以及强化学习各自的优点:深度学习善于做非线性的拟合,而强化学习适合于做决策学习。其算法的核心还是强化学习。

在使用传统的强化学习算法(如Q-learning)进行决策优化时,随着状态维度的变化,问题的计算量会显著地变化,即所谓的维度灾难(The Curse of Dimensionality)。具体来说,Q-learning 需要一个二维Q表来存储环境中所有肯定状态和每个状态的行动Q值,对于状态空间较大的问题来说用Q表来存储所有状态动作对的Q值是不现实的。即使硬件可以满足状态的存储量要求,但在这样一个大Q表中查询状态是相当耗时的[7]。

深度Q 网络(Deep Q Network,DQN)把状态和行动作为神经网络的输入,然后通过神经网络的分析操作来估计Q值,所以不需要表中记录的Q值,而是直接使用神经网络生成Q值。然后根据Q 学习的原则,直接选择值最大的动作作为下一步要做的动作。

2 频谱共享中的应用

2.1 频谱感知

频谱感知是频谱共享的第一步,SU 在时域、空域和频域上不断检测PU 正在使用的频段,以确定是否存在频谱空洞。因此,准确地感知频谱空洞是频谱共享的前提。

对于无线信道来说,可以将认知用户感知的能量矢量当作特征矢量并馈入分类器来决定信道是否可用。进行在线分类之前,分类器需要经过训练阶段。文献[8]提出了一种基于机器学习技术的协同频谱感知算法(Collaborative Spectrum Sensing,CSS)用于模式分类。所提出的技术能够以在线方式隐式学习周围环境(如PU 和CR 的网络拓扑和信道衰落)。与传统的需要环境先验知识进行优化的CSS 技术相比,所提出的技术具有更强的适应性。而且,所使用的技术具有更多的决策域,从而使感知结果更加精确。文中还提到了其他基于机器学习的感知分类技术如属于无监督学习的K 均值聚类(K-means Clustering)和高斯混合模型(Gaussian Mixed Model,GMM)、属于监督学习的支持向量机(SVM)和加权K-nearest-neighbor(KNN)。在文献[4]中,作者具体比较了2 种基于经典信号检测理论的方法、3 种经典机器学习算法和8 种深度学习算法分类器模型的实现细节。

不同于通常使用的N 维能量向量,文献[9]提出一种低维概率向量作为基于机器学习的CSS 分类器的特征向量。文中研究了基于这种概率向量的K-means clustering 和SVM 算法,针对具有单一PU和N个SUs 的CRN,提出的概率向量可以将现有的能量向量从N维降至2 维,在达到相同的检测精度的情况下,训练时间和分类更短。

为了解决传统OFDM 系统感知方法中存在的噪声不确定性、时延和载频偏移等问题,文献[10]中作者提出了基于深度学习网络的感知结构。相较于手动描述事件特征,文中利用多层非线性处理单元即深度架构来提取信号中已知的和可能隐藏的特征,并证明与现有感知方法相比,所提方法对时延、噪声不确定性和载频偏移的鲁棒性更强,特别是在低信噪比条件下,具有更高的感知精度。

2.2 频谱分配

频谱分配是在频谱空洞可用性的基础上,将频谱分配给SUs。频谱空洞数并不是固定的,而不同的SU 对服务质量(Quality of Service,QoS)的要求不同,因此是以竞争的方式来使用。频谱分配的关键在于设计高效的分配算法和规则,在满足效用需求(如带宽、功率、吞吐量等)的情况下尽可能提高频谱利用率。

文献[11]考虑了在认知用户数量多于主用户信道的条件下,每个认知用户可以看作独立的智能体与随机环境进行交互。所提出的强化学习算法可以将频谱动态地分配给认知用户,并进行功率控制。实验证明该算法能在较少的迭代次数内收敛。

为了解决现有频谱资源分配算法在高计算复杂度情况下难以实现的问题,文献[12]针对卫星物联网提出了一种基于深度强化学习(Deep Reinforcement Learning,DRL)的集中动态信道分配方法,称为CA-DRL。该方法利用深度神经网络强大的表示能力,通过不断学习分配策略,做出智能分配决策,从而最小化所有传感器的平均传输延迟。

文献[13]基于学习算法提出了能量和跨层感知资源分配技术,使认知用户有效地定位和利用频谱空洞。所提技术包含两阶段启发式算法,第一阶段提出了两个信道分配的学习程序,并在最优性、可扩展性和鲁棒性方面进行了比较;第二阶段采用优化求解解决了功率分配问题。

文献[14]提出用非确定性Q-Learning 算法解决认知用户的信道分配问题,即向认知用户提供主用户信道使用模式的先验知识,并使用时效技术避免了低优先级用户的资源短缺。

在文献[15]中,作者提出了基于异构强化学习算法的多目标策略模型对蜂窝网络进行自配置和优化,旨在解决蜂窝网络下行链路的资源分配和干扰协调问题。具体目标有两个:一是为机会频谱接入确定可用的频段资源;二是在细致的限制条件下配置终端,以避免干扰并满足服务质量要求。

2.3 频谱接入

PUs 对于授权频谱具有优先接入权,SUs 的接入需要高效的算法在PUs和SUs、SUs之间进行协调,避免发生碰撞。

多臂老虎机(Multi-Armed Bandits,MAB)模型常用于解决“利用”(Exploitation)和“探索”(Exploration)问题,即“直接执行当前收益最大的动作”和“探索是否有更大收益的动作”之间的矛盾。具体到频谱接入的场景下,将选择某个信道接入等效于拉动老虎机的拉杆,每个拉杆对应的奖励值等效于接入信道的优劣程度(如带宽、驻留时长、信道质量等)。而“利用”和“探索”的均衡就在于以怎样的顺序和多大的概率接入回报已知的信道和探索接入回报未知的信道。然而MAB 模型对信道统计特性的非平稳性很敏感,因此文献[16]研究了离线灵敏度来优化MAB 分配策略的参数调优,并提出了半动态参数调整方案实现参数的在线更新。这种自适应的MAB 方案提高了认知用户在动态环境中的性能。在文献[17]中,作者将D2D用户作为认知用户,在缺少信道质量和可用性的先验知识的情况下,建立起多用户多臂老虎机模型,提出了包含校准预测(Calibrated Forecasting)和无悔老虎机学习(No-regret Bandit Learning)两个模块的算法。其中校准预测用来预测用户的联合行动集,无悔学习用来对可用选择的奖励产生过程进行可靠预测。

在文献[18]中,作者将多信道接入问题表述为未知系统动力学的部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP),并应用深度Q 网络(DQN)来解决。文中首先研究了在已知系统动力学条件下的最优策略,并通过仿真表明DQN 在缺少先验知识的情况下也能获得同样的最优性能。之后通过更一般的模拟和真实数据跟踪,将DQN 与短视策略和基于惠特尔指数的启发式算法进行性能比较,发现DQN在更复杂的情况下可以达到近乎最优的性能。

在文献[19]中,作者对基础的DQN 算法进行了修改,加入了LSTM 层、Double Q-Learning、dueling DQN 等元素,使算法性能得到进一步提升。同时,文中根据不同的网络效用优化目标(竞争式和合作式),允许每个用户自适应地调整其传输参数以达到最优目的。

2.4 频谱切换

频谱切换主要发生在以下两种情况:一是SU占用频段的PU 重新出现时;二是当SU 的地理位置出现大的变化或当前频段不能满足通信质量需求时。当存在多个涉及切换的SU,或者存在多个可接入信道时,必须设计高效的算法来协调SUs 的接入行为。

文献[20]指出传统的频谱切换机制在切换过程中会产生明显的时延,从而导致服务的不连续性。在密集无线局域网(Dense WLAN)中,作者根据切换决策的时间相关性将决策过程建模为MDP,并提出了基于DQN 的切换管理方案。该方案使网络可以从零开始获取用户行为和网络状态,利用卷积神经网络和递归神经网络提取细粒度的判别特征,在时变的密集无线局域网中适应其学习,依赖于实时网络统计数据做出切换决策。仿真结果表明,DCRQN 能有效地提高切换过程中的数据速率,优于传统的切换方案。

文献[21]提出了一种使用强化学习方法的基于测量丢包率的频谱切换方案。作者在具有多个PU和SU 的系统模型中,设计了一种新的状态空间描述方法作为强化学习算法的输入,并使用测量的PDR 代替计算的丢包率来更新平均意见得分(Mean Opinion Score,MOS)。与现有的基于QOE 的计算丢包率方案相比,所提方案在动态环境中能够更快地收敛,更加显著地降低系统丢包率。

2.5 其他应用

信道估计问题是认知无线电系统中的一个经典问题。信道估计通常包括对PU 到达概率、占用时间以及信号强度等参数的估计。传统的强化学习方法如马尔科夫模型及各类变型、贝叶斯推断等可以方便地用于频谱特征参数的学习和估计。在文献[22]中,作者根据PU 是否存在构建了一个双态隐马尔科夫模型(Hidden Markov Model,HMM),并利用标准期望最大化算法(Expectation Maximization Algorithm,EM)对可用信道的留存时间、PU 的活动状态等进行估计。

在文献[23]中,针对MIMO 系统中导频污染问题,作者提出了在估计目标小区中期望链路的信道参数同时估计来自相邻小区的干扰链路的信道参数的方法,通过将接收信号转换到波束域,证明了利用稀疏贝叶斯学习技术可以解决信道估计问题。所提出的信道估计方法不需要信道协方差矩阵的可用性、背景噪声水平,也不需要单元间的协调,并且在导频污染存在的情况下,信道估计的性能较传统方法有实质的提升。

频谱预测可以作为频谱感知和频谱接入的前期工作。频谱感知过程需要消耗相当大的能量,可以通过使用频谱预测方法发现频谱空洞来减少感知次数。使用可靠的预测方案,认知用户将只需要感应那些被预测为空闲的频道。通过降低预测的错误率,频谱利用率也可以提高。

文献[24]将频谱预测问题抽象为二元序列预测问题,使用多层感知机(Multilayer Perceptron,MLP)设计了信道状态预测器在输入和输出数据之间建立映射函数,输入数据为截至时刻T,长度为τ的二元序列,输出数据为T+1 时刻的信道状态,忙碌状态和空闲状态分别用二进制符号1 和-1 表示。在多信道系统中,每个信道都会分配一个预测器。

文献[25]应用了LSTM 较强的求解时间序列的能力,在两个真实的数据集上提出了基于深度学习的频谱预测方案。其中:第一个数据集用于预测信道占用状态,作者首先使用田口法确定了神经网络的最优结构,并分析了网络中各个超参数的效果。然后从回归和分类两个视角建立了的LSTM 神经网络进行频谱预测;第二个数据集用于信道质量预测,作者比较了LSTM 神经网络和传统多层感知器神经网络的预测性能。从统计学的角度来看,LSTM 神经网络比MLP 神经网络具有更好的预测性能,也更稳定。

3 结语

本文对机器学习技术中的强化学习和深度神经网络的原理进行简单介绍,展现了其在认知无线网络特别是频谱共享领域的应用。可以发现,机器学习技术应用广泛、可扩展性强,且对网络性能提升作用明显,特别是在动态适应性方面有着巨大潜力。随着机器学习技术的不断发展,认知无线网络中也会出现越来越多机器学习的身影,其在改变频谱稀缺现状、进一步提升网络性能方面的作用值得期待。

猜你喜欢
频谱信道神经网络
基于递归模糊神经网络的风电平滑控制策略
信号/数据处理数字信道接收机中同时双信道选择与处理方法
一种用于深空探测的Chirp变换频谱分析仪设计与实现
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
FCC启动 首次高频段5G频谱拍卖
一种无人机数据链信道选择和功率控制方法
基于Q-Learning算法和神经网络的飞艇控制
动态频谱共享简述
基于导频的OFDM信道估计技术