基于深度学习的频谱感知研究综述*

2021-03-21 04:33郭莉莉陈永红

通信技术 2021年2期

郭莉莉，陈永红

（南通大学杏林学院，江苏南通 226000）

0 引言

频谱感知是认知无线电（Cognitive Radio，CR）的关键技术之一，是在频谱资源紧张且频谱分配方式固定的情况下，通过感知主用户（Primary User，PU）当前未在使用的授权频段供认知用户（Secondary User，SU）使用从而提高频谱利用率的一种技术[1]。传统的频谱感知方法分为单用户频谱感知和协作频谱感知。典型的单用户频谱感知方法包括能量检测[2]、循环平稳特征检测[3]以及匹配滤波检测[4]等。协作频谱感知中融合中心通过接收各个SU的信号或判决结果，依据硬融合或软融合规则做出最终的判决[5]。由于实际通信环境复杂，故无论是单用户频谱感知还是协作频谱感知，都要求它们具有适应复杂多变的通信环境的能力和快速进行频谱感知的能力，而传统的频谱感知方法并不总是能够满足实际通信环境的要求。

机器学习是人工智能的一个分支，也是人工智能的核心技术。它通过收集CR网络中的环境信息和用户状态进行建模和推理学习，使得CR网络频谱感知变得智能化，从而适应实际的通信环境。文献[6]提出了一种基于监督机器学习的融合中心算法，其中训练数据为帧能量检验统计量，标签为相应帧上PU是否存在的决策结果。通过训练，对于一个新的帧能量检验统计量来预测其判决结果，同时在1 000帧训练数据和1 000帧测试数据上应用K-最近邻（K-nearest Neighbor，KNN）、支持向量机（Support Vector Machine，SVM）、朴素Bayes（Naïve Bayes，NB）和决策树（Decision Tree，DT）4种机器学习方法进行仿真，结果表明KNN和DT的性能优于其他两种方法。文献[7]提出一种贝叶斯机器学习框架，用来捕捉多个SU采集到的频谱数据中的时空相关性，进行贝叶斯推理以自动推断网络的频谱状态。仿真结果表明，该框架频谱感知性能优于现有的频谱感知方法。但是，现有的机器学习频谱感知方法普遍存在训练时间较长的问题，并不满足快速频谱感知的要求。深度学习作为机器学习的分支，随着其模型和算法的不断改进优化以及计算机计算能力的提升，被广泛应用于图像识别[8]、语音识别[9]和自然语言处理[10]等各个领域。研究学者将深度学习的优势应用到CR网络频谱感知中，获得了一些研究成果。本文在介绍几种典型的深度学习网络模型的基础上，对近几年深度学习频谱感知方法进行总结。

1 深度学习模型

深度学习的概念源于人工神经网络（Artificial Neural Network，ANN）。ANN由输入层、隐藏层和输出层构成。如果一个神经网络具有多个隐藏层，则称之为深度神经网络（Deep Neural Network，DNN）。针对DNN的训练，就可以视为深度学习。典型的深度学习网络模型包括卷积神经网络（Convolutional Neural Network，CNN）[11]、深度强化学习（Deep Reinforcement Learning，DRL）[12]、深度信念网络（Deep Belief Network，DBN）[13]、生成对抗网络（Generative Adversarial Network，GAN）[14]、循环神经网络（Recurrent Neural Network，RNN）[15]、栈式自动编码器（Stacked Auto-Encoder，SAE）[16]和深度玻尔兹曼机（Deep Boltzmann Machine，DBM）[17]等。

1.1 卷积神经网络

CNN是应用最广泛的深度学习模型之一。典型的CNN由输入层、交替的卷积层和池化层（也称下采样层）、全连接层和输出层组成。一个具有两个卷积层和两个池化层的CNN结构如图1所示，其中C表示卷积层，S表示池化层。

图1 CNN的结构

在CNN中，每一层的输出可以看作是一组特征图。卷积层的主要作用是提取特征，通过将本层的卷积核与上一层输出的特征图进行卷积运算实现；池化层的主要作用是对卷积层所提取的特性进行降维，减少计算量，避免过拟合，同时加强数据特征的不变性；全连接层与上一层输出的所有的特征图进行全连接，其输出送到输出层进行分类。

CNN的训练过程可分为正向传播和反向传播两个阶段。在正向传播过程中，数据从输入层进入网络，逐层推进，利用卷积层和池化层提取数据的特征，通过全连接层计算实际输出；在反向传播过程中，根据实际输出与期望输出的差值，利用最小化误差反向传播来调整网络参数，完成网络权值更新。训练完成后，可将测试数据输入到训练好的CNN模型，以验证网络性能。

1.2 LSTM

与一般的ANN的输出仅依赖于网络当前的输入、不具有记忆能力相比，RNN具有自反馈的网络结构。它的输出和当前的输入以及前面时刻的输出均有关系，具有记忆能力，可以处理时间序列数据，但也导致了长期依赖问题。LSTM是解决长期依赖问题的一种特殊的RNN网络结构。它的隐藏层在RNN隐藏层的基础上增加了一个细胞结构[18]，用来存储网络的长期状态。LSTM网络隐藏层的细胞结构如图2所示。

图2 LSTM隐藏层细胞结构

图2中，x、h、y分别表示输入序列、隐藏层序列和输出序列，t-1、t分别表示前一时刻和当前时刻，f、i、o、C分别表示遗忘门、输入门、输出门和细胞状态，tanh和σ分别表示双曲正切和sigmoid激活函数。遗忘门的作用为是否遗忘上一层的细胞状态，即是否继续保存长期状态Ct-1。输入门的作用是把当前输入状态送入长期状态C中。输出门确定是否将C作为当前时刻的输出。LSTM即通过遗忘门和输入门共同作用于细胞状态和输出门，从而实现网络长期状态的保存，具有较长时间记忆能力。

1.3 深度强化学习

强化学习是一种机器学习方法，如图3所示，主要包含智能体（Agent）、环境状态、动作和奖赏4个元素。强化学习的基本思想是使Agent从环境中获得的累计奖赏值最大化，从而获得解决问题的最佳策略[19]。具体来说，Agent执行一个动作作用于环境，环境接受动作后状态发生改变，环境同时产生一个奖赏值反馈给Agent，Agent根据环境当前状态和奖赏值确定下一时刻的动作。

图3 强化学习示意

传统的强化学习方法局限于样本和动作空间较小的低维问题，而对于高维状态空间问题则很难处理。DRL将深度学习与强化学习相结合，利用深度学习可以从高维数据提取特征的感知能力和强化学习的决策能力，以很好地处理高维状态空间和动作空间下的决策问题。DRL可以分为基于值函数、基于策略梯度和基于搜索与监督的学习方法。Mnih提出的深度Q网络（Deep Q Network，DQN）[20]即是一种应用较为广泛的基于值函数的DRL方法。

2 基于深度学习的频谱感知

2.1 基于CNN的频谱感知

Pan等提出一种基于深度学习和循环谱的正交频分复用（Orthogonal Frequency Division Multiplex，OFDM）信号频谱感知方法[21]，分析了OFDM信号的循环自相关特性，利用时域平滑快速傅里叶变换累加算法得到其循环谱，并将循环谱转换为灰度图像，将频谱感知问题转化为图像处理问题，采用改进的基于LeNet-5的CNN模型逐层提取深层特征。仿真结果表明，在低信噪比下条件下，该方法具有比传统方法更好的感知性能。

文献[22]提出基于深度学习和协方差矩阵图的OFDM信号频谱感知方法，首先建立了OFDM信号的频谱感知模型，分析了协方差矩阵的结构特征，将协方差矩阵归一化，转化为灰度表示，建立协方差矩阵的灰度图，然后在LeNet-5网络的基础上设计CNN网络对训练数据进行层次化学习，最后将测试数据输入到训练好的频谱感知网络模型中，完成OFDM信号的频谱感知。

文献[23]研究了用户采用全双工模式时的OFDM系统的频谱感知问题，提出一种即使用户端严重自干扰的情况下也能实现的全双工频谱感知方案。该方案以图像的形式推导出OFDM导频生成的循环平稳周期图，并将其插入到CNN中进行分类。仿真结果表明，该方案对全双工系统具有良好的感知能力，比传统方法具有更高的检测精度。

Xie等人利用基于深度学习的活动模式频谱感知算法进行PU检测[24]，分为离线训练和在线识别两个阶段。在离线训练阶段，CNN利用当前帧中感知数据的协方差矩阵、历史感知数据的协方差矩阵和已标记的PU状态数据训练其参数。在在线识别阶段，训练好的CNN根据当前和历史感知数据进行实时检测。数值模拟结果表明，该算法在正确检测概率方面优于估计相关器检测和隐马尔可夫模型检测器。

文献[25]将深度学习用于声谱检测，使用具有5个卷积层、3个最大池化层和2个全连接层的CNN对声音进行二值分类，以判断信号存在与否。结果显示，在自建的声音数据集上，训练准确率约为98%，验证准确率约为92%。

Zheng等人将频谱感知作为一个分类问题，提出了一种基于深度学习分类的频谱感知方法[26]。该方法将归一化的信号功率谱作为CNN的输入，使用8种类型的调制信号和噪声对网络进行训练。仿真结果表明，该方法性能优于传统的基于最大-最小特征值比的方法和基于频域熵的方法，泛化能力强，能检测各种未经训练的信号。

有噪声和干扰的情况下，文献[27]利用AlexNet CNN进行频谱感知，计算SU感知到的信号光谱图，将其送入CNN检测器进行分类，以确定PU信号是否存在。仿真结果显示，CNN检测器的性能优于经典的能量检测器。

Liu等人利用深度CNN进行频谱感知[28-29]。在文献[28]中，以样本协方差矩阵作为CNN的输入，提出了一种新的协方差矩阵感知的基于CNN的检测方案。该方案由离线训练和在线检测两部分组成。与现有的基于深度学习的检测方法用端到端神经网络替代整个检测系统不同，该方案利用CNN进行离线测试统计设计，开发了一种实用的基于阈值的在线检测机制。特别地，根据最大后验概率（Maximum a Posteriori Probability，MAP）准则，推导出频谱感知模型离线训练的代价函数，保证了所设计测试统计量的最优性。仿真结果表明，无论PU信号是独立的还是相关的，该方法的检测性能都接近估计-相关检测器的最优界。在此基础上，文献[29]考虑了单用户具有多天线情况下的基于协方差矩阵的CNN频谱感知问题，并从理论上推导了该方法的性能。

文献[21-29]研究的均为单个SU频谱感知问题。单用户频谱感知容易受通信环境中衰落等的影响产生隐藏终端等问题。协作频谱感知可在一定程度上减轻衰落的影响，提高频谱感知的性能。鲁华超等人基于信号的协方差矩阵，提出CNN协作频谱感知算法[30]。在-13 dB的信噪比下，该方法的协作检测概率达到0.9以上。

Lee等人提出基于CNN的协作频谱感知框架——深度协作感知（Deep Cooperative Sensing，DCS）[31]。在DCS中，不管各个SU的感知结果是否被量化，融合各个SU感知结果的策略是通过训练感知样本自主学习的。仿真结果表明，DCS计算开销低，感知精度高。

文献[32]将协作频谱感知与深度学习结合，用于检测处于高度不确定状态的潜在的非法无人机，将检测潜在非法无人机看作一个四元假设检验问题，采用协作频谱感知方案对频谱进行测量，将一个时隙的感知数据转换为一幅图像送入CNN，将四元假设检验问题转化为图像分类问题。最后，仿真结果从无人机信号功率、感知时间长度等方面验证了该方法的检测性能。

Liu等人研究了集成深度学习协作频谱感知问题[33-34]。针对OFDM信号的CR系统，采用集成学习（Ensemble Learning，EL）框架进行协作频谱感知，提出集成深度学习协作频谱感知方案，将循环谱相关特征作为CNN的输入数据，使用bagging策略建立训练数据库，融合中心分别采用stacking[33]、semi-soft stacking[34]策略进一步学习SU的输出。与传统的协作频谱感知方法相比，该方案在检测概率和虚警概率上有明显优势。

2.2 基于LSTM的频谱感知

LSTM具有良好的处理时间序列数据的能力。文献[35]充分挖掘频谱感知数据之间的时间相关性，将前面的感知事件与当前的感知事件一起输入到LSTM网络中进行频谱感知。在此基础上，Soni利用PU的活动统计信息基于LSTM进行频谱感知[36]，其中LSTM读取原始数据对PU是否存在做出预测，预测结果与PU的在线周期、离线周期和忙闲度等3个PU的活动统计信息一起送入含有一个隐藏层的ANN进行PU存在与否的分类。该方案提高了频谱感知性能，但只考虑了一个PU和一个SU的情况。

文献[37]将LSTM和CNN结合进行频谱感知。CNN从感知数据生成的协方差矩阵中提取能量的相关特征，将多个感知周期的能量相关特征序列输入到LSTM中学习PU的活动模式，从而进一步提高检测概率，并在有和没有噪声不确定性两种情况下验证了CNN-LSTM频谱感知的性能。

Gao等人研究的协作频谱感知中，各个SU采用由2个卷积层、1个全连接层、2个LSTM层和2个全连接层依次连接构成的深度网络结构对PU信号进行感知[38]，并将感知结果送到融合中心。融合中心使用一个由3个全连接层组成的神经网络，通过训练学习最优的融合规则，从而获得高检测概率和低虚警概率。

文献[39]采用的频谱感知神经网络由一维CNNs（One Dimensional CNNs，1D CNNs）、LSTM和全连接神经网络（Fully Connected Neural Networks，FCNN）3部分依次连接组成。1D CNNs从输入数据中提取信号高层特征，降低输出维数。LSTM提取信号的时序特征，从输入数据的时序规律中区分信号和噪声。FCNN细化LSTM的输出特征，降低无关特征对决策结果的影响，分析LSTM的层数对感知性能的影响。结果表明，2层的LSTM具有最优的频谱感知性能。

为了充分利用CNN和LSTM网络建模能力的互补性，Xu等人提出一种并行的CNN-LSTM网络频谱感知模型[40]。该模型的主要部分由2个1D卷积层和2个LSTM层并行组成，具有64个卷积核的1D卷积层提取信号的空间局部特征，分别具有128个和64个隐藏节点的LSTM层提取时间特征。在8种调制信号上，它的感知性能优于CNN和LSTM感知方法。

2.3 基于DRL的频谱感知

Cai等人对CR网络中相关衰落下的协作频谱感知进行建模，采用分布式DRL方法学习最优的协作频谱感知策略[41]。为了提高网络的收敛速度，使用协调图（Coordination Graph，CG）将分布式Q-learning的实现转换为一个max-plus问题，并通过消息传递算法进行解决。仿真结果显示，该方法性能优越。

Li等人考虑了无线网络中信道之间的相关性，将动态频谱环境建模为一个联合马尔可夫链[42]。假设SU具有频谱聚合能力，可以同时访问多个空闲信道，以实现信息的传输。在每个时隙，SU可以选择由聚合容量决定的一段频谱进行检测，将此动态频谱感知和聚合问题看作一个不完全可观察马尔可夫决策过程（Partially Observable Markov Decision Process，POMDP），采用DQN解决此问题。仿真表明，在不同的聚合能力和带宽要求下，它均具有良好的鲁棒性。

在感知节点辅助的CR网络中，如果所有的感知节点都参与频谱感知，那么能量消耗严重。文献[43]研究了感知节点辅助的CR网络中分布式协作频谱感知的能量效率问题，利用图形神经网络和RL对感知节点进行评估，选择既能满足感知性能要求又可以保证分布式频谱感知拓扑要求的感知节点参与协作，提高了网络的能量效率。

在协作频谱感知中，并不是越多的SU参与协作系统的感知性能越好。文献[44]使用强化学习RL来选择适当的SU参与协作，被选中的SU根据局部能量检测来判断PU是否存在，融合中心使用CNN来融合各个SU的感知结果，做出PU是否存在的全局判决。该方法减少了协作用户的数量，性能优于基于SVM的协作频谱感知等算法。

文献[45]利用多Agent DRL方法进行CR网络中的协作频谱感知。每个SU从环境和其他SU处收集信息做出自己的感知决策，探索了DRL在学习过程中的探索和开发平衡问题，利用Hoeffding型置信上限（Upper Confidence Bounds with Hoeffdingstyle，UCB-H）来提高探索效率，将DQN与UCB-H结合进行协作频谱感知。与传统强化学习方法相比，该方法收敛速度快，奖励性能更好。

2.4 其他深度学习频谱感知方法

Meng等人首次将深度学习方法用于压缩频谱感知，采用GAN深度学习框架提出一种深度压缩频谱感知GAN（Deep Compressive Spectrum Sensing GAN，DCSS-GAN）[46]。DSCC-GAN是端到端的数据驱动学习算法，不需要知道无线电环境的先验统计信息。在1/8的压缩比下，它的预测精度比传统方法提高了12.3%～16.2%。

Cheng等人提出一种基于堆栈自编码频谱感知（Stacked Autoencoder Spectrum Sensing，SAESS）方法[47]来确定采用OFDM调制的PU是否存在。SAE-SS能够自动从接收的信号中提取隐藏信息，对载波频率偏移（Carrier Frequency Offset，CFO）、噪声不确定性等具有更强的鲁棒性。为了进一步提高低信噪比条件下SAE-SS的感知性能，Cheng又提出了一种基于时频信号堆栈自编码（SAE-TF）的频谱感知方法[48]。与SAE-SS仅将接收的时域信号送入SAE进行训练和仅提取信号的时域特征相比，SAE-TF将接收的时域信号及其快速傅里叶变换（Fast Fourier Transform，FFT）同时输入到SAE进行训练，利用从时域和频域提取的特征实现了更高的感知精度。但是，SAE-TF的代价是计算复杂度较高。

文献[49]提出了一种将深度自编码（Deep Auto-Encoder，DAE）神经网络和SVM相结合的频谱感知方法，将接收的信号转换成图像送入DAE进行特征学习。DAE的输出输入到SVM中进行分类，以确定输入的信号是PU或SU。

在文献[50]中，训练含有3个堆栈，每个堆栈包含4个残差模块的深度时间卷积网络（Temporal Convolutional Network，TCN）对多径衰落和噪声环境下的调制信号进行频谱感知。该方法性能优于基于特征值的频谱感知方法。

Du等人提出了信息几何与深度学习相结合的频谱感知方法[51]。它将感知信号的协方差矩阵投影到统计流形上，每个感知信号看作是流形上的一个点，利用DNN对由信号间的测地线距离组成的数据集进行分类，得到频谱感知分类器，以确定PU是否存在。

当训练好的DNN应用于与训练数据不同的通信场景时，深度频谱感知的鲁棒性不强。文献[52]使用迁移学习（Transfer Learning，TL）来解决深度频谱感知的鲁棒性问题，考虑了没有标记数据的TL和使用少量标记数据进行TL两种情况，结果表明少量标记数据的TL鲁棒性更强。

文献[53]提出一种无监督深度频谱感知（Unsupervised Deep Spectrum Sensing，UDSS）算法，采用变分自编码高斯混合模型（Variational Auto-Encoder Gaussian Mixture Model，VAE-GMM）结构作为UDSS算法的核心，基于未标记的训练数据迭代优化VAE-GMM的模型的参数完成数据的聚类任务，使用少量的带噪标记数据完成聚类识别。该算法性能接近于基于监督学习的频谱感知算法，且需要的标记训练数据量少。

3 深度学习频谱感知思考与展望

将深度学习应用于频谱感知，为提高CR系统的频谱利用率提供了一种新的途径。通过近几年的研究成果可以看出，基于深度学习的频谱感知技术取得了一定的进步，但仍存在许多值得研究的问题：

（1）深度学习频谱感知方法中使用最多的网络为CNN，且大多数情形为单用户频谱感知，因此如何应用其他类型的深度网络模型来进行协作频谱感知从而进一步提高检测概率值得进一步探讨；

（2）模型泛化能力差，训练好的深度学习频谱感知模型要求测试数据与训练数据具有相同特征才能进行频谱感知，寻找更有效的训练数据样本特征提高模型泛化能力可作为后续研究内容之一；

（3）现有的深度学习频谱感知方法大多为监督学习方法，可考虑将无监督深度学习方法应用于频谱感知，使频谱感知更加简单、智能；

（4）已有的深度学习频谱感知考虑的是静态场景，即PU状态不随时间改变，因此可考虑PU的状态动态变化的场景，将深度学习与动态因素结合，使频谱感知结果更加准确。

4 结语

本文对基于深度学习的频谱感知方法进行总结，介绍了深度学习频谱感知研究文献中应用最广泛的3种深度学习模型和方法——CNN的结构及其训练过程、LSTM的隐藏层细胞结构以及强化学习的基本思想，并在此基础上综述了基于CNN、LSTM、DRL和其他深度学习模型的频谱感知方法，最后进行了总结和展望。现阶段基于深度学习的频谱感知方法有一定的研究成果有问题待解决，值得进一步深入研究。