电磁频谱空间射频机器学习及其应用综述

2022-12-13 05:37周福辉张子彤吴启晖

数据采集与处理 2022年6期

周福辉，张子彤，丁锐，徐铭，袁璐，吴启晖

（南京航空航天大学电磁频谱空间认知动态系统工业和信息化部重点实验室，南京 211106）

引言

电磁频谱资源已被世界各国公认为继海、陆、空、天、网等重要战略领域的又一国家战略自然资源，在推动社会经济发展、国防建设和改善人民生活等方面发挥着越来越重要的作用。然而，随着通信、雷达、导航、遥感、电抗和测控等各类电磁用频设备和系统的数量爆炸式增长，电磁频谱空间环境（图1）呈现高动态、异常复杂和多系统耦合特性［1］。而且，频谱资源是一种有限的自然资源，随着用频需求的迅猛增长，电磁频谱空间的资源稀缺问题势必日益凸显［2］，进行电磁频谱空间资源的高效利用迫在眉睫。

图1 电磁频谱空间Fig.1 Electromagnetic spectrum space

同时，电磁信号是移动通信的基石，保障其工作信道的畅通无阻是必然需求，而电磁信号不可避免地对临近信道的雷达、卫星通信的正常工作产生影响。一系列智能应用，如自动驾驶、远程医疗等，其抗电磁干扰的能力直接关系到民生安全，同时，自身产生的电磁信号也会干扰到其他系统。因此，电磁频谱空间中的安全隐患势必大幅增加。为实现电磁频谱空间资源的高效利用，保障电磁频谱安全，亟需频谱智能管控技术。

近年来，机器学习方法被广泛使用，利用人工智能实现频谱智能管控势在必行。深度学习作为机器学习的一个重要分支，在频谱感知［3］、频谱预测［4］、目标识别［5］和目标检测［6］等多方面都发挥着举足轻重的作用，是目前运用最为广泛的解决方法。相比于传统手工设计特征的方法，基于深度学习的方法避免了繁琐的手工设计过程，能够自动学习更具有区分力的深度特征，不仅降低了设计难度，同时也保障了算法性能。

然而，传统深度学习方法是为计算机视觉、自然语言处理领域的问题量身定制的，在面对电磁频谱空间这一特定背景下的实际问题时，此类深度学习模型取得的效果并不理想。因此，提出射频机器学习这一概念［7］。射频机器学习从电磁频谱空间特性出发，以射频大数据为基础，充分利用电磁频谱领域知识，具有快速、小样本甚至零样本、可解释性和高性能优势，应用于电磁频谱空间的认知、决策等方面。

针对传统深度学习方法的不足，射频机器学习旨在克服以下3大难题。

（1）传统深度学习的优秀表现更多地依赖于模型复杂的体系结构和反复实验的调参经验，人们无法探知深度学习模型究竟从数据中学到了哪些知识，如何进行最终决策，缺乏完备的数学理论指导和改进深度学习模型的表达能力、训练能力和泛化能力［8］。因此，射频机器学习的第1大难题就是如何结合外部知识赋予网络可解释性。

（2）深度学习取得巨大成就的同时，人们发现将其应用到实际场景中却困难重重。高质量标签数据的获取首当其冲，目前的深度学习方法需要大量的标签数据来进行训练，但是实际应用中数据获取往往是困难的，这其中既包含国家机密和隐私的问题，也有目标对象本身就稀缺的情况，除此之外，数据标注工作往往需要耗费大量人力、物力，从而严重阻碍了深度学习技术在实际场景中的落地［9］。因此，射频机器学习的第2大难题是如何提升小样本、零样本学习能力。

（3）深度学习方法在提高算法性能的同时，往往伴随着庞大的网络运算，这也就使得深度学习的方法很难部署在计算资源受限的设备上，因此在一些算力受限的应用场景，比如万物互联、车载通信和卫星通信等问题中，频谱管控目前大多还是使用一些低智能化、低算力消耗的技术完成，这同样严重阻碍了频谱智能管控的发展［10］。因此，射频机器学习的第3大难题是针对具体问题设计轻量化的网络结构，降低网络复杂度。

1 射频机器学习国内外研究现状

本节从物理层、数据链路层、网络层、传输层和应用层出发，介绍了射频机器学习具体应用的最新研究工作，如图2所示。在物理层，射频机器学习可以用于调制方式识别、频谱预测、信道估计、射频指纹识别和无线接入方式识别等。在数据链路层，射频机器学习可以用于链路质量评估和流量预测等。在网络层，射频机器学习可以进行路由优化。在传输层，射频机器学习适用于拥塞控制和调度。在应用层，射频机器学习用于异常检测。

图2 射频机器学习具体应用的最新成果Fig.2 Application of radio frequency machine learning

1.1 物理层

1.1.1 调制方式识别

由于典型的非合作通信系统中使用的调制方式存在差异，因此调制方式识别是信号解调前的一项重要的工作，目的在于对接收机所接收到的信号进行处理，并依据一定的规则对信号的调制方式进行判别，为信号解调或实施干扰等后续工作提供信息。在电磁频谱空间中，频谱资源的短缺将导致他人非法使用分配的频段，而调制识别算法可以帮助频谱监测系统分析每个频带的调制方式，解调监测信号，分析监测信号属性，最终实现频谱资源高效管控［11‑13］。

传统的知识驱动调制方式识别算法主要是基于特征提取的统计模式识别方法和基于决策理论的似然比识别方法，其在低信噪比的条件下往往效果较差且人工提取特征计算量大、步骤烦琐，而随着计算技术和集成电路的发展，具有深层结构的深度学习可以从原始数据中学习特征，并利用分类器层自动进行分类，这类数据驱动算法虽然大大提高了调制识别的分类精度，但在低信噪比下的分类精度仍没有实质性提升，并且由于深度学习的黑盒性质还额外带来了可解释性问题。针对数据驱动和知识驱动各自的缺陷，一个可行的思路是将二者融合使用，结合双方优势，规避各自劣势。在文献［14］中，作者对3种自动调制分类的网络架构性能进行了对比，并指出继承于专家系统的架构为在射频机器学习领域中设计新的网络架构提供了有价值的见解。

最简单的一种融合思路就是引入通信领域中对于信号数据的处理方式，将手动提取的特征作为机器学习算法的输入。文献［15］提出了一种基于相位统计图以及卷积神经网络的智能调制识别算法，通过相位统计图获得调相信号的特征，以图片的形式作为神经网络学习的样本提取特征从而进行分类。文献［16］提出了一种基于循环相关熵向量（Cyclic correntropy vector，CCV）和长短时记忆密集连接网络（Long short‑erm memory densely，LSMD）的自动调制识别方法，将接收信号中由知识驱动算法提取的循环相关熵的CCV特征放入数据驱动的LSMD，并利用加性余弦损失来训练LSMD，以最大化类间特征差异并最小化类内特征变化。文献［17］在相干接收机中使用二值卷积神经网络从预处理过的信号环形星座图中自动提取与调制方式相关的特征，具有功率和时间效率高、性能损失小的特点。文献［18］通过使用Choi‑Williams分布和模糊函数将雷达信号转换为T‑F图像，然后利用灰度梯度共生矩阵提取预处理后T‑F图像的融合纹理特征并输入支持向量机，从而实现了低信噪比下低截获概率雷达辐射源信号的调制方式识别。上述文献相比纯知识驱动或数据驱动的方法，均在低信噪比条件下实现了调制方式识别精度的提升，但比直接以I/Q信号数据作为输入的数据驱动算法牺牲了一定运行效率。

为进一步提升低信噪比下的识别准确性，文献［19‑22］对数据驱动算法的输入首先进行了降噪处理。文献［19］使用平滑伪魏格纳‑维尔分布（Smoothed pseudo Wigner‑Ville distribution，SPWVD）时频变换获得不同调制类型跳频信号的时频图像后使用卷积自动编码器对时频图像进行去噪，并将去噪后的图像发送到卷积神经网络进行特征提取和分类识别。文献［20］通过提出的低秩表示算法对原信号进行降噪预处理并获取信号的循环谱图，使用稀疏滤波准则对神经网络进行预训练后，再通过神经网络从降噪后的循环谱图中提取特征来实现自动调制识别。不同于文献［19‑20］对提取的信号特征进行降噪，文献［21‑22］直接将原始信号I/Q数据输入卷积自编码器进行降噪与重构，之后分别输入长短期记忆网络（Long short‑term memory，LSTM）和残差网络，自动从低信噪比的无线电信号中提取稳定和鲁棒的特征以进行更为精准的调制方式识别。

知识驱动的算法也可以用于调整数据驱动算法的结构。在文献［23］中，作者提出了一种利用异步幅度直方图（Asynchronous amplitude histograms，AAHs）训练的径向基函数人工神经网络识别信号调制方式的方法，通过应用期望最大化来利用AAHs的统计特性并选择径向基函数的中心向量，取代了K‑均值或随机选择的中心向量选择方法，具有更高的时间效率与识别准确性。文献［24］提出了一种基于神经结构搜索的自动调制识别方法来自动调整深度神经网络（Deep neural network，DNN）的结构和参数，并在训练和约束的组合下找到最优结构，提高模型搜索的灵活性，并克服反向传播过程中不可微量化函数导致的梯度传播困难。与固定结构的网络相比，文献［23‑24］提出的方法在低参数和浮点运算条件下具有更高的识别精度。

除了关注调制识别精确度和算法复杂度，学者们对于使用数据与知识双驱动来减小训练样本数量、提高实际通信场景中的适用性也做了大量研究。文献［25］提出了一种基于多任务学习（Multi‑task learning，MTL）的自动调制识别方法，并引入了非白高斯噪声和同步误差，通过在不同信噪比条件下训练具有相同结构的多个彼此共享知识（例如模型权重）的卷积神经网络（Convolutional neural networks，CNN）模型，使得MTL可以从不同噪声场景下的数据集中提取一般特征，增强网络的泛用能力。在没有大量标记样本的情况下，文献［26］将生成对抗网络（Generative adversarial networks，GAN）模型的特征提取能力与半监督异常检测方法一类支持向量机（One‑class support vector machine，1SVM）相结合，利用GAN模型学习的特征对1SVM进行训练，取得了优异的调制方式识别性能。文献［27］提出了一个模块化的自动调制识别小样本学习框架MsmcNet，包含I/Q融合模块、1D信号特征处理模块和分类器，大量实验结果表明该框架在小样本甚至单样本的条件下都实现了较基准方案更为精确的调制方式识别性能。此外，迁移学习也是解决小样本挑战的利器之一，文献［28‑30］均构建了基于迁移学习的半监督自动调制识别方案，对未知信号和信道参数引入的信号形状变换更具鲁棒性，在有限样本的情况下取得了良好的识别准确性。

在提升可解释性方面，文献［31］提出使用概念瓶颈模型进行信号调制识别，作为在基于深度学习的调制识别算法中提供内在决策解释的手段，在满足所需识别精度的同时提供了模型可解释性。文献［32］首先通过利用不同调制的属性特征构建了基于残差网络的属性学习模型，其次构建并预训练了调制识别视觉模型，结合属性学习模型和视觉模型提出了数据与知识双驱动的调制方式智能识别方案，在各种信道环境尤其是低信噪比下取得了非常优异的分类精度，同时属性特征的引入也增强了方案的可解释性。

1.1.2 频谱预测

频谱预测通过挖掘频谱历史数据的内在相关性和使用模式，并通过各种算法学习特征，对即将到来的时隙的频谱占用进行合理预测。以此提前获得信道使用信息，准确的频谱预测能减少时间和能源消耗等，提高频谱决策的准确性，为动态频谱接入奠定基础。通过引入知识可以解决纯数据驱动的深度学习频谱预测算法在低信噪比条件下性能差、缺乏网络可解释性、对训练样本需求量巨大、网络训练消耗巨大和计算资源等问题［33‑35］。

文献［36］首先提出了一种通过图像处理从频谱图中准确定位信号的预处理算法，进一步地以一种时频融合注意力网络来建模复杂的时频关系。值得注意的是，作者还以网络内耦合的方式引入了外部知识，并使用设置加权迁移学习策略，通过有效利用源频谱和目标频谱的数据，进一步提高了频谱预测模型在目标频谱上的性能。文献［37］提出了基于自回归模型与LSTM的数据与知识双驱动的频谱预测框架，整体结构根据自回归结构改造而来，这赋予了网络可解释性。相比于传统自回归模型中利用最小二乘法进行参数估计，该网络通过深度学习方法训练得到优化参数从而得到更精确的参数估计，最后每个网络单元仅有的两个可训练参数能够加速网络训练过程。文献［38］提出了NN‑ResNet频谱预测模型，首先为了充分利用区域中的传感器，部署了基于卷积神经网络和残差网络的深度学习预测模型以预测该区域的时空频谱使用情况，进一步地为降低感知开销，应用最近邻插值来恢复未感知区域中的频谱使用数据，由此借助重建过程进行预测所需的传感器更少，在传感器稀疏的情况下保持了较高的预测准确率。

1.1.3 信道估计

无线通信系统的性能很大程度上受到无线信道的影响，如阴影衰落和频率选择性衰落等的存在使得发射机和接收机之间的传播路径非常复杂。无线信道并不像有线信道固定并可预见，其具有的随机性对接收机的设计提出了很大挑战。在正交频分复用技术（Orthogonal frequency division multiplexing，OFDM）系统的相干检测中需要对信道进行估计，信道估计的精度将直接影响整个系统的性能。为了能在接收端准确地恢复发射端的发送信号，人们采用各种措施来抵抗多径效应对传输信号的影响，信道估计技术的实现需要知道无线信道的信息，如信道的阶数、多普勒频移和多径时延或者信道的冲激响应等参数。信道估计是信道对输入信号影响的一种数学表示，而“好”的信道估计则是使得某种估计误差最小化的估计算法［39‑41］。

文献［42］通过将现有的迭代检测算法展开到DNN结构中并在每一层引入两个辅助参数实现了基于知识驱动深度学习（Deep learning，DL）的大规模多输入多输出（Multiple‑in multiple‑out，MIMO）检测器，使得检测器可以用更小的数据集快速训练。文献［43］在基于知识驱动DL的MIMO检测器基础上，进一步提出了联合信道估计和信号检测框架，检测器考虑了信道估计误差和信道统计信息，而信道估计由检测数据细化并考虑了检测误差，通过数据与知识双驱动获得了显著的性能增益。文献［44］提出了将DL与专家知识相结合的OFDM接收机，接收机分为信道估计子模块和信号检测子模块，每个子模块均为DNN并使用现有的传统解决方案作为初始化。文献［45］提出了将DL与共轭梯度算法相结合的基于知识驱动的DL网络用于MIMO中恒定包络预编码。文献［46］提出了将DL集成到最大对数后验概率算法中的TurboNet用于Turbo译码。

1.1.4 射频指纹识别

随着无线通信技术的不断发现，保障无线网络的安全也变得愈发重要。由于设备内部元件在生产制造和使用过程中存在着难以预知的损耗，同一制造商生产的同一批次设备也存在微小且稳定的差异，这一独特的差异称为射频指纹。因此，独具稳定性和唯一性的射频指纹可以对设备身份进行有效的识别，提升物理层的无线网络安全［47‑49］。

目前为止，部分国内外学者利用收发器独特的物理层特性实现对射频指纹的识别。文献［50］利用设备中信号的载波频率偏移（Carrier frequency offset，CFO）的平均值相对稳定这一特性，提出了一种根据CFO值校准CNN输出的混合分类器。文献［51］利用输入信号的相位和频率偏移量作为知识，结合数据驱动的深度学习方法达到训练网络的目的，提升了低信噪比下分类性能。

此外，还可以利用其他辅助知识来提升识别精度。文献［52］提出了一种基于噪声模型辅助CNN的射频指纹识别方法，以增强物理层安全。其中噪声模型对接收信号进行处理以消除原始数据的影响，只留下包含设备独特特性的噪声部分。文献［53］融合了三维希尔伯特谱和双谱这两种特征，提出了基于深度学习的多特征融合的射频指纹识别模型，提升了模型识别的精度。

通常的射频识别系统具有海量数据流的特点，在实际应用场景中，不仅需要大量的手工工作来收集相关数据样本并标记数据，而且还可能随着项目的进展而出现新的数据类别，大量标签样本的收集难以甚至完全无法实现。文献［54］提出了一种基于可变形卷积网络的射频指纹识别方法，使卷积运算更偏向于能量较高的特征图中有用的信息内容而忽略部分背景噪声信息，并利用分布式联邦学习系统解决了多方联合训练模型在不交换原始样本数据的情况下局部训练样本数量不足的问题，无需训练序列和导频且信息量小，实现了较高的能源效率和频谱效率。文献［55］将半监督学习引入射频指纹识别，提出了一种基于双谱特征提取的自分类GAN，利用信号的双谱估计作为发射器的特征表示，将标签信息嵌入到隐藏层中以指导GAN的训练，在多种场景下都具有良好的半监督分类性能。

1.1.5 无线接入方式识别

由于频谱资源有限，相互竞争的无线技术受到不同程度的干扰，多种无线技术共存是未来通信系统的趋势。智能认知无线电系统需要正确的频谱可用性评估和在访问许可频带之前的态势感知。在异构共存网络中，随着干扰概率的增加，对操作特定频段的无线技术的识别为认知节点提供了潜在干扰的估计，无线接入方式分类对于实现高效的频谱共享和干扰管理至关重要。现有的基于深度学习的方法可以通过直接捕获输入数据的特征对其进行低精度的分类，但因为输入数据类型的不确定、噪声干扰等因素的存在使得分类的准确度偏低［56‑58］。

文献［59］关注轻量化网络，基于信号存在多尺度特征的事实，提出了一种多尺度卷积神经网络框架用于无线接入方式识别，具有更优的分类性能和更快的收敛速度。文献［60］考虑了多个可区分的物理层设置，根据原始I/Q测量值对传输设置如带宽、载波频率和接收信号强度（Receiving signal strength indicator，RSSI）进行估计，实现了符号级提取方案以提取调制设置的独特特征并应用于机器学习中以识别接收到的无线技术类型。与原始I/Q测量值相比极大简化了提取的特征，因此可以使用简单的结构设计机器学习分类器如多层感知机，从而面向物联网节点快速部署。文献［61］面向小样本场景，作者提出了一种使用深度自编码器的无线接入方式识别算法，利用软件定义无线电来构建I/Q样本的大型未标记数据集，但只需要对其中少数样本进行标记即可开始学习过程，最大限度地减少手工标记频谱数据的需要，且该方法只需要原始I/Q样本，因此可以很容易地从低成本的传感设备中获取。文献［62］面向开放集识别的难题，提出了一种基于CountGAN架构的多任务学习体系结构，用于识别已知和未知的无线信号类型，其中多任务架构的引入能够捕获信号的调制域信息从而改进单个无线信号的表示，使用度量学习中的圆损失和极值理论进一步增强了模型的鲁棒性和对开放集场景的适应性。

1.2 数据链路层

1.2.1 流量预测

流量预测是将历史流量数据输入到非线性模型中来预测当前或者未来的网络流量，可以反映出网络某一时刻或者某一段时间内网络业务的使用情况。通过流量预测模型提前了解流量的变化趋势，会大大提升网络资源分配调度的效率，从而提升整个网络资源的可利用率。无线网络流量的历史数据是高度非线性和复杂的，因此数据点在空间上相互关联，时间上相互依赖。然而，在一个连续空间中，时空特征的动态变化是突然的。射频机器学习通过将通信领域知识融合在原有的时空特征来提升流量预测准确性［63‑65］。

文献［66］在捕捉隐藏在数据间复杂时空相关性的同时，充分利用影响蜂窝数据业务生成的各种因素（空间、时间和社会活动水平），提出了一种基于迁移学习的新型深度神经网络架构STCNet，实现有限样本下的流量预测。虽然上述迁移学习解决了数据有限的问题，但是仍旧需要从类似场景中学习和迁移信息，短时间内对用户的流量水平进行预测仍然具有挑战性。面对上述存在的问题，文献［67］提出了一种基于元学习的反馈模型，该模型包含一个主策略和一组预测器，其中每个预测器都经过了优化，用以预测特定类型的流量。然后，主策略通过每个预测器反馈的预测精度来动态选择最合适的预测器。文献［68］将网络流量问题建模为马尔可夫决策过程，然后通过蒙特卡罗Q学习预测网络流量。值得注意的是，为了解决实时性要求，作者提出了一种基于残差的字典学习算法来降低该算法的计算复杂度。

此外，文献［69］利用无线流量中特殊事件发生触动流量变化的可预测因果关系，提出了基于相关性和因果性的预测框架，该框架集成了时空流量信息和其他维度信息的两类预测，利用不同层次信息间的互补优势来最大程度地提升预测精度。

1.2.2 链路质量评估

在无线通信环境中，信道条件会随着时间和空间的变化发生显著的变化，进而会影响无线链路的质量。建立有效的链路质量评估模型不但能够客观地评价链路质量、链路的稳定性和敏捷性，还可以结合路由对数据传输提供保障。具体来说，链路质量越好，接收信号成功的比例就越高，故而，通信就越发可靠。除此之外，链路质量的有效预测可提供巨大的性能回报，如减少数据包丢失而提高网络吞吐量，受限的路由重新发现等［70‑71］。

文献［72］将不同物理层参数承载的链路质量信息通过轻量级加权欧几里得距离进行融合，利用融合后的参数与包接受率的映射模型实现链路质量的定量估计。文献［73］利用实时流量值和链路信息来评估链路质量，提出了一种基于流量感知和链路质量的路由协议，在数据包交付率和平均传输延迟方面实现了显著的性能提升。文献［74］根据无线链路的特性采用小波去噪法将信噪比时间序列分解为确定性部分和随机部分，通过两个LSTM预测确定性部分和随机部分的方差，计算置信区间边界，用于判断链路质量是否适合下一次传输。

1.3 网络层

路由的目的是选择合适的路径将信息从发射机传递到接收机。为了使信息可以更快、更高效地传输到目的地，一般根据流量需求对路由进行优化。路由优化指的是以最有效和最高效的方式优化流量的路由路径。现有的部分路由优化方法是遵循网络中固定数量的路由器进行的。一旦部分路由器发生故障或者手动修改拓扑结构，现有的路由优化算法可能就无法正确地做出路由选择。射频机器学习为这些情况提供可能。将通信领域知识引入路由优化，可以在动态变化的无线通信环境中自适应地生成最优模型［75‑77］。

文献［78］利用链路可靠性和其他传统路由指标来设计路由算法，通过斯费勒‑莱曼核和双卷积神经网络（Weisfeiler‑Lehman kernel and dual convolutional neural network，WL‑DCNN）模型引入相似度矩阵和拉普拉斯谱来提取和标记目标链接生成的子图，提升了拓扑特征挖掘的自学习能力，为深度学习模型构建主要输入和辅助输入。实验结果表明，该模型在保持较高能量效率的同时有效提高了传感器网络的弹性。文献［79］利用物理层信干噪比这一概念，使用强化学习对路由进行有效优化。其中，单个智能体与每个流相关联，通过基于相邻节点的地理位置信息智能地做出联合路由和频谱分配决策来避免干扰。

此外，面对地面用户与基站没有可靠直接连接的情况，多跳无人机网络可以作为数据中继。文献［80］研究了多跳无人机中继网络中的分组路由问题，提出了新型联合训练机制，即无人机自己内部和无人机间的训练，解决了智能体动作空间大这一难题，从而最小化数据包传输时间，降低网络拥塞概率。

1.4 传输层

1.4.1 拥塞控制

现实生活中，设备的处理和转发能力都是有限的。当所有网络参与者发送数据过快或者信道质量较差时，拥塞就会发生。而拥塞导致的排队和丢包导致的超时都会大大降低传输速率。网络拥塞控制主要解决网络传输需求和网络传输能力不匹配引起的拥塞问题。当拥塞发生时减少发送速率或者提前对带宽进行分配，可以在一定程度上满足低延时的要求［81‑83］。

文献［84］考虑了影响链路拥塞的当前流路由信息，采用改进后的Q学习算法进行拥塞控制。实验结果表明该模型可以实现更高的链路利用率和更低的拥塞水平。然而，由于Q表的存储容量有限，Q学习算法可能适用于状态有限的场景，这无法适用于网络中的潜在变化。文献［85］提出了一种新的基于共享瓶颈的拥塞控制模型，其利用显式拥塞通知机制来检测子流之间的共享瓶颈。值得注意的是，为了在保持瓶颈公平性的同时提供负载平衡，提出了耦合拥塞控制算法来估计每个子流的拥塞程度，并利用它来动态地控制拥塞窗口。文献［86］利用多智能体强化学习提出了一种分布式学习方法，以适应多变的环境并实现高效的拥塞控制。值得注意的是，每个智能体的网络中都引入了两层注意力机制，一层注意力机制会获取其他链路的状态，另一层注意力机制在不牺牲整体性能的情况下充分挖掘每个链路的传输潜力。文献［87］将无线接入网（Radio access network，RAN）信息引入基于深度强化学习的拥塞控制中，这会有助于智能体直接了解潜在的瓶颈信息。同时，智能体会据此来采取行动防止RAN中的拥塞，从而提高网络利用率。

1.4.2 调度

为了加快任务的处理速度，资源调度器将作业划分为多个任务。然后，调度器将每个任务分配到某个计算资源上运行。因此，任务调度就是如何根据计算资源的负载状态和任务的计算需求合理地将任务分配给计算资源，目标是确保负载平衡并提高计算资源的利用率［88‑89］。

文献［90］将优化功率分配的专家知识和深度人工神经网络相结合，以解决无单元大规模MIMO通信系统中的接入点调度问题串行带宽受限的前传架构。然而，传统纯数据驱动的优化算法会存在收敛速度慢的问题。文献［91］提出了基于强化学习的云资源调度方案，并在强化学习中引入模仿学习来减少最优策略的训练时间。文献［92］设计了一种基于自适应深度强化学习的任务调度框架，用于高效节能的云计算。其中，作者构建了一个自动生成网络，其可以根据不断变化的工作量动态调整深度强化学习的折扣因子，以实现加速学习速度的目的。文献［93］考虑到有限的计算和通信资源，通过深度Q网络算法对任务卸载、无线信道分配和图像压缩率选择进行联合决策，以获得较高的平均识别精度和较低的平均处理延迟。值得注意的是，作者将神经网络算法作为底层算法融合到深度Q网络算法中，以减少模型维数灾难，加快收敛速度。文献［94］提出了一种知识驱动的云端多目标工作流调度算法。一方面，该算法利用工作流的结构知识将大规模决策转化为一系列小规模分组策略，以加快收敛速度；另一方面，该算法挖掘工作流任务和云资源的知识，估计目标空间归一化的理想点和最低点，保持多目标工作流调度的多样性。

此外，部分优化算法还会存在搜索空间冗余的难点。文献［95］研究了一种基于知识的自适应离散优化框架，在最小化工作流程成本的同时将其执行时间保持在预定的期限中。值得注意的是，作者将每小时成本中的空闲时间知识重构自适应控制搜索步长的离散传播算子，以在巨大的搜索空间中高效地搜索有希望的区域，将任务分配方案相应资源的优秀块结构作为知识，以强化局部区域并加速收敛。文献［96］提出了一种基于深度强化学习的表示模型，以适应节点和任务的动态变化，解决深度强化学习中由于海量数据引起的维度灾难的难点，而后利用降维后的向量表示进行调度决策。

1.5 应用层

近年来，随着通信技术的迅速发展，各类无线电设备不断涌现，通信系统中的信号成分也越来越复杂。如果将包含已知授权用频设备发出的正常频点信号以及相应的背景噪声的特定电磁空间定义为正常状态的电磁空间，则当发生未授权设备入侵、用频设备互相干扰等导致电磁空间遭到破坏的异常情况时，应视为电磁空间的异常状态。异常情况的发生使得通信系统的安全可靠性大大降低。由于异常情况难以避免，因此在电磁频谱监测领域内，异常信号检测技术至关重要。随着深度学习在通信领域的应用范围越来越广泛，依据射频信号特性和领域知识为异常信号检测任务定制相适应结构的深度学习模型也是题中应有之义［97‑99］。

文献［100］基于预测误差的方法，将LSTM网络和高斯混合模型相结合实现了实时异常检测算法。文献［101］基于重构误差的方法，将自编码器结构引入生成对抗网络中，生成信号时频图的重构图像，根据生成对抗网络判别器的损失值和重构误差判断输入信号是否为异常信号。文献［102］同样基于重构误差，将LSTM和CNN分别作为编码和解码网络，并引入生成对抗思想，结合半监督和无监督学习方式对输入信号的功率谱密度图进行重构并根据重构误差检测异常信号。文献［103］提出了用归一化修正条件转移熵作为识别时间序列因果关系的度量并构建因果网络，使用具有特征注意力机制的多元LSTM对遥测数据进行建模、预测以及异常检测，与传统的基于预测模型的异常检测方法相比，该方法可以用于研究多变量和大规模遥测数据中的因果关系，模型预测对异常信号更敏感。文献［104］研究了一种基于元学习的跨频带频谱异常检测方法，通过使用InceptionV 3的预训练模型来分析不同频带数据以获取不同频带之间的差异，之后构建元学习数据集并通过元学习训练模型找到模型参数的最优分布，最后使用少量目标频段数据微调模型以检测目标频谱中的异常信号。

2 射频机器学习框架

根据数据驱动与知识驱动的不同作用机理，将现有射频机器学习方法总结为4大框架：串行双驱动框架、并行双驱动框架、耦合双驱动框架和反馈双驱动框架。接下来对4种框架分别进行详细介绍。

2.1 串行双驱动框架

在基于数据和知识串行双驱动框架中（图3），设数据输入为X，模型输出为Y，将数据驱动建模为g(X)，知识驱动建模为f(X)，因此基于数据与知识串行双驱动框架可以表示为

图3 基于数据与知识串行双驱动框架Fig.3 Data‑and‑knowledge serial dual‑driven framework

具体来说，数据和知识串行双驱动方法能够更详尽地表征目标对象，知识驱动的方法对数据驱动的结果做进一步修改提高。在提升整体性能的同时，知识的引入能够降低纯数据驱动方法对大量样本的依赖，另一方面，数据驱动的修正能够降低知识驱动方法中精确建模的压力。文献［105］将LSTM的强非线性拟合能力和差分整合移动平均自回归（Autoregressive integrated moving average，ARIMA）模型的线性拟合能力相结合，构建了LSTM‑ARIMA预测模型，利用ARIMA模型对LSTM的预测误差建模，最后，将两者的输出结果相加得到最终的预测结果。文献［44］将信号接收机划分为信道估计子网和信号检测子网，每个子网络为一个深度神经网络结构，且首先通过模型方法进行初始估计，接着通过数据驱动的双向LSTM进行精估计。文献［106］首先通过传统数据驱动方法，多次预测得到初步图像分类结果，接着根据多标签分类结果构建知识子图，将场景相关性和语义相关性作为分类标准，辅助图像识别，提升模型的精确度。

2.2 并行双驱动框架

在基于数据和知识并行双驱动框架中（图4），设数据输入为X，模型输出为Y，将数据驱动建模为g(X)，知识驱动建模为f(X)，融合模块建模为h(X1，X2)，因此基于数据与知识并行双驱动框架可以表示为

图4 基于数据与知识并行双驱动框架Fig.4 Data‑and‑knowledge parallel dual‑driven framework

具体来说，数据驱动方法和知识驱动方法并行工作，数据驱动方法和知识驱动方法各自存在不足，因此，可以通过二者之间的比较或融合以实现性能的提升。当两者的输出属于不同类型数据时，可以通过一个控制模块对数据类型进行转换。这种集成方法有助于提高模型可靠性和模型完整性，但是整体运行时间通常依赖于知识驱动的方法。文献［32］将语义属性知识作为新的数据源，构建属性学习模型，将属性学习结果与数据驱动的视觉模型输出结果相结合，显著提升了低信噪比下的性能。由于LSTM的预测结果普遍偏低，ARIMA结果普遍偏高，基于这一先验知识，文献［107］提出了一种LSTM和ARIMA组合预测模型，通过Critic方法将两个模块的输出结果融合，以实现性能提升。

文献［69］基于预测结果的相关性和因果性提出了数据驱动的深度学习方法和知识驱动的ARIMA并行的预测方法，两者动态互补，实现了预测精度的提升。此外，作者还设计了一种轻量化网络结构降低了运算复杂度。

文献［66］利用多种不同领域的数据作为神经网络的输入，提取数据之间的复杂时空相关性，最后采用拼接的方式融合多通道输出。文献［108］针对小样本和零样本学习问题提出了一种深度视觉语义嵌入模型，视觉模型和语义学习模型分别提取出原始数据的视觉特征和语义特征，针对这两种不同类型的数据特征，设计一个转换模型将其映射到同一个特征域，最终通过最小二乘嵌入损失函数来量化两者之间的误差，实现语义知识与原始视觉数据的融合。

2.3 耦合双驱动框架

在基于数据和知识耦合双驱动框架（图5）中，设数据输入为X，模型输出为Y，将数据驱动建模为g(X)，知识驱动建模为f(X)，因此基于数据与知识耦合双驱动框架可以表示为

图5 基于数据与知识耦合双驱动框架Fig.5 Data‑and‑knowledge coupled dual‑driven framework

具体来说，数据驱动方法作为内部模块嵌入知识驱动方法中，用于复杂元素替换或模型参数校准。相比于纯知识驱动的方法，这种集成方法能够降低精确建模的压力，因为数据驱动的方法能够通过端到端的训练方法自动训练得到最合适的模型参数。相比于黑盒子结构的纯数据驱动方法，模型结构赋予了网络可解释性，同时能够降低对数据量的依赖，提升整体设计的灵活性。以知识驱动的深度学习为代表性案例，文献［37］将自回归模型的迭代过程展开成深度网络的层级结构，在展开的网络结果中人为加入若干可学习参数，通过深度学习的训练方法优化这些参数和不同步长的权重，不仅大大改善了传统深度学习方法训练参数量大、实时性差的缺点，而且显著提升了预测准确度。文献［42］中迭代检测算法被展开为DNN结构，这样将检测任务嵌入深度学习网络中，同时在每一层都引入额外的可学习参数以消除多用户之间的干扰。文献［45］中，共轭梯度算法被展开为多层深度网络，该网络通过无监督学习来获取搜索步长，并调整搜索方向。类似地，文献［109］将迭代算法展开为深度网络，设计出了用于有限字母预编码的大规模多输入多输出网络。

除了上述知识驱动的深度学习这一典型耦合双驱动方法之外，还有许多其他耦合方法，将知识巧妙地嵌入数据驱动框架中。文献［110］针对移动目标检测问题，利用牛顿定律这一公认的结构化物理知识生成标签数据，避免了深度学习难以获取大量高质量标签数据的问题。虽然本文是基于移动目标做匀速运动这一假设进行实验的，但是其思想依旧具有指导性意义。文献［111］设计了一个知识驱动的深度神经网络，将文本语义信息和知识图谱分别通过嵌入式学习表示为向量，将语义表示与知识表示相结合构成多通道多维数据，利用深度学习方法实现了用户兴趣预测。类似地，文献［112］通过现有大型知识图谱，根据感兴趣内容提取出知识子图，利用知识表示、语义表示和邻近实体表示构建多通道数据，输入数据驱动的循环神经网络，实现股票趋势预测。文献［84］提出了一种改进的Q学习方法，每个Q训练周期中都增加了新的拥堵判断，从而对链路带宽进行了进一步约束。将改进的Q学习方法代入状态/动作/奖励/状态/动作（State‑action‑reward‑state‑action，SARSA）算法中，既可以提高链路的利用率，又避免了网络拥塞的情况。文献［113］提出将基于翻译模型的结构化实体表示和基于图像的实体图像表示相结合，选择性地突出与实体表示更相关的图像表示，三元组实体与图像的结合实现了更好的知识表示学习。

多任务学习作为一种融合多域知识的学习方法，通过迁移相似但是不同领域的知识，旨在提升多任务性能的同时降低深度学习对各个任务数据量的要求。文献［114］利用不同调制类型的信号对I/Q和A/P信号敏感度不一致的特点，将调制分类和高低信噪比分类两个不同任务一起学习，显著提升了分类性能。

2.4 反馈双驱动框架

在基于数据和知识反馈双驱动框架（图6）中，设数据输入为X，模型输出为Y，将数据驱动建模为g(X)，知识驱动建模为f(X)，因此基于数据与知识反馈双驱动框架可以表示为

图6 基于数据与知识反馈双驱动框架Fig.6 Data‑and‑knowledge feedback dual‑driven framework

具体来说，当输入数据和输出数据为同类型数据时，通常可以通过输出来指导输入数据，从而弥补输入数据质量低下的问题。

文献［115］针对图像的细节恢复和伪影去除两个问题，分别构建知识驱动的先验表达过程与数据驱动的深度预测过程，实现了领域知识与深度信息的充分融合。交替迭代的求解机制保证中间结果被及时修正，进一步引导解序列沿着理想的传播方向逼近目标解。在文献［116］中，作者利用TransR、TransE等知识图谱表征算法，通过从知识图谱中挖掘推理规则，提出了一种有效的语义校正算法，在接收端检测信息的语义合理行，当出现语义错误时，反馈到发送端进行重传，显著提高了语义通信系统的鲁棒性。文献［67］提出了一种反馈式预测器，这种方案不需要预训练模型，直接将预测结果反馈给当前的预测器进行状态更新，通过迭代训练得到最优解。

但是，在针对具体任务时，难以找到合适的互补任务，因此，反馈双驱动方法存在一定的应用局限性。

3 关键挑战和开放性问题

近几年来，国内外学者已经开始进行射频机器学习的基础性研究，但是，现有的研究还存在大量局限性，未来的射频机器学习应考虑以下关键挑战和开放性问题。

3.1 样本质量

电磁频谱空间中可以获得大规模的样本，但是样本本身的质量层次不齐，导致样本标注是一项费时费力又难以保证准确性的工作。如果标注的样本质量较低会使得研究结果受低质量数据的影响或损害。此外，现有的大部分数据集是私有的，这使得比较不同模型性能变得困难，同时也难以创新原有的射频机器学习模型。因此，其中一个关键性挑战是制定标准的数据集和评估指标。

3.2 知识的表征与高效利用

知识的利用在电磁频谱管控中是十分重要的，然而知识具有多种表征方式，例如文本描述、仿真结果、知识图谱、科学公式和逻辑规则等，如何将这些知识应用于射频机器学习是一个值得思考的问题。部分知识能够以公式的形式引入射频机器学习，例如可以将违反先验知识的方程引入损失函数中，加快模型的收敛速度。部分知识能够以仿真结果的形式引入射频机器学习，仿真结果作为训练数据的一部分，增加了原始训练数据集的大小，提升了模型性能。更多的知识表示方式难以直接引入射频机器学习，需要根据不同的电磁频谱任务设计特定的知识表征和引入方式。

3.3 轻量化网络结构

现有的射频机器学习算法依赖于大规模计算设备，其表现在训练和测试阶段需要大存储量、高计算量的硬件平台的支持。然而，现实生活中的通信设备都是资源有限的平台，难以实现现有的高复杂度的射频机器学习算法的顺利部署，如手机、公共场所摄像头和无人驾驶汽车等。具体来说，高复杂度的射频机器学习模型会带来弊端：（1）调用一个较复杂的模型时，模型加载所占用的内存空间较大，剩下的内存可能不足以支撑设备运行致使设备死机；（2）模型较复杂会导致计算量暴增，向手机、无人机等设备所含的芯片无法承载过大的计算量。

3.4 稳健性能

由于无线传播的性质，将目标射频信号输入DNN之前的预处理步骤与射频机器学习的稳健性有着密切的关系。无线通信通常对传输中的扰动非常敏感，其中人为恶意攻击是射频机器学习需要解决的首要问题。一方面，最近DNN脆弱性问题的爆发很大程度上归功于快速梯度符号法（Fast gradient sign attack，FGSM），FGSM与其衍生的相关攻击证明DNN容易受到无法察觉的叠加式干扰而导致误分类，这些干扰的实现只需要一个反向传播，计算量低实时性高；另一方面，随着DNN规模日益庞大，外包机器学习服务逐渐流行，由几个大型云计算提供商提供，然而同时也带来了安全隐患，因为用户可能得到被后门攻击感染的DNN模型，后门可以是在训练过程中植入（通过将模型训练过程外包给恶意或不安全的第3方），或者是由第3方在训练之后添加。最新的研究表明，公开数据集也可能存在后门传播风险，例如恶意用户在数据集中植入后门攻击并在公开平台二次传播，这种经过“设计”的数据集会使攻击者能够操控用户正常训练的网络模型。因此，射频机器学习的一个关键挑战是应对包括恶意攻击在内的干扰稳健性。

3.5 高动态复杂电磁频谱环境

现有的大多数射频机器学习方法仍然在模拟或者预定的环境中进行评估，而这些模拟或者预定的环境不能充分替代真实的高动态的无线通信环境。具体来说，随着无线信道的快速时变，网络拓扑的动态变化等因素会导致无线通信环境和通信任务快速变化。面对新的无线通信环境和新的通信任务，一方面，射频机器学习无法保证原有的网络结构可以在新环境中取得最优的性能，另一方面，射频机器学习需要重新训练网络参数，导致时效性难以保证。除此之外，在实际通信环境中会存在应急通信、突发通信等情况。射频机器学习如何处理这种突发状况也是一个亟待解决的难题。

3.6 通信领域独有的神经网络架构

基于射频机器学习的神经网络架构对于电磁频谱管控是有效的，例如调制方式识别、信道估计和射频指纹识别等。然而，这些神经网络架构仍然存在些许不足：一方面，基于深度神经网络架构的射频机器学习算法在提升性能的同时往往伴随着模型复杂度的增加；另一方面，基于强化学习网络架构的射频机器学习算法会面临动作空间大、模型难以收敛的难题。因此，设计通信领域独有的神经网络架构对于射频机器学习的应用至关重要。

4 结束语

本文对射频机器学习在无线通信系统的具体应用进行了详细的总结，并从物理层、数据链路层、网络层、传输层和应用层这5个层次出发对已有的算法进行归类分析。根据现有射频机器学习在无线通信中的应用，本文利用数据驱动和知识驱动的相互作用机理总结了4种数据和知识双驱动的射频机器学习框架。最后，根据现有研究问题提出了关键挑战和开放性问题。