基于联合卷积与记忆神经网络的信号自动调制识别

2022-09-06 13:17陈观业

计算机应用与软件 2022年8期

张姬侯进陈观业

(西南交通大学信息科学与技术学院四川成都 611756)

0 引言

信号的调制识别是一个关键技术，准确快速地识别和标记信号的调制模式，是频谱干扰监测、无线电故障检测、动态频谱接入、认知无线网络等许多防御和监管应用的推动技术[1]。将复杂的高速射频信号数据转化为精确准确的标签，使其能够高效地传输和应用，是当今无线电传输和通信系统中的一个关键组成部分。因此，关于无线电信号调制识别技术的研究具有重要的意义。

通信信号的自动调制识别的研究中，主要包括两个技术方向：(1) 基于似然比判决理论的调制识别；(2) 基于特征统计理论的调制识别。似然比函数决策理论在最小代价准则下效果最佳，然而在实际工程中通信环境非常复杂，判决标准根据调制方式的不同需要重新设计似然函数，而且需要许多先验信息，这些原因导致了该方法没有得到普遍使用。

基于特征统计模式的信号识别最关键的步骤是提取出合适的通信信号特征，来区分不同的调制模式。当前基于特征统计的调制识别技术相关研究主要集中在以下两方面：(1) 在复杂的物理场景上进一步研究更高效的信号特征；(2) 研究机器学习和深度学习方法在调制识别中的表现。一般特征提取方法有[2]：基于信号瞬时特征、基于小波变换、基于高阶累积量、基于星座图、基于循环谱等。在分类识别过程中，用深度置信网络取代根据特征阈值进行决策的判决树[3]，或者对部分特征进行自动编码重构以改进分类性能[4]，一定程度上提升了分类器对于复杂通信环境、复杂信号类型分类问题的自适应性。但以上设计的神经网络模型都需要设计者从信号采样数据中人工设计和提取特征，模型准确率很大程度取决于这部分。因此，需要一种更加鲁棒和有效的神经网络架构，弱化前期的特征手动提取部分而达到自动识别的功能，并且提高信号的整体识别率。

近年来深度学习技术在计算机视觉、语音识别和自然语言处理领域取得了变革性的快速发展[5]，这些领域曾极其依赖特征工程，而现在已经逐渐被深度学习神经网络取代了，所有特征可通过深度神经网络自身提取，减少了特征提取的工作量。而针对自动调制识别的特征提取和分类问题，深度学习也逐渐开始在该领域得到应用。根据输入数据类型的不同，将基于深度学习的自动调制识别分为两类：(1) 基于转换特征图像的算法，其主要是将信号序列经过预处理转换为特征图像(如时频图、频谱图、循环谱图、星座图等)进而使用卷积神经网络(Convolutional Neural Network，CNN)等图像识别算法实现调制识别[6-7]；(2) 基于时域波形数据的算法，其主要是利用CNN或循环神经网络(Recurrent Neural Network,RNN)直接从时域信号中提取特征并进行分类[8-10]。文献[8]率先将CNN应用于时序信号数据，并且效果好于使用专家特征的方法。文献[10]采用将CNN与长短期记忆网络(Long Short Term Memory Networks,LSTM)结合的CLDNN网络对无线电信号进行调制识别。文献[11]采用RNN对中频信号的采样序列进行调制识别。文献[12]将端到端的深度学习神经网络ResNet应用于无线电信号序列样本数据，获得比现有最佳的传统特征提取方法——基于高阶矩的分类方法——更高的精度。结合通信信号本质进行深度学习网络研究，构建具有自适应性、自我学习、自主决策能力的通信信号处理机制具有重大的意义。

近年来卷积神经网络的明显趋势是建立更深的网络来学习更复杂的函数和层次特征关系，然而随着神经网络的深度增加，容易出现梯度消散的现象[13]。因此，本文尝试通过改变网络架构和特征传输和融合的方式来使信息传播更加高效，达到提升性能的效果。本文在卷积核尺寸、网络容量大致相同的情况下，提出联合卷积神经网络和长短期记忆网络的并行双路调制识别神经网络PCLD(Parallel CNN_LSTM_DNN)来改进复杂环境下多种无线电信号的调制识别网络性能。该网络在训练参数减少的情况下，相比其他卷积神经网络结构提高了信号识别分类性能，更适合无线电信号的特征提取，兼顾了无线电信号的空间和时域信息。无线电信号IQ两路信号兼具时域信息和空间关系，本文在PCLD基础上添加了IQ分离数据作为辅助通道，设计了MCCLD(Multi-channel Combined CNN_LSTM_DNN)。该方法在训练参数量相近的情况下加快了收敛速度，在调制识别准确度上也有相应提高。

1 无线信道模型与数据集

无线电信号在信道和接收机的相互作用下，接收信号可表示为：

ω0)t+φn+θ))+g(n)

(1)

式中：An表示第n个符号的幅度；s(t)表示脉冲成形函数；T表示符号周期；h(t)表示信道响应函数；φn表示相位；θ表示初始相位偏移；ωc表示载频；ω0表示接收机频率；g(n)表示高斯白噪声。无线电信号本质上是由发射器按照一定规则映射的，然而在发射、传输和接收过程中，由于载波ωc频偏、初始相位偏移θ、信道响应h(t)和接收机的载波频率ω0恢复误差、符号时钟恢复误差等影响，导致接收到的信号数据幅度或相位信息有所失真，存在不同程度的偏差与损伤。接收器将接收到的中频输出信号通过正交解调变换为正交的两路基带解析信号：

Z(t)=A(t)cosφt+jA(t)sinφt=ZI(t)+ZQ(t)

(2)

式中：A(t)为基带信号的瞬时幅度；φt为瞬时相位；ZI(t)为同相分量；ZQ(t)为正交分量。

二维空间中的极坐标上任意点到原点的距离和相角，可以分别代表信号采样点的振幅和相位，也可以说是代表载波的被调制情况。而这一点所代表的向量,在笛卡尔坐标中横轴和纵轴上的投影分别为I值和Q值。所以相反地，如果已知接收信号的IQ数据，由式(3)和式(4)同样可得到其瞬时幅度相位信息：

(3)

P(t)=arctan(ZQ(t)/ZI(t))

(4)

本文将使用文献[12]所发布的RadioML 2018.01调制识别数据集。该数据集使用了GNU Radio软件连接软件无线电外设(Universal Software Radio Peripheral,USRP)采集了共24种不同的模拟调制和数字调制信号，涵盖了广泛的单载波调制方案。调制信号包括：OOK、4ASK、8ASK、BPSK、QPSK、8PSK、16PSK、32PSK、16APSK、32APSK、64APSK、128APSK、16QAM、32QAM、64QAM、128QAM、256QAM、AM-SSB-WC、AM-SSB-SC、AM-DSB-WC、AM-DSB-SC、FM、GMSK、OQPSK。信道模拟考虑了中心频率偏移、采样率偏移、加性高斯白噪声、多径和衰落等影响。数据集样本的信噪比均匀分布在-20 dB～30 dB范围，间隔2 dB，总共26种信噪比参数，数据集样本数为：24×26×4 096。每个样本均包含同相分量/正交分量(I/Q)两路数据，每一路数据有1 024个采样点。

2 调制识别网络模型的设计与构建

2.1 并行双路调制识别神经网络的设计

2.1.1Inception单元网络结构

Google提出的Inception架构[14]是一种提高网络性能的成功方法。本文设计的Inception单元如图1所示，包含三个并行路径：首先通过1×1卷积学习这些特征在通道间的组合方式，同时将输入的维度降下来，再通过常规的卷积核来学习某个特征在空间的分布，因为样本为二维数据格式，本文采取的卷积核尺寸为3×2和3×1，两层小尺寸的卷积核等价于大尺寸卷积核的效果。最后将这些特征信息在通道轴上进行级联后输出。使用1×1卷积可以让网络自行决定使用哪些过滤器组合，在同一层级上拥有多个尺寸的卷积核，这种特征提取方式可以提供多尺度的特征检测，增加了网络宽度有效防止梯度消失。

图1 Inception单元结构示意图

2.1.2Inception-Resnet单元网络结构

增加跨层连接的残差网络架构可以减少梯度消散。文献[15]将Inception结构与Resnet结构结合，同时应用两种特征连接方式，在Inception单元间添加跨层连接，得到Inception-ResNet网络。本文设计的Inception-ResNet单元结构如图2所示。Inception单元提供多尺度的特征检测及灵活的特征组合方式，残差结构不直接学习x到H(x)的映射关系，而是学习两者的差异，图2中用F(x)表示，然后需要计算H(x)时，将残差加到输入上即可，即学习F(x)+x。因为传输前层的信息迫使网络将残差函数作为特征提取的一部分。残差结构有效地减少了梯度消散问题，使更深的神经网络成为可能。

图2 Inception-ResNet单元结构示意图

本文采用的网络整体结构如图3所示，数据输入后经过一个卷积层增加通道数，经过N次卷积单元提取特征，卷积单元中的卷积核数量和尺寸可自定义。卷积提取单元的个数N可根据采样点长度灵活选取，采样点少的情况下可以不采用Maxpooling层降采样，但是在采样点较多的情况下不进行降采样会造成运算量和参数量指数级增加，反而会导致过拟合现象。卷积单元提取的特征信息在通道维度经全局均值池化层(Global Average Pooling,GAP)进行降维，GAP能够加强最后的特征信息与类别的一致性[16]，可以减少参数量，对整个网络在结构上做正则化防止过拟合，最后DNN将特征映射到独立空间，其输出通过Softmax回归进行归一化处理，得到预测分类的概率分布，如式(5)所示。

(5)

式中：y1,y2,…,yk,…,yn表示未归一化的Softmax输入，qk表示经过Softmax归一化后第k项的概率分布。

图3 本文Inception网络整体结构

本文中选取N=6，卷积核数目为32，为了减少训练参数和运算量，在不影响精度的情况下本文在N=4时将特征降采样至一维。本文中Inception网络含有训练参数的层数有1层Conv+6×6×2层Conv+1层Dense=74，Inception-Resnet网络增加了残差结构，但是网络层数和训练参数并未增加，与Inception网络相同。

2.1.3PCLD调制识别网络结构

LSTM是一种特殊的RNN结构，通过遗忘门、输入门和输出门三个门来控制节点状态。遗忘门选择丢弃一部分信息，输入门界定要更新哪些信息，然后更新这部分信息，最后将遗忘门保留的信息与输入门更新的信息结合，经过输出门判断其状态后得到输出，每一步都保存了前面节点的信息。文献[17]首次将CLDNN模型将CNN、LSTM和DNN结合，该模型在语音识别任务中获得了良好的性能。

CNN可以减小频域的偏移变化，LSTM则适合对时序信息进行建模，本文在卷积调制识别网络基础上增加了CNN_LSTM并行路径，结构如图4所示，构建了PCLD网络结构来捕获无线电信号数据的空间变化和时域动态特征。各种卷积网络结构可能涉及到通道的重排与融合，会破坏信号数据的时序完整性，所以本文将提取时序信息的通道CNN_LSTM设计为并行结构，单独提取时域动态特征。本文实验中卷积网络部分选取了Inception_ResNet网络结构单元，卷积核数目、尺寸也与上文相同，CNN_LSTM中卷积层的卷积核尺寸为(3,2),数目为32，LSTM的输出维度为16，LSTM层前后使用Reshape层与其他层保持维度一致。PCLD网络在Inception-Resnet网络基础上增加了CNN_LSTM并行路径，网络层数为76。

2.2 多通道联合调制识别网络结构的设计

考虑到接收到的信号数据不仅在通道间有空间关系，其分离的通道本身在时间上是连续变化的，有效提取到这部分信息，本文设计了多通道联合卷积与长短期记忆网络MCCLD。MCCLD由两部分组成，结构如图5所示，包括用于提取多维IQ数据特征的主通道和提取单一维度时域信息的辅助通道。主通道主要用于提取IQ二维数据的时域信息和空间信息，而分离的同相分量I路数据和正交分量Q路数据作为辅助通道的输入，主要用来提取单一维度信号分量的时域动态特征，也可将瞬时幅度A和瞬时相位P数据作为输入数据。

图5 MCCLD网络结构示意图

本文使用的MCCLD网络主通道部分使用的神经网络与上文中的PCLD结构相似，卷积神经网络都使用Inception_ResNet模块。辅助通道单一维度数据特征的提取采用Conv1D_LSTM结构来提取时域信息，一维卷积层相当于卷积核长度的滤波器在一维数据上滑动提取特征，可以很好地用于分析具有固定长度周期的信号数据。本文中一维卷积核数目为32，卷积核长度为8，LSTM输出维度为16。最后将所有通道提取的特征级联后在通道维度进行全局平均池化，防止过拟合，再输入连接全连接层，通过Softmax回归进行归一化处理，最后得到预测分类的概率分布。MCCLD网络在PCLD网络基础上增加了两条Conv1D_LSTM并行路径，网络层数为80。

2.3 模型训练

本文设计的网络中卷积层的激活函数都采用了LeakyReLU函数，相比ReLU激活函数，LeakyReLU可以减少神经元死亡从而缓解梯度消失，加速收敛，提升网络性能[18]。LeakyReLU的数学形式如式(6)所示。

(6)

式中：αi是一个常数(本文取0.05)；xi是经过卷积操作的输出结果；yi是经过激活函数后的输出结果，也就是整个卷积层的计算结果。

对于调制识别等分类任务，目标损失函数通常是度量预测概率与真实类别两种概率分布之间差异的分类交叉熵，数学定义为：

(7)

式中：p、q分别表示真实值和预测值。预测值越接近真实值，预测概率越接近1，损失函数值就越小。由向后传播算法得出每个参数关于损失函数的梯度，之后再使用梯度下降算法对权重和偏置参数进行优化更新，找到能使损失函数最小的局部或全局最优值。

网络的超参数如学习率、权重初始化、梯度下降方法等都会影响网络的性能。本文采用了统一的超参数设置，使用了自适应矩估计(Adam)优化器，Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率，在多种网络结构中都具有良好表现，从而控制了学习率等超参数对不同网络结构性能的影响。本文Adam参数学习率设置为0.001，设置超参数beta_1为0.9、beta_2为0.999来控制梯度的指数移动均值的衰减率。

3 实验

3.1 实验环境和参数配置

本文实验所使用的硬件配置为：Inter Xeon CPU，48 GB内存，NVIDIA GTX 1080Ti 580 3 GB GPU显卡。系统环境为64位Ubuntu16.04操作系统，网络模型由Python实现，基于TensorFlow计算框架并由CUDA10.0加速计算。数据集使用RadioML 2018.01调制信号数据集，本文将数据集随机按比例划分为训练样本和测试样本，使用信号调制识别top-1分类精度作为网络性能的指标。

3.2 PCLD网络结构性能分析

将本文中Inception、Inception_ResNet、PCLD与文献[8]的CNN、文献[10]的CLDNN网络、文献[12]的ResNet进行了对比。CNN[8]网络由6层卷积层和全连接层构成，CLDNN[10]由4个卷积层、2个LSTM层和全连接层组成，ResNet[12]由6个残差单元和全连接层组成，网络结构和参数设置均参照文献进行设置。实验结果如表1所示，信噪比在0 dB以下的信号调制识别平均准确率用acc_low表示，信噪比在0 dB及以上的信号调制识别平均准确率用acc_high表示，-20 dB～30 dB全部信噪比信号调制识别准确率为acc_all。Incep_Res代表Inception_ResNet网络。

表1 单一结构网络调制识别平均准确率

在不同网络结构模型中，本文中的Inception、Inception_ResNet和PCLD在数据集上整体识别率均高于CNN[8]、CLDNN[10]和ResNet[12]。ResNet[12]将输出与输入相加，形成一个残差结构，比直接拟合所需的底层映射更容易，准确率与CNN[8]相比提高了很多。Inception网络在多个尺寸上同时进行卷积运算提取特征积再聚合，提高网络计算资源的利用率，在计算量不变的情况下，提高网络的宽度和深度，在较高信噪比条件下准确率最高，达到89.67%，但是在低信噪比情况下准确率较低。Inception_ResNet网络将残差结构与Inception单元结构相结合，以获得残差结构带来的好处。整体结果上Inception网络在数据集上的准确率高于ResNet[12],Inception_ResNet整体结果又好于Inception网络，在低信噪比情况下Inception_ResNet的表现比Inception表现好，在高信噪比情况下比ResNet[12]识别率更高，表明在不改变网络深度的情况下改变网络结构可以提高信号调制识别的准确率。

加入LSTM层后，CLDNN[10]网络最后由LSTM层提取特征后进行映射分类，在高信噪比情况下比CNN[8]识别准确率有提高。本文在卷积神经网络基础上加入CNN_LSTM并行路径，PCLD比Inception_ResNet网络整体提高大约1百分点的精度，比Inception提高1.68百分点，比ResNet[12]提高3.34百分点，在高信噪比情况下可以达到平均90.54%的准确率，表明LSTM结构可以提取到与卷积单元不同的时序信息。而PCLD的准确率要比CLDNN提高大约有8百分点，表明使用联合卷积网络结构和长短期记忆网络并行提取信号时序信息更高效。

图6展示了上述几个网络结构在各信噪比情况下的调制识别性能曲线。

图6 -20 dB～30 dB不同信噪比情况下各网络准确率曲线

整体上随着信噪比的增加，信号的质量提高，识别的准确率也在增加。信噪比的计算公式如下：

SNR=10lg(Ps/Pn)

(8)

式中：Ps表示信号的有效功率；Pn代表噪声的有效功率。信噪比为负时，代表着无线电信号的有效功率小于噪声的有效功率，已经很难区分调制信号与噪声的差别，-12 dB时准确率为10%，已经没有实用传输价值，实际应用也较少出现负信噪比的信号。信噪比在0 dB时信号和噪声的有效功率基本相等，这些网络模型也达到了50%以上的准确率，8 dB时可以达到90%，在12 dB时趋于稳定，达到95%以上。如果在24类信号调制识别任务中以90%准确率为标准时，PCLD模型可以接受的信号信噪比下限为8 dB。PCLD网络结构在信噪比为14 dB时准确率达到最高为97.54%，而ResNet[12]在16 dB时达到的最高准确率为95.25%。

3.3 多通道MCCLD网络性能分析

本文将使用IQ数据和AP数据的PCLD网络、MCCLD网络与文献[19]的SCC-CNN网络在本文数据集上进行对比，网络结构与参数设置与原文相同。MCCLD除了提取多维数据的整体特征，也提取了独立的同相分量通道和正交分量通道的时域变化特征信息，也可以将信号的其他特征数据输入辅助通道来提取信息。信号的幅度和相位是两个主要的调制变量，可以在二维空间中以极坐标形式表示信号的调制信息，相位在(-2π,2π)范围内连续变化，幅度变化体现在与原心距离的变化，再加上时间的维度就可以在三维空间中表示出信号的变化形式，因此本文也使用了AP数据输入来对MCCLD进行实验。实验结果如图7所示，PCLD_IQ和PCLD_AP表示只使用了信号IQ和AP数据的PCLD网络，MCCLD_IQ和MCCLD_AP表示使用了IQ数据和AP数据的多通道联合MCCLD网络。

(a) 各网络训练集损失函数示意图

(b) 各模型训练集准确率示意图

可以看出，MCCLD_IQ、MCCLD_AP的训练收敛速度和验证准确率都高于PCLD_IQ、PCLD_AP，表明多通道联合提取特征的方式可以提高调制识别网络的性能，MCCLD_IQ、PCLD_IQ的训练收敛速度和验证准确率也高于MCCLD_AP和PCLD_AP，推断可能与输入数据是否进行单位归一化有关。

表2展示了多通道联合的调制识别网络SCC-CNN[19]、PCLD_IQ和MCCLD_IQ在数据集上的识别准确率。SCC-CNN[19]同样采用二维IQ数据联合分离的IQ通道进行调制识别，与本文MCCLD不同的是，SCC-CNN[19]只采用了卷积网络层进行特征提取，而本文结合了LSTM层来提取动态时域特征。本文中联合了LSTM层的PCLD和MCCLD的识别准确率均远高于SCC-CNN[19]，在高信噪比情况下有9.75百分点的提升，表明卷积神经网络与LSTM结合更适合提取信号数据的时域特征和空间特征。可以从图7中看到SCC-CNN[19]网络在训练过程中发生了过拟合现象，是因为其没有采用降采样层，参数量达到了1.9×107，这样的设计虽然可以在采样点较少的情况下减少信息损失，但是在采样点较多的情况下就会因参数量过多而导致过拟合现象，反而不利于网络的识别性能。本文设计的MCCLD网络可根据样本数据长度灵活选取参数N，避免产生过拟合现象。

表2 多通道联合的调制识别网络性能对比

MCCLD_IQ在-20 dB～30 dB时调制识别总体识别率达到63.46%，在低信噪比情况下准确率为19.34%，在高信噪比情况下识别率平均为90.94%，整体相比PCLD准确率有所提高。MCCLD模型在信噪比为0 dB时准确率为54.64%，在信噪比为8 dB时达到94.80%，在信噪比12 dB时趋于稳定达到97.31%，14 dB时最高达到97.76%。常见接收信号的信噪比多在0 dB以上，本文中MCCLD_IQ相比PCLD_IQ训练时收敛速度更快，在0 dB到12 dB区间准确率有较大提升，性能也更加稳定。MCCLD模型在信噪比为6 dB时准确率为89.98%，如果在24类信号调制识别任务中以90%准确率为标准时，MCCLD可以接受的信号信噪比下限为6 dB。

3.4 按信号调制类型对比分析

在图8中，我们展示了所有24个类别的调制信号使用PCLD模型和MCCLD模型在低信噪比和高信噪比情况下的分类混淆矩阵。

(a) PCLD模型在SNR为4 dB时的混淆矩阵

(b) PCLD模型在SNR为14 dB时的混淆矩阵

对比图8(a)和图8(b)，低信噪比情况下一些低阶调制或结构有较大差异的信号(如2/4/8-PSK、4/8-ASK、GMSK和FM模拟调制等)更容易识别，而高阶调制信号需要在较高的信噪比情况下才能获得更高的识别率。这里我们可以看到，最大的误差来源是高阶相移键控(PSK)(16/32-PSK)、高阶正交幅度调制(QAM)之间，以及AM模式(载波存在(WC)和载波抑制(SC))之间。随着信噪比升高，这些信号的识别率提高，MPSK和MAPSK的识别率接近100%，64QAM识别准确率为98%，128QAM准确率为97%，256QAM准确率为95%，有了很好的提升效果。但AM模式间AM-SSB-WC与AM-SSB-SC，AM-DSB-WC与AM-DSB-SC相互混淆，AM-SSB-SC准确率只有68%，AM-DSB-SC准确率为87%，是识别率最低的两类信号。对比图8(b)和图8(c)，MCCLD模型在识别AM-SSB-SC时准确率为73%，AM-DSB-SC准确率为88%，相比PCLD模型减小了这两类信号的识别误差，在高阶调制信号的识别准确率也有了略微提高，使得整体识别率也相应提高。

4 结语

本文设计了两种适用于信号调制识别的深度学习网络架构，并在包含24种常见单载波数字信号和模拟信号数据集上进行了实验。联合卷积与记忆神经网络结合的PCLD网络在0 dB信噪比以上情况下平均识别准确率可以达到90.54%，在ResNet[12]基础上提高了3.62百分点的准确率，最高可以达到97.54%。将信号分离数据作为辅助通道的多通道联合MCCLD网络可以加快收敛速度，并且提高了整体识别准确率，识别性能也更加稳定，在高信噪比情况下平均准确率为90.94%，在SCC-CNN[19]基础上有9.75百分点的提升，最高可以达到97.76%的准确率。本文研究重点在于不同网络结构对其调制识别性能的影响，网络深度宽度等网络容量以及超参数设置如何影响识别准确率，还有AM模式之间的分类优化，将是我们下一步研究方向。