基于角度引导Transformer融合网络的多站协同目标识别方法

2023-07-04 09:51王鹏辉严俊坤王英华刘宏伟

雷达学报 2023年3期

郭帅陈婷王鹏辉丁军严俊坤王英华刘宏伟

(西安电子科技大学雷达信号处理全国重点实验室西安 710071)

1 引言

雷达高分辨距离像(High-Resolution Range Profile,HRRP)是基于宽带雷达信号获取的目标散射点子回波在雷达射线方向上投影的向量和，包含了大量与目标尺寸、目标物理结构、散射点分布相关的信息。其中，HRRP的起伏反映了目标散射结构沿雷达视线方向的分布情况，HRRP的峰值反映了散射结构的强弱。此外，相较于二维的合成孔径雷达图像，一维HRRP数据具有获取容易、需要的存储资源少等特点。这使得HRRP在雷达自动目标识别(Radar Automatic Target Recognition,RATR)领域有着广泛的应用。

现阶段，基于HRRP的雷达目标识别技术主要以单雷达获取的回波作为主要数据来源，以深度网络等方法作为主要特征提取模块，配合分类器实现对未知目标的类别判断[1–3]。但是，随着应用场景不断趋于复杂，基于单雷达的HRRP目标识别系统逐渐无法满足复杂场景的性能需求，识别准确性和可靠性难以保证。针对这一问题，多站协同目标识别技术提供一种解决思路。其通过多部雷达在相同时刻对同一目标从不同距离、不同视角进行观测，利用多站数据之间的信息互补特性，能够实现更加准确、稳健的目标识别[4–7]。

多站协同目标识别主要涉及雷达信息融合处理技术，根据融合模块在信息流中所处的位置，可进一步划分为数据融合、特征融合、决策融合。如图1所示，上述3种融合方式分别通过输入数据维度拼接、中间隐层特征拼接、输出识别概率加权的方式实现了多站雷达协同识别。

图1 融合网络结构示意图Fig.1 Schematic of different fusion network structures

近些年，复杂场景下的多站协同目标识别方法逐渐成为RATR领域的研究重点[8–12]。文献[13]提出了一种基于特征拼接的双雷达微动特征融合识别方法，该方法将两个不同角度的雷达传感器获得的雷达数据分别进行特征提取，将提取到的双雷达微动特征进行融合，最后利用支持向量机进行分类。文献[14]提出了一种基于多雷达传感器融合行人识别方法，该方法首先对多雷达接收到的回波进行时空对齐和数据关联，实现对行人和骑行者进行自动检测、跟踪和分类。文献[15]研究了多雷达传感器网络中目标决策融合问题，该研究将决策融合问题建模为一个多输入多输出(Multi-Input Multi-Output,MIMO)系统，提出了MIMO融合规则。上述研究结果表明：利用多角度或者多站点的雷达观测的回波信号协同识别，有助于提高目标识别的准确性与稳健性。然而，现阶段的多站协同目标识别方法缺乏对站间数据关联性和差异性的建模，在站间数据差异大时，往往难以取得较好的识别性能。此外，现有方法的融合策略较为简单，多采用数据拼接、特征拼接、加权决策等方法，难以实现多站信息的充分利用，一定程度上限制了现有多站协同目标识别方法的性能提升。

针对上述问题，本文提出了一种基于角度引导Transformer融合网络的多站HRRP协同识别方法。首先，该方法采用Transformer结构作为特征提取器，利用其突出的长距离依赖关系提取能力，提取HRRP数据自身的时序特性和空间结构相关性，获得表征目标结构特性的回波特征。其次，针对多站数据差异大的问题，本文设计了角度引导模块。该模块以目标方位角度作为辅助信息，对多站数据差异进行建模，一方面强化了所提特征与目标方位的关系，提升了模型抵抗扰动的能力，使得提取到的特征更加稳健；另一方面，利用方位角度在多站隐层特征间构建非线性映射，使经角度引导模块修正后的各站特征在隐空间内具有较好的一致性，缓解了由多站数据差异性大引起的融合识别性能不足的问题。然后，针对现有方法融合策略简单、难以实现多站信息充分利用的问题，本文从多阶段特征融合的角度，设计了前级特征交互模块和深层注意力特征融合模块，实现了对各站特征在特征提取各个阶段的层次化融合。最后，基于实测数据设计了多站仿真实验，实验结果表明：本文方法可以有效实现多站HRRP特征融合，获得优于单站以及常规融合方法的识别性能。

2 多站协同识别模型

2.1 模型概述

本文提出了一种基于角度引导Transformer融合网络的多站HRRP协同识别方法，整体结构如图2所示。模型可分为单支路特征提取部分与多支路特征融合部分。在单支路特征提取部分，首先对每一部雷达获取的HRRP进行数据预处理，将输入HRRP进行模2范数归一、对齐消除幅度敏感性和平移敏感性。其次，将预处理后的单个HRRP样本进行子序列划分、映射并添加位置编码。然后，利用级联的两个Transformer层提取HRRP特征。最后，使用角度引导模块对各支路中与目标方位相对应的特征进行增强。在多支路特征融合部分，首先使用前级特征交互模块对各站HRRP特征进行特征学习阶段的融合。这种早期融合策略使每一支路提早获得其余支路的信息，降低后续融合任务的难度。然后，利用深层注意力特征融合模块的自注意力机制对多站特征进行交互，获取各站特征间的相互依赖关系，然后根据依赖关系的强弱进行自适应的多站特征融合。最后，使用分类层对融合特征进行分类，获得预测的目标类别。

图2 角度引导Transformer融合网络结构Fig.2 Angle guided Transformer fusion network framework

2.2 数据预处理

由于HRRP的方位敏感性、幅度敏感性和平移敏感性会对模型提取稳健的目标特征产生一定影响[16]，因此，需对HRRP进行归一和对齐预处理，减弱HRRP敏感性造成的影响。以单支路为例，复HRRP数据用r=[r1,r2,...,rL]T表示，其中ri表示第i个距离单元的子回波，L表示距离单元总数。对复HRRP 数据取幅值，得到实HRRP 数据x=|r|=[x1,x2,...,xL]T。针对幅度敏感性，本文采取模2范数归一对实HRRP数据x进行处理，得到幅度归一化后的HRRP样本xnorm∈R1×L，即

本文使用重心对齐方法克服平移敏感性。对xnorm进行循环移位操作，使其重心位于距离窗的中心位置，得到重心对齐后的HRRP样本xalign∈R1×L。xnorm的重心G可通过式(2)进行计算：

为了使用Transformer模块捕获目标局部子结构的特征，还需要对xalign进行切分映射并添加位置编码，如图3所示。xalign的划分方式需要综合考虑雷达距离分辨率、目标子结构描述粒度以及模型计算复杂度的影响。设P为每个HRRP子序列的长度，N=L/P为划分的HRRP子序列个数，将xalign划分为多个子序列后可表示为：

图3 切分映射及位置编码Fig.3 Patch embedding and positional embedding

其中，E∈RP×D表示输入编码器，表示子序列编码，xemb∈RN×D表示编码后的HRRP。本文用一个线性全连接层实现输入编码器，且所有子序列共享一个输入编码器。

同时，为了无偏向性地对HRRP的每个子序列上的信息进行聚合，在HRRP子序列前添加一个聚合向量xcls∈R1×D，用于在深层注意力特征融合模块中聚合各站HRRP的特征。其次，为了充分利用HRRP子序列的空间位置关系，本文为聚合向量和xemb中每一个HRRP子序列添加可学习的时序位置编码，即

其中，Epos∈R(N+1)×D表示位置编码矩阵，xin∈R(N+1)×D表示预处理模块的输出，同时也作为第1个Transformer层的输入。

2.3 Transformer模块

HRRP子序列是对目标局部子结构的描述，本文使用Transformer提取目标局部子结构内部以及子结构之间的特征。Transformer是一种具有注意力机制的模型，近年来已经在多个领域展现出了卓越的性能，并在序列建模问题中逐渐取代了现有的CNN,RNN等模型[17,18]。相比之下，CNN结构难以在浅层堆叠时获取全局相关性，RNN结构难以建模长序列的远距离依赖关系。而Transformer结构具有较优的长程依赖关系表征能力，可以利用自注意机制捕捉各个HRRP子序列的局部相关性和全局相关性。Transformer模块由层归一化、多头自注意力层以及前馈层构成，如图4所示。下面详细介绍每一层的功能与作用。

图4 Transformer模块Fig.4 The Transformer module

Transformer模块中层归一化的位置会影响训练时的稳定性，pre-norm[19]将层归一化操作放在残差连接操作之前进行，能在网络层数较深时更好地防止模型的梯度爆炸或者梯度消失。因此，在这里采用pre-norm对输入序列xin进行层归一化，即

Transformer模块中多头自注意力层用于对各输入序列局部与全局关系的捕捉，提取长距离依赖特征，增强了模型捕获HRRP回波的复杂起伏变化、HRRP子序列间结构相关性的能力。多头注意力层的具体实现如下：首先将分别进行3次线性映射，得到dq维的查询矩阵Q,dk维的键矩阵K和dv维的值矩阵V，通过计算查询矩阵Q和键矩阵K的乘积，并除以缩放因子，然后应用softmax函数获得注意力权重，依注意力权重对值矩阵V进行加权即可得到自注意力输出，如式(7)：

Transformer模块中前馈层包含一个多层感知器，能够将输入映射到一个高维隐空间，再从高维隐空间映射回原空间，对输入在隐空间进行了特征提取及筛选。前馈层的输出表示如式(9)：

其中，Transformer(·)表示一个Transformer层。

2.4 角度引导模块

多站融合是为了充分利用多站在不同视角对目标进行观测的信息多样性，从而提升识别性能。然而，不同的观测视角使得多站接收的数据间差异通常较大，直接融合往往难以取得较好的效果。目标方位角度为目标运动方向与雷达视线的夹角，各站的观测视角对应不同的目标方位角度，故可以使用目标方位角度描述多站数据的差异。因此，本文针对各站数据差异较大这一问题，设计了角度引导模块。一方面，通过对每个雷达站的HRRP特征提取过程引入与之对应的目标方位角度，能强化所提特征与目标方位角度的对应关系，提升了模型抵抗扰动的能力，有利于提取相对稳健的目标特征。另一方面，根据之前的研究[20,21]，不同视角下的目标回波之间存在映射关系，利用方位角度编码在多站隐层特征构建非线性映射，提升了各站特征在隐空间的一致性，能够缓解数据差异性引起的融合困难的问题。

角度引导模块的输入由多层Transformer模块的输出特征f和目标HRRP对应的方位角度a两部分构成，其结构如图5所示。首先，通过角度编码模块对a进行线性编码，编码模块由两个全连接层构成，输出γ(a)表示为

图5 角度引导模块Fig.5 The angle guided module

其中，W1,W2,b1和b2分别表示两次线性变换的权重和偏置。然后，基于卷积模块的映射函数ℜ将Transformer层输出特征进行特征映射。映射函数ℜ包括两个卷积层，一个批归一化层，一个GELU激活层。第1个卷积层将输入特征f的特征通道数增大到原先的两倍，第2个卷积层的输出通道数与输入特征f保持一致。特征映射过程表示为

其中，BN 表示批归一化，1 D-Conv(·)表示一维卷积操作，非线性激活 GELU 的表达式为GELU(x)=x·Φ(x)，其中Φ(x)为高斯分布的累积概率分布。最后，将经过映射的特征与角度编码相乘并使用残差连接将其与输入特征f求和。角度引导层输出特征fout可表示为

2.5 前级特征交互模块

传统特征融合方法是将单站HRRP特征提取模块输出的特征进行融合，这种融合方法仅对深层特征进行了融合，未考虑各输入浅层特征之间的关系。如果在特征提取的较早阶段加入特征交互，则能提前对目标进行多方面描述，降低后续特征融合任务的难度。因此，本文方法从模型多阶段特征融合的角度，设计了前级特征交互模块和深层注意力特征融合模块，实现了对多站特征在特征提取过程中多阶段层次化的融合。前级特征交互模块如图6所示，通过将特征融合的时机前移，使得模型在浅层特征提取时就可以与来自其他雷达的浅层特征进行关联学习。

图6 前级特征交互模块Fig.6 The pre-feature interaction module

此处以三站交互为例，介绍前级特征交互模块的具体流程。前级特征交互模块的输入特征为各站角度引导层的输出，其中，上标代表站序号。前级特征交互模块的输出可表示为

2.6 深层注意力特征融合模块

在多站协同目标场景下，多站特征融合是实现稳健、准确识别的关键。本文设计的多阶段特征融合除了对多站特征进行加权的前级特征交互外，还设计了深层注意力特征融合模块，模块具体结构如图7所示。该模块主要利用站间多视角特征的互补性，通过自注意力机制对站间特征的相关性建模，根据获取的站间特征的相互依赖关系强弱，实现模型深层阶段的自适应特征融合，获得更加准确的识别结果。

深层注意力特征融合模块的输入为第2个前级特征交互模块输出的交互特征,。首先，经特征提取获得的多站特征处于各自的特征空间，在注意力特征融合前需要将各站特征经过一个共享的深层映射层映射到同一高维特征空间，即

然后，利用Transformer层的自注意力机制对多站特征fin1∈R1×B,fin2∈R1×B,fin3∈R1×B间的相关性进行建模，B为深层映射后高维特征空间的维度。由于多站特征融合的输出应与输入次序无关，所以此处没有对多站特征添加位置编码，使得特征融合所用的Transformer具有置换不变性。接着利用平均池化对交互后的特征进行处理，获得最终的融合特征。深层注意力特征融合层的输出out可表示为

其中，[fin1,fin2,fin3]∈R3×B表示将多站拼接后作为输入，Transformernp(·)表示置换不变Transformer层，Avgpooling(·)表示平均池化操作。最后，使用分类头对融合特征out进行目标类别的预测，得到识别结果。

考虑到多站协同场景下的融合识别，提出模型应具备对站间输入顺序变化不敏感的特性，即模型应需要具备置换不变性。传统的序列神经网络，如RNN对输入序列的顺序比较敏感，难以实现输入数据无序性的相关性建模。然而，本文所用的置换不变Transformer则可以很好地符合这一特性。置换不变Transformer与用于特征提取的Transformer层的对比如图8所示。特征提取阶段利用Transformer进行HRRP特征提取时，对HRRP子序列引入了额外的位置编码，这些位置编码记录了HRRP子序列间的相互位置关系，使得Transformer能够建模这种时序相关性，实现局部与全局的特征提取，如图8(a)所示。然而，置换不变Transformer通过舍弃位置编码操作，实现无序数据间的相关性建模，使得多站融合输出结果与输入的各站HRRP特征顺序无关，如图8(b)所示。

图8 置换不变Transformer与Transformer特征提取层对比图Fig.8 Comparison of permutation invariant Transformer in feature fusion and Transformer in feature extraction

3 实验及结果分析

3.1 目标数据与实验设置

实验中所用实测数据来自单部雷达采集的某一航线的5型目标回波，雷达参数如表1所示。数据采集过程中，目标的径向距离变化范围为40～100 km，方位角变化范围为2°～50°。然后，将测量到的数据依目标距离、方位角的变化划分为3段，分别用每段数据作为各雷达站的观测数据。其中，各站观测数据中目标的距离变化范围约为20 km，方位角变化范围约为16°。本文通过以上方式模拟三站场景进行协同识别实验。

表1 雷达参数Tab.1 Parameters of radar

实验中所观测的目标共包含5型民航客机，各类目标的物理参数如表2所示。图9展示了模拟三站场景对应的HRRP，图中每一行分别代表不同型号的飞机，每一列分别代表不同的雷达站点。可以看出同一目标在不同视角下观测到的HRRP之间存在明显差异，因此在多站协同条件下可以获得更多与目标相关的信息。

表2 目标物理参数Tab.2 Parameters of targets

图9 模拟多站场景的目标HRRPFig.9 Target HRRP examples for simulating multistation scenarios

实验中，对每类目标分别采集不同架次的多批次数据，并按采集批次划分训练集和测试集。每个站点的训练集包含13349个样本，测试集包含12314个样本，每个HRRP样本维度为256维，各型目标的训练与测试样本数如表3所示。

表3 数据集样本分布Tab.3 Dataset samples distribution

实验中的所有方法均在单张RTX 3090显卡上使用Pytorch实现，训练损失函数采用交叉熵损失，优化器采用AdamW[22]，初始学习率设置为1E–3，训练轮次设置为200，训练批量大小设置为64，子序列长度P为32，输入编码维度D设置为128，前级特征交互模块中主支路权重w11,w22,w33均设置为0.6，其余支路权重设置为0.2，实验中的相关参数配置如表4所示。

表4 实验参数配置Tab.4 Experimental parameters configuration

3.2 实验结果及分析

为了评估所提方法在多站协同识别场景下的有效性，本文选取了多种方法进行了识别性能对比。对比方法包括基于卷积神经网络(Convolutional Neural Networks,CNN)模型的单站识别方法、基于CNN的数据融合方法[23]、基于CNN的特征融合方法[24]、基于CNN的决策融合方法[25]、基于Transformer的单站识别方法、基于Transformer的特征融合方法。其中，CNN单站识别方法由3层卷积层和两层全连接层构成，3层卷积层的通道数分别为8,16,32，卷积核大小均为1×5，步长为1，全连接层神经元数目分别是512和5。基于CNN模型的多站协同识别方法在单站CNN模型的基础上分别构建以数据拼接为输入的数据融合识别方法、以特征拼接的特征融合识别方法和以单站预测概率加权的决策融合识别方法。基于Transformer模型的单站识别方法使用3层Transformer层提取特征，两层全连接层用于最终识别。基于Transformer模型的特征融合方法将每个站的第3层Transformer层的输出特征进行拼接，作为本文基线方法。所有方法均在同一设备、相同超参数设置下完成。表5为所提方法与其他方法的识别结果对比。

表5 实验结果Tab.5 Experimental results

从表5可以看出，本文方法能够提取高质量的表征目标特性的特征，并通过前级特征交互和深层注意力特征融合模块有效利用各站观测数据的互补性，从而在所有方法中获得了最优的识别性能，识别率达到96.90%。在单站识别方法中，基于CNN模型的单站识别方法的最优识别率为90.71%，基于Transformer的单站识别方法的最优识别率为93.21%。本文方法相较二者分别提升了6.19%和3.69%。对比各单站识别方法，由于Transformer模型能够在关注HRRP局部结构信息的同时关注HRRP的全局结构信息，具有优于CNN模型的特征表达能力，所以基于Transformer的单站方法的识别率全面优于对应的基于CNN的单站方法的识别率。在多站协同识别方法中，基于CNN模型的多站协同识别方法在使用决策融合时取得最优90.96%的识别率，基于Transformer模型的特征融合方法的识别率为93.60%，本文方法相较二者分别提升了5.94%和3.30%。通过对比多站协同识别结果和单站识别结果，可以看出多站协同识别方法可以从额外的数据中获得更多的关于目标的信息，有效提升识别性能。本文方法进一步通过使用多阶段融合策略改善了传统融合方法融合能力不足的问题，获得了显著的识别性能提升。

表5还给出了各方法的参数量及计算量的对比。本文方法的参数量低于基于CNN模型的多站融合方法，计算量与其相当，而识别性能却有着明显提升，进一步表明了本文方法的优越性。

图10为本文方法对应的测试混淆矩阵。可以看出，本文方法对A320,A321的识别性能最好，识别率分别为99.77%和99.79%。对于A350，识别率为97.96%。对于A330-2，识别率为95.68%。A330-3的识别性能最差，识别率为91.64%。进一步观察类间误判情况，A330-2,A330-3和A350之间存在部分误判，从表2可以看出：这3类目标的各项物理参数均比较接近。因此，这部分误判主要是由目标的物理特性相近造成的。

图10 测试集识别率混淆矩阵(%)Fig.10 Confusion matrix of the recognition accuracy in test set (%)

为进一步分析本文方法所提特征的可分性，使用t-SNE对归一对齐后的测试集HRRP数据和经本文方法处理所提取得到的特征进行二维可视化[26,27]，如图11所示。图中不同颜色、不同符号分别代表不同类型的目标。可以看出，本文方法所提取到的隐层特征在二维可视化图中呈现出类内分布紧致，类间边界清晰的特点，各类可分性较模型处理前有着明显提升。

图11 测试集数据与本文方法所提特征的二维t-SNE可视化Fig.11 Visualization of test data and feature via two-dimensional t-SNE

在基于角度引导Transformer融合网络预处理过程中，需要确定划分的HRRP子序列的个数N。N越大，划分的HRRP子序列越多，对目标局部结构的关注粒度更精细，但输入序列数增多同时增加了模型学习的难度和计算量。相反，N越小，划分的HRRP子序列越少，模型计算时所需的计算量也较少，但对目标HRRP局部结构的关注粒度更粗，影响模型的表征能力。在实际应用中可根据实验数据选择合适的N。为分析模型对N的依赖程度，设计从2到128不等的HRRP子序列个数作为输入，测试其对识别率和计算量的影响。图12给出了识别率以及计算量随着N变化的曲线图。当N过大或过小时，都会引起识别性能的显著下降。当N=8时，模型取得最优的识别性能，并具有相对较小的计算量。

图12 识别率和计算量随着HRRP子序列个数变化的曲线图Fig.12 Accuracy and calculation amount changing with the number of HRRP subsequences

为了评估所提方法中各个模块对识别性能的贡献，本文将上述Transformer特征融合方法作为基线方法，通过对基线方法中逐步添加各个模块进行消融实验。消融实验结果如表6所示。基线方法的识别率为93.60%。当在基线方法中添加角度引导模块时，识别性能提升0.90%，表明所提出的角度引导模块能有效地将目标的角度先验融入到特征提取过程中，引导模型提取与目标方位角匹配的特征。当只添加前级特征交互模块时，识别性能下降0.40%，这是因为仅进行前级特征交互而未进行深层特征融合时，模型较难学习到多输入之间的互补信息。当只添加深层注意力特征融合模块时，识别性能提升0.10%，说明注意力机制能改善特征融合的性能。当同时添加角度引导和前级特征交互模块时，识别性能提升0.17%，由于缺乏深度特征融合，识别性能提升有限。当同时添加前级特征交互和深层注意力特征融合模块时，识别性能提升0.87%，表明通过前级特征交互提前将其他雷达回波的信息与自身回波的信息进行关联学习对协同识别有益。当同时添加角度引导和深层注意力特征融合模块时，识别性能提升2.08%，表明角度引导与深层注意力特征融合组合效果较好。最后，完整的基于角度引导Transformer融合网络的平均识别率为96.90%，识别性能较基线提升3.30%，说明所提出的3个模块之间可以有效协作，获得最大的识别性能提升。

表6 消融实验结果Tab.6 Results of ablation experiment

4 结语

针对多站HRRP协同目标识别问题，本文提出了一种基于角度引导Transformer融合网络的多站HRRP协同识别方法。首先，各站的HRRP回波经预处理消除幅度敏感性和平移敏感性。然后，使用Transformer模块提取单站回波特征，并利用角度引导模块对单站特征进行增强。接着，通过前级特征交互模块和深层注意力特征融合模块对多站特征进行多阶段层次化融合。最后经分类头输出多站协同目标识别结果。在实测数据上的仿真实验结果表明，本文方法可以有效地对多站HRRP回波特征进行融合，通过角度引导模块、前级特征交互模块和深层注意力特征融合模块的有机结合，可以获得优于单雷达以及常规融合方法的识别性能。最后需要说明的是，本文仅在雷达信号融合处理层面对多站协同目标识别进行了简要分析，在实际应用中，多站协同目标识别系统还面临多雷达布站设置、参数配置、回波配准等问题。此外，当部分回波因干扰等出现缺损时，如何进行雷达信号融合处理也是未来需要关注的问题。