时空域稀疏条件下基于雷达回波时序依赖关系的目标检测

2023-05-05 08:39张力文张右承陈元培黄旭辉孙科武航天科工集团智能科技研究院有限公司北京100144航天防务智能系统与技术科研重点实验室北京100144

雷达学报 2023年2期

张力文潘剑张右承陈元培马喆黄旭辉孙科武(航天科工集团智能科技研究院有限公司北京 100144)(航天防务智能系统与技术科研重点实验室北京 100144)

1 引言

作为广泛应用于社会科学发展和军事国防等领域的探测设备，雷达具备极端天气下的良好鲁棒性[1]，以及对光照不敏感等特点[2]，具有重要的学术和实用价值[3]。经典的雷达目标检测方法遵循恒虚警检测(Constant False Alarm Rate,CFAR)[4–6]原则。CFAR检测隶属于统计检测理论，即一种利用信号和噪声的统计特性，遵照检测概率最大准则(Neyman-Pearson,N-P)来建立最佳判决的数学理论。其本质上是一种在先验概率和代价函数均未知的情况下，固定虚警概率，再去最小化漏检概率或最大化检出(召回)概率的检测方法。

随着大数据科学的发展，以数据为驱动的经典机器学习和当下的深度学习技术也被广泛应用于雷达目标检测与识别。从原理上来说，无论是经典的机器学习还是深度学习方法(以下统称机器学习方法)，他们实现雷达目标检测都是基于对数据的合理表示，其涉及模式识别中的特征工程和表示学习理论范畴。他们与经典CFAR的检测原理有着本质的不同，机器学习更多地是在探讨如何在一个更加抽象或高维的特征空间中对样本进行表示，并利用此种表示来训练分类器，最终实现对目标的检测。这些特征表示可以通过利用基于统计建模的投影算子转换而来[7,8]，也可以通过学习的方式来获得[9]。而在分类器的训练方面，其可以是和特征学习部分相分离的方式来单独进行，如经典的支持向量机(Support Vector Machines,SVM)[10]与k近邻(k-Nearest Neighbors,k-NN)[7,8]；也可以是与特征学习部分耦合在一起的联合学习方式[9]。

因此，可分析出数据驱动的机器学习方法与经典CFAR的本质区别：前者是在样本空间中挖掘或者构造出能有效表示每个样本的方式，然后在这些表示所处的空间中以任务(例如分类)为驱动的方式去寻找一种能够有效区分目标与杂波的超平面，其不需要显式地获得样本的统计信息，也不需要对样本的分布进行显式的刻画；而后者需要显性地构造出样本在不同假设条件下的分布特性，从而在这些分布特性的明确定义下给出目标检测的依据。而若要类比CFAR与机器学习方法的相似之处，那么笔者认为特征表示部分对应了CFAR中对被检单元和参考单元的采样后的计算部分；而分类器则对应于检测阈值本身。

基于以上分析不难看出，由于缺乏对信号统计分布特性的显式定义，机器学习方法虽无法严格保持CFAR性质，但仍然具备很多其他优势：自动化的学习机制可以在一定程度上摆脱对人工先验设参的依赖程度；当具备新的可用数据时，模型可再次经过微调以获得更好的泛化能力(进化学习)；灵活多样的建模形式以适配多种雷达检测识别任务；以及复杂结构带来的更高容量的数据表示能力等等。这些优势也极大地促使研究者开展了众多此方面的研究。

然而，考虑到雷达信号在数据形态上的多样性远超过其他形式的信号(如可见光图像、文本类数据)，加之不同的任务需求使得相应的处理方法存在着很大的差异。因此，为便于归纳总结，本文根据所面对任务的不同将近期主流的机器学习方法进行如下分类：

(1) 基于回波信号的目标-杂波检测方法。此类方法是在探讨如何在一维的回波信号上对某个距离单元上回波信号进行目标/杂波的辨识，是与经典CFAR在任务形态上最为相似的一种方法。目前具有代表性的有基于线性SVM (Linear-SVM,L-SVM)[10]，以及最近基于卷积神经网络(Convolutional Neural Networks,CNN)与注意力机制[11,12]的雷达目标检测方法。以L-SVM为例，该方法借鉴CFAR的处理流程，将经过脉冲压缩和线性匹配滤波后的被检单元与参考单元拼接成向量的形式训练SVM分类器，相比于均值类CFAR方法，SVM能在较低信噪比(Signal-to-Noise Ratio,SNR)的情况下获得稳健的检出效果。为了抑制k-NN算法对杂波的敏感程度，Coluccia等人[7,8]将参考单元的回波信号看作辅助数据，并用其构建出回波信号的正则化协方差矩阵，从而将原始回波投影为更加平滑的向量表示(杂波抑制)，利用该种向量构建出的训练样本集合可以获得在不同信杂比(Signal-to-Clutter Ratio,SCR)情况下都更为鲁棒的检测模型。尽管这些方法无法严格保证CFAR的性质，然而在实际测得的虚警率上都取得了比CFAR更加稳健的表现。

(2) 基于距离/多普勒/角度频域变换的目标检测-识别方法。此类方法综合运用了当下视觉目标检测[9,13]或语义分割[14–16]的原理，将经典的雷达目标检测任务推广为一种雷达目标检测-识别任务。相比于经典的目标/杂波检测机制，该种方法额外引入了对目标类型的识别。为了能在多种作用域上获取目标的信息，通常都是利用级联式的快速傅里叶变换(Fast Fourier Transform,FFT)将原始回波转换为距离-多普勒(Range-Doppler,RD)、距离-方位角(Range-Angle,RA)或距离-方位角-多普勒(Range-Angle-Doppler,RAD)等联合多域的频谱表示作为模型的输入，并在输出中得到各域上的位置信息和目标类别语义信息。例如，文献[17]利用CNN网络作为检测器，实现了在RD视角上的雷达目标检测；文献[18]在距离压缩雷达数据的RA视角上，引入目标检测网络Fast-RCNN以提升雷达目标检测性能。然而由于这是一种更为复杂的机器学习任务，其对训练数据和模型的规模要求都会更高。为了避免引入大量的人工标注成本，Wang等人[13]和Ouaknine等人[19]提出了一系列对RA及RD表示的自监督标注方法。在模型方面，这些工作多以参数规模庞大的自编码-解码(Auto-Encoder-Decoder,AED)卷积网络作为基础框架，并在编码部分强调多尺度空域信息[13–16]和时域信息学习[13,14,16]的重要性。这些方法都已经完全脱离了经典雷达目标检测方法的框架，因此也无法直接套用经典雷达目标检测方法的评价指标对这些方法进行评估。

(3) 基于雷达成像数据的目标识别方法。此类方法通常是在高分辨的雷达成像数据上对目标的类型进行识别，通常不关心目标的空间位置信息。目前代表性的工作有基于(CNN)的合成孔径雷达(Synthetic Aperture Radar,SAR)图像目标识别[20]，以及基于长短时记忆(Long Short-Term Memory,LSTM)的高分辨距离像(High Resolution Range Profile,HRRP)目标识别[21]等。此类方法虽不像检测任务那样关心目标的空间位置信息，但是利用深度学习模型的编码能力来获得有效的雷达信号表示的这一机理也对检测类方法提供了可借鉴的经验。

目前，在以上这些方法中，研究热度大都集中于第(2)和第(3)类方法，一方面是由于他们拥有公开可用的大规模训练数据，同时数据中目标信息量的充分程度也能够给网络的学习提供“燃料”；另一方面也是由于任务的定义也遵从了当下主流机器学习方法的定义，使得方法的引入更加自然。而对于与本文最为相关的第(1)类方法来说，样本中可供模型挖掘的有效目标信息量非常稀少，往往很难充分发挥出复杂模型的样本刻画能力，同时也缺乏公开可用的大规模训练数据集，因此现在此方面的研究还存在以下局限性：

(1) 所使用的模型较为简单，通常是线性SVM和k-NN这种经典模型，并且方法大都聚焦分类/判别器部分，而对回波特征表示学习方面的探讨明显存在不足。

(2) 实际情况下获取到的回波数据中可用的目标信息是非常稀疏的，以本文的地面预警雷达实测回波数据为例，在一圈扫描后得到的43×6000个距离单元上，有时仅有1～2个单元上存在目标信息，这种目标/杂波极为不均衡的检测任务也给当下主流的机器学习提出了巨大的挑战。

(3) 所处理的数据大都是模拟仿真环境下生成的，缺乏更为极端条件下实测数据上的实验验证；同时目前的研究工作中也很少见到在统一实验条件下对于经典CFAR方法、经典机器学习方法，以及深度学习方法的综合性能评价。

针对以上现有研究的局限性，本文提出一系列适用于雷达回波的特征表示学习方法和针对目标-杂波样本不均衡性的少数样本数据生成方法，进而系统性地给出如图1所示的基于雷达回波的目标检测方法框架，最后使用以无人机为目标的地面预警雷达实测回波数据来对方法进行验证。

图1 回波时序关系依赖的时空域稀疏条件下雷达目标检测框架Fig.1 Radar echo temporal relation learning-based spatial-temporal sparse target detection

针对雷达回波的表示学习问题，本文以雷达回波自身的时序性质为约束，分别从无监督学习和有监督学习两个方面给出了雷达回波特征的表示学习方法，并以目标检测性能为衡量指标来对表示学习方法的有效性进行验证；针对实际雷达探测中目标时空域范围在雷达回波中展现出的稀疏性，本文将异常值检测中的样本均衡思想引入训练样本集构建过程，提出一种目标-杂波样本规模均衡化处理策略，缓解了基于机器学习的雷达目标探测任务中目标样本驱动力不足的问题。最后，本文利用实测数据对所提出的完整检测框架进行消融实验分析，以验证回波时序性特征表示学习及样本均衡策略的有效性；并在尽可能模拟雷达实际工作的情况下与多种经典CFAR算法进行对比实验分析。本文所涉及的具体技术包含以下3个方面：

(1) 雷达目标回波增强。雷达在对目标进行探测时，不仅会接收到目标回波，同时也会接收到周围环境反射的杂波信号，一般而言，杂波信号的回波功率会远超目标回波，尤其是对于飞行高度低(≤500 m)、速度慢(6～200 m/s)、有效反射截面积(Radar Cross Section,RCS)远低于1 m2的无人机目标，周围杂波会更强，从而严重影响系统的目标检测性能。而雷达目标检测问题首先需要解决的是如何获取足够“纯净”的目标回波数据，因此本文首先采用经典的雷达信号处理手段对原始回波进行杂波抑制，从而提升回波的SCR。

(2) 时序关系依赖的雷达回波表示学习。在机器学习领域中，检测问题本质上是一种数据驱动的模式识别问题，其中对数据的有效特征表示至关重要。雷达回波作为一种时序性的信号，其中的动态时序信息是表示雷达回波的一种重要线索。而该种信息实际上可看作回波沿着距离(时间)方向的变化趋势，该趋势依赖于序列中各个元素之间的时序关系。为此，本文试图以回波序列各距离单元间的时间依赖关系为约束，来分别从无监督学习和有监督学习两种方式学习出可以代表输入回波序列的时序性特征表示。

(3) 时空域稀疏条件下的雷达低慢小目标检测。与常见的视觉目标检测任务不同，可见光传感器的感受野有限，通常都是针对近距离的感兴趣目标，目标所占据的感受野区域相对更大，而雷达探测的范围通常要更大，其所针对的通常也都是远距离的目标，这就导致目标在雷达感受野范围内所占据的时空区域非常有限，若被检目标自身RCS很小，那么其在感受野下将会呈现出极高的时空稀疏性。这一特点会导致训练数据中目标与杂波的比例严重失衡，因此，本文试图引入异常值检测中的样本平衡策略来构建出目标-杂波样本规模均衡的训练数据集。

本文主要创新点如下：

(1) 系统性地提出了一种有效的基于雷达回波的目标/杂波检测的机器学习方法框架，该方法框架不仅局限于检测器的构建，也对雷达回波的有效特征表示学习问题进行了探讨；

(2) 着重研究了时序信息对于雷达回波表示的重要性，并给出了无监督和有监督两种回波表示学习方法的具体实现；

(3) 采用基于少数实测目标样本邻域内扰动的样本平衡策略解决了目标-杂波样本不均衡的问题，并基于此方法构建出目标-杂波样本数均衡的数据集，以进行特征表示学习和检测模型的训练；

(4) 分别利用均衡策略构建的数据集与实测序贯数据集设计实验，对所提出的方法进行消融实验以及与经典CFAR方法的对比实验。

2 回波时序关系依赖的时空域稀疏雷达目标检测方法

如图1所示，本文所提检测方法的完整框架可大致分为4个部分：(1)原始回波预处理；(2)回波时序关系依赖的特征表示学习；(3)基于目标回波上采样的训练数据集构建；(4)目标检测器。本小节将逐一对这4个部分进行介绍。

2.1 原始回波预处理

雷达目标检测问题首先需要解决的是如何获取足够“纯净”的目标回波数据，为此，首先对原始回波进行异常点剔除、数字脉冲压缩(Digital Pulse Compression,DPC)[22]，以及有限冲击响应(Finite Impulse Response,FIR)滤波[22]，从而获得信杂比更高的回波信号。此外，综合考虑回波时序上下文内容与处理的时效性，还对滤波之后的回波进行滑动窗切分以得到之后时序建模和检测的最短序列。以本文处理的回波数据为例，3个步骤的大致流程如下：

步骤1 DPC。由于目标的运动速度慢，其回波常常会与杂波交叠，甚至淹没于后者之中。而DPC可以在不降低目标回波功率的同时，将较宽的回波进行压缩，以提升距离分辨率。给定一个6通道的回波序列X∈CT×6(其中T为距离单元个数即快时间维度，6为多普勒通道个数即慢时间维)与参考发射波形S∈R2N(其中，N为发射波形长度，由于S包含发射波形的实部和虚部两部分，因此维度为2N)，首先对回波进行逐多普勒通道FFT，以得到每个脉冲的频域响应曲线∈CN(i=1,2,...,6)；随后将频域响应与经过复数形式还原后的参考信号S◦∈CN进行逐位相乘；最后对乘后的结果进行逐通道的傅里叶逆变换(Inversed FFT,IFFT)，以得到最终压缩后的回波序列Y∈CT×6。

步骤2 FIR滤波。由于目标飞行高度低，目标回波易被地物杂波所干扰，为此引入FIR滤波来对杂波进行抑制，从而提升目标回波信号的信杂比SCR。本文采用文献[23]中所推荐的方式设计相应的滤波器组，用设计好的6组FIR滤波器系数矩阵H∈C6×6对经过DPC压缩后的6通道回波序列Y∈CT×6进行逐时刻(距离单元)滤波处理，具体地，对于通道p的第n个距离单元的FIR滤波输出可由式(1)得到：

最终得到6通道的滤波输出Z∈C6×T。

步骤3 回波滑动窗切分。雷达回波与其他常见的序列数据如视频和音频不同，其中所蕴含的感兴趣动态信息非常稀有。若直接对完整的一段回波序列进行时序建模，感兴趣的目标动态信息将很有可能被淹没于占绝大部分的杂波信息之中，随着序列长度的增加，感兴趣信息被淹没的可能性也会更大。同时，以循环神经网络(Recurrent Neural Network,RNN)[24]和LSTM[25]为例，相关研究表明，随着建模序列长度的增加，模型对于序列之中的时序依赖的刻画能力也会有所下降，即历史累积遗忘效应[26]。因此，综合考虑目标信息的时域稀疏性和序列建模方法的遗忘效应问题，本文采用滑动窗机制对滤波后的回波序列进行切分，以得到多个更紧凑的回波子序列，该子序列将作为之后时序建模方法的输入。滑动窗切分的具体方式如图2所示，为了保留目标信息的时序上下文，系统待检测的距离单元将会作为子序列的中心单元，并在其前后补充若干参考单元。如此，滑动窗的大小将取决于所用参考单元的个数，若参考单元个数为L，则滑动窗大小为2L+1，此外，滑动窗移动的步长也是一个可以设置的参数，在序贯验证环节中，由于要遍历完整序列，因此步长为1。这里值得注意的是，由于本文强调了序列的时序性，没有像CFAR一样设置保护单元以避免产生不连贯的子序列。

图2 滑动窗切分回波示意图Fig.2 The sliding-window-based echo splitting

2.2 回波时序性特征表示学习

本节将探讨如何在雷达回波的时序依赖关系约束下，获取雷达回波的有效特征表示。时序依赖关系约束下的回波特征表示学习问题从本质上来说，是一种序列建模问题，建模方法需要将待检中心单元与其前后若干参考单元一同构成的序列转换为维度固定的特征表示，而后检测模型以该特征表示为依据判定待检中心单元是否存在目标信息。

正如本文在引言部分所介绍的，检测模型可以与特征表示模型分开单独学习，也可以耦合在一起联合优化，若二者分离单独优化，则对应于无监督式的时序性特征表示学习，若联合优化则对应于有监督式的时序性特征表示学习。因此，为充分讨论时序信息对于雷达回波表示的重要性，本文将以无监督和有监督的方式分别给出雷达回波时序性特征表示学习方法，并对二者的学习机理进行对比分析。

2.2.1 无监督回波时序性表示学习

无监督学习旨在仅利用输入样本自身信息来完成某一特定任务，对于本文来说，输入数据即为经过预处理之后的回波子序列，任务即为回波时序关系。作为一种极端情况下的学习策略，无监督学习方法需要尽可能利用数据自身的信息，而回波作为一种时序信号，其中各个单元间的时间顺序信息就是一个重要的依据，为此本文借鉴时序池化方法[27]中以序列时间先后顺序为约束的序列回归学习思想，提出一种适用于雷达回波的无监督时序性特征学习方法—EchoDarwin1EchoDarwin旨在捕捉回波随时间演进的变化趋势，Echo取雷达回波之意，Darwin取随时间演进而发生变化之意。。

鉴于雷达回波的特殊性以及机器学习方法的自身特点，在给出EchoDarwin定义之前，首先要对其输入进行实数化和归一化处理。给定由2.1节预处理环节获得的某个回波子序列X=[x1,x2,...,xT]T2请注意本文中正体“T”表示转置，斜体“T”表示序列长度，二者并非相同的符号。，其中xi∈CP，P为脉冲通道数，T=2L+1为序列长度。出于不损失输入序列信息量的考虑，首先将每个xi按照如式(2)方式进行复数-实数域转换：

其中，Cmplx2Real(·): CP →R2P为转换算子，real(·)和imag(·)分别表示按位取实部和虚部操作，(·)T表示矩阵转置。在序列归一化方面，一方面考虑到回波信号的幅值变化范围很大，直接处理会使得模型难以收敛，需要压缩其幅值变化范围；另一方面考虑到信号的剧烈变化会加剧时序建模的难度，还需要进行时域上的平滑处理。基于此两方面考虑，对于经过实数化处理的某一，本文进行如下归一化处理：

图3 Echo Darwin原理示意图Fig.3 The schematic diagram of Echo Darwin

其中，∥·∥是某种范数算子。

然而，即使经过归一化平滑处理，回波序列自身仍然存在很大的抖动性，因此还需要对式(6)这种形式严格的回归目标进行放松，同时对参数e进行正则化约束以提升回归模型的泛化性。为此，进而引入回归松弛量ε和e的正则约束项，如此可进一步将式(6)写成：

其中，是L2正则项，ε与λ分别为回归误差项的松弛因子和惩罚因子，[·]≥0=max{·;0}表示误差损失项仅关心超过误差松弛边界的回归结果。如此，式(7)的形式正好满足L2正则化约束的支持向量回归(Support Vector Regression,SVR)[28]问题，其即为本文所提EchoDarwin的优化目标。在具体求解过程中，本文采用牛顿信赖域法(Trust Region Newton,TRON)[29]，其是一种用于求解无约束和带有边界约束可微问题的通用优化方法。

至此，本文已对EchoDarwin的原理思想进行了分析，并基于此给出了其优化目标函数，然而其本身仍然是一种线性回归模型，其对回波时序信息的编码能力有限。为此，本文进而基于核函数的思想，通过引入一个形式确定的非线性特征映射(Non-Linear Feature Mapping,NFM)算子，来进一步提升EchoDarwin的时序编码能力。已知利用一个形式确定的NFM操作来将处于原始空间的输入特征映射至更高维的目标空间之中，等价于在原始低维空间中计算非线性核函数[30,31]。那么若选取合适的NFM，就可在不改变线性SVR问题求解形式的情况下，将其转换为一个非线性的回归模型，从而达到提升EchoDarwin时序编码能力的目的。具体来说，对于某个作用于的NFM操作Ψ(·):R2P vt∈RD，其中D≥2P，其将非线性地映射至一个更高维的空间之中，并在此空间求解如下优化问题：

2.2.2 有监督回波时序性表示学习

正如引言所述，若直接求解式(10)，则将退化为目前基于机器学习的回波目标检测方法的形式，虽在分类器的选取上略有不同，但本质上都是没有特征表示学习的部分。而本文认为特征表示学习作为目前机器学习中的一个重要组成部分，是不应该被忽略的，因此若将EchoDarwin引入式(10)中则可以得到如下既包含特征表示学习也包括检测模型的优化问题：

图4 EchoDarwin无监督回波时序性特征表示学习示意图Fig.4 The diagram of EchoDarwin for unsupervised temporal feature learning of radar echo

从式(11)不难看出，其本质上是将EchoDarwin看作检测目标函数约束条件的联合优化问题，若要采用梯度下降算法进行优化，则需要求解∂L/∂e，而根据链式求导法则，求解∂L/∂e涉及(∂L∂Φ())/(∂Φ()∂e)的计算。但由于式(7)中松弛化的误差损失项[·]≥0并不是在各点均可导，无法保证正确的梯度优化方向，进而无法保证模型收敛到最优解。因此，需要引入另外一种时序编码机制来实现时序性特征学习与检测模型的联合优化，即有监督的回波时序性特征表示学习。

为此，本文引入时序建模问题广泛应用的LSTM[25]及门控循环单元(Gated Recurrent Unit,GRU)[32]等来对回波中的时序关系进行捕捉，同时优化目标检测模型。LSTM与GRU都属于RNN[24]的一种，基础运算框架都是迭代式的序列到序列(Sequence-to-Sequence,Seq2Seq)的建模模型，LSTM可缓解常规RNN梯度消失和梯度爆炸问题，而GRU则在尽可能保留LSTM优势的同时，对其进行计算上的简化。通常，这些循环式的网络都是用于解决序列到序列的编码转录或序列预测问题，例如机器翻译、语音识别或天气预测等。与这些问题不同，本文所关注的序列建模问题是一种形如EchoDarwin的序列到向量的编码问题，即期望对一段序列的完整上下文进行编码，同时保证编码结果能保留序列之中的时序依赖关系。为便于理解，本文尝试使用一个统一的形式来对循环式神经网络的回波序列建模进行阐释。首先考虑某一参数为WS的单层循环网络模型Seq2Seq(·;WS)，其会将经过实数化及归一化处理后的某一回波子序列=其中，∈R2P,i=1,2,...,T，进行如下序列到序列的编码：

其中，对于每一时刻的输出vt，将由式(13)和式(14)计算得出：

其中，O(·;)与H(·,·;)分别为Seq2Seq模型的输出函数与隐藏编码函数，ht为隐藏编码函数的输出，其与当前时刻的输入和上一时刻隐藏编码结果有关，依次迭代式地使用此种编码方式，最后一个时刻的输出结果vT将会携带所有历史时刻信息，从而实现时序关系的学习，最终vT也将作为的时序编码结果参与到顶层检测模型的训练。

然而，与EchoDarwin不同之处在于，Seq2Seq这种前后时刻依赖的编码机制之中并没有严格地以显性的方式体现出一维时间偏序关系的约束，其是将这种偏序关系隐式地用循环迭代的隐藏编码函数H(·,·;)来体现。这也是目前大多数深度神经网络与经典机器学习方法的一大不同之处，即将一些具有显式化约束条件的优化问题转换为无约束或者弱约束的可以逐层梯度反传的复杂模型，即弱化优化问题自身的约束条件，而强调模型对输入的非线性表达能力。

其中，L(,y;WS,θ)表示检测任务的损失函数，P(y′=y|vT;θ)为检测模型打分函数输出的关于vT属于预测结果y的概率值。由于涉及时序编码和检测分类的模型均由具有闭式解的算子组成，因此可很方便地采用随机梯度下降算法来实现时序编码模型参数WS与检测器模型参数θ的更新。图5(a)以直观的方式展示了有监督回波时序关系建模的过程。

无论是RNN,LSTM，还是GRU，他们在时序编码机制方面没有本质区别，唯一不同之处体现在Seq2Seq(·;WS)中的隐藏编码函数H(·,·;)，在RNN中H主要是分别对历史时刻的隐藏编码结果和当前输入进行线性加权求和。而此种方式往往会使得历史信息利用不充分，随着输入序列的长度增加，模型的建模能力逐渐退化。为此，LSTM引入“细胞(cell)状态”来对流入网络的信息进行保持，并且通过精心设计的输入、输出和遗忘等多种门的操作来控制信息的流入流出，进而提升模型的历史信息利用能力。而在此基础上，GRU通过将输入和遗忘门简化为一个单一的更新门，同时将显式的细胞状态隐式地融合进隐藏状态，从而在尽可能保留LSTM编码能力的同时，达到精简模型的目的，二者的区别详见图5(b)。

图5 基于有监督Seq2Seq模型的雷达回波时序性特征表示学习方法示意图Fig.5 The illustration of supervised Seq2Seq-based radar echo temporal feature learning method

2.3 目标-杂波样本均衡策略

正如引言部分所分析的，对实际情况中的低慢小无人预警任务来说，多个方向上收到的回波中存在目标信息的距离单元是极为稀少的。以本文所处理的回波数据为例，在一个扫描周期所收到的回波中存在目标的距离单元与杂波距离单元的比例≤1:129,000。这种正负样本极为不均衡的检测任务对于目前的机器学习方法来说是极具挑战性的，即正例样本的驱动力严重不足。因此，不能以常规的处理方式来应对此种极端情况下的检测任务。粗略地以全局视角来看，低慢小目标检测问题更像是在密集发生的不感兴趣的事件之中寻找出极小概率发生的感兴趣事件，这更像是一种异常事件检测问题，此处的异常便对应着发生概率或者次数极为稀少的含义，因此本文尝试以异常检测问题的解决思路来应对低慢小目标检测问题。

异常检测最为关键的问题是数据的严重不平衡现象，即训练数据中不同类别数据规模大小不一致，若直接采用不平衡的数据对检测模型进行训练，会使得模型的预测方向往样本规模更大的那一类别倾斜，造成过拟合现象。因此，为避免数据不均衡，本文采用一种基于聚类的少数类别样本生成算法SMOTE[33]来对存在样本不平衡的数据进行均衡化处理。如图6所示，均衡化处理的目的是对规模更小的目标数据进行生成(上采样过程)，同时按照与上采样扩充后的目标样本量，随机性地选取相当数量的杂波样本(下采样过程)，从而最终得到目标-杂波占比均衡的训练/测试数据集。

图6 目标-杂波样本规模均衡化处理示意图Fig.6 The illustration of target-clutter sample scale balance

均衡化处理策略的大致思想是利用少数类别样本在数据空间中的近邻，来生成新的属于该类别的样本，近邻的寻找方法一般采用经典的k-NN算法。给定具有M个目标回波子序列的集合，Ωtgt={X1,X2,...,XM},Xi∈CT×P,i=1,2,...,M，表1将会按照预先设置的合成倍数N，额外生成具有N ×M个生成目标样本的集合。从表1中的式(16)可以看出，少数样本生成的原理本质上是在真实目标样本的某个邻域空间内进行微小的扰动，从而达到丰富目标样本在训练集之中多样性的目的，进而以一种合理的方式增加了目标样本的规模。图7以两种降维方法主成分分析(Principal Component Analysis,PCA)与T分布随机邻域嵌入(T-distributed Stochastic Neighbor Embedding,T-SNE)可视化地展示了经过均衡化处理前后，目标样本规模的变化，可以看出，均衡化算法有效地平衡了目标-杂波样本规模的比例。

图7 目标样本均衡化处理前后数据分布可视化对比Fig.7 The target sample scale visualization of target-clutter sample scale balancing

表1 目标-杂波样本规模均衡化处理算法Tab.1 Target-Clutter sample scale balancing algorithm

此外，值得注意的是表1实际上类似于一种在深度学习方法中经常使用的数据增广方法mixup[34]，其原理是对两个随机采样出的不同真实样本进行线性加权来丰富样本的多样性，被采样的两个样本在统计上是独立分布的，即该方法假设两个被采样本没有统计上的依赖关系。而表1认为被采样本之间应该具备一定的关联，对随机采样进行了进一步的约束，即将其中一个样本看作锚定样本，并且在锚定样本的邻域内进行随机采样，被选中的两个样本实际上是具有统计相关性的，此种方式会避免生成的样本与原始样本之间存在较大的差异性。

至此，本文已对所提完整的基于雷达回波目标检测框架的各个重要环节分别进行了介绍，其中回波时序性表示学习与检测器均是可学习的模型。图8直观地展示了这些模型的大致训练过程，其中在无监督时序关系学习的情况下，特征表示学习与检测模型的训练过程是分离的，并且每个样本的特征学习过程都是独立进行的，也无需样本标签参与学习过程；而在有监督时序关系学习的情况下，时序性特征表示学习模型与检测模型是在完整的训练样本集上端到端联合优化的。

图8 回波时序关系依赖的雷达目标检测框架训练流程示意图Fig.8 The illustration of training process for echo temporal relation-based radar target detection framework

3 数据集及实验结果

3.1 数据集设计

本文使用地面情报雷达的实测数据来验证所提方法，雷达采集对象为复杂气象环境中滨海强杂波条件下的低空飞行慢速小目标，总共包括19个扫描周期共计814帧的回波数据，扫描覆盖60°到90°的空域范围，每个方向上包含6个脉冲，每个脉冲的有效距离单元数均为6000，每帧数据相当于是一个6000×6的复数矩阵。在每个包含大约43帧数据的扫描周期内，仅有两个距离单元上存在目标信息(43×6000个距离只有2个单元存在目标)，正如2.3节中所讨论的，这在机器学习领域中更像是异常检测问题。

如引言所述，经典的雷达目标检测遵照统计检测理论，其是通过对含有目标信息的信号或杂波信号的分布特性提出假设，从而能够给出输入信号在不同假设条件下的概率密度函数的形式，因此其中所探讨的检测概率和虚警概率是一种概率值估计，即待检信号服从某个分布的概率值。而数据驱动的机器学习方法直接对式(9)中所定义假设条件下的概率取值进行估计，不事先对信号的分布特性进行先验性假设。其所估计的概率值并不直接用于评价模型算法的好坏，而是对量化后的概率估计值在测试样本集中所占比例来对模型进行评估。

为尽可能科学严谨地验证本文所提方法，本文将设计两种数据集来对方法进行实验验证：

3.1.1 实测-生成混检数据集(Real Synthetic Hybrid Dataset,RSHD)设计

为充分对所提方法中各个环节的有效性进行验证，采用经典的K-折交叉检验法来构建RSHD的训练/测试集(K=4)，训练测试的样本规模比例约为3:1。具体如下：

(1) 滤波预处理：对所有回波数据进行DPC和FIR滤波预处理；

最终，每一份训练集与测试集的子序列个数分别为592和310。这里需要额外说明的是，在给子序列进行标注时，都是以中心距离单元的类别为准。同时确保有3个完整扫描周期的回波数据不会出现在每一份训练集之中，从而保证后续实测序贯回放验证集(Real Sequential Playback verification Dataset,RSPD)中不会存在所训模型“见过”的样本。

3.1.2 RSPD设计

RSPD仅作为验证集使用。为还原真实的雷达目标检测过程，将未出现于RSHD训练集中的3个扫描周期的数据按照扫描周期数保存。在序贯验证过程中，滑动窗切分算法将按照参考单元数L=10，滑动步长1对每帧回波序列进行切分，并且对序列的开头与结尾处进行补0，以保证序贯实验环节中，验证集中每个距离单元都按照雷达实际扫描的顺序被检测模型处理。

3.2 模型超参设置

本小节将首先介绍无监督时序性回波表示学习方法EchoDarwin与基于深度循环网络的有监督时序性回波表示学习方法训练过程中的模型超参设置。由于前者是一种与检测模型相解耦的表示学习方法，因此还需要额外训练检测模型来对特征进行判别和区分，为此，本文采用基于卡方核函数(Chi-square kernel function,Chi-2)的支持向量机(SVM)[35]作为检测模型。EchoDarwin相关参数设置如下：

(1) 时序性特征学习模型。若无特殊说明，NFM默认采用Hellinger核函数的简化变种PosNeg[27]，回归的惩罚因子λ(见式(7))默认设置为1×10–5；

(2) 检测模型。训练过程中采用二阶段的网格搜索法确定SVM惩罚因子，首先从取值范围为[1,10000]，且以几何倍数为10增长的等比数列中确定性能表现较好的大致取值范围，再等间隔均匀划分缩小后的取值范围，并最终选取性能最好的惩罚因子。

对于有监督的方法而言，本文设计了4种基于LSTM和GRU的回波时序关系学习网络：(a)基于双向(Bi-directional,Bi-LSTM)的网络：时序编码部分由两层Bi-LSTM构成[36]，相比常规LSTM，Bi-LSTM会额外对序列进行反向时序建模，以获得更丰富的上下文依赖关系；(b)双向GRU(Bi-directional GRU,Bi-GRU)：时序编码部分由两层双向GRU构成[36]，相比LSTM,GRU会以更为精简的方式对序列进行建模；(c)MLP-LSTM：时序编码部分由若干时序上不共享的作用于完整序列的多层感知机(Multi-Layer Perceptron,MLP)和一个Bi-LSTM层构成，其中MLP由两个全连接(Fully-Connected,FC)层和一个Leaky ReLU[37]激活层构成；(d)基于卷积的LSTM(Convolutional LSTM,ConvLSTM)：与MLP-LSTM不同之处在于，时序不共享的MLP部分由若干1×1共享卷积核代替。为保持实验条件一致，所有网络都采用相同的优化算法及超参进行训练，训练配置与网络具体结构详见表2。

表2 雷达回波时序关系学习网络结构及训练配置Tab.2 Network structure and training configuration of radar echo temporal relationship learning

3.3 实验结果及分析

实验部分将分别采用RSHD的测试集和RSPD进行模型的性能验证，其中在RSHD部分评价皆采用相同的指标体系，具体为正确率(Accuracy)、虚警率(False Alarm Rate,FA)、检测精度(Precision)、检出率或召回率(Recall)，以及F值(F Score)。其中，综合评价指标F值的计算方式为

其中，系数β设为1。最终指标的结果为4份训练/测试集所获得结果的均值。在RSPD部分的评价指标则主要采用目标检出率和虚警率来进行评价。对于RSHD的实验部分，本文将考察时序性特征学习与样本均衡策略对时空域目标稀疏的雷达回波检测任务的有效性；对于RSPD实验部分，本文将尽可能在模拟雷达实际工作的情况下，来验证检测模型的性能，并与多种经典的CFAR算法进行对比分析。

3.3.1 时序性表示学习消融实验

为考察时序性特征学习的有效性，基于RSHD分别设计两组实验：(a)无监督EchoDarwin的消融实验；(b)无监督与有监督时序性特征表示学习的对比实验。在(a)组中，首先对EchoDarwin中的归一化操作TVM和NFM进行消融实验分析，而后在同等实验条件下比较EchoDarwin与其他不经过学习的序列表示方法之间的性能差异。

如表3所示，使用TVM归一化平滑处理后的回波序列作为EchoDarwin的输入，除了采用Chi-2核函数作为NFM操作的对照组之外，检测模型能获取到更好的综合性能指标，尤其是在目标召回率方面，优势更为突出；而在Chi-2核函数的作用下，TVM的优势并没有那么突出，这是由于Chi-2核函数自身可看作两个输入向量的内积除以该两个向量之和的L1范数，从而也起到了一定的归一化效果，因而在此种情况下二者相结合后的优势就不如其他情况那样明显。然而这一对比结果也说明了，归一化平滑处理对于回波特征学习的有效性。而在NFM的对照实验可以看出，无论使用哪种非线性核函数，检测模型的性能都在各个方面有了明显的提升，这也充分地验证了利用更为复杂的回归模型来进行时序性特征表示学习的有效性，其中使用PosNeg核函数的EchoDarwin总能在综合性能上超越其他对照组。

表3 EchoDarwin+SVM消融实验结果Tab.3 Ablation experiment results of EchoDarwin

在(a)组的第2部分实验中，本文进一步考察在时序关系依赖下学习得出的特征表示与未经过学习的特征表示对于检测性能的影响。这里选取3种非学习的回波表示方法：(1)Temp.Avg-Pooling：在时间维度(距离向)上将回波子序列求取平均的表示方法；(2)Temp.Max-Pooling：在时间维度上将回波子序列中最大值进行保留的表示方法；(3)Temp.Concatenation：不做任何处理，仅将回波子序列按照时间维进行拼接的表示方法(该种情况就近似退化成了文献[7]中所提出的方法)。

从表4所示结果不难看出，经过学习后的Echo-Darwin明显可以取得更好的综合检测性能，虽在虚警率与检测精度上比Temp.Concatenation要有所下降，但其能保持紧凑的特征维度，这都体现出了时序性学习机制对于回波特征表示的有效性。

表4 EchoDarwin与其他非学习序列表示的性能对比结果Tab.4 Performance comparison between EchoDarwin and other representations of non-learning sequence

在(b)组实验中，本文考察无监督时序性特征表示与有监督时序性特征表示之间的性能差异，结果汇总于表5，其中与Bi-LSTM类似，Bi-EchoDarwin表示对回波序列在正向和反向上都进行时序建模，并将两个方向上获得的时序性特征进行拼接，因此特征维度相比EchoDarwin会提升2倍。

表5 无监督与有监督式回波表示学习方法检测性能对比Tab.5 Comparison of detection performance between unsupervised and supervised echo representation learning methods

从实验结果可以看出，无监督和有监督学习的模型都能以较高的准确率辨识出目标，这也说明时序关系的学习有助于获取到有效的雷达回波特征表示；而相比于仅在前向进行时序关系提取的模型EchoDarwin、LSTM和GRU来说，其双向对照组模型Bi-EchoDarwin,Bi-LSTM，以及Bi-GRU可以在各个指标上都获得性能更佳的检测结果，这也说明了在正向反向上都进行学习可以提升特征表示的丰富度，从而提升检测模型的性能。

进一步地，整体对比无监督方法与有监督方法的各项性能指标可看出，有监督的深度学习方法明显更具优势，这一方面是由于相比起浅层的机器学习方法，深度学习方法通常拥有更高的编码容量，能轻松将数据从原始低维空间嵌入至表达能力更为丰富的高维空间之中；另一方面也是由于其在学习时序依赖关系的同时兼顾了目标回波与杂波之间的区分性，即以任务驱动的方式联合学习时序性特征和检测模型。而所有模型之中，Bi-LSTM和Bi-GRU能获得最好的性能，其中前者在召回率(目标检出率)上更具优势，而后者能有更高的检测精度，相应的虚警率也更低。

最后对比纯Bi-LSTM网络与混合式的MLP-LSTM和ConvLSTM，前者由于具有双层循环结构，因而可以拥有更好的时序建模能力，进而取得更好的性能表现。

尽管无监督的EchoDarwin在性能方面表现稍弱，然而由于其本质上是一个浅层的线性回归模型，相比起LSTM等深度神经网络来说，它是一种更为轻量化的模型，运算资源的耗费程度也更少，取得的特征也更为紧凑，在实时处理方面更具优势。而在特征学习方面，与带标签数据驱动的LSTM等模型不同，EchoDarwin是一种样本依赖的方法，其在特征学习的过程中不需要遍历整个训练集，即是说其不依赖于样本在数据空间中的统计分布信息，只利用了回波数据在时间维上的偏序关系这一先验信息，这也使得该模型与数据本身的耦合程度更低，应用更为灵活。综合这些优势，EchoDarwin能更容易部署在各种移动计算设备上，具有一定的实用价值。

3.3.2 样本均衡策略有效性实验

在本组实验中，本文固定检测方法来考察样本均衡策略对检测性能的影响。为此，本文按照与RSHD相同的数据集设计方法生成不同目标样本合成比例下的训练集和测试集。目标样本合成比例即为表1中的SyncRatio，比例的选取按照200%的递增速度从0(不使用均衡策略)到1000%(本文推荐比例)，如此便得到6组训练/测试样本集，表6记录了6组数据集下Bi-EchoDarwin方法的检测性能结果及训练/测试样本规模。

从表6所示结果不难看出，合成比例为0(即不采用均衡处理)的情况下，检测模型虽在正确率和虚警率上取得了最优的结果，但这是由于训练/测试集中的真实目标样本极为稀少，导致模型严重向杂波倾斜，将大多数目标样本错误地辨识为杂波，从而产生了最低的目标召回率；而在引入均衡策略之后(SycRatio≥200%)，目标的召回情况有了明显的好转，模型的综合性能指标F值也得到显著的提升。为更加直观展现这一趋势，本文绘制了图9以展现均衡化策略对于模型综合性能的影响。其中，图9(a)通过平行对比目标召回率和虚警率来显示模型在不同生成比例下的综合检测性能，不难看出随着生成比例的增加，召回率和虚警率之差呈现出逐渐增长的趋势；而图9(b)通过观察F值的变化趋势来综合性地体现检测模型性能的变化，可以看出模型的综合性能会随着生成比例的增加而呈现出明显增长的趋势，并在200%和800%处取得较大幅度的提升后，进入较为缓慢的增长状态。

图9 不同目标样本均衡化处理程度对检测性能的影响Fig.9 The target sample scale visualization of target-clutter sample scale balancing

表6 不同目标样本生成比例下Bi-EchoDarwin的检测性能结果Tab.6 Detection performance of Bi-EchoDarwin under different target sample generation ratio

3.3.3 实测序贯验证实验

在本组实验中，本文利用RSPD验证集来模拟实际情况下所提方法的有效性，同时选取4个常用的CFAR检测算法：CA-CFAR,GOCA-CFAR,OSCFAR与SOCA-CFAR进行检测效果的对比。为保持公平的原则，CFAR算法的参考单元数大小与本文所提方法一致，即左右各10个距离单元，保护单元左右各1个距离单元。同时，为尽可能发挥出各种CFAR算法的性能，虚警概率值Pfa的选取将秉持在有检出的情况下，虚警预测结果最少的原则，Pfa的选取范围为1e–3～1e–7。

图10以极坐标的形式绘制了两种基于回波时序性特征表示学习的检测方法Bi-EchoDarwin和Bi-LSTM与4种CFAR算法在其中一个雷达扫描周期中的完整检出结果。不难看出，在合适的虚警率取值下，各CFAR算法均能对目标进行检出，并且OS-CFAR获得了最少的虚警结果，然而这些方法都存在漏检的情况。而对于Bi-EchoDarwin与Bi-LSTM来说，二者都取得了更全的目标检出结果，同时直观上看虚警结果的数量也处在一个可接受的范围(相较于CFAR来说)。

图10 实测序贯验证条件下与多种CFAR方法的检测结果对比示例图(一次扫描周期)Fig.10 Example of detection results comparison with CFARs under sequential validation of real-measured data(in one radar scanning cycle)

为更加定量地对比这些方法的检出情况，本文统计了RSPD完整3个周期的检出情况，结果如表7所示。从对比结果可以看出，虽然本文所提出的方法不具备CFAR的恒虚警性质，然而在实际测试过程中，他们在检后虚警统计值上与CFAR仍处在同一个量级，而且同时还能获得更全的目标检出效果。进一步结合之前的实验结果可以看出，引入合适的表示学习机制和样本均衡策略，数据驱动的方法可以在虚警数量可接受的范围内取得更好的检出效果，这些实验结果都体现出了本文所提检测方法框架的有效性。

表7 所提方法与多种CFAR方法在RSPD下的检出结果统计情况Tab.7 Statistical analysis of detection results of the proposed method and multiple CFAR methods under RSPD

4 结语

针对时空域稀疏条件下的低慢小雷达目标检测问题，本文系统性地提出了一种有效的面向回波的目标-杂波检测方法框架。在经典雷达杂波抑制方法的基础之上，本文在方法框架中着重强调了回波表示学习和目标-杂波样本均衡策略的重要性。在回波表示学习方面，通过充分利用回波自身的时序依赖关系约束，本文分别对无监督式和有监督式两种回波时序性特征表示学习问题给出了相应的定义和求解方法；在目标-杂波样本均衡策略方面，通过将低慢小雷达目标检测问题转化为一种异常事件检测问题，本文利用一种基于目标样本邻域内扰动的上采样生成方法克服了检测模型的决策偏移问题。此外，为充分验证所提方法的有效性，本文根据实测雷达回波数据分别设计了实测-生成混检式的RSHD训练/测试数据集和实测序贯回放验证集RSPD。RSHD的实验结果表明，相较于忽略表示学习的检测方法来说，时序性表示学习方法能以更紧凑的回波表示让检测模型取得更好的综合检测性能；在不进行均衡处理的情况下，模型会严重向杂波样本倾斜，而经过样本均衡处理后，模型的杂波样本倾斜程度得到了有效的改善，并明显取得了更高的目标召回率和F值。基于RSPD，本文模拟检测模型的实际工作情况，对所提方法和多种CFAR检测方法进行了统一的性能对比评价，实验结果表明所提方法在与CFAR取得相当量级虚警率的同时，还能获得更全的目标检出效果。

然而，作为数据驱动的机器学习方法，本文所提完整的目标检测框架仍然未摆脱对样本标签的依赖，这使得模型在真正应用的过程中，需要提前收集和构造携带目标标记的数据集，并且在此数据集上提前进行学习和优化。从这一点出发，EchoDarwin这种样本级别的无监督方法虽然在最终检测性能上不如有监督式的回波时序性特征表示学习方法，但由于其在特征表示学习方面无需样本类别标签进行监督，因此在实际应用方面具备更加灵活的特性。因此，未来也有必要在EchoDarwin的基础上，进一步考虑如何将无监督的思想也引入检测模型，从而使完整的目标检测框架摆脱对标签数据的依赖。