基于DQN的探测干扰一体化波形优化设计

2023-03-09 02:54胡学晶肖易寒

系统工程与电子技术 2023年3期

陈涛, 张颖,*, 胡学晶, 肖易寒

(1. 哈尔滨工程大学信息与通信工程学院, 黑龙江哈尔滨 150001;2. 哈尔滨工程大学先进船舶通信与信息技术工业和信息化部重点实验室, 黑龙江哈尔滨 150001)

0 引言

随着现代军事电子干扰、电子侦察技术的不断发展,雷达面临的电磁环境日益复杂[1],有效攻击对方电子系统和有效保护己方电子系统以阻止和破坏对方电子设备对电磁的利用都尤为重要,因此作战平台需要配备雷达、干扰机等,而功能单一且相互独立的作战设备占用大量资源且相互之间有较强电磁干扰,严重影响作战能力。未来系统化战争武器装备趋向于向一机多能的方向发展。近年来,有一些学者研究了雷达干扰一体化共享信号的方法。文献[2]提出了一种基于双载频伪随机二相编码信号的干扰探测一体化信号波形。文献[3]提出了一种伪码噪声调频与线性调频复合调制的探测干扰共享波形。文献[4]应用遗传算法设计了一种基于正交频分复用的雷达通信一体化共享信号波形优化方法。文献[5]根据干扰带宽设计了探测干扰一体化信号波形。文献[6]研究了具有低截获概率的雷达干扰波形设计。同时,随着认知雷达[7]的发展,一些基于智能算法的雷达干扰波形设计也得到了广泛关注。文献[8]通过模仿蝙蝠的认知学习过程，将信息反馈给发射机,实现自适应探测和处理。文献[9]提出了基于Q学习的智能雷达对抗方法。文献[10]提出了基于强化学习的认知干扰波形设计,有效地对雷达检测环节进行了干扰。文献[11]提出了基于深度Q网络(deep Q-network, DQN)的干扰决策方法。上述论文更多是从雷达角度出发设计具有噪声压制特性的探测干扰一体化信号。受此启发,本文考虑从干扰的角度出发设计一体化信号,使发射的干扰信号还具有探测功能。

首先介绍了一体化信号的工作场景,在此基础上对一体化信号进行了建模。同时，从模糊函数以及恒虚警概率(constant false alarm rate, CFAR)[20]检测技术的角度设计了探测干扰一体化性能评价函数。其中，DQN作为一种智能算法，针对数据量大的状态空间具有良好的决策能力,尤其是在实际环境中,雷达信号形式不固定使得传统干扰库方法无法满足实际需求[12-13]。因此，采用DQN算法进行求解,获取最优一体化波形,最后通过对比仿真验证了该方法的有效性。

1 一体化信号模型建立

1.1 场景描述

干扰信号可以分为压制干扰信号和欺骗干扰信号[14],欺骗干扰信号主要是在对方雷达信号的基础上设计干扰信号。而本文设计的探测干扰一体化信号是欺骗干扰信号,即将探测信号隐藏在干扰信号中,一体化信号的工作场景如图1所示。图1中，假设对方雷达发射雷达信号s(t),己方在检测到对方雷达信号后，将s(t)信号与调制信号u(t)进行相干调制,得到干扰信号f(t),对方将接收到的干扰信号误认为自己发射的雷达信号,然后经过一个系统函数为h(t)的匹配滤波器进行滤波处理，得到信号y(t),同时干扰信号f(t)又可作为己方的探测信号，对其他目标进行探测。

图1 一体化信号工作场景Fig.1 Working scenarios of integrated signal

1.2 均匀间歇采样转发干扰信号

为了解决距离与距离分辨率相矛盾的问题,现代雷达普遍采用脉冲压缩雷达,而线性调频(linear frequency modulation,LFM)信号[15]是脉冲压缩雷达常用的一种调制信号,因此假设针对LFM信号设计干扰信号。考虑到侦察干扰机不能同时收发,而数字射频存储(digital radio frequency memory,DRFM)[16]是一种应用高速数字采样与存储技术来实现对微波信号存储与转发功能的技术,因此大多数干扰机采用间歇采样转发干扰技术[17-19]。该技术可将接收到的大时宽脉冲压缩信号分成若干个短脉冲进行发射，其原理如图2所示。

图2 间歇采样重复转发干扰原理图Fig.2 Schematic diagram of intermittent sampling and repeated forwarding interference

图2中,T为截获到的雷达信号,Ts为间歇采样周期,τ为采样时间,η为转发时间。当η=τ(即转发时间倍数a=1)时,信号为均匀间歇采样转发干扰信号。截获到的LFM信号s(t)的一般表达式为

(1)

式中:fc为载波频率;T为信号持续时间;B为带宽;K=B/T为调频斜率;gT(t)为矩形信号,表达式为

(2)

信号s(t)匹配滤波器的系统函数为

(3)

LFM信号经过匹配滤波器的输出为

(4)

式中:*表示卷积；-T≤t≤T。采样信号u(t)的表达式为

(5)

式中:δ(·)为冲激函数。干扰信号f(t)经过一次延时转发τ得到：

f1(t)=s(t-τ)u(t-τ)

(6)

经过匹配滤波得到：

y1(t)=f1(t)*h(t)=

(7)

式中:fs为间歇采样频率。重复转发a次后的干扰信号脉压输出为

(8)

1.3 非均匀间歇采样重复转发干扰信号

对雷达信号进行间歇采样转发干扰在时域上也可体现为对雷达信号进行脉冲幅度调制,新的间歇采样转发干扰机制如图3所示。

图3中,固定最小采样时间单元τ,编码序列中的“0”代表采样。若出现一个“0”,则采样时间为τ,若连续出现两个“0”,则采样时间为2τ,以此类推;“1”代表转发,此转发为将前一时刻的所有采样信号进行转发,连续出现“1”意为将前一时刻的采样信号重复转发。

图3 非均匀间歇采样重复转发干扰原理Fig.3 Principle of non-uniform intermittent sampling and repeated forwarding interference

例如，当序列为“0100110001”时，出现4个1,对应转发时间依次为τ、2τ、2τ、3τ,意为非均匀转发。为了易于书写,不妨对序列先进行扩展,使得每一位码元对应的码元宽度均为τ,即可将上述序列扩展为“01001111000111”。

可令二进制序列{βn,0≤n≤N}的扩展序列为{εl,0≤l≤L},其中L代表扩展后的序列长度,扩展序列的第l个码元对应的幅度包络al(t)可表示为

al(t)=εlgτ(t)*δ(t-lτ)

(9)

式中:,εl的取值范围为(0,1);τ为最小采样时间单元。gτ(t)为矩形信号，其表达式为

(10)

转发信号f(t)可表示为

(11)

式中:fl(t)为第l个码元对应发射的短脉冲,表达式为

(12)

式中:I为当码元为1时,此码元前的连0串个数。由分析可知,最终的转发信号f(t)取决于编码序列,而编码序列充分体现了非均匀间歇采样时间以及转发次数的取值,因此编码序列的选取成为了问题的关键。

2 目标函数建立及优化求解

转发信号f(t)除了应具备干扰特性，还应具备雷达探测特性。CFAR技术是针对大时宽带宽积信号的一种有效检测手段,因此可从雷达检测环节分析干扰性能。探测信号能够从回波信号中得到目标的运动信息,而模糊函数在一定程度上反映了距离和速度分辨力,因此可以从模糊函数的角度分析探测性能。

2.1 干扰性能优化分析

在一定的信噪比下,雷达根据系统的检测概率Pd和虚警概率Pf的要求确定检测门限,当信号的强度超过该门限时，说明检测到目标。CFAR能够自适应调整检测门限,是现代雷达普遍采用的一种检测技术,其原理如图4所示。

图4 CFAR原理Fig.4 Principle of CFAR

CFAR算法常用的方法有单元平均CFAR(cell averaging CFAR, CA-CFAR)、最大选择CFAR(greatest order CFAR, GO-CFAR)、最小选择CFAR(smallest order CFAR, SO-CFAR)。以CA-CFAR为例,检测门限Si由左右N个参考单元的均值与检测因子β相乘得到。为了对雷达检测环节进行干扰以达到掩盖真实信号的目的,应提高雷达检测门限,即提高参考单元信号的幅度值。参考单元的幅度值与信号脉压后的幅度有关,即设计的干扰信号脉压后假目标的个数越多,幅度越大且干扰效果越好。因此不妨将干扰信号脉压后信号幅度标准差与均值之比d作为评价干扰性能的标准。

d的表达式为

(13)

2.2 探测性能优化分析

模糊函数是分析雷达探测性能的重要工具,主要用来刻画雷达信号分辨邻近目标运动距离与速度的能力。理想的模糊函数应具有“图钉”形状,即能量主要集中在主瓣,旁瓣能量均匀分开。一体化信号f(t)的模糊函数可以定义为

(14)

时延分辨常数Cμ可表示为

(15)

根据时延分辨常数可定义距离分辨率为

(16)

式中:c代表光速。多普勒分辨常数Cν可表示为

(17)

根据多普勒分辨常数可定义速度分辨率为

(18)

式中:λ代表发射信号波长。当雷达信号的距离分辨力以及速度分辨力越大,即距离和速度分辨率越小,则说明雷达信号的探测性能越好。根据式(16)和式(18)可知,当光速c以及发射信号波长λ为定值时,时延分辨常数Cμ与多普勒分辨常数Cν越小,则雷达信号的距离和速度分辨率越小,探测性能越好。

2.3 一体化信号目标函数建立

通过以上分析可知,探测干扰一体化信号的设计应从两个方面考虑:一是雷达探测性能最佳,即信号距离分辨率以及速度分辨率尽可能小;二是干扰性能最佳,即干扰信号脉压后假目标的个数越大幅度越高,脉压后信号幅度均值与标准差之比d尽可能大。因此可以转化为求最大值问题,目标函数可以定义为

(19)

目标函数确定后,需要对目标函数求解,获取最优的编码序列。其中,Fu、Fv分别为单目标时式(13)、式(15)的倒数对应的最大值,Fd为单目标时式(13)对应的最大值,目的是将各项进行归一化处理,ω1、ω2分别为探测性能和干扰性能的权重,可根据实际情况进行调节。

2.4 基于DQN的优化序列求解

与强化学习不同的是,深度强化学习适用于状态连续或者状态数据量大的空间。本文中每一组不同的编码序列对应一个状态,总体的状态量可以表示为

(20)

式中:Numstate为总状态量;T为雷达信号长度；τ为最小采样时间。随着序列长度的变化,编码类型也会成指数倍增加,因此数据量大,而强化学习的状态和动作值是离散且有限的。若将连续空间离散化,则离散点空间数据量大，不利于Q表的更新,且不足以保证泛化能力,因此可选择DQN算法进行优化序列求解。

DQN更新公式为

Q(st,at)←

Q(st,at)+α[rt+γmaxat+1Q(st+1,at+1)-Q(st,at)]

(21)

式中:α表示学习率;rt表示奖励函数;γ表示折扣因子;maxat+1Q(st+1,at+1)表示在下一状态st+1时取动作at+1可以得到的Q的最大值。DQN的四元组为。此外,DQN算法采用了记忆回放机制,即由每一次智能体与环境交互得到的四元组均会存入记忆库,每间隔一定的步数,将会从记忆库中选取一定的样本来训练网络。将DQN算法应用到探测干扰波形设计中的原理的框图如图5所示。要设计最优的一体化波形,使得其探测性能以及干扰性能最佳,则需要得到最优的二进制编码序列。结合前文构造的目标函数,设计规则如下。

智能体:己方干扰机。

环境:对方雷达。

初始状态s0:随机产生一组长度为L的二进制序列,再固定序列第一位为0,即先采样，后转发。

动作值at:此刻码元的取值为0或1,采用ε-Greedy算法,以ε的概率随机选取,以1-ε的概率进行利用。

下一时刻状态st+1:采取动作at后产生的新的二进制序列。

奖励函数rt:目标函数R,即目标函数越大,奖励越大。

图5 基于DQN的一体化波形设计框图Fig.5 Integrated waveform design block diagram based on DQN

将DQN算法应用到一体化波形设计中的流程如图6所示。

图6 基于DQN的一体化波形设计流程Fig.6 Integrated waveform design flowchart based on DQN

3 实验仿真与分析

为了验证基于DQN的探测干扰一体化信号波形优化设计方法的有效性,分别从探测性能与干扰性能方面进行分析验证。同时，将从传统的均匀间歇采样转发设计一体化信号以及采用遗传算法、强化学习算法求解的最优编码序列进行对比分析。

3.1 DQN算法仿真分析

算法采用Python语言和TensorFlow深度学习框架进行编写。LFM信号设计参数如表1所示。

表1 LFM参数设置

其中，初始序列可随机选择,DQN网络参数根据经验设置如表2所示。

表2 DQN网络参数设置

在200步后开始学习,每隔5步学习一次,并用估计值网络参数更新真实值网络。此外，分别设置强化学习的奖励值为式(13)、式(15)以及式(17)的倒数,依次得到Fd、Fμ、Fν的最大值。再根据式(19)可知,不同权重ω1、ω2的取值对应的目标函数值也不相同,不妨令ω1=0.5、ω2=0.5,最终得到的一体化信号时域仿真如图7所示。

图7 一体化信号时域图Fig.7 Time domain diagram of integrated signal

一体化信号的各维模糊函数如图8所示。图8分别从各个维度展示了经过深度Q学习后的一体化信号,其中蓝色代表一体化信号(即非均匀间歇采样转发信号),橙色代表均匀间歇采样转发信号,均匀间歇采样信号的采样周期为0.25 μs。由图8可以看出,进过深度Q学习后的干扰信号的各维模糊函数能量主要集中在主瓣,更接近理想的“图钉”形状,而均匀间歇采样转发后的干扰信号模糊函数能量不集中,旁瓣峰值比明显高于非均匀间歇采样一体化信号。

图8 一体化信号各个维度模糊函数图Fig.8 Fuzzy function diagram of each integrated signal dimension

以下将分析一体化信号的干扰性能。不妨设置雷达接收窗的距离范围为12 000～15 000 m。目标位置在13 500 m处,对各信号进行脉压处理,干信比25 dB, 取雷达的距离分辨率为15 m,距离单元的个数为200,采用单元平均恒虚警算法,参考单元长度为12,门限因子为10-6,仿真如图9所示。

图9 CFAR门限图Fig.9 Threshold diagram of CFAR

图9中,蓝色线为非均匀间歇采样信号,橙色线为均匀间歇采样信号脉压后的曲线。由图9可以看出，均匀间歇采样信号脉压后的主假目标离真实目标近,次假目标离主假目标远,真实目标仍有可能被检测到,而非均匀间歇采样一体化信号脉压后假目标个数增多,对真实目标实现了压制干扰的效果。绿色虚线代表经过深度Q学习后的非均匀间歇采样一体化信号的检测门限,红色虚线代表均匀间歇采样干扰信号的检测门限,可知经过深度Q学习后的一体化信号门限明显提高,真实目标被淹没在假目标中,而均匀间歇采样信号的门限提升不明显,真实目标仍有可能被检测到。DQN算法的误差曲线如图10所示,由图10可知最佳训练步数在1 000～1 200之间。

图10 DQN算法的误差曲线Fig.10 Error curve of DQN algorithm

以上说明，无论是从探测性能或是从干扰性能方面分析,进过DQN算法学习后的非均匀间歇采样的一体化干扰信号性能明显优于均匀间歇采样干扰信号。

下面将分析深度Q学习在不同初始状态下的收敛效果。在仿真时，初始状态二进制序列随机产生,再固定第一位为0。不妨固定一组全1序列,再随机产生3组二序列进行对比分析。雷达参数设置如表1所示,各组收敛结果如表3所示。

表3 不同初始状态对应的收敛效果

由表3可知,不同初始状态的算法收敛时间不相同,收敛值的大小也不相同,相比于运算时间,初始状态对最终收敛值的大小影响不大,因此在进行仿真时,可随机产生初始状态。

基于DQN的探测干扰一体化波形优化设计算法的时间估算方法为

T(n)=O(ntnm)

(22)

式中:nt代表每一次循环内部时间步的数量;nm代表主循环的数量。

3.2 与其他算法对比仿真分析

在进行不同算法对比分析时,各算法均在PyCharm软件平台下采用Python语言进行编写。

(1) 遗传算法

遗传算法作为一种寻优算法，也得到了广泛应用,其将用于决策的变量作为运算对象,可以直接对集合、序列等进行操作。遗传算法的参数设置如表4所示。

表4 遗传算法的参数设置

首先产生40组二进制编码序列,计算每一组序列对应的一体化信号的适应度函数,适应度函数为式(19)中的目标函数,即目标函数越大,适应度函数越大。其余雷达参数设置与表1相同。遗传算法不同种群的R值仿真如图11所示。

图11 初始种群和最终种群的R值Fig.11 Value of R of the initial population and the final population

图11中,蓝色圆圈为初始40个种群对应的目标函数R值,橙线为最终种群的R值,由图11可知,最终种群的R值临近最大值。

(2) 强化学习算法

与深度Q学习不同的是,强化学习会根据每一动作对应的状态值生成一个Q表,用于Q值的更新。强化学习的四元组与DQN相同,其参数设置如表5所示,雷达参数设置与表1相同。

表5 强化学习参数设置

当雷达信号长度为20 μs时,遗传算法、强化学习算法以及DQN算法的目标函数收敛曲线与迭代次数的关系如图12所示。

图12 不同算法收敛效果Fig.12 Convergence effects of different algorithms

由图12可以看出,强化学习算法与DQN算法在收敛时对应的迭代次数约为112次,目标函数值约为0.82;遗传算法在收敛时对应的迭代次数约为125次,目标函数值约为0.725。由此可以得出,当状态量较少时,强化学习算法的收敛效果与DQN的收敛效果差距不明显。相对于遗传算法,DQN算法收敛更快,且最优解的质量Δi提高了13.10%,最优解的质量提高公式为:

(23)

式中:ValGA为遗传算法收敛时的目标函数值;ValDQN为DQN算法收敛时的目标函数值。因此,本文提出的DQN算法能够提高最优解的质量。

(3) 增大状态量时不同算法收敛效果分析

根据式(20),固定最小采样时间为0.125 μs,改变雷达信号长度,雷达信号越长,状态量越大。因此,分别取雷达信号长度为20 μs、40 μs、60 μs、80 μs、100 μs,不同算法的目标函数收敛效果如图13所示。

图13 不同算法收敛效果Fig.13 Convergence effects of different algorithms

3种算法在雷达信号长度不同时,最优解方差如表6所示。

表6 不同算法最优解方差对比

由表6可知,当雷达信号长度增加时,3种算法中,DQN算法的最优解最稳定,强化学习算法其次,遗传算法最末。

以上说明,当状态量小时,DQN算法与强化学习算法的收敛效果相同,而相比于遗传算法,DQN算法最优解的质量提高了13.10%;当状态量增大时,相对于遗传算法和强化学习算法,DQN算法的收敛值更大,最优解更稳定。

4 结论

本文考虑将探测信号隐藏在干扰信号中,提出了一种基于非均匀间歇采样重复转发的探测干扰一体化信号波形。该一体化信号将探测信号隐藏在干扰信号中,误导对方将探测信号判断为干扰信号,从而降低截获概率。首先，建立了一体化信号模型,根据距离、速度分辨率以及一体化信号脉压后幅度均值与标准差之比建立了目标函数；然后，通过DQN算法求解目标函数,得到最优的一体化信号波形。同时，将遗传算法以及强化学习算法作为对比实验。仿真结果表明，当编码状态量小时,DQN算法与强化学习算法收敛效果一致。与遗传算法相比,DQN算法最优解的质量提高了13.10%;当编码状态量增大时,相对于遗传算法和强化学习算法,DQN算法的收敛值更优,最优解更稳定。