基于时机博弈的网络安全防御决策方法

2023-01-09 14:28孙鹏宇张恒巍谭晶磊李晨蔚马军强王晋东

计算机工程 2022年11期

孙鹏宇，张恒巍，谭晶磊，李晨蔚，马军强，王晋东

（1.中国人民解放军战略支援部队信息工程大学三院，郑州 450001；2.中国人民解放军91451 部队，河北邯郸 056000）

0 概述

近年来，随着信息技术的飞速发展，网络攻击事件频繁发生［1］，大到国际战略、国家安全，小到公司利益、个人隐私，普遍受到来自黑客攻击、蠕虫病毒、木马程序等网络安全威胁。此外，随着计算机技术的快速发展，网络安全威胁和攻击的手段越来越灵活［2-3］，现有的漏洞检测、防火墙、病毒防护等静态防御技术已难以应对隐蔽性强、变化快的网络攻击。因此，提高网络安全威胁防控能力，增强网络防御效能已成为亟待解决的问题。

网络安全的本质在于对抗，对抗的本质在于攻防两端能力的较量［4］。在网络攻防对抗中，双方行动彼此制衡、相互影响，对抗结果由双方策略共同决定，针对特定的攻击手段，不同的防御策略会产生不同的安全收益［5］。由于网络攻防对抗中的基本特征与博弈理论相似，攻防双方的对抗过程可以抽象为双人博弈的过程，因此应用博弈模型分析网络攻防行为成为网络安全领域的热点研究方向［6-7］，已有诸多学者取得了较好的研究成果。

基于博弈模型分析网络攻防行为主要取决于决策行动的具体内容（即行为策略）及决策行动的时间（即时间策略）。基于行为策略的攻防博弈模型成果较多，行为策略的研究经历了由静态到动态、由完全信息到不完全信息、由完全理性到不完全理性的发展过程。近年来，研究人员陆续提出适用于不同网络场景的防御决策模型，主要包括攻防信号博弈模型［8-10］、攻防微分博弈模型［11-12］、攻防随机博弈模型［13-15］以及攻防演化博弈模型［16-17］，但在现有成果中，对时间策略展开深入研究的网络攻防博弈模型则相对较少，而时间策略的选取对网络防御决策意义重大，因为即使选取的行为策略正确，但如果行动时机错误，依然会影响防御效能，给网络系统造成巨大的损失。

基于时间博弈［18-19］的网络防御决策方法适用于描述对公共资源控制权交替变换的情况，优点是模型的拓展性较强，可以和现有的行为策略模型相结合，更好地贴合网络攻防实际场景，有效提高网络攻防策略的准确性和时效性，协助网络管理者作出最优决策。文献［18］提出FlipIt 博弈，这是一种经典的时间博弈方法，能够有效应对具有隐蔽性、针对性的攻击行为，以时间维度选取策略进行建模，动态刻画攻防双方对安全目标控制权的争夺过程，为研究安全策略最优时机问题提供了理论工具［20］。此后，相关技术成果及扩展研究相继出现［21-23］。

本文以FlipIt博弈为基础，参考SIR 传染病模型［24］对网络安全状态进行演化分析，将网络资源节点抽象为SIR 模型中的个体，并把网络节点安全状态扩展为正常状态N（Normal）、感染状态I（Infected）、修复状态R（Restored）、受损状态M（Malfunctioned）NIRM4 种状态，在此基础上建立微分方程，用于描述网络安全状态演化过程。此外，借鉴FlipIt 博弈方法，构建攻防时机博弈模型研究网络对抗过程，并综合分析时机选取策略对攻防收益变化的影响，提出攻防决策收益函数，并以纳什均衡策略为依据设计最优防御策略选取算法。

1 网络攻防时机博弈模型分析

为应对网络攻击行为快速、隐蔽的特点，在攻防对抗中赢得主动，本文构建一种基于FlipIt 模型的防御时机决策模型，分析攻防双方决策与行动时机的关系。FlipIt 博弈的特点在于行动的隐蔽性，即双方可以随时发起行动控制资源且不被对方发现，并且只有在对方行动之后，才能知道系统资源的当前状态（攻击或防御），攻防双方决策则根据博弈过程中反馈的信息确定。因此，本文从不完全信息角度构建基于时机博弈的攻防策略选取模型。

1.1 基于SIR 模型的攻防过程演化分析

SIR 模型是传播动力学中描述信息传递或行为传播的经典模型，主要应用于分析传染病在人群中的流行规律及其内在的动力学过程。模型将人群分为易感者、感染者和恢复者3 类，并设置总人口恒定，其感染机制可以描述如下：流行病毒是传染的源头，通过一定的速率感染易感者，此时易感者变成感染者，成为新的传染源头；感染者可以通过治疗变成恢复者，同时获得免疫能力，使自身既不会感染病毒也不会传播病毒。

通过对SIR 模型进行定量分析和数据模拟，能够预测传染病传播趋势并制定有效的防御措施。SIR 模型具体表述如下：在初始阶段所有的节点均为易感节点，当接收到外界传递的信息后，相应的节点受到传染变成感染节点，紧接着感染节点继续传递信息给其他易感节点，同时有部分感染节点转为免疫节点，信息传递行为在免疫节点处终止。

在网络攻防对抗中，攻击方利用网络系统内部潜在的漏洞，对部分节点发起攻击，并渗透到网络系统中的其他节点，企图破坏整个网络系统。攻防行为的交互对抗，导致网络系统的安全状态发生迁移，相应状态网络节点的数量也随之动态变化，整个攻防过程与传染病的传播过程类似。本文借鉴SIR 传染病模型模拟网络攻防过程，将网络资源节点抽象为SIR 模型中的个体并扩展为NIRM 4 种状态，动态刻画网络节点的安全状态演化过程。本文用xN(t)、xI(t)、xR(t)、xM(t)分别表示在t时刻下正常节点N、感染节点I、免疫节点R和受损节点M的数量。

假设网络中节点总数量Q保持不变，则∀t∈[t0，T]，有xN(t)+xI(t)+xR(t)+xM(t)=Q。4 种网络节点的状态转移路径具体如下所示：

1）N→I：网络节点处于正常工作状态，由于遭受到网络病毒入侵，被病毒成功入侵的网络节点将转变为感染节点I。

2）N→R：网络节点处于正常工作状态，当网络病毒开始入侵时，就立即被防御系统成功捕捉病毒信息并对其进行查杀，此时网络节点转变为对网络病毒免疫的节点R。

3）I→R：网络节点成功被病毒入侵并感染，防御系统采取定期系统检测或病毒筛查手段，有效识别并清除已感染的节点，成功修复安全漏洞，此时网络节点转变为对网络病毒免疫的节点R。

4）I→M：网络节点成功被病毒入侵并感染，防御系统利用病毒检测、系统升级等方法进行修复后，仍未能有效清除已感染的节点，导致节点受损严重，终止服务，并且无法继续感染其他节点，此时网络节点转变为终止服务的受损节点M。

4 种网络节点的状态转换示意图如图1 所示。

图1 网络节点状态转换示意图Fig.1 Schematic diagram of network node state transition

根据上述网络节点状态的转移情况，本文重点围绕正常节点N和感染节点I进行分析，网络安全状态变化的微分方程可以表示为：

假设网络病毒的传播只能感染渗透相邻的网络节点，不能感染其他网络节点。网络节点以密度σ进行分布，va为感染速率，大小与网络中感染节点所占比例有关，vd为修复速率，大小与网络中正常节点和免疫节点所占的比例有关。

本节在改进SIR 模型的基础上，构造描述网络安全状态变化的微分方程，实现对安全状态的实时度量，为后面时机博弈模型的构建与攻防收益的量化计算提供分析基础和度量方法的支撑。

1.2 基于时机博弈的最优防御策略模型

本文在1.1 节的基础上构建攻防时机博弈模型，该模型为非自适应连续博弈模型，其中攻防双方均采用具有随机阶段的周期性策略，攻防双方的行动由博弈期间接收到的反馈确定。

定义1攻防时机博弈模型（Attack-Defense Time Game，ADTG）可以表示为一个6 元组AADTG=(N，T，x(t)，B，P，U)，并满足如下条件：

1）N=(NA，ND)是攻防博弈的参与人集合，NA代表攻击方，ND代表防御方。

2）T=TA+TD∈[0，+∞)是攻防博弈的总时间，表示攻击方与防御方控制系统资源的总时间，其中TA为攻击方控制系统资源的总时间，TD为防御方控制系统资源的总时间。

3）x(t)={(xN(t)，xI(t)，xR(t)，xM(t))}是网络系统的状态变量。xN(t)、xI(t)、xR(t)、xM(t)分别表示t时刻网络系统中4 种状态的节点数量，Q代表节点总数量，Q=xN(t)+xI(t)+xR(t)+xM(t)。

4）B=(AS，DS)是攻防双方的行动空间，其中，AS=(β1，β2，…，βj)，DS=(δ1，δ2，…，δk)分别表示攻击方和防御方的行动集合，双方的行动次数均不小于1，即j，k≥1。在任意t时刻，攻防双方都有可能采取行动控制资源。

5）P=(PA，PD)是攻防双方的周期策略空间，其中，PA表示攻击方时间策略，代表连续2 次攻击行动的时间间隔，PA={PA(t)|PA(t)=((t))，1 ≤j≤m}为攻击方的时间策略集合。同理，PD表示防御方时间策略，PD={PD(t)|PD(t)=((t))，1 ≤k≤n}表示防御方的时间策略集合。

6）U=(UA，UD)是攻防双方的收益函数集合，其中，UA和UD分别表示攻击方和防御方的收益函数。

1.3 收益量化与计算方法

收益量化是求解博弈均衡并进行定量计算的基础，其作为攻防时机博弈模型ADTG 的输入，直接影响攻防时机的选取结果，进而影响最优攻防策略的输出。这里将收益量化分为两部分，包括网络攻防对抗导致网络节点状态变化产生的收益及攻防双方实施行为策略消耗的成本。为有效计算攻防收益，本文将攻防双方控制目标资源的总时长作为收益的唯一指标，相关参数的定义、符号名称及具体含义如表1 所示。

表1 相关符号的定义Table 1 Definition of relevant symbols

为简化计算，将攻防行为的回报率和收益率进行归一化处理，即r=rAR+rDR=1，ω=ωAU+ωDU，其中，攻击方收益率防御方收益率

根据博弈论［25］可知，在给定的攻防时机博弈模型AADTG=(N，T，x(t)，B，P，U)中，由于攻防双方的策略相互依存，存在最优的攻防策略组合使攻防双方达到博弈平衡，满足：

根据定义1 的周期性博弈可知，攻防双方的行动是隐蔽的，无法准确掌握对手行动时间的完整信息，双方采取的博弈策略为非适应性策略，策略的时机选取是随机的。因此，本文借鉴FlipIt 博弈方法，将相位随机化引入到周期性策略中，即攻防双方均采用具有随机特征的周期性策略，双方的行动时间在区间[0，P]中随机选择，双方的周期性策略仅根据行动频率的大小确定。在此将收益计算分为以下2 种情况：

根据文献［18］理论推导的结果可知，在给定的攻防时机博弈模型AADTG=(N，T，x(t)，B，P，U)中，双方都采用随机阶段的周期性策略，达到如下纳什均衡：

2 最优防御策略选取算法

依据博弈基本理论，纳什均衡是博弈过程能够达到的最优稳定解［26］。因此，根据式（7）求解得到的纳什均衡策略可认定为攻防双方的最优策略，任何一方背离均衡策略，都会导致其博弈收益降低。依据纳什均衡策略，本文设计的攻防时机博弈的最优防御策略选取算法如下。

算法1攻防时机博弈的最优防御策略选取算法

3 实验结果与分析

3.1 实验环境

通过仿真实验验证本文ADTG 模型的可行性和有效性。本节搭建了如图2 所示的实验网络拓扑环境。

图2 仿真系统拓扑图Fig.2 Topology diagram of simulation system

本文实验环境分为内部网络和外部网络2 个部分，攻击主机位于外部网络，能够通过外网入侵内网中的任意节点，目标信息系统为交换网络和用户主机。内部网络包括4 台服务器，分别为FTP 服务器、Web 服务器、File 服务器和数据库服务器。根据防火墙的规则，攻击方只能访问DMZ 区的服务器，DMZ区的服务器可以访问数据库服务器，但是无法访问局域网内用户主机。本文假设攻击方试图窃取数据库中储存的内部涉密敏感信息。根据国家信息安全漏洞库数据信息获得服务器和主机存在的漏洞信息，如表2 所示。

表2 服务器漏洞信息Table 2 Vulnerability information of server

参考林肯实验室攻防行为数据库［27］，设计本文攻击和防御行为信息，如表3 和表4 所示。

表3 攻击行为信息Table 3 Attack behavior information

表4 防御行为信息Table 4 Defense behavior information

3.2 防御收益的定量分析

本文通过设定不同参数，仿真网络节点不同的初始状态，并分析节点状态的演化过程，进而对防御收益进行定量分析。由于博弈模型为不完全信息博弈，攻防双方在行动之前都没有任何关于对手行为的信息，攻防收益仅与双方选取的策略有关。根据式（3）～式（6），将双方收益转化为行动频率，考虑到攻防双方的行动频率由行动成本决定，本文从行动周期和行动成本入手，进行仿真实验。设常量参数PA、PD、CA、CD，其中：PA、PD分别为攻防双方的周期性策略，用于计算攻防博弈中的攻防回报；CA、CD分别为攻防策略的成本，用于计算执行策略付出的代价，详细分析见1.3 节。

本文依托Matlab 软件为实验平台，验证所提出的最优防御策略选取算法。下面重点从求解最优防御收益入手，分析防御收益UD与攻防周期PA、PD以及防御成本CD之间的关系。为简化计算，将攻击成本CA设定为1，采用有限离散博弈时间，攻防双方的周期策略以0.5 s 为最小行动时间单位进行实验。

图3 所示为面对不同攻击周期时，防御收益UD与防御周期PD的关系。

图3 防御收益与攻防周期的关系Fig.3 Relationship between defense benefit and attack defense cycle

假设防御成本CD=1，由图3 可知，当PA=PD时，防御收益UD随着攻防周期区间的增大而增加；当PA＜PD时，防御收益UD随着攻击周期区间PA的增大呈现上升趋势，随着防御周期区间PD的增大，防御收益UD继续保持上升；当PA＞PD时，防御收益UD随着攻击周期区间PA的增大同样呈现上升趋势，随着防御周期区间PD的增大，防御收益UD变化情况为先上升后下降。观察实验数据可得，当攻击周期PA=3时，防御方的最佳防御周期=2.5，防御收益=0.183；当攻击周期PA=5 时，防御方的最佳防御周期=3，此时防御收益=0.367。综合实验结果不难发现，此时的防御收益既是局部最优解，又是全局最优解，说明面对不同攻击周期PA时，存在与之对应的最优防御周期使得防御收益最大。以上实验验证了模型的合理性。

图4 所示是在防御周期PD一定的情况下，防御收益UD与攻击周期PA和防御成本CD的关系。

图4 防御收益与攻击周期和防御成本的关系Fig.4 Relationship between defense benefit，attack cycle and defense cost

假设防御周期PD=5，由图4 可知，防御收益UD随着行动成本CD的增加而减小，说明行动成本是制约防御收益UD的1 个关键因素。随着攻击周期区间PA的增大，防御收益UD总体呈现上升趋势，当PA≤5 时，防御收益UD与攻击周期PA成正比；当PA＞5 时，防御收益UD虽持续保持增长态势，但增长速度逐渐变缓，这是由于当攻防周期PA=PD时，防御收益UD会发生跳变，具体分析见式（4）和式（6），这侧面说明动态调整防御策略PD对抵御不同类型的攻击周期PA起到了关键作用。

图5 所示是攻击周期PA在一定条件下，防御收益UD与防御周期PD和防御成本CD的关系。

图5 防御收益与防御周期和防御成本的关系Fig.5 Relationship between defense benefit，defense cycle and defense cost

假设攻击周期PA=5，由图5 可知，防御收益UD与防御成本CD呈反比关系，随着防御周期区间PD的增大，防御收益UD呈现先上升后下降趋势，这再次验证了当攻击周期PA一定，且付出的防御成本CD相同时，存在最优防御策略使防御收益最大化。

由上述仿真结果数据的分析可以发现，防御周期和攻防成本是决定防御收益的主要因素。

3.3 对比实验与分析

现有的网络安全防御决策研究主要针对攻防行为策略进行分析建模，忽视了行动时机对系统安全的重要影响，且系统设定的防御时机策略一般为固定的周期策略，如软件的定期杀毒、密码重置、密钥定期更新等，但静态被动的时间防御策略不能及时有效地抵御网络攻击行为。为此，将本文方法与已有的固定先验周期的防御方法进行对比，分析当攻击方的行动周期PA固定时，不同的防御策略PD对防御收益UD的影响。由前述实验可知，成本是制约防御收益UD的主要因素，为方便验证实验结论，排除其他无关干扰因素，本文假设每次攻防的行动成本均为1 s（即行动成本为控制网络目标节点1 s 的所有权），实验收益设定为双方控制资源的总时间（s）减去行动的总次数（次数即秒数）。本文以攻击方固定周期策略PA=3 和PA=5 为例进行对比实验，探究当攻击周期PA固定时，改变不同的防御周期策略PD对防御收益UD的影响，实验结果如图6和图7 所示。

图6 攻击周期与防御收益随时间的变化关系（PA=3）Fig.6 Relationship between attack cycle and defense benefit over time（PA=3）

图7 攻击周期与防御收益随时间的变化关系（PA=5）Fig.7 Relationship between attack cycle and defense benefit over time（PA=5）

图6 和图7 分别表示当攻击周期固定为PA=3 和PA=5 时，通过调整不同的防御策略PD，防御收益UD随时间t的变化情况。由图可知，当攻防双方均采取周期策略时，产生的收益情况也呈现周期性变化。设定攻击方采取固定周期策略PA=3，当防御方采取防御策略PD=1 时，防御收益UD为负；当防御策略PD=2，2.5，3，4 时，防御收益UD均为正，特别的，当防御策略PD=2.5 时，防御收益UD达到最大。设定攻击方采取固定周期策略PA=5，当防御方采取防御策略PD=1 时，防御收益UD仍为负；当防御策略PD=2.5，3，4.5，6 时，防御收益UD持续增加，且当防御策略PD=3 时，防御收益UD最大。

由此说明，当攻击策略PA一定时，选取不同的防御策略PD会产生不同的防御收益UD。如果防御策略PD很小（即行动周期短），可能会因行动次数的增加导致防御收益UD为负；随着防御策略PD逐渐增大，防御收益UD先增加后减小，而且随着时间t的增加，不同防御策略PD产生的防御收益UD之间的差距也愈加明显，即存在最优的防御策略和最佳防御收益。对比实验结果与仿真实验所得结果一致。以图6 为例，当攻击策略一定时，采用固定防御策略的平均收益为0.21，动态调整防御策略的平均收益为0.26，防御收益提高了23.81%。实验数据表明相较于先验的固定周期防御策略，实时动态调整防御策略才是更有效的安全防御手段，验证了本文模型和算法有效且可行。

4 结束语

本文从网络攻防时机角度模拟攻防双方控制目标资源的状态，并基于FlipIt 时间博弈理论，结合SIR模型传播规律，对实时变化的网络系统状态进行分析研究，最终构建攻防时机博弈模型。提出博弈双方收益计算方法、均衡求解方法和最优防御策略选取算法，从理论分析和数值仿真实验两方面验证本文模型和算法的有效性和科学性。在此基础上，与现有固定周期的防御方法进行对比，进一步说明动态调整时间策略的必要性。实验结果表明，当攻击策略一定时，使用本文方法动态选择最优防御策略的平均收益为0.26，相比传统固定防御方法，平均防御收益提高了23.81%。下一步将通过应用复杂网络理论，分析传播动力学模型在真实网络环境中的传播规律，从而设计应用于现实环境中大规模复杂网络的实时防御决策方法。