基于迁移学习的加密恶意流量检测方法

2022-09-06 11:08张稣荣卜佑军路祥雨

计算机工程与应用 2022年17期

张稣荣，陈博，卜佑军，路祥雨，孙嘉，2

1.中国人民解放军战略支援部队信息工程大学信息技术研究所，郑州 450000

2.郑州大学软件学院，郑州 450000

如今，随着物联网、大数据、云计算等新型网络技术的出现和发展，互联网的规模不断扩大，因此带来了网络流量的爆发式增长[1]。与此同时，随着大众网络安全意识的不断提高，非加密的数据传输方式也逐渐被加密传输所取代，加密网络流量在互联网中所占比例稳步提升。而据Barac 预测，到2021 年底，89%的流量将被加密[2]，加密流量中将有超过50%的部分是由恶意软件产生的。这就意味着网络流量加密技术虽然能够用于用户隐私与安全保护，但同时也为恶意网络服务提供了可乘之机。越来越多的恶意网络服务通过加密和隧道技术绕过防火墙和入侵检测系统，加密技术正在成为恶意服务的温床。因此，加密流量检测技术愈加受到学术界和工业界的广泛关注。

加密流量检测与非加密流量检测最大的不同之处在于其实际内容不可见，而基于解密技术的检测方法耗时长、成本高，同时也涉嫌对用户隐私的侵犯。如何在不解密的条件下对加密流量进行有效检测是当前网络安全特别是流量安全领域的热点和难点之一。

人工智能技术的发展为该领域的研究提供了可行的思路[3]。机器学习是人工智能的一种实现方法，它从样本数据中学习，得到知识和规律，然后用于实际推断和决策。然而传统的机器学习方法必须依靠专家经验手工提取流量特征，耗时耗力，在如今流量特别是加密流量爆发式增长的情况下，难以实现及时、准确地加密恶意流量检测。而深度学习能够从原始流量数据中自动提取特征，无需繁杂的人工特征提取过程，经过一定周期的训练，在自动化检出率、准确率、漏报率等方面，都可以获得较好的效果。但性能较好的深度学习模型的训练需要依靠大量正确标记的流量数据，这正是目前加密恶意流量检测领域所面临的一大困境。在现实网络环境中，流量复杂多变，难以实时准确地对其进行标记，从而难以获取大规模高质量的训练数据，给现有方法带来了巨大的挑战。为了达到及时检测的效果，检测模型必须能够实现小样本条件下的快速训练和准确检测。

针对加密恶意流量检测所面临的可用样本数量较少问题，本文提出一种基于迁移学习的加密恶意流量检测（transfer learning based encrypted malicious traffic detection，TL-EMTD）方法。首先通过预处理阶段，将以二进制字符串的形式存储的原始流量数据转换为二维图像格式。在此过程中，采用二进制字符串到十六进制字符串，再到十进制整数矩阵，最后到png格式的二维图像的转换流程，将每个pcap文件处理为一张二维图像。其次，为了解决小样本问题带来的模型检测精度降低问题，借鉴迁移学习理论，将用于图片分类的Efficientnet-B0模型[4]迁移到加密流量数据集上，替换其全连接层后进行训练。在此过程中，由于模型的卷积层不参与训练，只有替换的全连接层需要进行梯度更新，参数数量大大降低，因此在样本较少的情况下也能训练出精度较高的检测模型。最后，将训练好的模型用于检测，可获得良好的检测效果。本文的主要贡献和创新工作总结如下：

（1）提出了一种基于迁移学习的加密恶意流量检测方法，即TL-EMTD，在公共数据集上对该方法进行了评估，取得了较好的检测结果。

（2）首次将用于图片分类的Efficientnet-B0 模型迁移到加密流量数据集上，结合流量预处理，为加密流量检测提供了新的思路。

（3）解决了小样本条件下加密恶意流量检测精度不高的问题，能够在训练样本较少的情况下，得到性能较好的加密恶意流量检测器。

1 相关工作

1.1 加密恶意流量检测

一般来说，加密恶意流量检测的本质是加密流量检测及分类。在研究初期，研究者主要利用基于规则的加密流量检测方法[5-8]，其主要思想是利用加密流量的字段组合、排序或者固定模式等作为指纹进行模式匹配。该方法虽然具有轻量级这一优点，但是需要人工分析海量流量，选择具有区分性的字段特征或组合，且仅可以对已提取的规则进行匹配识别，容易被人工拼接或恶意伪造字段的流量绕过，导致高误报率。

随着网络流量加密化进程不断推进，基于规则的流量检测方法变得更加困难。于是，研究者引入机器学习算法，大大提高了加密流量检测性能[9-15]。其主要思想是构建加密流量的统计属性联合作为指纹进行分类识别。该方法虽然提高了加密流量检测的准确率，但是仍然需要依靠专家经验来决定特征的选择和提取，费时费力。

近年来，由于深度学习能够通过训练进行自动化特征提取，基于深度学习的加密流量检测也得到了迅速发展。王伟等[16]首次提出了一种基于一维卷积神经网络（1 dimensional convolutional neural networks，1D-CNN）的端到端加密流量分类方法。该方法将特征提取、特征选择和分类器集成到一个统一的端到端框架中，自动学习原始输入与期望输出之间的非线性关系。此外，在文献[17]中，该作者还提出了一种基于二维卷积神经网络（2 dimensional convolutional neural networks，2D-CNN）的加密恶意流量检测方法，通过将会话或网络流的前784字节预处理为二维灰度图像作为模型输入，来提取其中包含的空间特征，实现加密恶意流量的检测。吴迪等[18]提出了一种基于深度学习的检测模型BotCatcher，该模型使用CNN和双向LSTM这两种深层神经网络架构，从时间和空间这两个维度对原始流量进行自动化特征提取。韦佶宏等[19]提出了一种基于混合神经网络的模型，将专家经验与神经网络自动化特征提取的优势相结合，利用1D-CNN 与2D-CNN 优秀的特征表达能力，降低对专家经验的依赖，有效提升了针对恶意TLS流量的识别与分类效果。黎佳玥等[20]提出了一种结合深度学习算法中长短期记忆网络和卷积神经网络的预测模型，能够训练得到网络流量数据的时空特征，实现预测下一时段网络流量特征变化和网络安全事件分类识别。目前，虽然深度学习技术在加密流量检测领域已十分广泛且深入，但模型良好性能的实现仍然需要依靠大量正确标记的数据来进行较长时间的训练，如何实现较高的检测和细粒度分类精度，甚至在小样本条件下也能达到具有应用价值的检测和分类水平，是亟待解决的问题。

1.2 迁移学习

对于人类来说，迁移学习就是举一反三的能力；对于机器学习算法来说，迁移学习就是运用已有的知识来学习新的知识。通常，将原有的知识称为源域，将新的知识称为目标域，两者不同但一定存在关联。迁移学习利用数据、任务或模型之间的相似性，将源域中学习到的模型应用到目标域。与传统机器学习技术致力于同时从每个任务中获取信息的特点不同，迁移学习致力于当目标任务缺少高质量的训练数据时，从之前任务向目标任务迁移知识，解决目标域缺少标签的问题[21]。

在加密流量检测领域，文献[22]采用迁移学习的思想，提出了一种半监督的检测方法。该方法首先在一个大的未标记数据集上预训练一个模型，然后将学习到的权值转移到一个新的模型中，该模型在一个小的标记数据集上进行再训练。作者表示，尽管每个类只使用20个样本，但该方法几乎可以达到与完全监督方法在大的标记数据集上相同的精度。文献[23]重点研究了离散顺序协议消息（discrete sequential protocol messages，DSM）中加密数据的分类问题，提出了一种基于LSTM和迁移学习（transfer learning，TL）的LSTM-TL 方法。该方法将在源域上预训练的LSTM 模型转移到目标域，可以在不需要目标区域内任何标记数据的情况下对未标记DSM 数据进行分类。作者在Text、ACARS、HTTP&SSH和AIS数据集上进行了实验，在前三个数据集上，该方法的F1 分数和准确性均大于0.96，而在AIS数据集上分别仅为50%和67%，原因是用于预训练的源域与该目标域差异过大。这也证明要想实现高性能的迁移学习，选择合适的源域是至关重要的。

可以发现，迁移学习能够解决目前主流的加密流量检测方法过分依赖大规模数据进行训练的问题，在合适的源域条件下，能够以很少的样本得到性能良好的加密流量检测器。

2 架构设计

图1给出了本文提出的加密恶意流量检测模型TLEMTD 的基本结构，包括数据预处理阶段、模型训练阶段以及测试阶段。整体检测流程可概述为：首先对原始流量数据进行预处理，转换为模型所需的输入格式；预处理后的数据输入到检测模型中，模型对输入数据进行自动化特征提取；提取的特征向量经过最后一层Softmax层得到最终的检测结果。

图1 TL-EMTD方法整体架构示意图Fig.1 Overall architecture of TL-EMTD

2.1 数据预处理

在数据预处理阶段，被存储为Pcap 格式的原始流量数据经流量切分、数据清洗、长度统一、格式转换及数据集划分等步骤，转换为可作为模型输入的png 格式，如图2所示。

图2 数据预处理步骤示意图Fig.2 Data preprocessing step

（1）流量切分：根据五元组将原始流量划分为会话。

原始流量数据存储在单独的Pcap 文件中，每个Pcap文件是一个包含不同大小的数据包的集合，每个文件代表一种应用程序。在这一步骤中，原始流量文件首先按会话分段，使用所有协议层次数据，这是在文献[16]中王伟等所评价的基于深度学习的流量分类中最理想的流量表示形式。会话是由具有相同五元组（源IP，源端口，目的IP，目的端口，传输层协议）的双向流组成的一组数据包，其源IP和目的IP可以互换。

（2）数据清洗：删除与检测无关的信息。

对于每条会话，依次迭代其中的每个数据包，删除数据链路层中一些与以太网相关的数据，如MAC地址；同时，删除重复的数据包和空数据包。

（3）长度统一：固定会话长度以适应模型输入的要求。

为了使传输层段均匀，在UDP 段的标头（8 Byte）末尾填充0，以使其与TCP 标头的长度（20 Byte）相等；此外，将每条会话的长度固定为1 024 Byte，如果会话长度大于1 024 Byte 则截断，小于1 024 Byte 则在会话末尾补零。

（4）格式转换：将会话文件转换为灰度图像。

将长度统一后的会话文件根据模型需要的输入分辨率大小进行迭代复制扩充，即以分辨率要求是64×64为例，分别将每条会话（1024 Byte）迭代复制扩充至长度为4 096（64×64）。之后将扩充后的会话文件转换为的二维灰度图像，输出格式为png格式。会话文件中的一个字节对应灰度图像中的一个像素值，例如0x00 对应黑色，0xff对应白色。

（5）数据集划分：将数据集划分为训练集和测试集。

将所有类别的灰度图像按9∶1 的比例分割成训练集和测试集。

2.2 模型架构

本文提出一种基于迁移学习的加密恶意流量检测方法，即TL-EMTD 方法，首次将谷歌团队在ImageNet数据集上预训练好的Efficientnet-B0 模型及其参数，迁移到加密流量数据集上进行再训练。

Efficientnet 是谷歌大脑的工程师谭明星和首席科学家Le 等于2019 年在文献[4]中提出的。在这篇论文中，作者构造了一个基线网络结构Efficientnet-B0，同时提出了一种可以同时兼顾速度与精度的模型扩展方法，并应用在Efficientnet-B0 上，通过扩大不同倍数分别生成了Efficientnet-B1～Efficientnet-B7。相对于Resnet、Xception、ResNet等经典网络模型，Efficientnet系列模型在ImageNet 数据集上的分类性能实现了碾压；而对比此前效果最好的Gpipe 模型，虽然Efficientnet 在准确率上只提高了0.1%，但模型参数却减少了8.4倍。

考虑到数据集规模较小，本文只使用参数最少的考虑到Efficientnet-B0模型来进行迁移。之所以选择Efficientnet模型，是因为其本身是用作图片分类的，而流量数据能够被处理为二维图像格式，因此可以认为两者之间存在一定的联系，具备迁移的条件。

在迁移过程中，将Efficientnet-B0 模型最后的全连接层去除，保留之前所有的层，并在其之后添加全局平均池化层（global average pooling，GAP）[24]、密集层以及Softmax 层。以基于Efficientnet-B0 模型的6 分类实验为例，整体网络架构如图3所示。

图3 TL-EMTD方法网络架构图Fig.3 Network architecture of TL-EMT

2.2.1 Efficientnet-B0层

在构造Efficientnet-B0时，作者使用MobileNet V2[25-26]中的移动翻转瓶颈卷积（mobile inverted bottleneck convolution，MBConv）模块作为模型的主要构造块，在此基础上用多目标神经架构搜索[26]，确定了最终的基线网络Efficientnet-B0，其结构如表1所示。其中，MBConv模块是通过在深度可分离卷积（depthwise separable convolution，DSC）的基础上，使用SENet[27]中的压缩与激发（squeeze and excitation，SE）方法进行优化而形成的。

表1 Efficientnet-B0网络结构Table 1 Network structure of Efficientnet-B0

在TL-EMTD方法中，Efficientnet-B0模型可以看作是一个高效的特征提取器。被预处理为二维图像的加密流量数据输入到其中，经过一系列的卷积、池化、激活等操作后，输出更加精炼且表达能力更强的特征向量。

2.2.2 全局平均池化层

在全局平均池化技术被提出之前，全连接层一直是卷积神经网络的标配，用来改变卷积层输出特征图的维度，将学到的“分布式特征表示”映射到样本标记空间，即实现特征图的向量化，从而实现分类。但是全连接层参数过多，容易造成过拟合。为了避免此风险，同时实现特征图到特征向量的转换，全局平均池化技术应运而生，两者的结构如图4所示。

图4 全连接层和全局平均池化层结构示意图Fig.4 Structure comparison diagram of full connection layer and global average pooling layer

2.2.3 密集层

卷积层输出的特征图在经过全局平均池化层之后，可以得到长度为1 280的一维特征向量。为了进一步整合特征，增强模型的非线性表达能力，本文增加一个密集全连接层，采用线性整流函数（rectified linear unit，ReLU）作为激活函数，可以得到长度为256的高阶特征向量。其中，ReLU函数如式（1）所示：

ReLU函数保留全部正值，并将所有负值置为0，通过这种方式赋予神经元稀疏激活性，从而使其能够更好地挖掘输入信息中与目标相关的特征，拟合训练数据。与线性函数相比，ReLU函数具有更强的表达能力；而与其他非线性函数相比，其非负区间的梯度为常数，因此能够避免神经网络训练过程中经常出现的梯度消失问题。

2.2.4 Softmax层

网络结构的最后一层，即Softmax层，本质上依然是一个全连接层，但是激活函数采用的是Softmax函数。该层将密集层输出的一维特征向量，继续映射为（-∞，+∞）范围内的实数，又称为分数。Softmax函数将这些实数进一步转化为（0，1）范围内的实数，即各类的概率，同时保证它们的和为1。Softmax函数的计算公式如式（2）所示：

其中，pi是输入样本属于类别i的概率，zi是分数，i为加密流量类别索引，k为加密流量类别总数。

3 实验

3.1 实验环境

本文使用的实验环境与配置如表2所示。

表2 实验环境与配置Table 2 Experimental environment and configuration

3.2 数据集

翟明芳等在文献[28]中对目前常见的流量数据集做出了总结，从中可以看出，如今很难找到一个能够满足同时包含加密恶意流量与正常流量且以Pcap包存储原始流量等条件的公共数据集。因此，本文决定综合正常加密流量数据集ISCX VPN-nonVPN[29]和加密恶意流量数据集CTU-13[30]，构造一个满足上述条件的原始流量数据集来进行实验。

ISCX VPN-nonVPN数据集中包含14种加密流量，包括7 种常规加密流量和7 种协议封装流量，且同时包含流特征数据和原始流量数据，但原始流量数据没有标签。由于本文主要关注加密流量的检测，因此选择其中的常规加密流量。此外，由于Browser和Streaming两种流量中包含重复的文件[16]，因此本文将Browser 这类流量去掉，选择剩余的电子邮件（Email）、聊天（Chat）、流媒体（Streaming）、文件传输（File Transfer）、VoIP和P2P这6 类常规加密流量进行标记。该数据集的构成及预处理后生成的二维图像数量如表3所示。

表3 加密正常流量数据集Table 3 Encrypted benign traffic dataset

CTU 数据集是捷克共和国CTU 大学在2011 年至2015年间在真实环境中捕获的，本文从中选取6种加密恶意流量，该数据集的构成及预处理后生成的二维图像数量如表4所示。

表4 加密恶意流量数据集Table 4 Encrypted malicious traffic dataset

3.3 评价指标

本文使用以下指标来评价本文提出的方法：

准确率（Acuuracy），表示样本被正确分类的比例：

精确率（Precision，又称查准率），表示在所有被预测为正的样本中实际为正的样本所占的比例：

召回率（Recall，又称查全率），表示在实际为正的样本中被预测为正的样本所占的比例：

F1 分数（F1-Score），是精确率和召回率的调和平均，可作为模型的实际评分准则：

其中，TP表示预测为正实际也为正的样本数目，TN表示预测为负实际也为负的样本数目，FP表示预测为正实际为负的样本数目，FN表示预测为负实际为正的样本数目。

3.4 实验结果与分析

本文设置4个实验来测试所提TL-EMTD方法的性能。首先测试输入图像的分辨率大小对检测结果的影响，为后续实验提供依据；其次对所有流量数据进行二分类，以测试TL-EMTD方法检测加密恶意流量的性能；在此基础上，在正常样本数量情况下，针对加密恶意流量数据集进行细粒度分类实验，并与文献[17]及文献[18]中的方法进行对比；最后通过设置不同的训练样本数量，测试小样本条件下该方法的细粒度检测性能。在实验中，batch_size 设置为16，采用RMSprop 优化器，学习率设置为0.001，学习率衰减系数设置为0.01，同时采用动量梯度下降法加快收敛速度，动量设置为0.9。

3.4.1 实验1：输入分辨率大小对检测结果的影响

在该实验中，本文以加密恶意流量数据集为基础，通过将原始流量预处理为4种不同分辨率的二维图像，研究分辨率大小对TL-EMTD方法检测结果的影响。表5 显示了4 种分辨率下的检测准确率以及平均精确率、召回率和F1分数。

表5 不同分辨率下的检测结果Table 5 Detection results at different resolutions

从表5中可以看出，随着分辨率的增加，各个评价指标的数值均随之增大，即模型的检测性能不断增强。在分辨率为32×32 时，检测准确率为95.83%，而在分辨率为224×224 时，准确率达到了98.88%，其余评价指标均达到了99%左右。因此，对TL-EMTD 方法所使用的模型架构来说，输入图像的分辨率越大，其检测性能越好。

3.4.2 实验2：基于迁移学习的加密恶意流量检测

在该实验中，本文将所有正常加密流量标记为0，所有加密恶意流量标记为1，对原始流量进行二分类。根据实验1 结果，选择224×224 作为输入图像的分辨率大小。将所有原始流量预处理为224×224 大小的二维图像，输入到2.2节中描述的网络结构中，此处需要将该网络结构的最后一层fc-out的输出维度修改为（1，2），以测试TL-EMTD方法检测加密恶意流量的性能。训练和测试过程中的准确率及损失值如图5所示。

图5 训练和测试过程中的准确率及损失值变化Fig.5 Changes of accuracy and loss during training and testing

图5（a）是TL-EMTD 方法在训练过程中的准确率变化图，图5（b）是训练过程中的损失值变化图，其中横坐标均是训练轮次Epoch。准确率越高、损失值越小，说明模型的检测性能越好。

从图5 中可以看到，在训练伊始，TL-EMTD 方法的检测准确率就达到了0.9 以上，证明了本文选择Efficientnet-B0 模型进行迁移的合理性和有效性。随着训练的进行，TL-EMTD方法的检测准确率不断升高，损失值不断降低，最终，本文所提的基于迁移学习的加密恶意流量检测方法能在二分类的情况下达到0.998 7的准确率，损失值无限接近于0，并且达到该检测水平所需的训练轮次小于5 轮，在本文实验环境下，所需训练时间在30 s以内。

3.4.3 实验3：基于迁移学习的加密恶意流量细粒度检测

在实际应用中，检测模型不仅需要将加密恶意流量从大规模复杂流量中检测出来，还应实现细粒度分类，对其所属类型进行标记。本文选择文献[17]提出的2DCNN 方法以及文献[18]提出的BotCatcher 方法进行对比，其中2D-CNN模型采用类似经典的LeNet-5结构，只提取流量的空间特征信息，而BotCatcher 模型将CNN与双向LSTM结合，同时利用流量的空间和时间特征对其进行分类。基于本文构造的加密恶意流量数据集，对三种方法进行细粒度多分类实验。最终，TL-EMTD 方法能够达到98.88%的准确率，高于2D-CNN方法所达到的98.52%的准确率以及BotCatcher 方法所达到的98.64%的准确率。此外，每种方法中各类别的精确率、召回率和F1分数如图6～图8所示。

图6 三种方法中每一类别的精确率Fig.6 Precision of each category in three methods

从图6～图8 中可以看出，本文提出的TL-EMTD 方法与文献[17]提出的2D-CNN方法以及文献[18]提出的BotCatcher方法，除了在Virut这种类型的流量上各项检测指标略低之外，对于其他5种流量的检测，精确率、召回率、F1分数总体持平，且均达到了98%以上。此外，针对Virut 流量，与其他两种方法对比，本文方法在精确率、召回率和F1分数等指标上有较为明显的提升。

图7 三种方法中每一类别的召回率Fig.7 Recall of each category in three methods

图8 三种方法中每一类别的F1分数Fig.8 F1_Score of each category in three methods

此外，三种模型训练参数量、模型大小对比结果如表6所示。

表6 模型训练参数量与模型大小对比Table 6 Comparison of model training parameters and size

从表6 中可以看出，本文所提的TL-EMTD 方法需要训练的参数量最少，为329 478，同时模型大小只有19.59 MB，低于2D-CNN 和BotCatcher。这是因为TL-EMTD 方法在迁移学习的过程中，冻结了源模型Efficientnet-B0 卷积层中预训练好的参数，只允许新替换的全连接层参与训练及更新，这就大大减少了网络中需要训练的参数量，能够在同等实验条件下缩短训练时间，有效平衡了分类精度和运行时间的要求。同时，在保存训练好的模型时能更好地降低存储开销，也更加方便之后对模型的再次调用。

3.4.4 实验4：小样本条件下基于迁移学习的加密恶意流量检测

该实验利用实验1中6类分辨率为224×224的二维图像集合，构造样本数量不同的7个加密恶意流量训练集，同时保留原有的测试集不作改变，以观察不同训练样本情况下TL-EMTD、2D-CNN 以及BotCatcher 三种方法对加密恶意流量的检测与分类性能。各数据集中包含的训练样本数量及三种方法对应的准确率如表7所示。

表7 三种方法在不同样本数量下的检测准确率Table 7 Accuracy of three methods in different sample size

从表7中可以看出，在训练数据集中每一类流量的样本数量为5 000个时，本文所提的TL-EMTD方法能够达到98.84%的准确率，接近在原始数据集上的最高检测准确率98.88%，当训练样本数量减少到每类流量中有1 000 个样本时，准确率只降低了1.52 个百分点，能够达到97.32%；当减少到训练集只有100 个样本时，准确率仍然能够达到96.35%；而随着训练样本的减少，2D-CNN 和BotCatcher 两种检测方法准确率下降明显，在训练集中每一类样本数量只有100 时，2D-CNN 方法检测准确率只有72.35%，而BotCatcher仅能达到56.73%。这是因为训练样本数量减少时，模型所提取的特征数量减少，2D-CNN 和BotCatcher 所用模型中需要训练的参数量较大，模型得不到充分训练，而TL-EMTD方法所用的模型中大部分参数都是从预训练好的Efficientnet-B0模型中迁移而来的，只需训练替换的全连接层即可，因此训练参数较少，训练样本减少时其受到的影响也较小。综合考虑，本文提出的TL-EMTD 方法在训练样本减少至原有数量的2%时，准确率只降低了2.49 个百分点，且模型训练参数数量较少，能够有效节省计算机的存储开销。因此可以认为，本文提出的基于迁移学习的加密恶意流量检测方法能够在小样本条件下取得较高的检测性能，在可用样本数量较少的场景中具有一定的实用价值。

4 结束语

本文提出了一种基于迁移学习的加密恶意流量检测方法，即TL-EMTD方法，利用迁移学习的思想，首次将在ImageNet数据集上预训练好的模型Efficientnet-B0迁移到加密流量数据集上。该方法将原始流量数据预处理为二维图像格式，作为模型的输入。在训练时，“冻结”Efficientnet-B0的卷积层，只允许新替换的全连接层进行梯度更新。实验结果表明，该方法能够达到较高的检测精度及细粒度分类精度，同时能够缩短训练时间，降低存储开销，并且在小样本条件下也能实现良好的检测和分类效果。在下一步工作中，将收集更多可靠的加密恶意流量数据集，进行进一步实验以验证模型的泛化能力，同时尝试在实际网络环境中部署并评估TL-EMTD的检测性能。