基于CNN-Transformer和互对比学习的加密流量分类探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:33263 论文编号:sb2024012709500151847 日期:2024-02-28 来源:硕博论文网

本文是一篇软件工程论文,本文提出一种基于CNN-Transformer混合架构的网络加密流量分类方法,利用卷积神经网络去获取流量的局部特征、Transformer去学习流量的全局信息。
第1章 绪论
1.1 研究背景和意义
互联网从产生到现在,无时不刻都在产生流量,尤其在超大规模集成电路计算机兴起和各种新型TCP/IP协议出现后,计算机的计算能力不断提高,协议更加完善,网络的应用更加丰富,使用互联网的人越来越多,网络的传输速率和吞吐量不断增加,流量迅猛增长。从2016年思科可视网络(Visual Network Index,VNI)提供的预测情况来看,全球互联网流量总产量将超过每年1ZB(Zettabyte,泽字节)大关,并在2020达到2.3ZB[1]。所以巨增的流量需要一项有重要意义的工程,也即流量分类。流量分类,顾名思义,也就是将流量分类成多个类。如把数据包分类成具体的应用层协议,或分成某一个大种类(如视频类,游戏类,文件传输类等)、有的也根据具体应用来分类(如QQ,Thunder等),还有一些其他的分类方式[2]。流量分类可以应用于多个方面,如协议识别,QoS管理,恶意软件检测、优化网络布局等。
流量分类有重要的用途,所以人们很早就研究了实现流量分类的方法。如基于端口号来识别流量,基于载荷识别流量,基于机器学习的方法根据一些包级别的特征或统计特征识别流量。
在人们网络安全意识持续加强以及网络安全加密技术持续深化的大背景下,加密流量逐渐发展成为互联网传输过程中极为关键的内容,其占比不断提高[3],这无形中对网络流量的辨识和归纳造成诸多影响。加密流量通常以端口伪装以及端口跳变技术为基础,造成了传统的流量识别方法无法保障准确率。加密流量自身特有的加密特征,也会在传输载荷过程中造成载荷关键字的流量识别能力持续下滑[4]。
........................
1.2 国内外研究现状
1.2.1 网络加密流量分类国内外研究现状
网络流量分类的方法有主要分为四种,分别为:基于端口的流量分类方法、基于深度包检测(DPI)的流量分类方法、基于机器学习的流量分类方法以及基于深度学习的流量分类方法。
(1)基于端口匹配的流量分类方法
基于端口的流量分类方法。针对流量分类研究前期,学者基于研究的基础上提出了关于端口的流量分类方法,其主要通过已经明确的端口号对各个应用程序进行识别,其中端口号由Internet Assigned Numbers Authority (IANA)[8]定义。由于那时应用程序较少,而且应用程序大多使用一些熟知的端口号,如常用的HTTP、DNS协议等。针对端口匹配而展开的识别方法往往不需要过多信息,识别效率高,是现阶段所有识别方法中可行性和空间性最低的,并且在早期其识别的准确率也非常高。
到了后来,动态端口的出现对基于端口的流量分类产生了极大的影响,大量应用开始通过动态端口通信,甚至不需要注册IANA就可以进行通信,比如应用广泛的P2P协议。另外一些网络服务,如隧道(tunneling)和匿名化隐藏了端口的信息,造成以端口匹配的流量分析法无法正常使用。文献[9,10] 中从多个维度分别论述了造成端口无法使用的原因。目前单独使用端口来进行流量分类准确率极低,甚至一些场景的分类准确率不足50%,因此该方法已经不能独立用于流量分类中。
(2)基于深度包检测的识别方法
基于深度包检测的识别方法(DPI,Deep Packet Inspection)。这种检测方法主要是根据网络签名而展开检测的方法。DPI是网络中许多系统的核心组件,如流量监视器、分类器、包过滤器、网络入侵检测和防御系统,这些网络系统在OSI模型的不同层使用DPI[11]。DPI对数据包头和载荷在内的整个数据包的内容进行检查,一旦从数据包的任何一个位置检测发现预定义的部分字符串模式或固定字符,便能够判断为相应的流量的种类[12]。
............................
第2章 相关技术概述
2.1 基于卷积神经网络的流量分类方法
2.1.1 卷积神经网络的相关理论
神经网络是近些年兴起的一种人工智能实现方案。其中,卷积神经网络更是其中的代表,受到了学术界和工业界的重视。上世纪中叶,Wiesel和Hubel两位知名的生物学者,在深度调研哺乳动物的大脑皮层时,发现了方向选择和局部敏感这两个特殊的神经元,这种比较特殊的网络结构能有效地降低反馈神经网络的复杂性,自此卷积神经网络(Convolutional Neural Networks, CNN)应运而生。当前,各研究领域的科学家都对CNN技术趋之若鹜,其独特的架构,尤其是在模式分类领域,得到了更为广泛的应用。在上世纪末,K.Fukushima在研究中首次提出关于卷积神经网络的识别机。随后,大量研究人员对这一网络展开多维度的研究和探索。其中Alexander和Taylor的研究成果较为显著,他们在研究中首次提出“改进认知机”,这一发现有效缩小误差方向传播,并综合了各种改进方法的优点。
通常来说,CNN的基本结构通常由两个部分组成,一部分是特征提取层,其中各个神经元的输入,是由前一层给出,得到数据后提取该局部的特征。在提取局部特征之后,便能够有效稳定各个特征之间的位置关系;另一部分为特征映射层,多个特征映射可以存在于同一个计算层之中。可将各个特征映射视为一个平面,而各个附着于平面上的神经元权值保持一致。研究者们发现在众多特征映射函数中sigmoid函数相比其他激活函数更具有表达性,并且更能保证特征映射层的位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。为了减少特征分辨率的同时也能保证精度不丢失,卷积神经网络在每一个卷积层后都接入了一个用来计算二次提取与局部平均的计算层,这种特有的两次特征提取结构有效地减小了特征分辨率。 

软件工程论文怎么写
软件工程论文怎么写

...........................
2.2 基于Transformer的流量分类方法
Attention Is All You Need[33]是由Google团队提出的,充分发挥了Attention思想。该论文第一次提到Transformer的新型模型,不同于传统深度学习任务的RNN和CNN,如今比较热门的Bert正是建立在Transformer模型的基础上发展而成的,该模型如今在NLP领域广泛应用,如文本摘要、语音识别、机器翻译等领域。受此启发,[25]中提出了一种基于Transformer的有效载荷信息的编码表示(PERT)的方法,该方法使用动态词嵌入技术来自动提取流量的特征。
PERT将包的有效载荷字节视作自然语言处理中的类语言字符串。其提出了一种分词方式,将取值范围为0到65535的字节对作为基本字符单元来生成bigram字符串。随后,将自然语言处理中相关的编码方式直接应用于分词后的流量字节。利用这种方式,将加密流量识别转换为自然语言处理分类任务。

软件工程论文怎么写
软件工程论文怎么写

.............................
第3章 基于CNN-Transformer混合架构的流量分类方法 ................ 19
3.1 问题背景 ................................... 19
3.2 基于CNN-Transformer的混合框架 .................... 19
第4章 基于互对比学习的恶意流量检测与分类 ........................ 35
4.1 问题背景 ...................................... 35
4.2 互对比学习方法 ......................... 35
结论 .......................... 48
第4章 基于互对比学习的恶意流量检测与分类

4.1 问题背景
为了保护网络信息安全,越来越多的加密算法被提出,用于对网络流量的加密,进一步的保护了人们的隐私,但也带来了许多弊端,其中之一就是在加密流量下检测出恶意流量困难重重。而恶意流量的检测实际可以转换为网络流量的二分类问题,即如何准确区分出正常流量和恶意流量。但由于基于深度学习的分类模型需要大量的带标数据进行训练,而真实的恶意流量样本却很难获取,如何用少量样本就能准确检测出恶意流量,并进一步对流量进行分类,这是本章的主要研究内容。
本章基于上述问题提出了一种基于互对比学习的恶意流量检测与分类的方法,并通过多网络模型协同学习的方式,准确的检测出恶意流量。基于本章提出的方法,在USTC-TFC恶意流量数据集上进行二分类,准确率高达99.95%。

软件工程论文参考
软件工程论文参考

...........................
结论
为了保护用户隐私,防止信息泄露,现如今的网络流量大多都使用了加密协议。如何正确将这些加密的网络流量正确分类以及在加密流量中准确检测出恶意流量是目前网络流量研究领域中的一大热点。目前,基于深度学习的方法已被广泛应用于网络流量领域中。本文在现有的研究工作基础上,对基于深度学习在网络加密流量的分类以及恶意流量的检测与识别中的应用开展了进一步的研究与实验。本文的研究成果及贡献如下所示:
(1)基于CNN-Transformer混合架构的网络加密流量分类方法。为了提高网络加密流量分类的准确性,本文提出一种基于CNN-Transformer混合架构的网络加密流量分类方法,利用卷积神经网络去获取流量的局部特征、Transformer去获取流量的全局信息,该方法结合了卷积神经网络和Transformer的优点,互相补充从原始流量中学习到的信息,无需额外手工提取统计特征等补充信息就能取得较高的分类准确率。本文还在ISCXVPN2016数据集上进行了多分类任务来验证该模型,通过分析实验数据,本方法对于网络加密流量具有最佳的识别效果。
(2)基于对比学习的恶意流量检测于分类方法。针对真实恶意流量数据样本较少,本文提出一种基于互对比学习的恶意检测与分类方法,通过多网络模型协同学习的方式,以更少的带标样本准确的检测出恶意流量。本文使用恶意流量数据集USTC-TFC进行验证,实验结果中二分类的准确率高达99.96%,验证了本章提出的方法的可行性。 
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217