基于自编码器和卷积神经网络的入侵检测系统

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:43255 论文编号:sb2022042109480846389 日期:2022-05-12 来源:硕博论文网
本文是一篇计算机论文,本文针对网络流量海量、高维的特点,选取栈式稀疏自编码器实现高维特征到低维特征的映射。自编码器的稀疏性限制使模型更具泛化能力,同时,将注意力机制应用到栈式稀疏自编码器中,使得模型能更好地提取到有效的关键信息。栈式稀疏自编码器使用逐层贪婪预训练,深度网络的初始化权重由预训练后各个自编码器的权重构成,这大大减少了深度网络训练的迭代次数。

第一章 绪论

1.1研究背景及意义
1.1.1 研究背景
随着社会经济不断进步,“互联网+”、5G 等新兴信息技术水平也飞速发展,科学技术不断创新突破,互联网开始渗入人类社会的方方面面,遍布于人们的衣、食、住、行、工作、学习等领域中,给人们的生活带来了翻天覆地的影响,人类开始步入一个数据化时代。每一个事物都会在发现矛盾和解决矛盾中不断发展,因此,不能单一地对一件事物的出现作出利与弊的评价,计算机技术也不例外。在互联网数字化发展的过程中,互联网环境也受到了极大的冲突,网络安全问题触及到了个人、社会、国家等层面。目前,网络安全主要面临的问题主要是:个人隐私泄漏、国家安全受到威胁等。
截止 2020 年 6 月,我国网民规模已经达到 9.40 亿,与 2020 年 3 月 9.04 亿网民规模相比,增加了 3625 万;互联网普及率达到了 67%,与 2020 年 3 月相比,增加了 2.5%,如图 1.1所示。庞大的网民数量以及网络的普及率代表着我们的社会正朝着数字化网络化的方向快速发展。此外,在 2020 年上半年新冠肺炎的冲击下,人们的生活也发生了变化。在疫情“少出门、不出门”的影响下,网络活动成为人们消遣娱乐最常用的方式之一。
计算机论文怎么写
计算机论文怎么写
但是,随着网络科技的快速发展,网络会涉及到人类社会的各个方面,网络安全问题也越来越受到人们的关注。在报告[1]中显示,截止 2020 年 6 月,我国有 38.4%的网民遇到过隐私泄露、诈骗等问题,这些问题严重影响到网络的公共秩序。其中,遭遇过个人信息泄漏的网民占 20.4%,网络诈骗占 17%,设备中病毒和木马占 10.7%,账号或者密码被盗占 9.9%。另外,根据 2020 年第 20 期《网络安全信息与动态周报》[2]表明,我国境内受到网络安全问题的主机、网站以及新收录漏洞都较多,感染网络病毒的主机数量甚至达到 40.4 万。
........................

1.2国内外研究现状
1.2.1 入侵检测发展
入侵检测技术的概念是 1980 年 Anderson[4]为美国空军作技术报告时,在《Computer Security Threat Monitoring and Surveillance》首次提出,即“未经授权蓄意尝试访问、篡改信息、使得原系统不可靠或不可使用”。这份报告是入侵检测的开篇之作。
1987 年,美国 Dorothy Denning 等[5]提出了可用于入侵检测的抽象模型。该系统由六个部分组成:主体、对象、审计记录、轮廓特征、异常记录、活动规则。它独立于特定的系统平台、应用环境、系统弱点以及入侵类型。它结合统计和规则技术,能够实现网络环境的实时检测,在入侵检测研究中极具影响力。
1988 年,Teresa Lunt 等人根据前人在入侵检测技术上的研究成果,对已有的入侵检测模型加入了自己的想法,并实际开发出一款实时入侵检测专家系统。这个系统主要由两个部分组成:(1)异常检测器,(2)专家系统。
1990 年,Hebelein[6]提出了一个新兴概念:基于网络的入侵检测——网络安全监视器(Network Security Monitor,NSM)。该概念的提出具有里程碑意义,成为了入侵检测历史上的分水岭。NSM 监控异种主机的审计数据来源是网络流,它将当前的网络模式与历史概要文件相比较就可以判断出与正常行为有差别的可能违规行为。从此之后,入侵检测开始分为基于主机和基于网络的两大阵营。
20 世纪 90 年代以来,信息化水平不断提高,网络环境也随之发生变化,入侵检测也趋向完善,开始出现百家争鸣的繁荣局面。随着人工智能技术的发展,在许多方向和领域上都取得了极大进步,网络安全研究人员开始关注机器学习算法,考虑如何将它与入侵检测相结合从而高效地检测出网络中的异常行为。
......................

第二章 相关背景知识介绍

2.1 网络入侵检测相关概念
2.1.1 网络入侵和网络入侵检测系统检测
入侵检测概念在 1980 年由 Anderson 首次提出,最初被定义为“潜在的,未授权的一系列操作”。安全管理员通常是对用户身份进行认证或者加密数据来保证安全。随着信息化时代的到来,网络成为人类生活中不可或缺的事物,工作、学习、购物都可以通过网络完成。因此产生的网络流量也越来越多,随之带来网络中的随机性和不确定性导致网络受到外来攻击者的非授权访问,从而出现系统崩溃、信息泄露等现象。入侵的概念重新被定义,入侵不再仅仅是未授权的操作,只要是对计算机或网络资源有损坏的行为都被认定为是入侵[49]。
入侵检测系统(Intrusion Detection System,IDS)是指能判断出网络中是否存在恶意行为或非法程序的系统。入侵检测就是将收集到的网络数据通过某种安全手段进行分析,检测出可能存在的恶意行为或非授权的访问,同时能让管理员时刻了解网络的运行状态,一旦检测出异常的行为,及时作出响应,为入侵防范提供有效手段。因此,入侵检测的前提是:通过对网络流量提取特征,系统可以识别正常行为和异常攻击。一个可靠的 IDS 主要从两方面来考虑:(1)如何充分提取关键特征;(2)如何高效准确地识别该行为所属分类,是否具有入侵的可能。
入侵检测系统主要分为三大模块:信息收集、入侵分析、响应和警报。信息收集是整个系统进行分析的基础。该模块主要采集主机日志信息、网段协议的数据报信息、用户的行为状态等。异常流量数据是指在网络中偏移正常流量的情形,正常流量会根据网络的环境、用户的操作发生变化。因此,异常流量要根据同一网络状态下的正常流量作出判断,寻找出不正常的预期行为。若系统能对这些变化很敏感,就能快速高效地检测出入侵异常行为。入侵分析模块是整个系统的核心模块。该模块主要是运用一些统计学、模式匹配、异常检测算法等手段对信息收集阶段采集到的数据进行快速分析,从而判断出网络活动中是否存在异常行为。响应和警报模块是上一阶段检测到入侵行为时,及时采用相应的防护措施,阻止入侵行为的进一步损害。
.................................

2.2入侵检测系统存在的问题
随着网络的普及以及大数据时代的来临,入侵检测技术也不断地在完善和更新,从原来的依靠专家经验检测到如今的人工智能主导的检测,入侵检测技术趋向完善。但是网络的快速发展也致使网络攻击呈现出复杂、多样的现象,现有的入侵检测技术也存在一些不足,本文主要针对以下不足作改进:
(1)检测准确率较低,漏报率、误报率较高。海量的网络数据导致随机性和不确定性,而且攻击者利用各种手段将攻击伪装成正常的网络活动,使得检测难度越来越大。
(2)处理海量数据的效率低。如今处于大数据时代,短时间内就会产生大量的网络数据,如何在海量数据中快速检测出入侵行为是当前研究人员面临的挑战。研发出具有优秀特征处理能力、检测效率高且准确率高的 IDS 是当前急需解决的问题之一。
1956 年人工智能概念被首次提出,这一年被称为人工智能的元年。在这一年召开的具有重要历史意义的人工智能研讨会中,科学家们讨论了当时计算机技术未能解决的问题,讨论运用人工智能的方法是否可以解决问题,涉及的领域包含神经网络、机器学习等。
人工智能(Artificial Intelligence, AI)是随着计算机发展逐步发展起来的一门学科。关于AI 的定义通俗一点说,就是“企图了解智能的实质,并生产出一种新的、能以和人类的智能思维相似的方法,作出一系列反应的机器或者程序,这种拥有类人智能的机器或者程序被称为人工智能”。
在 20 世纪 50 年代到 70 年代,科学家们认为人工智能要解决的问题是人类难以解决而计算机容易处理的任务,例如数据量计算较为困难的数学问题。随着人工智能的发展,科学家们发现人工智能难以处理的工作其实是人类能轻易解决的问题,比如分辨事物。随着机器学习(Machine Learning, ML)算法的出现,之前人类能轻易处理而机器难以完成的任务,此时计算机应用机器学习算法已经能有效进行处理。机器学习带来了人工智能的新一轮发展,并且在数据分析、模式识别等领域都取得了重大突破。21 世纪初,机器学习的发展也遇到了瓶颈。机器学习算法是一种浅层学习算法,无法学习到数据更深层次的特征。此时,深度学习(Deep Learning)的概念随之提出,人工智能得以进一步发展。
.................................

第三章  基于栈式稀疏自编码器的数据降维方法 ............................... 28
3.1问题描述 ................................. 28
3.2常用的数据降维方法 ....................... 28
第四章  基于一维卷积神经网络的入侵检测模型 .......................... 41
4.1问题描述 ..................................... 41
4.2基于卷积神经网络的入侵检测框架 ............................... 41
第五章  实验及结果分析 .......................... 54
5.1实验环境及数据集 ............................. 54
5.1.1  实验环境 ....................................... 54
5.1.2  数据集介绍 ...................................... 54 

第五章   实验及结果分析

5.1实验环境及数据集
5.1.1 实验环境
本文实验训练和测试均在 Windows10 操作系统环境下进行,CPU 为 Intel(R) Core(TM) i7-8550U,采用 python 作为开发语言,使用 pandas 读取和处理数据集。keras 是 python 编写的开源神经网络库,能方便快捷地搭建网络模型,快速处理和计算数据集,实现本文提到的ICNN-1D-IDS,本文深度学习框架使用 TensorFlow==2.4.0、Keras==2.4.3。本文实验环境如表5.1 所示。
计算机论文参考
计算机论文参考
5.1.2 数据集介绍
本文实验使用通信安全机构(CSE)与加拿大网络安全研究所(CIC)合作项目的数据集CIC-IDS-2017。该数据集由真实的背景流量组成,收集了网络流量的良性和恶意活动的真实痕迹。与其他网络入侵数据集(UNSW-NB15、CAIDA、AWID、DARPA、CIDDS-001)相比,该数据集较完整,且包含了多种新型攻击。
CIC-IDS-2017 数据集中记录总数为 2830108,正常流量包含 2358036 条(占数据集的83.3%),恶意流量包含 471454 条记录(占数据集的 16.7%)。研究人员共采集并捕获了为期5 天的实验室网络数据流量,共实现了 9 种攻击,星期二执行暴力 FTP(FTP-Parator)、暴力SSH(SSH-Parator);星期三执行心脏出血漏洞(Heartbleed)、DoS 攻击;星期四执行 Web 攻击(Web Attack)、渗透(Infiltration);星期五执行僵尸网络(Botnet)、端口扫描攻击(PortScans)和 DDoS。星期一无任何攻击实现,只采集到正常流量。表 5.2 显示了该数据集中攻击的类型及分布。
......................

第六章   总结与展望

6.1论文总结
入侵检测技术自 1980 年发展以来,通过不断地研究,逐渐完善。传统的基于机器学习的入侵检测技术对于入侵行为特征层面的理解不够深入,并且对于不平衡的数据也未能很好地处理。同时,近年来网络流量呈现出高维、海量的特点,已有的一些入侵检测系统对这些数据的处理极为困难,且需要耗费巨大的人力开销。这些弊端导致已有的一些入侵检测技术无法达到较好的检测效果。因此,本文提出了一种基于深度学习的入侵检测系统,将自编码器与卷积神经网络结合,旨在利用自编码对海量、高维数据进行降维,并采用数据级层面的方法对数据类别不平衡问题进行处理,再利用卷积神经网络对网络流量进行分类,实现减少训练和测试时间,提高入侵检测性能的目标。
本文的主要工作如下:
(1)数据降维上,本文针对网络流量海量、高维的特点,选取栈式稀疏自编码器实现高维特征到低维特征的映射。自编码器的稀疏性限制使模型更具泛化能力,同时,将注意力机制应用到栈式稀疏自编码器中,使得模型能更好地提取到有效的关键信息。栈式稀疏自编码器使用逐层贪婪预训练,深度网络的初始化权重由预训练后各个自编码器的权重构成,这大大减少了深度网络训练的迭代次数。
(2)数据不平衡问题上,本文在数据层面作了处理。根据数据集记录总数和类别数计算出各个类别重采样个数。对于样本数大于重采样个数的类别,使用高斯混合聚类模型分为 k个簇并从 k 个簇中随机抽取样本使得样本总数达到重重采样个数。对于样本数小于采样个数的类别,使用 BLS 进行过采样,从而使得数据集中各个类别都有相同数量的样本。
(3)入侵检测上,本文针对传统卷积神经网络中的经典池化方法会造成网络流量信息损失,以及采用多个全连接层会造成参数众多的问题,采用自适应池化和全局池化对卷积神经网络进行改进。经过数据降维和不平衡处理之后生成的新数据集作为该改进的卷积神经网络的输入,从而有效地识别入侵行为。
参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217