硕士论文网第2020-08-15期,本期硕士论文写作指导老师为大家分享一篇
计算机论文文章《基于大数据的网络异常检验测量技术的研究》,供大家在写论文时进行参考。
现有的网络异常检测技术主要存在检测准确率较低、误报率较高等问题,而且面对大数据时代复杂多样的网络和高速流动的数据,传统的数据处理平台已无法对海量数据进行高效、全面的处理。如今要提高网络异常行为检测的能力,势必要结合大数据技术和机器学习算法,因此本章设计了一种适用于网络异常行为分析的平台。新时代网络环境下,随着网络数据量的增大和数据流速度的加快,单机的处理能力不再能应付海量数据和高速数据流。因此本章将设计和实现基于大数据的网络异常实时检测。为了能够满足当今的大数据环境,该方案利用 Flume、Kafka、Spark streaming等大数据技术实现网络异常实时检测。
1 绪论
1.1 研究背景及意义
随着大数据、人工智能和云计算等先进技术的迅猛发展和应用,全球范围内互联网所产生的数据量和数据类型也正在以飞快的速度增长。这标志着人类已经从信息时代全面进入大数据时代,网络设备越来越多样化,网络规模越来越大,网民上网产生的数据表现出量多且复杂多样的特点。2019 年中国互联网络信息中心(CNNIC)发布了第 44 次全国互联网现状统筹报告,该报告显示:截至 2019 年 6 月,我国上网人数达到 8.54 亿,相比上一年底增加 2598 万,互联网普及率达 61.2%,较上一年底提升了1.6 个百分点。然而,网络环境的开放性和复杂性为用户带来极大便利的同时,也让用户受到了网络攻击。统筹报告指出,2019 年上半年较2018 年末我国网民上网受到攻击的人数有所下降,但是在过去半年曾遇到过网络安全问题的网民仍有 44.4%。国家互联网应急中心(CONCERT/CC)监测发现 2019 年上半年新捕获到计算机恶意程序样本数量和去年基本持平,约 3200 万个,我国发现有 240 万台有恶意程序的计算机。移动互联网恶意程序数量 103 万多个,恶意攻击控制智能设备 IP 地址以及服务器 IP 地址分别为242 万个和 1.9 万个,安全漏洞 5859 个。2019 年上半年国内 DDo S攻击相比去年也呈增长趋势,并且僵尸网络发起的 DDo S 攻击占比超过60%。针对我国范围内网站的仿冒页面约 4.6 万个,遭篡改的网站有近 4 万个,植入后门的网站约2.6 万个,同比增长约 1.2 倍。国内云平台遭到网络攻击的情况也在不断增加。以上数据说明,在不断变化的网络环境中,网络安全数据量越来越大,网络攻击仍然非常严峻,网络攻击表现为手段更隐蔽,行为更复杂,潜伏周期更长久,且新型攻击层出不穷等特点。上网过程中面对如此复杂严峻的形式,容易给人们的网络安全造成较大威胁。然而,传统的数据处理平台无法满足对大量、迅速增长的数据进行高效、全面的处理;传统的网络异常行为检测技术存在对已知异常检测效果较低,无法检测未知攻击行为的问题。因此,网络异常行为的研究已受到了政府、学术研究机构、网络安全工业界的高度关注。而近几年热门的大数据技术通过对海量安全数据进行有效的采集、分析和存储能够高效解决传统处理平台的问题。为了及时应对大数据环境下的网络安全威胁,结合大数据技术和机器学习各自的优势,满足快速采集、智能准确分析、高效存储、便利查询等需求。目前网络安全方向研究的热点之一是快速高效的检测各类恶意攻击,及时遏制网络异常行为。
1.2 国内外研究现状
网络安全中能否检测出网络异常行为是至关重要的一个环节,因为网络异常行为检测是防火墙的重要补充,而且网络异常检测技术可以在不影响网络性能的情况下完成对网络安全性的分析,并能采取积极的响应阻止攻击行为破坏网络,保障网络运行的安全。网络行为就是网民的特点、构成和在网络上表现出的行为。网络行为按照网民的目的是否正常可以分为正常行为和异常行为。其中网络异常行为,就是通过计算机和互联网,对网络数据库或者各种应用服务进行攻击,这些攻击包括拒绝服务攻击、对数据或服务器信息进行增删改的行为,侵犯他人的隐私,非法获取他人的财产,甚至窃取国家机密信息,威胁国家安全和造成国民经济损失等。网络异常行为检测,是一种通过不断收集网络数据,利用统计分析、特征规则、数据挖掘和机器学习等方法建立、维护和更新网络行为模型,检测当前用户行为是否超过正常行为阈值来识别出异常行为。网络异常行为检测的结果通常将网络行为分类两大类:正常和异常,异常行为又可以分成很多小类,如 DOS、Probe、U2R、R2L 等常见攻击类型,因此网络异常行为检测可以是二分类也可以是多分类问题。国内外网络安全厂商和学者们对网络异常行为检测方法进行了深入的研究和实验,并取得了一定的成果。国内的大数据网络异常行为检测技术目前也正处于一个快速发展的阶段。王萍提出了一种基于大数据技术的可以检测出未知复杂攻击的网络异常行为分析的方法,并将该方法应用于检测系统取得了很好的效果。李若鹏利用大数据技术设计与实现了一种能够快速有效的对海量安全数据采集、存储和分析的网络异常行为检测平台,帮助在大数据中快速发现异常并做出响应。董娜提出了一种基于大数据的网络异常行为建模方法,利用无监督聚类算法检测网络异常行为,实验结果表明该方法有效解决了大数据环境下海量数据标签难的问题。在大数据背景下,学者们开始将大数据技术、机器学习等多种技术有效结合,不仅实现了快速高效的数据采集、存储和分析,而且提高了网络异常检测的准确率,此外,可视化展示直观方便,提升了网络异常分析方法的可用性。
2 相关技术介绍
为了及时应对大数据环境下的网络安全威胁,本课题引进了大数据技术,发挥大数据技术在采集、存储和计算等方面的优势,更高效的进行网络异常行为检测,提高准确率、降低误报率的同时缩短消耗时间。 本章主要详细的阐述了本课题所涉及到的数据采集技术 Jnetpcap 和大数据技术,大数据技术主要包括 Flume、Kafka、HDFS、Spark。
2.1 数据采集技术
Java 平台本身不支持底层网络操作,因此想要抓取数据包采集相关的信息,需要借助第三方包 JNI 调用系统中的 C 或 C++库(如常见的 Jpcap 和 Jnetpcap)来供 Java的 上 层 接 口 , 其 中 Jnetpcap 是 由 Sly Technologies 开 发 的 开 源 DPI(Deep PacketInspection)SDK。Jnetpcap 底层对 Winpcap 和 Libpcap 进行封装,兼容于 Linux 和 Windows系统。Jnetpcap 提供各种各样的接口让程序员访问数据包中有关于网络层、传输层的元数据信息。Jnetpcap 主要有下面几个特点:(1)基本封装了全部 libpcap 类。(2)对所抓数据包实时解码,通过 native 和 Java 实现,来优化解码过程。(3)包含各种网络协议解析库,并通过使用SDK 用户可以轻松的扩展网络协议。使用 Jnetpcap 之前需要安装给 Jnetpcap 提供链接库的依赖工具,在 Windows 系统和 Linux 系统中各自安装的依赖工具是 Winpcap 和 Libpcap,并且要把 Jnetpcap 包和所属的 dll 文件都加入到开发目录的环境变量中。Jnetpcap 中最为核心的 Pcap 类可以获取网卡列表、打开嗅探、设置过滤器等。Jnetpcap 读取数据包的过程大致可以分成:(1)获得网卡列表。通过 Pcap.find All Devs()方法把所有本机网卡加入到 alldevs的列表中,供用户任意选择一个网卡进行监听。(2)打开连接。通过调用 Pcap.open Live()方法,返回一个 Pcap 对象。可以通过参数 device 设置设备的系统名称、参数 snaplen 设置每次捕捉的数据量、参数 promisc指定捕捉方式、参数 to_ms 设置超时时间和参数 ebuf 设置错误信息缓冲区。(3)开始监听。调用 pcap.loop()方法就可以进行监听。(4)数据包分析。用户提前绑定分析器 JPacket Handler 中通过事件机制来实现处理数据包的 next Packet()方法,当 Pcap 嗅探到一个数据包后,调用 next Packet()方法对不同协议根据相应的 Header 分析器进行处理。
2.2 分布式技术 Kafka
Kafka 是一个分布式消息发布订阅系统(分布式 MQ 系统),支持离线和实时数据处理,具有高性能、高吞吐量、持久性、分布式、灵活性、扩展性等特点。生产者向某个消息队列中发送一个消息,消费者订阅发往某个 Topic 命名的消息队列,消费者通过轮询或者哈希方式从订阅的队列中拉取新产生的数据。Kafka 的逻辑组件包括:(1)Broker:一台 Kafka 就是一个 Broker,一个集群由多个 Broker 组成,一个Broker 可以容纳多个 Topic。(2)Topic:Kafka 中每条消息都属于存储在一个(或多个)Broker 中的某个 Topic,然而用户并不需要关心数据存放在何处只需指定消息的主题名即可生产或者消费数据。(3)Partition:为了实现可扩展性,一个 Topic 可以被分为多个 Partition,消息通过轮询或者哈希算法散列分布到多台 Broker 的 Partition 中,其中的每条消息都有一个增 Id(Offset)。(4)Offset:在 Topic 的 Partition 中,Offset 随着同一个 Partition 中消息的写入自增。(5)Replica:Topic 的 Partition 含有多个副本,其中一个为用于所有读写请求的Leader,剩余的是作为备用的 Follower。(6)Message:每个消息生产者向一个主题发布的一些消息。(7)Producer:数据生产者将消息发布到指定的主题中,同时它也决定此消息所属的 Partition。(8)Consumer:主要负责根据分区索引及其消息偏移量从指定的 Topic 中拉取消息。(9)Consumer Group:它和 Consumer 之间是一对多的关系,消息会在同一消费组的消息者之间进行负载均衡。(10)Zookeeper:在 Zookeeper 集群中会保存 Kafka 集群中 Topic、Broker 的状态以及 Consumer 的消费信息等。通过这些信息,Kafka 很好地结合了消息生产、存储、合消费的整个过程。一个典型的 Kafka 集群中包含若干个 Producer、Broker、Consumer Group 和Zookeeper。Kafka 拓扑结构图如图 2-2 所示。
Producer 产生数据并使用 push 模式将消息发布到 Broker 上的 Topic 中,Consumer 使用 pull 模式从 Topic 中拉取并消费消息,Zookeeper 则负责管理协调 Kafka 集群。
3 基于大数据的网络异常行为检测模型构建
3.1 网络异常行为分析平台的总体设计
3.2 支持向量机算法
3.3 模拟退火优化的支持向量机
3.4 随机森林算法
3.5 数据预处理
3.6 基于 Spark 的并行 SA_SVM_RF 模型设计与实现
3.7 本章小结
4 基于大数据的网络异常实时检测
4.1 网络异常行为实时检测的总体设计
4.2 数据采集模块
4.3 网络异常检测模块
4.4 数据存储模块
4.5 可视化展示模块
4.6 本章小结
5 实验结果与分析
5.1 测试环境的搭建
5.2 SA_SVM_RF 模型的测试结果分析
5.3 网络异常实时检测的测试结果分析
5.4 本章小结
6 总结与展望
6.1 总结
针对传统的网络异常行为检测方法无法满足大规模数据的存储和处理,以及算法单一导致的准确率较低、误报率较高等问题,本文设计了一种基于大数据技术的网络异常分析平台,基于 Spark 设计和实现了的并行化 SA_SVM_RF 网络异常行为检测模型,并利用 NSL-KDD 数据集验证了方法的有效性,最后将其应用于网络异常实时检测,实现网络异常在线检测,对现有的网络异常检测方法中的部分不足得以改进。本文的主要研究成果如下:(1)设计了一种基于大数据的网络异常行为分析平台。该平台包括数据采集与预处理层、数据分析层、数据存储层和可视化层。提供了海量数据的并行化采集、分析、存储和展示等服务,能够有效解决传统网络异常行为分析方法在应对在大数据环境时无法有效处理的问题。(2)基于 Spark 设计并实现了并行化 SA_SVM_RF 网络异常行为检测模型,并利用 NSL-KDD 数据集对模型进行对比测试,实验结果表明,该算法有效提高了网络异常行为检测的处理速度、准确率,降低了误报率,进一步提升了检测模型的检测能力。(3)基于本文设计的适用于网络异常行为分析的平台,实现了网络异常在线检测。利用 Jnetpcap 和 Flume 采集数据并发送到 Kafka,Spark streaming 过读取 Kafka 中的实时数据流,并利用检测模型进行实时检测。网络异常在线检测能够较好的完成海量数据的并行化采集、特征提取、实时检测和结果存储,验证了模型的有效性和平台在线运行的效率。
6.2 展望
本文提出的基于大数据的网络异常行为检测技术基本能够有效的解决大数据环境下的网络异常行为检测问题,目前研究已取得一定成果,但是由于能力、时间和条件的限制,离实际应用还有一定距离,仍然有些地方值得进一步改进完善,具体包括以下几点:(1)目前数据采集方面还需进一步完善,仅在搭建的模拟环境中实现了流量数据的采集,采集数据单一,普适性程度不够。因此,未来还需在实际环境中采集网络流量、各种日志、用户行为信息、漏洞信息、威胁情报信息等海量多源异构的数据,从中分析网络异常行为。(2)目前网络异常实时检测部分只实现了基本需求,因此,今后需要进一步完善根据新的数据及时更新网络异常检测模型,增加网络异常告警、定位网络异常发生的原因和地点进一步分析等。(3)由于实际情况的限制,本课题的实验测试是在虚拟机创建的分布式集群里实现的,并没有在实际环境中测试,因此,将其投入到真实的网络环境中,进行不断测试优化,提高检测能力和效率是今后需要研究的问题和方向。
该论文为收费论文,请扫描二维码添加客服人员购买全文。
以上论文内容是由
硕士论文网为您提供的关于《基于大数据的网络异常检验测量技术的研究》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网计算机论文栏目。