大数据挖掘技术在网络安全中的应用
2021-11-22邱金龙
邱金龙
(上海市信息安全测评认证中心 上海市 200011)
当前社会,信息发挥着越来越重要的作用,在信息大爆炸的时代背景下,随着网络应用在社会发展、生活等各个方面的不断渗透,各类大数据已越来越多的被重视和广泛应用,大数据时代已经到来。在这样的大环境下,由此而带来的网络的结构及环境也更加的纷繁复杂,在为人们生活、工作带来便捷的前提下,网络安全问题也成为目前信息社会的一大问题,也对人们生产生活及社会发展产生重要影响。网络安全已成为一门新兴的学科和研究专题,随着人们重视的提高,目前的网络安全已经在向更实用、更完善、更便捷的方向发展。目前网络安全技术仍不完善,仍存在较多的安全漏洞,整体防护能力无法全面防范,也为信息的采集、存储和加工等工作带来了挑战,可以说网络安全问题越来越严峻,也成为目前信息社会亟待解决的重要问题。在这样的背景下,大数据挖掘技术这种新型的网络信息安全处理手段应运而生,其自身所具有的精准分析和预测的功能,可以实现对网络入侵的有效分析,精准的监测网络入侵行为,从而进行有效防范,达到保障和提升网络安全的目的。
1 大数据挖掘技术概况
第十一届人工智能联合会议于1989年8月在美国底特律市召开。本次会议中,科学家们首次提出知识发现(knowledge discover in database,KDD)的概念,这一概念也被有些人称为数据挖掘,但两者并不完全相同。1995年,在加拿大蒙特利尔市召开的第一届知识发现和数据挖掘国际学术会议上,KDD这个术语得以认同接受,并通过分析确定了数据挖掘是知识发现的子过程这一概念。
数据挖掘就是在庞大的、不完整的、模糊的、随机的数据中挖掘、发现有效信息,提取人们现实所不知道,隐藏的但又有着潜在利用价值的信息,通过科学分析来发现数据之间的有效联系、趋势及模式。数据挖掘是一门技术,其产生依托于近年来数据库系统的大量建立以及互联网的广泛应用。它是一门交叉性学科,融合了机器学习、数据库技术、人工智能、统计学、模式识别、可视化分析等多门学科。
处理挖掘出的大数据需要复杂、综合和多方位的系统支撑,这种系统中有很多处理模块,大数据挖掘技术就是为了完成数据挖掘这项任务而采用的技术手段,在整个系统中是以一个独立的身份而存在的,这一研究领域由多学科交叉组成,将人工智能、机器学习、数据库信息检索等技术相融合,与其他模块是一个相辅相成、协调发展的关系。其地位在当今的大数据时代中无可比拟。一般来说大数据挖掘技术的流程是通过对数据库或源数据的分析,提炼出用户所需要的具有一定潜在意义的信息。通过有针对性的加工处理,形成适合深度挖掘的数据模式。随后通过符合实际的数据算法进行提取、评估,改变数据信息晦涩难懂的现象,通过简单易懂的方式,方便用户。通常情况下,数据提取、初步预处理、后续深度挖掘及最终信息模式评估等环节共同组成大数据挖掘技术。一般采用数据关联、分类和聚类算法。
在学术领域,大数据挖掘技术研究的主力军仍然是各大高校。基于其重要性,全世界各国均在相关领域研究上投入了大量的精力,并且越来越重视。从国家层面上来看,由于经济及科技上的优势,美国等发达国家仍然是这项工作研究的主体。我国由于人口众多,具有较好的调查样本数据基础,相对而言更容易采取到丰富的信息。
从目前的研究成果上来看,大数据的挖掘技术呈现出两个方面的特点。一方面在网络安全体系中主打应用功能,通过应用来推动该项技术在更多的领域将价值发挥最大化。另一方面以研究为主。从目前的发展情况看,整体上数据挖掘技术在完善度和成熟度上还有欠缺,隐患较多,影响应用效果,因此研究是下一步的主要趋势,通过不断的研究、完善来实现这一技术的日趋成熟,从而发挥更大的作用。
2 大数据挖掘技术的重要作用
近些年,人工智能、5G通信、物联网以及区块链等技术的飞速发展,使信息呈现爆炸式增长,大量的数据为人们的生活、工作提供了帮助,可以说信息是当下推动社会进步的一大重要因素。但同时,大量的信息在没有经过甄别和挑选的情况下,无效信息、负面信息等数据也十分庞大,这些信息在一定程度上影响着社会的进步,甚至起到相反的作用。如何在海量的信息中找到真正有意义的、正向的信息数据,以满足不同用户、不同场景、不同领域的需要,大数据挖掘技术的应用就显得十分重要和必要。
伴随着社会的进步、科技水平的不断提高,出现了越来越多的性能多元化的网络设备,在实现高速传输信息数据的同时,更加要求信息数据采集的安全性。多年来,在传统技术模式下,结构化的数据库是信息存储的主要处理方式。不但成本较高,同时也会存在数据丢失的问题。而有效应用大数据挖掘技术就可以降低这种信息数据丢失概率,进而确保数据采集以及加工、使用的精确度和实效性,以达到提升工作效率的作用。同时,大数据挖掘技术的深度应用,在有效完善网络安全防御体系上还发挥着重要作用。
3 大数据挖掘技术的应用机制
3.1 在数据收集方面的应用
数据信息时代下个人隐私数据的大量增加,对网络安全的要求更高。而病毒代码是导致数据信息泄露、损坏等现象的出现越来越多频发的重要因素,危害着人们的信息安全,为生活带来了不利影响。针对这种情况,大数据挖掘技术采取收集数据信息的方式减少网络安全隐患,将病毒代码从数据信息中找出,通过有效监测、预防恶意攻击及异常入侵等手段,确保网络安全。网络病毒往往以代码的方式隐藏在计算机系统中,利用计算机系统的支持对系统进行渗透性破坏。这些病毒程序与部分软件相似度极高,往往不容易判断,因此会被忽视,最终导致系统的崩溃。而大数据挖掘技术就是通过充分分析各种代码程序,掌握其关键点,及时发现不同程序中的异常问题,有针对性地采取预防措施。通过对这些病毒代码程序信息的收集,分类分析彼此之间的共性特征,在数据上为建立网络安全防御机制提供支持。
3.2 在数据处理方面的应用
利用大数据挖掘技术,依托对数据信息的深入挖掘,进而进行数据分析,用科学的方法精准地找出并明确危害网络安全的问题根源。程序代码是破坏网络安全的常见方式,因此需要破解与转换存在安全隐患的程序代码,以方便技术人员的甄别,从而发现其根本意图,有针对性地采取相关防御措施。这种破解与转换一般通过数据处理模块实施,其主要方式是识别数据IP位置、数据源位置与相关信息,再通过充分的、深层次的挖掘,对IP目标进行精准定位,以此来找到网络病毒的根源。在此基础上,通过全面分析病毒类型,采取可行的封锁措施,截断其传播路径,将这类病毒的攻击范围最大限度的锁定在一定的区间之内,从而阻断病毒的深入传播路径。同时,数据信息终端的分析、分类及处理是数据处理的基础工作,通过这些工作,大数据挖掘技术对后续网络安全相关问题的破解将发挥更大的作用,从而保障网络信息的安全。
3.3 在数据库方面的应用
在数据库方面应用是关联分析大数据挖掘技术的主要形式,是数据聚类技术的应用基础,同时结合网络安全问题进行深入识别。利用关联数据库全面记录和分析网络病毒攻击行为的特征、轨迹及执行程度,依托聚类分析算法识别网络病毒的基本特征,从而强化系统整体防御能力。
3.4 在决策机制方面的应用
通过自带的数据分析记忆功能,数据挖掘模块对比分析的数据和模块数据,如果通过分析发现两者有着较高的数据匹配度,则判断为系统中存在安全隐患。在当下的领域中,此类的防御系统不断出现并持续进行迭代更新。其中以应用较为广泛的360防火墙为代表的软件,就是通过这种模式对病毒代码产生的安全隐患进行防御,但从实际应用上来看,往往还会出现错误判断的情况,从而造成对代码的“误杀”,在准确性上还需要进一步地提高,网络安全决策机制还需要进一步完善。因此,大数据挖掘技术需要配合决策模块中发现、分析、总结网络病毒特征等操作后进行相关应用,同时在此基础上进行科学有效地判断及决策,防止出现系统误判的问题,从而造成干预不当的现象,防止为病毒代码渗入系统留下可乘之机。
3.5 在数据预处理方面的应用
通过数据挖掘整理,全面了解病毒特征以及决策条件,同时在此基础上进行更进一步的分类、分析及审核,从而完善数据处理结果,这就是对数据的预处理。数据预处理通过科学的手段进一步验证网络安全问题,以提取出的验证指标和关键数据参数为构建防御系统的重要依据。由此可见,数据预处理在大数据挖掘技术应用过程中精准分析判断系统漏洞、病毒类型等原始特征的功能可以得以全面实现,使计算机系统的防御能力得到进一步的提升。
4 大数据挖掘技术的应用方向
入侵检测技术是网络安全防护中的重要组成部分。主要有两种检测形式,异常入侵检测和正常入侵检测。两者虽各有不同,但通常进行配合使用。大数据挖掘技术在入侵检测中的应用,可以实现入侵检测技术水平的极大提高,从而强化整体网络安全水平。
异常入侵检测的第一步是收集异常数据,要构建科学有效的分析模型,对已发生的入侵行为的特征进行分析汇总,进一步丰富异常数据模型。在这种操作方式下,如果再次发生非法入侵,因为存在与之前的异常入侵行为相似的特征,通过入侵检测技术就可以快速地得以识别其发生与扩散,从而保护网络安全。从技术层面上来讲,异常入侵检测的数据信息相对较为简单,比较容易建立数据模型。正是因为这种简单的特征,就只能通过这种技术来识别曾经发生过的异常入侵行为,却没有办法准确识别到还没有发生或者是发生前还没有攻破的入侵特征,由此可见仍存在较多漏洞。如果在这一过程中应用大数据挖掘技术,就能够建立协助入侵检测技术预测的功能,针对性地预测未知入侵行为。这一应用就是依托数据关联技术,提取曾经发生过的入侵行为的数据,并进行分析。深度挖掘分析入侵行为的攻击路径中通过分析产生的数据分类参数的设定标准,同时通过算法进行科学预测。通过二者的结合,使得大数据挖掘技术数据分析预测功能得到充分发挥,也实现了异常入侵检测对未知入侵行为的有效检测与预测,使入侵检测更加精准。
相比较异常入侵检测,正常的网络行为是正常入侵检测的对象,主要通过科学系统的分析与建模,以筛选、分析出正常模型特征。通过用户行为的特征与正常模型的特征进行对比的匹配度,确定是否是正常的网络行为。如果出现不相符的现象,即为不正常入侵。从技术层面讲,这种判断模式也会存在一定程度上的误差。鉴于此,在使用正常入侵检测技术时,可以通过对同类别数据信息的划分,更加精准的对数据进行分析,以确保其检测的精准度。
5 结论
网络应用伴随着网络时代的到来越来越多地渗透到人们生活中的方方面面,为社会发展和人们生活提供了各种便利,为大数据挖掘技术也带来了全新的变化和更多的机遇。与此同时,网络安全问题也成为衍生物,影响着人们的生活。因此,在大数据环境下,网络安全管理尤为重要。网络安全工作与大数据挖掘技术的融合,不但可以充分发挥大数据挖掘技术的优势,还可以显著提升网络防御病毒的能力,防止出现病毒程序入侵网络导致系统受损的现象。相比较传统网络安全技术,以发掘隐藏在网络安全数据中的安全信息及关键属性为手段,以及时发现并判断未知侵入行为为目的的大数据挖掘技术已成为当下网络安全应用的热门研究方向。正是由于这一技术的广泛、科学的运用,使得各种庞大的商业智能数据、科学应用数据及网络技术数据的安全性得以保障。未来,大数据挖掘技术的应用和研究还会进一步加强,网络安全问题还将提升到一个战略性的高度,只有这样整体网络环境才能更加健康。同时,也可以做出这样的判断,未来,关于大数据研究的相关技术应用,数据信息领域的各类研究以及发展趋势的判断将会是IT产业在物联网、5G网络产业之后又一重大的技术变革,可以断定这一变革势必将影响未来整个行业的发展。