APP下载

大数据背景下高校校园网络信息安全问题探究

2020-11-06杨佳丽

现代信息科技 2020年12期
关键词:数据处理大数据

摘  要:以现有高校校园网络体系结构为依托,利用大数据的可视化分析和数据挖掘技术,分别从大数据背景下高校校园网络体系结构存在的风险、网络信息安全监测与分析、网络信息安全防护策略三个维度进行分析。通过对网络环境下数据的清洗、去冗等操作,实现对数据的安全访问和隐私保护,從而为高校校园网络信息安全实施主动免疫可信计算。

关键词:大数据;高校网络安全;数据处理

中图分类号:TP309     文献标识码:A 文章编号:2096-4706(2020)12-0148-03

Abstract:Relying on the existing university campus network architecture,combined with the big data visualization analysis and data mining technology,from the massive data to the challenges of the existing university campus network model,network information security monitoring and analysis,network information security protection strategy three dimensions are analyzed. Through the operations such as cleaning and deduplication of data in the network environment,safe access to data and privacy protection are realized,so as to implement active immune trusted computing for campus network information security.

Keywords:big data;college network security;data processing

0  引  言

近年来,随着互联网、云计算和物联网的迅猛发展,数以亿计的互联网服务时时刻刻都在产生巨量的数据,数据规模积极扩大对现有高校校园网络信息安全造成了一定冲击。所以在大数据背景下,如何确保高校校园网络信息安全,已经成为一个急需探讨的问题。

1  大数据的概念

大数据是指数据规模大、数据形式多样、非结构化特征明显而导致数据存储、处理和挖掘异常困难的数据集,其具有规模大、种类多、速度快、价值密度低和真实性差等特点。由于高校校园人员密集,大学生防范意识较弱,在现有数据存储与共享环境下,如何消除各种网络信息安全隐患与漏洞,有效保护校园网络信息安全是一个重要的研究方向。

2  大数据背景下高校校园网络体系结构存在的风险

2.1  数据处理的安全

随着数据规模增大,电子方式存储的数据总量飞速增长,数据规模的急剧扩大超过了当前计算机存储与处理能力,而且数据形式多样化、非结构化特征明显。如何有效地提高数据处理的安全性至关重要。例如数据在录入、处理、统计或打印中由于硬件故障、断电、死机、任务的误操作、程序缺陷、病毒或黑客等造成的数据库损坏或数据丢失都是需要关注的问题。

2.2  数据的存储安全

大数据是计算机和互联网相结合的产物,计算机实现了数据的数字化,互联网实现了数据的网络化,新的数据正在以指数级加速产生,在“人、机、物”三元世界在网络空间融合的过程中,网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,对高校现有网络体系数据存储的物理安全性提出了更高的挑战。这里的物理安全主要指数据信息存储介质的损坏,物理安全隐患包括网络异常下的数据安全传输、人员误操作导致的文件删除和信息泄露及停电断电等设备故障。数据存储的安全是指数据库在系统运行之外的可读性,对于一个标准的SQL Server数据库,一旦数据库被盗,即使没有原来的系统程序,也可以另外编写程序对盗取的数据库进行增删改查操作。因此需要考虑现有计算机网络通信的保密、安全及软件保护等问题。

3  大数据下网络信息安全监测与分析

西安财经大学行知学院校园网络体系结构如图1所示,主要采用混合型拓扑结构,由星型拓扑结构和点对点拓扑结构组成。学校根据部门及业务需求进行子网划分,子网之间根据用户需求可以相互访问。其中行政办公网、生活区网、教务系统网、学生宿舍网、DMZ(独立的网络区域)安全网是星型拓扑结构的叠加,网络管理平台和对外服务器采用点对点的拓扑结构。

本校校园网络在核心层采用三层交换机,为了防止其中某个交换机或链路失效,在设计时采用主备交换机设备和双链路部署,确保网络安全的容错性。核心层的两个交换机连接的ATM交换机采用GE(1 000 Mbps)的带宽速率,其余连接均使用FE(100 Mbps)的带宽速率。对于教务系统来说,其承载着高校师生选课、考试、登录成绩、四六级报名等核心业务,面对这种喷发式的数据访问量,为了确保网络信息的安全性,在对网络体系结构进行部署时,采用双链路来提高链路数据传输效率及安全性。防火墙和对外服务器间接入IPS(入侵预防系统)用来监视网络或网络设备的网络资料传输行为。

我校网络信息安全保障体系主要采用深度保护战略模型,如图2所示,主要包含保护局域网计算环境、保护区域边界、保护网络和基础设施、保护支撑基础设施。深度保护战略体系包含人、技术和操作三个要素。在网络体系结构设计时,分别从内网接口的安全防护和对外网接口的安全防护为切入点。在内网接口设计时,采用防火墙在内外网之间实施访问控制策略,在没有采取安全措施的情况下,禁止内容以任何形式直接接入因特网。对外网接口的设计时,设立DMZ(独立的网络区域)与外部网络交换信息,并采取有效的安全措施,保障该信息交换区不接受非授权的访问,来自外部网络的特定主机,经身份认证后方可访问内部网络指定的主机。

在深度保护战略模型下,如何从数据输入源进行防护尤为重要,因此,利用大数据处理技术,通过数据采集与记录,数据抽取、清洗与标记、数据集成、转换与约简,数据分析与建模和数据解释对我校网络信息进行监测,从而分析出有价值的数据信息,大数据处理全过程如图3所示。

3.1  数据采集与记录

数据采集主要是利用数据库提取来自Web、APP或传感器形式的数据,可通过系统日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。本次主要采用网络爬虫方式,通过Python语言的Request库爬取网页内容,使用Beautiful Soup 4库分析网页中的数据,每个网络用户搜索的网页数据信息被封装在一个tr结构中,然后再提取网络信息安全关键字td,存储到二维列表中,关键代码如下:

allUniv=[]   #存储全部表格数据,二维列表

def fillUnivlist(soup):

data = soup.find_all('tr')   #找到所有tr標签

for tr in data:

singleUniv=[]

ltd = tr.find_all('td')    #在每个tr标签中找到所有td标签

for td in ltd:

singleUniv.append(td.string)   #提取td标签中的信息

allUniv.append(singleUniv)

3.2  数据抽取、清洗与标记

在前期对数据进行采集之后,需要对数据进行有效分析,将前端数据抽取到分布式数据库,同时可对数据进行清洗,消除异常数据、清除重复数据、保证数据的完整性。这里采用Twitter的Storm对数据进行流式计算,数据持续地流经一个转换实体网络,如图4所示,接收器(处理数据)实现了一个流上的单一转换和一个Storm拓扑结构中的所有处理,通过过滤、聚合对数据进行抽取清洗标记。流起源于喷嘴,喷嘴将数据从外部来源流入Storm拓扑结构中。

3.3  数据集成、转换与约简

数据集成是把不同来源、格式、特点性质的数据在逻辑或物理上有机地集中,从而解决数据的分布性和异构性,数据集成系统如图5所示。在对我校校园网络数据的预处理过程中,同时需要进行数据转换与约简处理。数据转换主要是数据平滑、数据聚集、数据泛化和数据规范化。数据约简是基于数据挖掘,寻找网络信息安全关键字,在保持数据原貌的前提下,最大限度地精简数据量。

3.4  数据分析与建模

数据分析旨在对杂乱无章的数据进行集中、萃取和提炼,进而找出研究对象。采用常用的基本数据分析方法中的统计方法,通过制作图表,计算特征量,使用数理统计方法选定模型。

3.5  数据解释

数据解释的目的是帮助网络用户理解分析结果,主要检查所提出的假设并对分析结果进行解释,采用云计算、标签云、关系图等可视化方式展现大数据分析结果。

4  高校校园网络信息安全防护策略

4.1  基础设施支持

针对高校校园网络基础设施,从承载大数据的角度来看,在数据中心和虚拟设备之间使用VLAN作为虚拟主机,由于防火墙需要检查通过防火墙的每个数据包,已经成为大数据快速计算能力的瓶颈,因此高校校园需要采用分流策略,分离传统用户流量和大数据安全数据的流量,确保只有受信服务器流量才可以通过加密网络通道及防火墙。

4.2  保护虚拟服务器

通过在服务器上按照NIST标准打补丁,卸载不必要的服务,同时为大数据中心部署备份服务,且对备份进行加密,因为安全数据站点发生数据泄露事故都是由于备份媒介的丢失或被盗。另外,定期对系统进行更新,部署系统监视工具对网络系统进行集中监控和控制。

4.3  制定严格的培训计划

在大数据背景下,面对激增的数据量和高速运转的环境,需要为网络安全维护人员定制一个系统的培训计划,培训计划应该着眼于数据的分析和使用过程,因为安全大数据仓库将通过这些过程来标记和报告异常的活动和网络流量。

5  结  论

随着数据量的不断增大,网络和数字化生活方式使得高校学生更容易成为不法分子的攻击目标,大数据下高校校园网络信息安全问题已成为热点问题。将大数据处理技术应用于传统高校的网络体系结构中,借助于大数据的后向分析能力,对网络数据流量做出预测性的判断,可以提前预防网络信息安全事件的发生。

参考文献:

[1] 李治城,胡欣宇.大数据背景下数据安全与隐私保护问题研究 [J].物联网技术,2020,10(6):76-78.

[2] 张晓宇.大数据时代下计算机网络信息安全问题探讨 [J].信息技术与信息化,2020(5):171-173.

[3] 丁晓东.大数据与人工智能时代的个人信息立法——论新科技对信息隐私的挑战 [J].北京航空航天大学学报(社会科学版),2020,33(3):8-16+71.

作者简介:杨佳丽(1987—),女,汉族,陕西西安人,网络工程师,硕士,研究方向:计算机网络通信技术。

猜你喜欢

数据处理大数据
电容式传感系统数据处理电路的设计
基于ARCGIS 的三种数据处理方法的效率对比研究
贵州开建FAST科学研究与数据处理中心
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
视频大数据处理的设计与应用
影响计算机数据处理的因素方法研究
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索