高校网络日志大数据分析平台研究
2017-04-26单康康王佶常晓洁牟星亮张华朱生
单康康+王佶+常晓洁+牟星亮+张华+朱生
摘 要: 许多高校面临着用户快速增长、网络数据庞大、信息安全隐患等多方面的问题,校园网每天生成NAT、DNS、Web、VPN等海量网络日志,对网络IT运维管理和大数据处理提出挑战。通过介绍一种基于大数据的海量网络日志分析平台,研究大数据分析平台的技术架构与总线模块,实现了对校园网海量日志进行统一收集与大数据分析。
关键词: 校园网; 信息化建设; 网络日志; 运维管理; 大数据分析
中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2017)04- -03
Abstract: Many colleges and universities are faced with the problems of rapid growth of users, massive network data and information security risks etc., the campus network generates massive network logs of NAT, DNS, Web, VPN and so on, it challenges the network IT Operations Management (ITOM) and big data processing. This paper introduces a massive network logs analysis platform based on the big data technology, studies the technology architecture and bus module of big data analysis platform, and realizes the collection and big data analysis of the campus massive network logs.
Key words: campus network; information construction; network logs; ITOM; big data analysis
0 引言
随着信息技术日新月异,各类应用层出不穷,部分高校已经建成一个集普适服务网、科研学术专网、物联感知专网于一体,融数据、语音、视频等各类信息通讯能力于一身,高速通畅、安全可靠的下一代校园综合支撑网络环境[1]。高校网络用户逐年递增,网站流量、DNS域名解析、VPN数据、邮箱等应用每天产生海量数据。对校园网每天产生的海量日志进行存储、计算、分析,研究如何充分利用大数据技术对校园网数据进行有效整合,更好地为广大师生提供服务,为学校管理者提供更好的决策依据十分必要,这也是校园网运维未来发展和打造智慧校园的一部分。
1 需求与目标
高校的信息化建设普遍面临着运维问题,即:校园网络用户规模逐年递增,运维难度增大、比较被动、效率低。用户基本通过电话报修,运维人员难以远程定位故障,而上门维护时又难以再现故障,现有的网络运维管理系统对运维的支持力度有限。如何充分利用现有的运维管理软件,以及各类有线网/无线网运维过程产生的大量的结构化和非结构化的数据,是亟待解决的一个主要问题。
我们需要具备更强大的数据存储、处理、分析的大数据平台,以提高校园有线与无线网络的运维效率、大数据分析和利用能力,需建设一套涵盖有线与无线网大数据运维支持平台系统,实现校园网运行数据的获取、存储、分析[2]。通过大数据处理,实现运维分析和查询,提高运维主动性和效率、解决运维难题,能够解决目前运维过程中发生的问题。例如,将现有VPN有线上网日志、无线上网用户日志、DNS域名日志、网站访问日志等相关的数据库、信息系统日志文本数据等进行相关的处理分析,以提高运维方面的效率。该平台软件系统需要能够平滑扩展,为未来的海量数据分析提供更多的数据利用的应用接口。
2 校园网大数据分析平台总体框架
2.1 平台拓扑
校园网大数据分析平台,对有线网和无线网运行数据进行获取、存储、分析,通过大数据处理,实现运维分析和查询,提高校园网运维主动性和效率,能够解决目前运维过程中发生的问题。图1为校园网大数据平台拓扑结构。
2.2 平台角色定义
校园网大数据分析平台有如下系统功能角色定义和要求,如表1。
2.3 功能模块
校园网大数据分析平台需实现以下基本功能模块。
⑴ 数据感知与获取
运维数据不仅是实时数据,更要历史数据,定期采集的多业务系统的历史数据,对运维分析十分有用。整合认证系统、用户管理系统、网管系统等多业务系统的数据[3],实时或离线收集有线网络/无线网络的设备运行于用户状态数据,实现统一的数据管理分析平台,解决多平台之间手动切换的低效率运行模式。
⑵ 数据存储与管理
大数据运维支撑平台可以按需将历史数据进行展示,可以是以用户为中心的历史展示,也可以是以设备为中心的历史数据展示。例如,用户报修宿舍有线/无线网络不稳定或者信号差等问题并提供账号和房间号等简单信息,运维人员可以根据该用户的历史数据进行分析,例如历史关联AP信息,历史信号强度信息等分析故障原因,实现数据支持的运维模式,提高运维效率。
⑶ 数据挖掘与计算
提供一个全面、准确、快速的跨系统检索、比对、碰撞,同时又能进行海量数据运算,为全校网络运维和无线AP故障排查提供智能化服务的应用平台是当前的迫切需求[4]。例如:无线网运行数据汇聚与处理功能模块,提供AP事件聚合,Top 10 AP使用统计等功能;无线网运维人员查询定位功能模块,通过配置管理和调用地图,确定AP位置,同时能够通过搜索快速定位;无线全网运行情况统计功能模块,支持基于上网地点、所在小区、客户端类型、使用的上网设备型号等方面的统计;无线网智能化分析判断功能模块,要求能够支持报警信息分析,支持图表方式实时监控上下载速度、AP连接终端数、AP状态,快速定位故障AP位置等功能,为实现快速运维优化提供技术保障。
⑷ 数据安全与共享
校园网络数据日志能够较好地体现全校师生的日常活动范围、日常生活情况、日常心理状态等,这些对于提高全校师生的管理是非常有效的。利用相关数据日志,通过有效的数据挖掘、数据研判,获取相关有用的信息,已成为校园管理信息化的基本要求。数据共享要求实现用户隐私的保护,确保数据安全。通过处理分析数据,推送给第三方业务分析厂商使用,深度挖掘数据的价值[5]。在提供给第三方厂商开发或其他使用时,需要对提供的数据进行合理處理。如确保关键个人隐私信息如(身份证、电话号码)部分位置隐藏等。
3 结束语
大数据技术的发展为数字化校园建设带来了新的技术手段和依据。本文研究校园网络日志大数据分析平台架构和功能模块,对有线网和无线网运行数据进行获取、存储、分析,通过大数据处理,实现运维分析和查询,提高校园网运维主动性和效率,能够解决目前运维过程中发生的问题,针对高校大数据的实际情况,有针对性地利用大数据思想和技术,充分发掘和分析高校大数据的价值,可以有效的加强运维保障水平,提高数据管理质量,提升部门工作效率,为高校管理决策提供支撑,并对教学、学习、校园安全的开展十分有益。
参考文献(Reference):
[1] 任凯,邓武,俞琰.基于大数据技术的网络日志分析系统研究[J].现代电子技术,2016.39(2):39-41
[2] 姜开达,章思宇,孙强.基于Hadoop的校园网站日志系统的设计与实现[J].华东师范大学学报:自然科学版,2015.B03:126-131
[3] 章思宇,孙强,姜开达.自动化运维中的大数据分析[J].中国教育网络,2015.7:27-28
[4] 张春生,郭长杰,尹兆涛.基于大数据技术的IT基础设施日志分析系统设计与实现[J].微型电脑应用,2016.32(6):49-52
[5] 单留举,王晓东,马英运.基于大数据的用户学习偏好建模及应用[J].计算机应用与软件,2016.33(1):77-80