APP下载

基于大数据高校信息系统的方案设计与风险控制

2019-10-08杨爱华

电子技术与软件工程 2019年15期
关键词:数据挖掘评估算法

文/杨爱华

在“互联网+教育”的时代背景下,应当深入挖掘高校信息的大数据的“金山银库”,充分发挥高校信息管理大数据开发应用的效益。但现阶段高校教育中,各系统产生的数据分散保存在不同的数据库中,存在严重的“信息孤岛”,同时互联网教育数据和第三方部门数据未能得到充分利用,无法为教育提供全面的数据支撑。大数据挖掘技术可以很好地解决这个问题。例如,大数据可以通过分析学生的一卡通中的就餐情况,给学生提供科学配餐的建议。大数据可关注学生的消费情况,选定贫困生并给与帮助的建议。可见,根据高校信息构建一个大数据挖掘系统,对高校实行统筹管理是大有必要的。

1 构建系统方案

基于大数据高校信息系统是一个大数据离线分析的系统,将集合数据挖掘以及机器学习的技术,通过建立数据分析模型,利用机器学习以及数据统计的分析方法,对海量数据进行挖掘分析,从中发现隐藏的数据以及背后隐藏的运行规则,并将挖掘结果进行可视化展示,为数据分析人员提供一个良好的交互式分析系统。

1.1 设计方案

根据现状调研与需求分析情况,结合高校对数据分析的需求,设计高校信息大数据挖掘分析系统。技术系统应考虑从架构设计、功能要求、运行环境要求、性能要求、配置要求、集成要求、系统安全要求、扩展性要求、易用性要求等方面进行分析并以此设计系统的具体工作。

基于大数据高校信息系统功能框架的子系统应具备的功能组成,包括数据预处理、大数据挖掘、大数据存储、算法管理、任务管理、任务执行调度、数据展示与分析、模型评估、角色管理等。

1.1.1 数据预处理

现实中的数据大多数是“脏”数据,即信息不完整数据,仅仅包含聚集数据或者缺少属性值的数据,含噪音数据,存在偏离期望的离群值或者包含明显数据错误,比如 age=“-8”;还有编码和名字不一致的“脏”数据,如果要精准预测和计算出结果,需要一致性、准确性、完整性、可信性高的数据。但由于获得的数据大,难免会出现数据的不完整、冗余度高、杂乱的状况。

数据预处理为大数据挖掘准备的有价值的数据,提供大数据分析需要的数据集,包括数据的加载、数据的抽取、数据的转换、数据的清洗、数据的聚合等。数据加载支持从诸如HDFS等大数据存储设备中加载数据,加载的数据内容最好支持Avro数据格式。根据大数据挖掘以及机器学习的需要,对数据进行相应的处理,最后生成满足分析要求的数据集。

1.1.2 大数据挖掘

大数据挖掘利用机器学习算法,对预处理产生的数据集进行挖掘分析。通过聚类、分类、统计、关联分析、回归、聚合分析等各种机器学习算法,对数据集进行分组统计、排重统计、频度分析等各种挖掘分析,形成数据分析结果。

图1:算法管理页面

1.1.3 大数据存储

大数据存储对大数据挖掘形成的分析结果,存储到大数据环境中,支持存储到HDFS环境中存储。此系统采用数据存储部分集成大数据hadoop的生态环境,集成HDFS,挖掘计算的结果存储HDFS,系统通用功能存储使用关系数据库。

1.1.4 算法管理

大数据挖掘中,算法是精髓。系统用到的数据挖掘算法有决策树、K-均值聚类、Apriori算法、AdaBoost算法、K-近邻算法、朴素贝叶斯等经典算法。实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。

在系统中设置算法管理功能。所谓算法管理,即将机器学习算法统一进行配置和管理。在此,可以进行算法的插装和算法参数的定义。插装的算法可以在挖掘分析中使用。算法可升级,在hadoop集群环境下,在hdfs指定的目录下,替换算法插件包。

算法管理是用于对数据挖掘分析中所需算法信息以及算法参数的管理,方便用户对数据挖掘分析中所用到的算法进行管理。

(1)支持算法的添加:算法基本信息、类型、算法参数的名称、默认值、展示形式等;

(2)支持算法基本信息及算法参数的修改、删除;

(3)支持算法基本信息、算法的搜索以及参数的查看。

算法管理页面内容如图1所示。

1.1.5 任务管理与监控系统

系统中数据计算集成大数据计算环境,利用Spark的计算集群进行数据的计算,利用web框架管理与应用框架管理的功能,对计算的任务进行管理与调度。其任务管理是对大数据计算与分析的任务进行管理,包括任务的配置、任务的提交、结算结果的查看等功能。监控系统,对任务的提交以及任务计算进行管理。可查看任务依赖关系及运行状态,查看任务运行状态及运行日志。

1.1.6 数据展示与数据分析

数据展示对计算分析的结果进行展示,并提供对计算结果进行交互分析的界面。分析的结果以图表化的方式直观的展现给用户。大数据可视化具有直观性的优点,可以直观展示高校各项工作指标和变化趋势,让高校教育决策有“数”可依。

1.2 模型评估

最后,我们需要对建立的模型进行评估。模型评估将使用统计分析的方法对模型指标进行统计计算,基于历史数据计算出模型指标值的均值、方差、标准差等参数的实际阈值与历史阈值进行比较,通过阈值偏离度来评估模型是否有效,当模型指标计算需要的指标元数据为空、模型指标偏离度超过预设偏离度时将给出预警信息,便于用户对模型指标进行跟踪分析。

模型评估任务,尽量支持批量评估任务跟踪执行情况统计;支持评估任务运行进度、任务状态的实时跟踪;支持评估任务运行中被终止等。模型评估预警 ,尽量支持评估预警结果详情查看,支持评估预警报告导出,支持模型指标阈值、偏离度重置。

2 风险控制

基于大数据高校信息系统的作用是毋容置疑的,教师信息、教务系统、学生考试系统等各种数据信息价值是非常大的,但如果这些数据未能被进行有效保护,同样带来很大的安全隐患。若系统运行中被黑客攻击,重要数据被篡改,考试信息数据被窃取,系统密码被获取,后果不堪设想,需加强系统的安全建设。所以要整个系统的生命周期都要注重系统安全问题,定期对开发团队进行安全培训,并聘请渗透测试专家对系统进行漏洞扫描并及时进行漏洞的修复,让安全问题消失在萌芽状态。

3 结束语

大数据产业已经上升至国家战略的高度,渗透到社会生活和经济发展的各个方面。“大数据”这个名词已经根植在我们的大脑里。但如何有效利用大数据还是个正在探索的过程。高校信息管理是一项庞大、繁琐的工作,需要用大数据技术挖掘有效数据,并为管理工作提供量化决策依据。根据调研高校信息管理的现状,在大数据环境下采用Hadoop与Spark结合的方式初步勾画出一个可行的高校信息系统设计方案。并对系统在开发中预计出现的风险给出相应的风险控制措施建议。

猜你喜欢

数据挖掘评估算法
探讨人工智能与数据挖掘发展趋势
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
基于并行计算的大数据挖掘在电网中的应用
一种改进的整周模糊度去相关算法
一种基于Hadoop的大数据挖掘云服务及应用
评估依据
立法后评估:且行且尽善
基于GPGPU的离散数据挖掘研究