大数据实训平台在高校专业教学中的建设和应用
2020-12-14陈丽丽
陈丽丽
摘要:大数据专业是现在非常热门的专业,各大高校自2015年起陆续开设了大数据专业,大数据专业是实践性比较强的专业,如何通过一个行之有效的大数据教学平台更好地达到增强实践能力的教学目的,是本文论述的主要问题。本文主要阐述了大数据专业实训平台的建设原则、建设过程以及实训平台在教学过程中的应用。
关键词:交互实训;集群;虚拟化;分布式
中图分类号:TP311 文献标识码: A
文章编号:1009-3044(2020)28-0108-03
Abstract:Big data major is a very popular major now. Every university has set up big data major since 2015. Big data major is a major with strong practicality. How to better achieve the purpose of enhancing practical ability through an effective big data teaching platform is the main problem discussed in this paper. This paper mainly expounds the construction principle, construction process and application of the training platform in the teaching process of big data specialty.
Key words:interactive training; cluster; virtualization; distributed
1 引言
随着高校在大数据教育方面的发展,各大高校相继设立了大数据专业,大数据专业的招生每年在逐步增长。但是与此同时高校在大数据专业建设上也面临着巨大的问题和挑战,例如:教学资源匮乏,现有实训教室无法满足大数据的教学需求,师资力量薄弱,缺少企业级的综合实训项目。针对这些问题,大数据实训平台项目提上立题议程,该平台从资源管理、课程管理、实训管理等方面去解决教学问题。
2 建设背景
近年来,国家大力推动大数据技术的发展和建设,大数据技术逐渐从概念走向落地的趋势,无论是互联网行业、通信行业,还是金融行业、服务业或是零售业大数据技术都得到广泛的运用,各大企业对大数据高端人才的需求也越来越紧迫,企业的IT人员要紧随大数据浪潮不断在提高自身的技术水平,各大高校也陆续开设大数据相关专业向企业输送人才。
2.1大数据政策背景
2014年以来,我国政府已将大数据明确提升到国家战略的高度,中央和很多地方政府都对大数据予以高度重视。
2015年以来,习近平在多个场合针对大数据发表重要讲话,明确指示要加快推动国家大数据战略。同时,为了进一步推动我国大数据技术的发展与大数据应用的尽快落地。
2016年6月,教育部下发了《教育信息化“十三五”规划》,从政策层面确定了教育大数据的建设方向。2016年2月教育部公布新增“数据科学与大数据技术”专业,2016年9月,正式批准增设“高职-大数据技术与应用专业” 。
2.2 大数据行业背景
各大企业为了寻求发展,也纷纷加入大数据行列,由此衍生了工业大数据、交通大数据、农业大数据、医疗大数据等行业应用。
2018年中国大数据产业规模为4384.5亿元,到2021年,中国大数据产业规模将超过8000亿元。
2018年全球大数据市场规模为420亿美元,到2024年,全球大数据市场规模超过840亿美元,年增长率为12.3%。
2.3大数据人才需求
越来越多的企业开始应用大数据,国内大数据人才供不应求。目前从各个招聘网站、各种人才分析报告来看,目前大数据岗位供需平衡严重不均衡,大部分受访的大数据相关企业也认为大数据人才严重短缺,是企业谋求发展所面临的关键问题之一。面对大数据人才荒,一方面,企业要加强已有技术人员大数据专业的技能培训;另一方面,各大高校广纳贤才寻求大数据专任老师并积极讨论研究大数据人才培养,争取最短时间内向企业输送大数据专业人才,实现校企合作互赢互利。
3 平台概述
大数据教学实训平台立足于当前大数据时代背景,深度研究高校大数据教学实训场景,深挖教学需求,是一款集教学、实验、实训、培训、测评、学情分析于一体的大数据专业教学平台。平台提供简单易用的教學、学习及运维管理功能。大数据专业技能点与实际项目案例相结合,让学生能够真实掌握每个技能点在实际项目中的实际应用。将一个项目拆分成多个实训,多个实训间共同使用同一实训环境,以实现项目的连贯性和真实性。项目提供整套的实训环境及配套工具,用户在切换实训时对应的实训环境不会改变,在下一个实训中会继续使用上一实训的环境,并最终完成该项目。
大数据教学实训平台提供先进、定制化的大数据课程体系,根据不同人才培养方案定制不同的课程,满足不同高校大数据教学及实训需求。
4 平台设计
4.1平台架构
4.2硬件环境
大数据实训平台的硬件环境有三部分构成,分别是高性能大数据实训一体机、大数据实训管理设备、实训台式机、数据可视化显示系统。
高性能大数据实训一体机是整个实训系统的核心硬件平台,提供整个实训室的基础IT资源,如计算能力、存储能力及网络能力等。
大数据实训管理设备负责整合全部计算资源、网络资源与存储资源,用于对计算资源服务器进行统一管理,同时也是云实训平台、数据中台等管理系统的支撑平台。
实训台式机采用普通终端PC机,组合成实训室局域网,支撑学生进行实训。
随着信息技术的发展,大屏显示技术也日益普及。一套优秀的数据可视化图像系统具备较高的图像显示能力、提供丰富的图像色彩,并且具有较高的兼容性,作为各种大数据项目数据以及图像可视化的集中显示终端,可有效用于数据监控及辅助决策。
4.3软件环境
为了满足高职院校大数据课程的教学、实训等多方面的需求,同时在一定程度上缓解大数据师资力量不足的问题。大数据技术与应用专业实训平台秉承“教学、科研、生产”一体化的思路和模式,从教学、实践、科研和生产多方面构架专业人才和特色人才的培养体系,真正在教学、科研、生产实现互相配合,形成教学、科研、生产的系统运作模式,从而协助构建高职院校的大数据特色专业。
大数据技术与应用实训室的软件环境由基础平台、实训系统、实训资源体系及实训案例体系构成。
4.3.1基础平台
基础平台包括云计算平台、云实训平台、数据中台。
云计算平台通过对硬件设备的虚拟化形成虚拟化资源池,可实现按需提供基础IT资源(包括计算能力、存储能力和网络能力),实现资源的“弹性”分配。用户通过Web界面实现对整个集群的集中管理,包括虚拟机、资源池、数据等,从而为用户提供可靠,优质的虚拟环境。
云实训平台旨在提供便捷的实训功能,完成对实训指导手册、实训数据集、实训过程、实训报告、实训成绩等教学实训过程的管理。同时,提供对学生、教师的信息管理。
数据中台通过对本地数据仓库集群以及外部数据库数据源的关联绑定,实现对海量数据的存储、分析、查询、迁移、导出等功能,为用户提供方便、灵活的数据管理服务方便用户进行实训案例的设计。
4.3.2大数据实训系统
大数据实训系统包括数据采集与预处理实训系统、大数据离线分析实训系统、大数据实时分析实训系统、数据可视化实训系统等涉及大数据采集、清洗、存储、分析、可视化各个环节的实训,学生可充分利用该实训系统进行大数据基本业务流程的操作训练。
4.3.3实训资源体系
大数据实训资源体系主要以实训任务为驱动,通过多方面的实训内容辅助教学。通过原理验证、实训应用、综合分析及自主设计等多层次的实训操作,为大数据的教学科研提供一整套完整的、一体化的大数据实训教学体系。该大数据实训资源体系全部来源于企业真实的项目转化成果,所有内容贴合实际运用,数据源来源真实可靠,模拟行业具体业务流程操作,能够让学生真实感受IT行业的真实工作流程。
根据大数据相关技术学习路径,至少包括(但不限于):大数据离线分析环境部署教学实训包、大数据实时分析环境部署教学实训包、数据采集与预处理教学实训包、大数据离线存储与分析教学实训包、大数据实时分析教学实训包、数据可视化教学实训包。该资源体系辅助大数据实训系统可充分提升实训效果和效率。
4.3.4实训案例体系
实训案例体系引入不同类别的行业典型大数据方面的应用作为行业案例,针对特定的行业需求、面向不同类型、不同来源、不同频率的数据渠道采用不同类型的大数据架构和处理方法,以协助客户开展具有针对性的生产性实训教学。
实训案例主要包括:招聘市场监控分析实训系统、农业大数据实训系统、交通数据监控分析实训系统、疫情数据监控分析实训系统。学生在掌握基本业务流程的操作后,可通过具体生产业务的操作训练,快速融入实际工作岗位。
5 研究方法和技术路线
5.1虚拟化技术分析
虚拟化技术是云计算的关键技术,它的用途是对计算机物理资源进行池化,并把物理资源做合理的分配。物理资源包括服务器、网络和存储。但是计算资源的池化不一定要用虚拟化技术,金属裸机也能池化,比如 IBM 的Softlayer就是直接使用物理机来实现云计算的。
可以动手做个实验:购买一台计算机(配置:雙核 3.0GB CPU、4GB 内存、500GB 硬盘、1000MB 网卡),首先安装 Windows 7 操作系统,把所有的硬件驱动安装好,然后安装办公软件、QQ、音视频播放软件和 C 语言开发工具等。接下来安装 VMware Workstation 12.0 虚拟化软件,安装完成后重新启动计算机,并双击桌面上的“VMware Workstation”图标启动虚拟化软件,在里面可以创建很多虚拟机,拟机里安装的操作系统分别是 Windows 7、Windows 8、Windows Server 2012、Windows XP 和Linux的各种发行版。只要不启动虚拟机,就不会消耗内存和 CPU 资源,但是会占用硬盘空间。能同时启动的虚拟机数目与计算机的物理内存容量和 CPU 速度有关。另一款免费的桌面虚拟机软件是 Oracle 公司的VirtualBox。
CPU 发展到多核,且本身就支持虚拟化。虚拟化软件厂商直接推出了能运行在裸机上的虚拟化软件层,如微软的 Windows Hyper-v 2012、EMC 的ESXi6、思杰的XenServer、红帽的 RHEV-H等,然后在虚拟化软件层上直接创建更多的虚拟机,虚拟化软件层消耗的计算资源很少,一般在 10% 以内,相比前面的方法,同一台物理机可以运行更多的虚拟机。
5.2集群技术分析
负载均衡技术用于解决如何把许多互不相关的小型任务或中型任务合理地分配到不同的服务器上的问题。互不相关的小型任务或中型任务是指任务之间没有关联性,而且只用一台服务器就可以完成的任务。绝大多数个人租户的任务都属于这类任务。对于大型任务,由于一台服务器无法按时完成,所以就要把大型任务拆分成许多中小型任务,然后再分配给多台服务器,由它们协同完成,这就是计算机集群技术所要解决的问题。对租户来说,由很多台服务器组成的集群系统就像一台超级计算机,不管运行多么复杂、大型的任务,马上就能得到结果。而具备同样计算能力的超级计算机价格却异常昂贵,所以当 PC 服务器价格大幅度下降之后,人们热衷于采用廉价的集群系统来完成各种高性能的计算任务。比较明显的例子就是,谷歌公司用几万台服务器组建搜索集群系统,而且服务器都是他们自己组装的。
集群是一个复杂的工程,它涉及很多分布式方面的基础算法,如选举算法、一致算法、波算法、快照、故障检测等。Hadoop就是一个集群系统,它负责分布式系统的基础算法,从而在Hadoop上编写分布式程序就简单多了。
5.3分布式技术分析
HDFS(Distributed File System)分布式文件系统是Hadoop生态系统中的重要组成部分,HDFS分布式文件系统是基于流式的数据访问模式,它可以将同一网络内大量的计算机组成一个庞大的存储集群,从而来实现海量数据的分布式存储。HDFS分布式文件系统的存储不需要高价格高性能的服务器来支撑,一些低成本的PC机也能添加到存储集群中,从而降低了数据存储的成本。
随着互联网的快速发展,每个应用系统要存储的数据量也在成本的增加,对数据的存储提出了更高的要求,第一要有较高的吞吐量,第二要有较高的容错能力,第三要有较高的性能和存储效率,HDFS分布式文件系统正是具备了以上的特点,因此被广泛地应用于大数据项目的数据存储上。
6 关键技术及解决方法
基于Hadoop2.0分布式存储和分布式计算大数据平台的构建,整体架构设计的实现如下:
本次采用Hadoop2.0 HDFS的高可用架构;Hadoop集群中有2个NameNode节点和5个DataNode节点,两个NameNode节点互为备份,一个节点处于活动状态,另外一个节点处于备用状态。Hadoop2.0中的ZooKeeper担当两个NameNode服务器节点的协调工作,ZooKeeper是一个分布式协调服务,它可以在HDFS高可用集群中提供故障自动转移服务的功能。所有服务器之间配置SSH免密访问,可以方便各节点间的访问,同时为了保障Hadoop集群的安全性,大力加强安全网络设置和用户身份的验证。
7 平台应用
大数据教学实训平台中将用户分为管理员、教师和学生,三种角色拥有不同的权限,有各自的操作工作区。
7.1管理员工作区
管理员工作区是大数据实训平台的统一管理后台,该工作区可进行教学资源管理、课程资源管理、实验报告设置,用户管理,权限管理,安全设置等操作。
7.2教师工作区
教师工作区是大数据实训平台的教师教学模块,该工作区可进行课程管理、实验管理、实验报告管理、实验督导、成绩管理、实验监控管理、学情分析等操作。
7.3学生工作区
学生工作区是大数据实训平台的学生学习模块,该工作区可进行课程学习、观看教学视频、实验训练、编写实验报告、考試考核、成绩查询等操作。
8 结语
本项目的落地切实能在大数据教学上提供非常大的帮助,实现信息化和师生的交互教学,切实地提高大数据专业的上课效率、安全性及协同工作能力,降低设备采购的成本。
项目成功实施之后,减少大批量高性能台式机的采购成本,只要配置少量高性能服务器就能完成高质量的实训教学,并且大大地提高上课的效率。
实训平台的可扩展性极高,技术先进参照企业的生成标准,可确保今后好几年年不需要更换平台,可以在需要的情况下增加新的功能,提供实训平台的版本的升级。在服务器上安装虚拟环境,可以布置多个不同的应用程序,大大提高了服务器的利用率,对各个应用系统实施动态冗余管理,系统可靠性有明显提升。
参考文献:
[1] 林子雨.大数据技术原理与应用[M].2版.北京:人民邮电出版社,2017.
[2] [英] 维克托·迈尔·舍恩伯格(Viktor Mayer-Sch?nberger).大数据时代:生活、工作与思维的大变革 a revolution that will transform how we live,work and think[M].周涛译.杭州:浙江人民出版社,2013.
[3] 李贺华.基于云计算机系统的实训平台研究与实现[J].实验技术与管理,2015,32(3):157-160,202.
【通联编辑:梁书】