高职院校大数据实训平台建设与应用研究
2018-12-25陈凤妹
陈凤妹
随着移动互联网、物联网、社交网络等应用的快速发展,传统教育基础设施存在安全性低、配置复杂、升级成本高等一系列问题,数据的集中管理和维护变得困难,对组建新的基于云计算的教育信息化基础设施提出新要求——进一步建立教育信息化公共服务平台。随着大数据技术的快速发展,其在社会各个领域中得到了广泛的应用,主要用于数据分析和处理,这样不仅可以满足时代发展需求,而且还可以更好的推动经济社会发展。
国务院常务会议于2015年通过了《关于促进大数据发展行动纲要》,其中明确提出:“创新人才培养模式,建立健全多层次、多类型的大数据人才培養体系 ”,强调了大数据这一基础性战略资料的重要性,教育部高等教育司也于 2016年面向高职院校的专业设置中增加了“大数据技术与应用”专业。为此,一些高校也设置了大数据的相关专业,在一定程度上推动了大数据产业的发展。由于大数据专业属于时代发展的新型专业,虽然一些高校已经开设了该专业,并对其进行了不断的摸索和创新,但是缺乏可供直接借鉴和套用的模式。因此,本文将会立足于大数据人才培养要求和社会人才需求,结合硅湖职业技术学院大数据相关课程和大数据实验室来对大数据实训平台建设与应用情况进行分析和探究。
一、大数据实训平台设计
(一)大数据处理平台
Apache开发的 Hadoop分布式系统基础架构,能够为整个实训平台提供所需要的数据支持。该处理平台除了提供包括分布式文件系统和分布式计算框架MapReduce。HDFS和MapReduce分别为海量数据提高数据存储和数据技术,实现了计算与存储的高度耦合。伴随Hadoop项目结构的不断发展,逐渐形成了一个丰富的Hadoop生态系统,主要有:安装部署工具Ambari、作业流调度系统Oozie、数据仓库Hive、内存计算Spark、资源调度管理框架YARN、数据库TEL工具 Sqoop、分布式海量日志分析工具Flume、分布式协调服务Zookeeper、分布式数据库HBase、分布式文件存储系统HDFS、离线计算MapReduce、DAG计算Tez、等主流组件。为了确保实训工作的顺利进行,并能够从大量无序的海量数据中更准确、更稳定、更快速、更可靠地挖掘有价值的信息,则需要在易管理性、安全性、高可用性等领域来进一步优化大数据处理平台。
(二)在线教学管理平台
该平台对现有在线学习系统的功能进行了借鉴和引用,并选择了B/S架构,从而实现对实训教材、教学课程、教学资源库等开展访问授权和集中管理。同时,也增设了在线测试、在线评估等辅助功能,从而使教学质量得到有效提升。
(三)云件服务平台
在大数据领域,云计算技术属于一项关键技术手段。该平台可以借助互联网技术来为用户提供云端服务,与传统邮箱、网盘和在线办公等软件进行对比发现,云服务平台不仅对桌面软件进行了改造,而且本地软硬件需要依赖于大量的计算支持。实际上,云服务平台也是一种SaaS的服务方式,其通常将终端的运行环境和操作系统迁移到云端。并借助统一的交互平台来确保交互功能的顺利实现。同时,云服务平台还能够像在线互动教学平台一样,借助虚拟教学桌面来为广大师生提供在线测试、资源共享、分组讨论等功能,从而确保课堂教学活动的顺利进行,有效提高教学质量;虚拟实验桌面还可以为师生提供实验应用环境和Hadoop部署环境,以确保大数据基础理论教学和实训工作的顺利进行。
(四)虚拟化实训平台
通常情况下,大数据技术需要依赖于虚拟化技术的支撑,并且在开展实训操作阶段,各类大数据组件的数据分析、安装部署等操作都是在虚拟机上开展的,该平台可以提供虚拟化网络环境设置、虚拟机的创建与配置、存储资源分配等管理功能,以确保实训人员能够顺利的完成实训操作。
(五)算法建模平台
数据可视化建模和大数据分析一般是大数据技术具体应用的直接表现。数据可视化的主要工具有:Excel、SPSS、Tableau。算法建模分析平台集数据可视化建模功能和大数据分析功能为一体,并支持典型的数据分析算法,以确保实训人员能够直接通过以拖拽方式、图形化组件等方式搭建数据分析模型,使大数据建模难度有效降低。
(六)教师、学生和管理员用户平台
教师端。包括:实训课程内容、实训管理、管理学生、查看学生算法、成绩管理、上传实训文件、实训报告管理。教师可以登录教师用户平台,来查看实训课程、系统运行环境及实训内容。课程管理涉及到一系列的基础课程,此时教师就可以根据实际情况来筛选课程内容,以确保课堂教学活动的顺利进行;同时,教师还可以借助课程内容管理模块,来编辑和管理课程知识点内容,并做好课程的拓展和维护管理工作。
学生端。包括:查看和阅读实训指导书、算法和实训报告提交、算法对比和算法演示分析、修改学生个人信息、查看成绩。通过登陆账号,学生可以查看与本人相关的课程情况,并完成对相关课程的学习。课程一般包含实训系统、实训指导书及实训成果等相关内容;进入实训菜单,能够对实训文档、实训手册填写情况、实训的视频文件进行查看;实训报告提交后,也可查看到任课老师的具体评分及实训笔记等情况。
管理员用户平台。包括:学习资源、运算节点的管理、学生计算作业、查看具体进度进展、强制关闭系统。通常情况下,管理员在登录管理员平台后,能够查看课程、内容、账户、系统等选项。系统管理模块通常可以查看运行设备、检测系统、容器环境等的状态;内容管理模块通常是对教师和系统提供的内容进行管理与维护;课程管理模块通常是对基础和拓展内容进行管理与维护;用户管理模块通常是对学生和教师的账号进行管理。
二、大数据技术
(一)大规模并行处理(MPP)数据库
在数据库非共享集群中,任何一个节点都有独立的内存系统和磁盘存储系统,根据应用特点和数据库模型可以把业务数据划分到各个节点上,并借助商业通用网络或专用网络实现每台数据节点的互相连接和彼此协同计算。实际上,非共享数据库集群具有高可用、高性能、可伸缩性、资源共享、优秀的性价比等优势。在MPP中,数据加载可以并列运行,并保证所有节点能够同时对数据进行读取,并根据散列算法,来获取自己所需要的数据信息,然后以网络的方式把节点数据传输给目标节点,从而实现对高速数据的有效加载。
(二)分布式数据挖掘(DDM)
在20世纪90年代后期DDM开始被人所关注,其一般是借助分布式计算机来对分布式数据资源进行有效的挖掘,并对局部结果进行整合。通常情况下,DDM的实施并非都以站点间纯粹独立挖掘方式为主,如果某个(些)站点的计算、存储和通信能力比较强时,能够对其他站点的数据资源进行有效的汇聚,从而形成“局部集中、全局分布”挖掘方式。同时,DDM中的数据并非全部来自于分布式数据源,对于既拥有分布式站点,又拥有海量集中数据的组织而言,其能够把数据分散到各站点,并借助站点资源来开展分布式挖掘,从而有效提高数据的挖掘效率。
三、大数据技术分析工具
(一)R语言
R语言是一个用于数据处理、统计计算和统计制图的优秀工具,具有卓越的作图功能的软件系统。是属于GNU系统的一个自由、免费、源代码开放的软件系统。对于R语言而言,其具有比较强大的统计分析功能,可以更好的满足大数据处理环境。通常情况下,语言一般是以R软件包的方式来对统计分析和数学计算工具进行发布,以确保开发者可以在開放环境中对各类数据进行灵活地处理,并结合用户特点来构建统计计算模型,以确保数据处理工作的顺利进行。例如在 Hadoop中,通过对TB和PB量级数据的处理,能够得到GB量级数据,其可通过MapReduce处理,将被缩小后的数据再放在R语言中利用信息传递接口MPI进行计算处理,大大提高了数据处理的效率。
(二)Python语言
Python是一种完全面向对象的语言。任何计算机编程语言都有其相对比较适用的领域,例如,R语言在数据分析与制图领域广泛应用,Java在系统开发领域广泛应用,Matlab在数值计算及矩阵运算领域广泛应用,Python语言在大数据的策略分析领域广泛应用。其中,Python语言也包含了R语言所具备的数据挖掘功能,在进行大规模数据处理过程中发挥着重要的作用。为了更好的方便于更多的人员能够使用大数据支撑平台,Python还融入了Jupyter开发环境,此时可以借助Jupyterlab编写Python代码,进而实现与大数据平台的有效交互,完成对复杂大数据的系统分析。此外,Python语言还能够有效的集成Fortran、C/C++语言的代码,并对其应用功能进行了有效的扩展。
(三)Spark
Spark是通过Scala语言实现的,Scala语言是能够像操作本地集合对象一样轻松地操作的分布式数据集,是一种面向对象、函数式编程语言。Spark是向无环图DAG执行引擎,以支持循环数据流与内存计算。它在内存中处理数据的速度相较于MapReduce快大约100倍,它在磁盘中处理数据的速度相较于MapReduce快大约10倍。
Spark不仅支持Scala编写应用程序,而且支持Java、Scala、Python、R、SQL。它提供了80多种高级特性用于交互式并行计算。
S p a r k可以运行在多个地方,例如可以运行在 Hadoop的Yarn上、Apache Mesos上、Kubernetes上、standalone或云上。Spark还可以访问多个数据源,比如:HDFS、Cassandra、HBase、Hive等数百个其他数据源中的数据。
四、结语
总之,随着物联网、云计算、大数据、移动互联网等科学技术的发展,有效的推动了教育信息化建设的发展,而大数据技术实训平台的建设,充分利用了在线学习平台的应用功能,将大数据实训的各个环节连接到一起,使得大数据实训服务变得更方便便捷,随时随地可用、迅速启动和完成。有利于提高学生专业素质和就业技能,培养立足社会需求的大数据人才,达成良好的社会经济效益等。