基于Hadoop的面向信管专业的数据分析与数据挖掘课程群的构建研究
2018-01-04杨菲菲
杨菲菲
摘要:从社会需求出发,将大数据和信息管理与信息系统专业有机结合,构建了基于Hadoop的面向信管专业的数据分析与数据挖掘课程群。根据课程群建设思路,确定了该课程群的教学目标,找到对应的知识能力体系,确定了课程,构建了该课程群的课程体系,以期为信管专业的改革发展提供参考。
关键词:Hadoop;数据分析与数据挖掘;课程群;信管专业
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)28-0095-03
Research on Curriculum Group of Data Analysis and Data Mining Based on Hadoop of Information Management and Information System
YANG Fei-fei
(ShandongYouthUniversityofPoliticalScience, Jinan 250103, China)
Abstract: From the point of social needs,combining the big data and information management and information system specialty, a data analysis and data mining course group based on Hadoop is built. According to the train of thought of the course group construction, the corresponding knowledge ability system is found and the curriculum is determined in this paper. The construction of curriculum system will provide some reference for the reform and development of the information management and information system.
Key words: Hadoop;data Analysis and data Mining;curriculum group;information management and information system
1 引言
在大数据时代,数据就是最珍贵的资源,数据将引领传统行业,并将与之结合,催化出不可低估的影响力,大数据本身就是一个大的系统,在系统内部进行数据分析从而得出数据的价值。大数据蓬勃发展的背景下,社会对具有数据管理和分析能力的人才需求在迅猛增长,其需求量超过对传统信息管理人才的需求量,所需人员必须拥有相应的技术水平、管理水平、社会交往能力、信息系统分析和开发能力,更重要的是对数据进行有效分析的能力。事实上,数据管理与分析已渗透到社会经济的各个领域,社会需要能够进行数据管理与分析的创新型人才。随着大数据技术的发展,信息管理与信息系统专业的侧重点从信息系统开发将转移到信息资源的利用上。因此,国内很多高校对于信息管理与信息系统的课程体系及课程群也进行了相关的研究。汪祖柱[1]在大数据背景下的信息管理与信息系统专业课程建设中指出在课程体系中添加数据挖掘,及数据分析相应的语言;高岩[2]以数据治理能力为导向构建的数据处理课程群,其主要课程包括数据结构、数据库系统原理、信息资源管理、信息安全等,培养学生在数据组织、元/主数据管理、数据质量、数据安全、数据集成等方面的能力。山东理工大学的刘婷婷等[3]在人才培养目标中也强调学生不但要掌握现代信息系统的规划、分析、设计、实施和运维等方面的方法与技术,更要具有现代管理科学思想和较强的信息系统开发利用以及数据分析处理能力。信息管理与信息系统专业是和大数据联系最为紧密的专业,为了应对大数据分析与应用的挑战,抓住机遇,找到我校信息管理与信息系统专业的特色,拓宽就业生的就业范围,在信息管理与信息系统专业中建设并实践数据分析与数据挖掘课程群是非常迫切的任务。
2 课程群建设的基本思路
课程群是围绕一定专业的人才培养目标要求,为了完成某种能力的培养,由若干门具有逻辑关系的课程重新规划、整合构建的有机结合体。课程间相互连接、相互支撑、相互配合,教学内容要具有系统性、关联性和整体性[4]。它的建设不是简单的课程堆积,需要从实际应用的角度对教学内容进行系统设计,对相关课程的整体内容、结构、关联性进行整体优化,各课程形成一个有机联系的整体,才能称得上是真正的课程群[5]。课程群打破了课程内容的归属性,弱化了课程的独立性,强化课程之间的亲和性,使它们在一个更高的层面上连贯起来。
图1 课程群建设思路
在进行课程群的构建时,采用如图1的建设思路。首先根据建设课程群的目的确定课程群教学目标,即该课程群在专业人才培养中的地位及作用,然后分解该目标找到对应的知识体系、实践能力和综合素质,继而找到对应的课程,有了课程需要根据所对应的知识点撰写课程大纲,还需要有完成该课程群所需要的保障条件,课程群有效实施后,实现课程群的目标,形成了闭环。
在构建课程群时除了理论知识的优化整合外,还需要考虑实践环节的统筹,建立合理的实践教学体系也是课程群建设的重要部分。
3 数据分析与数据挖掘课程群的构建
3.1课程群教学目标
课程群的构建不能脱离專业人才培养,课程体系建设是专业培养目标相适应的整个课程体系为对象,是属于宏观层面的课程建设;课程的建设是一单独课程为建设对象,属于微观层面的课程建设;课程群的建设是以相对独立的课程整体为建设对象,具有明确的教学目标与培养任务,属于中观层面的建设。
根据信息管理与信息系统专业的人才培养目标,数据分析与数据挖掘课程群在整个人才培养中的地位非常重要,学生应该掌握数据采集、存储、分析与挖掘以及可视化的相关方法和技术,具备数据分析与数据挖掘的能力,在目前大数据的背景下,学生应该具备以Hadoop为技术支持的数据分析与数据挖掘的能力。
3.2课程群的构建
根据以上课程群的教学目标,以数据分析与数据挖掘的流程来找到对应的知识体系,进而确定对应的课程以及课程的前导后续关系。
3.2.1 能力培养的流程
以Hadoop为技术基础的数据分析与数据挖掘的流程如图2所示。
数据分析与数据挖掘的第一步必须有大量的数据,数据的来源可以是已存储的数据,也可以是从网络或系统中提取的数据,在此,我们着重教给学生从网络自行爬取数据的方法。
数据采集后,需要对数据进行清洗,即对数据进行预处理,处理好之后进行存储,目前,数据库的存储可以使用关系型数据库、非关系型数据库、分布式文件存储数据库等。因为构建的是以Hadoop为技术基础的课程群,在此我们着重培养学生使用分布式文件存储数据库的能力。
数据存储后,可以对数据进行分析与挖掘,使用大数据技术中的MapReduce以及数据挖掘、数据统计的方法对数据进行分析挖掘。
数据挖掘后,以图表的形式展现清晰明了,需要对数据进行数据可视化。
3.2.2课程群知识体系的构建
根据上述流程,逐个分析各个流程中需要用的知识技能。
1)数据采集
数据采集中着重培养学生从网络爬取数据的能力,在目前众多的方法中选取比较流行的前沿语言Python语言,在此流程中,需要用到的知识技能如下:
(1)学生需要掌握数据采集的基本原理
(2)掌握Python语言的基本语法
(3)具备使用Python语言进行数据采集的能力。
2)数据存储
数据存储中,需要对数据进行预处理,然后实现分布式存储,需要用到的知识技能如下:
(1)数据预处理的原理方法,包括数据清洗、数据集成、数据变换和数据规约。
(2)Hadoop體系结构
(3)HDFS分布式文件系统的基本原理及运行机制
(4)掌握一门分布式文件存储数据库,这里选用比较前沿的MongoDB。
对于关系型数据库,在数据库原理专业基础课中已经讲述,在此不再纳入该课程体系的范畴。
3)数据分析与数据挖掘
对数据进行预处理和存储后,可以根据目标对数据进行分析与挖掘了。在此,需要使用的知识技能如下:
(1)掌握数据统计的基本原理
(2)掌握数据挖掘的经典算法和典型工具
(3)理解MapReduce编程模型的原理
(4)掌握简单的MapReduce程序的编写
(5)掌握Python中Pandas库numpy数值计算方法
4)数据可视化
数据可视化在目前的数据分析中用的非常多,也有很多的工具。为了使该课程群具有前后连贯性和统一性,在此,使用Python语言中数据可视化的工具包,需要使用到的知识技能如下:
(1)掌握matplotlib的使用方法,matplotlib是Python中最基本的可视化工具
(2)掌握seaborn的使用,seaborn是一个非常漂亮的可视化工具。
以上,根据课程群的建设目标,找到了对应的知识体系。
3.2.2 课程的构建
根据上述中对课程知识点的分析描述,对课程进行合并归纳,找到课程群中的课程,课程群推导过程如图3所示。
从图3中,根据每个流程中对应的知识点,找到对应的课程,对课程进行内容合并,课程群的主要课程包括Python语言、数据预处理、统计学、数据挖掘、大数据技术、MongoDB数据库六门课程。其中,Python语言课程的讲解中需要包括的内容有网络爬虫的应用、Python语言数据分析与挖掘、Python语言可视化。为了更好地提高学生的实践能力,将整个课程的内容按照能力培养的流程从头到尾进行贯穿,在课程学习结束后,增加了一个数据分析与数据挖掘项目综合实训。
3.2.3课程群的课程体系
为了更好地达到该课程群的教学目标,对课程群中的课程以及支撑课程进行分析,得出数据分析与数据挖掘课程群的课程体系,如图4所示。
学生学习数据分析与数据挖掘的课程,需要具有计算机科学的基础,掌握面向对象的计算机编程思想和数据描述方法,需要开设数据结构、计算机网络、数据库原理、程序设计语言等课程;为了给学生将来从事数据分析、数据挖掘等相关工作奠定基础,以数学和统计为基础,掌握基本的数学逻辑思维方法,需要开设微积分、线性代数、概率论与数理统计等课程,这些构成了数据分析与数据挖掘课程群的支撑平台,为数据分析与数据挖掘课程群的开设奠定了基础。
课程的开设先后关系如图4中所示。Python语言是整个课程群的语言基础,贯穿整个课程群的学习,所以放在最前面,根据信管专业的课程体系整体安排,建议在第四学期开设。数据预处理和MongoDB数据库也是比较基础的课程,Python语言中采集部分需要用到相关知识,所以与Python语言课程一起开设。根据能力培养的流程,将大数据技术、统计学在第五学期开设,数据挖掘在第六学期开设,在整个课程学习完后,第六学期的期末进行数据分析与数据挖掘综合项目实训。
数据分析与数据挖掘课程群的具体的教学安排如表1所示,其中学分是指理论课和实验课的总学分,其中理论课的1学分为16课时,实践课的1学分为32课时,如“2+2”表示32课时的理论课和64学分的实验课。另外,项目综合实训属于集中实践环节,2学分为2周的时间。
4 结束语
在当前大数据背景下,基于Hadoop技术的面向信管专业的数据分析与数据挖掘课程群的构建研究是信息管理与信息系统专业与大数据结合的一次创新。以社会的需求为导向,以培养学生的数据分析与数据挖掘的能力为目标,同时培养学生运用数据思维分析和解决实际问题的能力。此课程群的有效实施,还需要有完善的实践平台以及一支知识结构合理、教学水平高的教学团队,这是以后重点建设的方向。
参考文献:
[1]汪祖柱.大数据背景下的信息管理与信息系统专业课程建设[J] .宿州学院学报,2015(2):121-122.
[2]高岩. 大数据背景下信息管理专业的课程群建设[J].计算机教育,2014(12):8-10.
[3]刘婷婷, 李长仪, 张立涛.大数据时代下信息管理与信息系统专业培养模式研究[J].中国电力教育,2014(2):48-50.
[4] 石洪波,冀素琴,吕亚丽,郭珉.财经院校信息类专业数据管理与分析课程群体系研究[J].高等财经教育研究,2015(9):54-58.
[5] 张景森,杜振川,周俊杰,许云,张静.高校课程群建设理论与实践中的几个问题[J]. 现代教育科学,2015(9):64-69.
【通联编辑:王力】