关于大数据人才培养的思考与探索
2014-03-01黄晋
黄 晋
(华南师范大学 计算机学院,广东 广州 510631)
一、引言
随着计算机软硬件技术的快速发展,计算技术已从传统的P C平台计算模式发展到嵌入式计算、移动计算、并行计算和服务计算等多种计算系统并存及融合的计算模式,处理的对象也呈现出网络化、多媒体化、大数据化和智能化需求的特征,而物联网、移动互联网的快速发展促进了这一趋势,从而迎来了大数据时代的到来。大数据是继云计算、物联网之后兴起的又一新兴发展方向,被学术界、工业界乃至政府机构密切关注和广泛研究。
大数据又称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极的目的的资讯。在维克托·迈尔·舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。一般说来,大数据具有4 V的特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
二、大数据时代对人才的要求
从广义上讲,大数据人才就是具备大数据处理能力的科学家和工程师。目前,国际上开设了大量的数据科学方面的课程、数据科学学位计划以及数据科学短期培训班。从国际上设置的培养计划来看,大数据人才应该系统地掌握数据分析相关的技能,主要包括数学、统计学、数据分析、商业分析和自然语言处理等,具有较宽的知识面,具有独立获取知识的能力,具有较强的实践能力、创新意识和团队合作意识。具体来说,大数据人才首先应具备获取大数据的能力,例如能根据任务的具体要求,综合利用各种计算机手段和知识,收集整理海量数据并加以存储,为支撑相关的决策和行为做好数据准备。其次,应具备分析大数据的能力,对于经过预处理的各类数据,能够根据具体的需求,进行选择、转换、加载,采用有效方法和模型对数据进行分析,并形成分析报告,为实际问题提供决策依据。最后,应具备良好的团队合作精神,大数据时代下的数据分析任务通常无法依赖个人能力来完成,需要在团队制度的约束下,与他人一同携手、互相鼓励、分工合作来实现既定目标,因此具备较强的责任心与团队合作精神也是大数据从业人员必备的基本条件。
三、大数据人才培养的探索
大数据产业的发展,对大数据人才提出了新的需求,国内各高校在积极进行大数据学术研究的同时,也开始考虑将大数据相关课程纳入培养体系,以满足社会对大数据人才的需求。以下结合作者在数据库及分布式技术系列课程中的教学经验,以及大数据分析与处理方面的实践经验,探讨大数据系列课程教学内容和实践形式的设置。
在教学内容的设置上,大数据系列课程建议可分为理论教学和技术教学两个方面,因为理论是大数据认知的必经途径,也是被广泛认同和传播的基线;而技术是大数据价值体现的手段和前进的基石。在理论方面,讲授的理论内容可涵盖如下几点:
(1)大数据概念:大数据概念出现的历史,关于大数据定义的各种流派以及说明,大数据的四个特征,大数据与云计算、物联网的关系,大数据与大规模数据、海量数据的差别。这个部分主要突出“大数据”概念中应包含的“对数据对象的处理行为”。
(2)典型的大数据应用实例:精选有新意的大数据分析典型案例,可帮助学生更清晰的理解大数据的概念和含义,这样的案例如:美国梅西百货的实时定价机制(根据需求和库存的情况对多达7300万种货品进行实时调价)、百度搜索的实时热点排行榜(以数亿网民的搜索行为作为数据基础,建立权威的关键词排行榜与分类热点)、沃尔玛的搜索引擎Polaris(利用语义数据进行文本分析、机器学习和同义词挖掘使得在线购物的完成率提升了10%~15%)、谷歌流感趋势工具(通过跟踪搜索词相关数据来判断全美地区的流感情况)等。在教学过程中,教师应注意将授课的重点放在系统化的开发步骤和关键性问题的求解上,介绍案例的设计思想、主要方法和应用过程等。
(3)大数据关键技术与挑战:介绍大数据时代面临的新挑战,包括大数据集成(数据异构性和数据质量问题)、大数据分析(数据形式多样化、数据处理的实时性、索引结构的复杂性等)、大数据隐私问题(隐私保护和数据分析的矛盾)、大数据能耗问题(低功耗硬件的设计)、大数据处理与硬件的协同、大数据管理易用性问题以及性能测试基准。
(4)大数据存储和管理技术:介绍如何把采集到的大数据存储起来,建立相应的数据库,并进行管理和调用。主要内容包括:分布式文件系统(HDFS)、去冗余及高效低成本的大数据存储技术、新型数据库技术(键值数据库、列存数据库、图存数据库以及文档数据库等)、异构数据融合技术、分布式非关系型大数据管理与处理技术、大数据索引技术和大数据移动、备份、复制等技术。
(5)大数据分析及挖掘技术:介绍从大量数据中寻找其规律的技术,通常由数据准备、规律寻找和规律表示3个阶段组成。数据准备是从上述大数据中心存储的数据中选取所需数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含规律找出来;规律表示则是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。
在技术方面,可考虑分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程,具体可包括以下几点:
(1)NoSQL技术:NoSQL产生的背景、NoSQL现状、NoSQL数据库与关系数据库的比较、聚合数据模型、分布式模型、数据一致性、典型的NoSQL数据库分类、NoSQL数据库开源软件。
(2)MapReduce:MapReduce模型概述、编程模型:Map和Reduce函数、MapReduce工作流程、并行计算的实现、实例、Yarn等
(3)Hadoop分布式文件系统:Hadoop出现的背景、Hadoop的功能与作用、为什么不用关系型数据库管理系统、Hadoop的优点、Hadoop的应用现状和发展趋势、Hadoop项目及其结构、Hadoop的体系结构、Hadoop与分布式开发、Hadoop应用案例、Hadoop平台上的海量数据排序。
(4)还可进一步包括数据流的管理与挖掘、云数据库、图数据库等。
由于大数据系列课程所涉及的技术具有很强的应用背景和实践意义,因此应摒弃传统教学模式中“重理论、轻实践”的思想,在掌握大数据相关的理论知识和技术知识之后,还需重点培养学生的综合实践能力,以满足社会就业的需要。为此,应设立一定的大数据技术实践课程内容,帮助学生从知识型向能力型转变。结合上一节分析的大数据时代对人才的具体要求,建议按以下流程设置实践环节的内容:
(1)分组。如前所述,大数据时代下的数据分析任务通常需要以团队的形式来完成,因此首先要求学生根据自身情况,结合各自的技术优势,合理进行分组。
(2)选题。在具体选题上,可使用校企合作的具体项目或以Apache Hadoop、MongoDB、Dremel、Gephi 等一系列的开源大数据分析软件作为实践平台,以Kaggle为数据科学平台来进行选题。
(3)明确需求并撰写大数据分析任务书。明确选定的题目范围内,数据分析要研究的主要问题和预期的分析目标。只有明确了数据分析的目标,才能正确地制定数据收集方案,即收集哪些数据,采用怎样的方式收集等,进而为数据分析做好准备。
(4)数据收集及预处理。由于大数据分析最终的结果与其获取的数据质量紧密相关,因此收集的数据是否真正符合数据分析的目标是必须注意的重要问题。该步骤要求学生从分析目标出发,从浩瀚的数据中正确的收集高质量且服务于既定分析目标的数据,然后对数据进行必要的加工整理,包括填写空缺值、平滑噪声数据、识别和删除孤立点、解决不一致性、规范化(消除冗余属性)和聚集(数据汇总)等。
(5)探索性数据分析。由于大数据分析的数据量通常达到PB甚至YB级以上,因此希望直接选定一个分析模型是不现实的,而且面对高维海量数据,也很难直接看出数据的规律。在这个步骤中,应指导学生通过基本描述统计量的计算、基本统计图形的绘制、用各种形式的方程拟合等手段,计算某些特征量等方法探索规律性的可能形式,帮助学生快速掌握数据的分布特征,这是进一步深入分析和建模的基础。
(6)模型选定分析。在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。有时选择几种统计分析方法对数据进行探索性的反复分析也是极为重要的。每一种统计分析方法都有自己的特点和局限,因此,一般需要选择几种方法反复印证分析,仅依据一种分析方法的结果就断然下结论是不科学的。
(7)模型的验证及分析报告。指导学生对选择的数据分析模型及结果进行分析,可使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。观察模型提供决策的信息是否充分、可信,所发挥的作用是否与期望值一致,数据分析方法是否合理,是否将风险控制在可接受的范围。
以上这种项目式实践形式的优势是:在学生参与完成某一具体的大数据分析任务过程中,通过主动地学习来自主地进行知识的建构,让学生经历项目开发的整个过程,从中去发现和掌握相关知识,达到既能熟悉大数据分析过程,又完成了经验的积累,还能实现学习知识、培养能力的目的。在这里,教师不再是知识的传授者,而是项目活动的组织者和咨询者。
四、校企合作推动人才培养
一方面,大数据的核心业务必然是一种扎根于特定行业,综合运用已有的存储、分析、挖掘、展现技术,根据用户需求并融入行业特色技术模型的一站式大数据平台业务。另一方面,对于企业来说,各类业务产生的数据为数据分析创造了非常好的基础条件。大数据解决方案是有价值的,但是苦于找不到既懂数据分析技术,又懂得业务的专业人才。由此可见,既懂得相关技术,又谙熟企业业务的复合型人才才是企业部署大数据应用最迫切需要的人才。因此,企业可以与学校联合培养自己所需要的大数据人才,这种方式有两方面的优势:一是大数据技能训练的对象,即大量的数据,只有企业才具备;二是在企业的支持下,学校也能通过针对性的实践训练来培养学生的大数据处理技能。
大数据时代下的校企合作的形式多种多样,可通过联合办学、联合制定人才培养方案、合作开发课程和教学内容、设置实训项目、教学管理和共建“双师”结构教学团队等形式展开。
五、结语
未来的十年将是一个“大数据”引领的智慧科技的时代。随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络,由此产生的数据及增长速度将比历史上的任何时期都要多,都要快。“大数据”时代的脚步悄然而至,未来几年,中国项目数据分析专业人才需求达几十万人以上。国内高校应及时关注大数据时代的数据分析人才培养,融基础理论、实验教学、工程实践为一体,为大数据这样的新兴产业发展输出高层次、实用性、国际化的复合型专业人才,确保产业科学、持续、高速的发展。