数据人才培养模式探索与实践
2020-12-19李志杰
李志杰
(湖南理工学院 信息科学与工程学院,湖南 岳阳 414006)
0 引 言
大数据是信息化发展的新阶段。对于大学工科专业,无论是培养科研后备力量,还是为工业界输送技术人才,都应该拓展大数据相关理论方法与应用的教学[1]。据报道,中国大数据与人工智能人才缺口超过500 万人,大数据已上升到国家战略的高度。
2017 年2 月以来,教育部积极推进新工科建设,大数据教育是重要内容,我国一些高校陆续新开设了大数据专业。教育部分别于2016 年2 月、2017 年3 月、2018 年3 月公布了第一批、第二批、第三批新增数据科学与大数据技术专业的高校名单,获批高校的数量分别为3、32、250所,呈井喷状态增加。同时,高校已办的许多信息类相关专业(范围涵盖理科、工科,甚至是文科),为了使培养的学生适应新形势的需要,在原有专业课程培养体系内,也开始增设一些大数据相关课程,如大数据基础、云计算与大数据、数据分析等。
不过,大数据教育越是大热门,越需要冷思考。目前,国内高校的大数据教育处于起步阶段,数据人才需求巨大、师资力量薄弱、教育体系不足、教学方法陈旧……这些现象都有不同程度的表现。在弥补高达500 万的大数据和人工智能人才缺口之前,中国的大数据与人工智能教育必须先跨过这些门槛,才有可能进入世界的第一梯队[2-3]。
新工科建设需要新的教育理念和新的教学方法作为支撑。数据人才培养是一项系统工程,为了培养出合格的数据科学人才,必须创新数据人才培养模式。
1 大数据教育现状
1.1 国内高校大数据教学现状
1)部分高校未开设专门的大数据教学模块。
国内还有部分高校,至今尚未开设专门的大数据教学模块。就本科教学而言,这些高校数据统计分析与挖掘的教学,主要放在大学三年级的数据基础模块,代表性课程为概率论,开课教师多为理学院教师,带有通识性教育的特点。这些基础教学模块并没有对大数据及相关的理论分析与应用技术做充分的强调与训练[4]。
2)已开设的大数据类课程教学,实验平台建设面临不少挑战[5]。
大数据类课程实验教学面临的挑战主要如下:①实际案例太少;②没有完善的平台支持(如平台搭建、实验环境等);③师资力量不强,任课教师的知识结构需更新;④大数据实验门槛太高(对计算资源需求大);⑤学生只靠十几个实验学时是无法真正提高技能的;⑥学生能随时随地做大数据的实验;⑦课件和案例需要更新;⑧学校网络环境不好,需要离线实验;⑨机房教师工作负担过重、压力大,效率低。
1.2 中美大数据产业落差
美国数据分析科学家Derek Wang 博士认为,“企业数据分析,中美在理念方面相差2~3 年,而在实际执行层面或许有5 年左右的差距。”3~5年的差距,在瞬息万变的信息社会,是一道不小的鸿沟。那么这道鸿沟,到底是怎么造成的呢?
美国在数据分析方面的教育上,就在努力转型实践“T”字形理念:科研项目不再是由计算机系、商学院或者统计专业的学生单独进行,而是多个专业融合起来,形成整体战略方向,也就是“T”的那一“横”。这种前沿的教育理念,即使在美国,也才出现不到三四年,但它取得的效果是根本性的:正是在这样的教育方式下,美国培养出了第一批数据科学家,引导了企业的数据革命。
中国受到传统教育体制的限制,更重视纵深的专业技能,也就是“T”的那一“竖”,缺少跨学科和专业的综合性体制建立。这样培养出来的人才,无法主动引导企业建立和完善数据分析机制,让企业可以在短时间内就从“数据分析”中受益。这也反映出中美人才梯队和培养机制的巨大区别[6-8]。在Derek Wang 博士看来,数据人才培养上的差异,是造成中美大数据产业“五年鸿沟”的根本原因。
针对国内高校大数据教学现状,比较中美两国数据人才培养上的差异,本文探讨新形势下的数据人才培养模式。这种数据人才培养模式主要围绕弥补教育体系不足、转型数据人才培养观、产学研融合、大数据项目案例驱动教学改革等方面展开,如图1 所示。
2 产学研融合是大数据教育必由之路
近年来的诸多实践证明,想培养真正合格的大数据人才,产学研融合是一条可行之路,也是必由之路。甚至可以说,大数据产业的高速发展正在倒逼高校大数据与人工智能学科的建设。这也是为什么中国像百度、腾讯、华为、阿里巴巴、科大讯飞等互联网企业如此重视与高校的合作,或推出一站式开发平台,或向高校输送企业导师,或与教育主管部门合作举办师资培训班并进行教材编纂……虽然这些举措对于企业来说显得有些“不务正业”,但从某种程度上来说,这些企业的眼光才是真的长远[9]。
众所周知,学界和业界应该教学相长,这个教学相长也是双赢的过程。高校可以从企业界得到最前沿的资源和数据;企业则可通过一系列的措施进行人才储备、产业布局、技术迭代等,从而占得发展先机。
在大数据蓬勃发展的今天,无论是高校还是企业,如果能更好地抓住产学研融合的机遇,势必能赢得先机和主动,获得长足的发展。中国的大数据教育最终会在高校和企业不懈地努力与深入合作之下,开花结果,培养出真正合格的数据人才。这是中国高校大数据教育的必由之路。
3 项目案例驱动的大数据教学改革
3.1 实验平台建设
建设在线学习与实验平台,给学生创造随时随地学习的实验环境。一台笔记本就可以开始实验,有网络时用网络上的大平台实验(如百度的AIStudio 在线平台),无网络时用我们开发的实验系统也能实验。学生可以随时随地沉浸式学习。例如,开课用的实验平台采用多种平台集成VMWare+Ubuntu+Spark+PaddlePaddle 等。该平台对硬件平台的要求低,I5CPU+4G 内存的普通PC 能在2 个小时的上机时间内完成多个大数据实验,一站式解决大数据上机难的问题。该方案适合解决学校短期内大数据平台建设尚未完善、经费不足而急需开课的问题[9-10]。
3.2 项目案例驱动教学
大数据理论教学必须与工科专业结合,以相关案例驱动大数据教学过程。
在理论教学中,以案例应用为载体,采用以点带面的思路进行教学内容的组织,细化教学目标并编写讲义。例如,在大数据教育体系中,“大数据基础”课程是一门必修基础课程。该课程基于分布式架构实现技术,技术内容丰富,涵盖数据采集、预处理、存储、管理、数据分析与可视化等。通过分析该课程的定位、教学内容与教材现状,我们细化教学目标,确立了以相关案例驱动大数据教学过程的思路,并组织编写教材用于实际教学,取得了良好的教学效果。
实验教学,以知识应用与实践技能培养为重点内容。在大数据实验实训环节,以案例应用为载体,设计实际应用场景,学生组队(3~5 人一组)完成项目案例实验。同时,适度引入大数据最新技术以保证课程内容先进性。以“大数据基础”课程为例,该课程需要系统讲述大数据典型软件的安装、使用和基础编程方法,使学生系统地掌握操作系统(Linux 和Windows)、开发工具(Eclipse)以及大数据相关软件(Kafka、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、数据可视化工具)。为了达到教学目标,我们在编写教材时,精心设计了15 个实验案例,基本覆盖了课程的主要知识点,“大数据基础”课程教学全过程由大数据实际项目案例驱动。
针对大数据处理需要复杂度更低的可行算法,甚至在有些情况下需要设计并行算法,安排专门环节教授并行计算相关内容,设计实践导向的课程项目,训练学生的自主编程能力。由于基于分布式架构实现技术,相对于传统课程,“大数据基础”课程的教师教学与学生学习难度更大。对于分布式并行环境下的机器学习与数据挖掘主要算法,如MapReduce 编程、PageRank 算法、深度学习应用案例等,我们都安排专门环节教授相关内容并设计实验案例,确保学生并行计算自主编程能力达到教学目标要求。
实践表明,以在线学习与实验平台为基础,通过案例问题导向的方式更容易激发学生的学习兴趣和对理论的理解。另外,在具体案例分析过程中,多采用以点带面的内容安排技巧,从一点出发逐步扩展,可以更好地帮助学生获得课程理论的清晰脉络。
3.3 师资建设
大数据教育对教师提出了更高的要求。教师既要对计算机等信息类学科有较深的认识和理解,又要熟悉大数据应用技术,特别是要有大数据实际系统开发经验[9]。
目前,相当多的高校尽管已开设了大数据相关专业或课程,却存在师资严重缺乏的现象。由于数据科学人才需求旺盛,愿意进入高校从事大数据教育的人才非常多,但现有的师资大多来源于计算机等与大数据相近的学科,多数教师并无大数据项目经验。此外,由于时间紧迫以及经费不足等原因,教师培训机会也不多。
合格的师资哪里来?①大数据教学不是单纯的课堂理论教学,它的实践性要求由项目案例驱动教学。教师需要科学研究的积累,才能设计出好的大数据项目案例,教师要想尽办法多申请或参与大数据方面的课题;②加强与企业的交流与合作,参与大公司的实际项目。大数据教育工作者最缺乏的就是易于理解与操作的实例,而这些实例恰恰不在高校,在企业中;③有计划地选派教师参加大数据师资培训,由于大数据与行业结合紧密,培训最好结合企业实际案例,切实提高教师对应用层面项目的实战教学能力;④鼓励教师积极采用现代教育技术,建设大数据精品课程,在项目案例驱动的大数据教学改革中,引入工业界广泛应用的框架和项目案例,开发实验系统平台、编写实验指导书、开放在线学习与交流平台,全方位地提高教师教学能力与水平。
3.4 教学与考核方式改革
相对于传统课程,无论教师教学还是学生学习,大数据课程的难度更大。为了取得良好的教学效果,实现课程教学的目标,教学方式的改革很有必要。
在大数据课程教学实践中,以学生为主体,根据学生志趣与课程特点,在理论与实验教学过程中,设计以案例驱动教学、以问题提升教学、以“鼓励”提升教学3 种先进教学方法。同时,积极使用现代教学技术与手段,如申报慕课、借鉴翻转课堂手段等。
在课程考核方面,采用平时、理论与实践相结合的多样化考核方法。考核内容强调实践操作能力与应用技能考核,加大实践考核的比例。比如,在总分100 分中,平时成绩(包括考勤、作业、课堂提问等)占20%,理论考核(期末)占30%,实践技能考核占50%。
大数据课程考核的成绩评定由平时、理论、实践相结合综合评定,考核方法向多元化、全程化、科学化、综合化转变,通过课程考核的引领作用来激励学生的积极性,切实提高教学质量。
3.5 激发学生创造力
“以学生为中心”,以多种方式充分激发学生的主动性与创造性。
1)完成课程设计。
只靠十几个课程实验学时,只能完成实验环境及基本技能训练,还要通过工程实训与课后学习等环节完成课程设计。
2)参加技术竞赛。
数据科学人才仅仅在课堂上的培养是远远不够的,需要通过实操的方式来学习知识。技术竞赛是最好的实操,考验着参与者全方位的技能,也能在短期内最大限度地激发人的潜力[10]。
3)巩固与分享知识。
学生通过查阅大数据慕课教师课堂总结、完成工程实训课程设计、参加技术竞赛等方式,将课堂教学获得的知识得到巩固、内化与提升。通过慕课小组论坛,学生也可以分享学习体会和学习经验。
4 结 语
现阶段大数据教学存在的主要问题,一方面是重视不够,不少高校还没有开设专门的大数据教学模块;另一方面,已开设的大数据相关课程,常常存在专业案例教学弱化,忽视自主编程能力培养等现象。这些现象与问题,是与国家大力提倡的新工科的要求相悖的,需要引起足够重视。
新工科背景下,大数据课程教学改革与实践,其目标是通过交叉融合、共享、创新等主要途径培养多元化、创新型数据人才。要以社会需求与企业需求为导向,计算机科学与技术、统计学、智能科学等相关专业进行交叉融合,重构人才知识体系。创新教学方式与技术、精选教学内容、强化实践创新创业能力,加强产学研融合、切实做好大数据课程建设工作,为金融、商业、电信等领域数据科学工作提供合格的高级工程技术创新人才。