教育大数据分析研究与典型应用
2017-05-04郑庆华
开展大数据的研究已经成为我们国家今后创新驱动的一个重大的战略举措。数据的积累已经从量变发展到了质变。另外一方面计算机超强的计算能力也为处理大数据提供了强大的技术支撑,这两者的结合使得大数据的智能分析成为我们现实可能。分析各个领域的大数據也正是各个领域各个行业的新的重大需求,拥有大数据成为我们这个时代的特征,分析大数据自然也成为我们这个时代最鲜明的任务,应用大数据也是我们把握商机把握研究机会的重要机遇。
研究和应用面临三大挑战
我们根本目的是从大数据中挖掘出价值。从政府角度来说,要进行大数据的有效管理,制定包括安全在内的各种公共政策,这就是政府要作为,从数据的获取、标准、规范、安全、保障等等方面研究。作为高校和科研院所来说,最核心的是要进行大数据的分析和处理,也就是智能化的挖掘、关联、融合、算法分析这些核心技术的探索和研究。作为企业界来说,要结合各自的领域,开展大数据的应用挖掘以及融合应用。所以说我们要形成一个数据是基础、平台是支撑、分析挖掘是核心,最根本的是要实现目标导向、问题驱动,实现效率的提升和经济效益社会效益的挖掘和发挥。
世界顶级大国都把大数据核心技术的研究作为未来抢占大数据产业自主知识产权的一个核心制高点来探索研究。第一从理论和技术角度来看,传统的计算理论和传统的数据处理分析技术难以完全适用。一方面是大数据和传统的中小规模的数据有本质的特征上的差别。第二在传统的计算平台计算范式方面也有根本性的转折。我们知道传统的数据量是中小规模,现在都是ZB级,10的18次方超大规模的数据量。从数据的结构来说,从传统的结构化朝大量的非结构化方向发展,从过去以静态为主朝着流数据发展,从单一的数据源朝着多元异构的方向发展,从多媒体朝着跨媒体融合的方向发展。这些数据特征的变化使得我们传统计算理论难以适应。从计算平台和计算范式来说,从过去的集中存储向现在的各地多数据中心的分布式存储方向发展,从多线程并行朝着多机协同的方向发展,从存储和计算相分离朝着数据和计算紧密深度融合的方向发展,从计算密集型或者数据密集型朝着两者混合的密集型方向发展,从静态全量计算朝着动态流式计算的方向发展,这些变化都是大数据分析中将要面临的理论和计算方面的挑战。在大数据分析与处理方面核心技术严重缺乏,我们熟悉的大数据处理核心技术的底层的核心软件、核心系统,像Spark、Hadood、Hbase这些著名的开源商用软件几乎全是被国外垄断,我们国家在这个领域缺乏自己的自主知识产权。第三,难以适配工程化应用的需求,比如大数据算法在工程化技术方面还处于基本空白状态。我们虽然有很多好的大数据算法和核心技术,但是应用到实际当中工程方面的适配还处于空白或者盲点。另外缺乏适用于大数据分析的工程化工具和快速的部署手段,核心技术与产业需求存在缝隙,缺乏面向行业的智能大数据决策支持工具和成熟的工程化解决方案,这些方面都是我们今后研究的重点和难点。
西安交通大学申请到了大数据分析技术国家工程实验室,在大数据的基础算法、核心技术、数据产品研制、行业工程应用特别是高端人才培养方面打造国内一流的科研和人才培养的平台。
教育大数据的研究应用
下面介绍一下国家工程实验室过去几年在教育领域大数据的研究应用方面所做的工作。
第一,陕西省高等教育大数据平台的研究与应用。西安交通大学为全省建立了高等教育大数据的汇聚分析和应用的数据中心,可以把全省所有高校的办学状态数据、政府管理部门的各方面的教育统计数据以及互联网上发布的有关教育的数据汇聚到一起。在这个平台上不仅有办学的管理状态数据,而且有各类慕课课程资源以及师生的信息管理平台,还有大量的互联网开放数据聚集在这个平台中。在这个平台上我们面向教育主管部门、高校开放为用户提供各种各样的学习、管理、质询、统计分析等应用。这个平台的数据还可以跟教育部评估中心、教育部规划司、财务司、学生司等相关司局进行互联互通,打通了数据之间的壁垒问题。在这个基础上,我们实现了全省高等教育数据的汇聚,从而打破了各高校数据的孤岛。另外可以建立横向关联比较分析、纵向自我历史比较分析,提供高校、政府管理部门、社会科学精准的数据服务,以及为他们的科学服务提供分析。
在这个平台上,我们开展了四项典型应用。第一,为全省本科高校进行教学质量的审核评估工作,运用互联网+大数据技术建成了覆盖全省高等职业教育、本科教育和研究生教育,包含办学条件、师资队伍、学科专业、课程教学、毕业就业等全方位一体化的质量监测网络,省级高等教育监测的大数据平台,开展了用数据和事实说话的省级学校两级高等教育的质量常态监控。第二,服务陕西省“一流专业”申报、评审与评估等方面的基础工作,这个工作现在把全省的教学状态的数据全部收集到这个系统里。第三,开展陕西省教育经费绩效分析与评估,这项工作我们已经进行了三年,对各个大学办学的基本绩效以及办学的成效进行实时在线的科学精准的统计分析,为政府决策绩效奖励提供支撑服务。第四,毕业生就业质量的跟踪和评价。已经建成了全省就业质量大数据分析应用服务,并且以这个系统为基础,发布高校毕业生就业状况的报告,过去需要大量的人工工作,现在基本上在这套系统上自动生成就业质量报告。
另外,MOOC中国平台在现实上的应用也是我们的重要努力方向。我们的目标和理念是做政府想做社会愿做但是单一高校做不了的事情,根本目的是打造互联网教育公共服务体系的2.0版本。目前这个联盟已经有117所高校加盟,超过10000门视频课程,超过10000注册用户,300经营讲师,收集客户端下载量超过900万。MOOC中国这个平台正在为服务国家“一带一路”的人才培养提供服务,我们在MOOC中国的平台基础上成立了由中国工程院和联合国教科文组织授予我们的国际工程科学支持的培训,在泰国建立东盟中心,面向“一带一路”开展包含中国文化、语言、教育、技术等特色资源,在这个特色资源中我们特别构建了六大主题数据库,为中国的企业走向“一带一路”提供各种服务。
通过互动交流、实践应用等多种形式对丝路国家来华留学的留学生以及中国企业走向“一带一路”国家发展的工程技术人才培养各种各样的技术人才。这个平台在技术方面突破了知识地图导航学习、知识汇聚核心关键技术,为用户提供可视化的知识声音导向的个性化资源推荐和服务。
课堂教学质量监测大数据平台。我们通过把课堂教学质量的实时各类数据,包括学生评价的数据、督导评价的数据等实时录入这个大数据平台。在这个平台上我们可以实现过去对课堂教学质量模糊宏观的评价,到通过大数据的精准分析实现量化精准的评价;从过去部分随机抽查课堂教学变成全面覆盖,从过去期中期末两次监测变成实时、常态、持续的监测,从过去的事后评价变为实时、动态的在线评价。在这样的基础上,我们一方面可以挖掘一些教学质量好、受学生欢迎的老师,也可以对不负责任、课堂教学质量不高的老师提出惩戒,实现精准督导。
课堂教学已经实现了基于物联网+云计算的技术智慧管理,解决了数据的精准采集,实现了教学秩序的严肃规范,让老师和学生一起共同敬畏课堂。在这个平台上我们可以及时发现问题课堂,实现精准督导,为专家评价、学生评教、到课率、课堂现场提供有效的数据支撑。正是在这样的平台支撑下,西安交通大约的本科教学质量在全面大幅度提升。
(本文根据郑庆华在2017大数据产业峰会上的演讲整理,未经本人确认。)