大数据之美在“披沙沥金”专访西安交通大学副校长郑庆华
2016-12-17傅宇凡
文/本刊记者 傅宇凡
大数据之美在“披沙沥金”专访西安交通大学副校长郑庆华
文/本刊记者傅宇凡
大数据是美好的,但须大浪淘沙,才能见到金子。
2016年4月25日,西安交通大学正式启动了“陕西省高校大数据分析服务平台”。在接受《中国教育网络》杂志的专访时,西安交通大学副校长郑庆华难掩自豪的神色:“这是解放生产力之举。大数据是美好的,但须大浪淘沙,才能见到金子,西安交大在这方面先行一步。”
大数据+教育具有四个重要价值
《中国教育网络》:大数据已经成为各个领域各个行业的一个重要话题,您如何看待这种情况?
郑庆华:如何从海量的大数据当中获取有价值的知识,已经成为一种普遍性的需求。在国家层面来说,在金融预测、网络安全、信息保护、智能电网、气候预测,包括社会治安、国家安全等等各个领域,都需要从大数据当中获取有价值的知识。对于我们普通的个人来说,这也是一个必须具备的层面。作为一个现代人,我们已经不能超越,不能回避这样一个事实,就是我们必须依赖互联网这个平台,去获取知识、沟通和交流。
图1 高等教育大数据的顶层设计
当前大数据分析平台与大数据库之所以蓬勃发展,来源于三个方面的需求。第一,目前普遍使用和广泛存在的社交网络, 带来内容生产的变化Web技术从最早的1.0版本,到正在向3.0版本发展,人人都可以参与内容的生产,人人都可以作为一个信息源来发布和交流信息。这使得信息的发布渠道,从有限的网站变成了所有人,数据的增长是海量和庞大的。第二,从互联网到物联网的发展。物联网的核心是把传感器技术,嵌入到各个物体当中,使得原本没有感知功能的物体,也能采集数据。再通过无线网络把信息送到后台的云平台上,进行存储和计算,并且得出结论以后反馈到前端的物体。这也产生了海量的数据。第三,统计技术发展的需要。如何适应互联网时代信息特点进行统计,传统统计学理论已经不能适应,统计技术和模型需要顺应发展而变化。
《中国教育网络》:大数据在高等教育中的价值与发展,您又是怎么看的?
郑庆华:在大数据时代中,高校承担着重要的责任,即人才培养和技术研究。当前的大数据就是一个深海资源,如何围绕某一个特定的应用点开展研究工作,尚有差距。大数据是美好的,但须大浪淘沙,才能见到金子。
从教育教学的角度,“大数据+教育”有4个方面的重要价值。
首先,让教育管理更有效。大数据对如何提高高校精细化、规范化管理,促进高校现代化具有非常重要的意义。它可以支持大学的管理更加有序和有效,可以真正实现教师、后勤、科学研究、人才培养方面的分类管理,而且可以实现在目标导向、问题驱动下的过程监控,也可以对未来趋势进行预测,同时,对可能出现的问题进行早期的预防和预警。
其次,教育评价可以做到更精准。因为大数据建立在海量、多类型,以及实时采集的各种数据基础之上,它的样本是海量化的,采集方式是实时多元化的、分析是多维度的,数据采集分析挖掘也是根据不同的类型,采取不同的多样的分析手段。所以可以做到更加精准。
第三,也是最重要的,是指导教师如何面向学生,在“教与学”上可以做到更加智慧。在学生层面上,学生可以对自己的实时学习行为进行跟踪分析,可以找到自己的学习兴趣点、关注点,可以进行有效的学习路径的设计和选择,在海量资源中可以深度挖掘并且实现资源的精准化订阅,可以实现知识的学习。从教师层面,可以实现真正的互为师生关系,跨地域的资源整合和共享学习协作,实现多人的协同教学;可以进行班级或者针对专业学生的自身诊断;可以开展课程评估;可以对学习者进行兴趣的聚类或者进行资源的有效聚合。
第四,为老师和学生提供个性化的资源推荐和服务,包括文献资源、绩效评价、各课程教学管理、手机APP。从目前来看,大数据确实将对高校的管理、人才培养、科学研究、社会服务等等方面做出前所未有的支撑和服务。
破解数据唯一性难题
《中国教育网络》:西安交大与陕西省教育厅成立陕西省高等教育大数据服务平台是基于什么考虑,有何意义?
郑庆华:西安交通大学与陕西省教育厅共同建立了一个全省高等教育大数据中心, 这个数据中心于2014年12月正式成立,旨在为省教育厅管理部门、评估机构、社会团体、行业协会、企事业单位甚至个人,提供高等教育相关数据的查询、统计、分析和咨询等服务,如图1所示。
这个数据中心中,汇聚了全省各个高校的办学状态数据,包括人事、财务、学生以及科研、后勤等等方方面面的数据,同时也整合了陕西省教育厅各个业务处室的各个业务管理信息系统,并且与互联网上开放的各类教育行业大数据相互联系、相互共享,可以在线获取各个高校的办学状态数据。在大数据中心的基础上,以大数据引擎来统筹实现数据的共享、关联、挖掘、统计分析,以及各种各样的智能服务。比如,整合了各类科技资源的服务,本科教育评估专业认证诊断方面的服务。另外,该中心与教育部的主要职能部门,如教育部评估中心、规划司、财务司等部门,也形成了数据相互交换的功能。这样,将全省的高校数据资源通过数据中心进行汇聚、融通、共享。
陕西省高等教育数据中心已经成立有一年多,通过全省高等教育大数据支撑平台建设、全省高等教育数据资源融合以及线上线下服务支持等多种形式工作的实施,有效支撑了省教育厅各项工作的开展。基于这个数据中心,我们又于最近正式向社会发布了“陕西省高等教育大数据服务平台”,初衷就是解放生产力,并提供社会服务。以往我们统计查询以及核实高校的业务数据,需要大量的人工工作,现在,技术手段已经不成问题,但是数据的唯一性,仍然问题重重,这也是大数据平台成立的最大原因。破解数据唯一性这样的难题,关键在于汇聚办学的数据,第一,面向某个数据业务的融通,将离散的碎片化的数据进行整合,第二,针对不同部门的考核,进行归集化处理,第三,利用数据进行教学的绩效评价,使得数据采集落地,真实实时准确地了解一线教学的情况,为本科教育评估专业认证提供数据支撑。未来,这个平台将承担陕西省高等教育大数据的统计查询、分析评估、咨询建议和决策支持等应用服务工作。
《中国教育网络》:陕西省高校大数据服务平台上如何与当前的教育教学过程相结合?如何提供服务?
郑庆华:陕西省高校大数据服务平台上首先是陕西省高校大数据的汇聚与分析评估(如图2所示),这是整个陕西省高校大数据的汇聚。通过业务查询、数据统计、电子报表、图形展现、分析报告等功能,为省教育厅领导、管理单位、高校及社会公众提供服务。
每年教育部公布的各种公开数据、招生数据、就业数据等等,全都融汇到这一平台,形成了一个全省的数据中心和数据仓库。在此基础上,还开发了若干核心的引擎支撑模块,预测预警、通用查询、在线分析、信息发布,以及决策支持、评估分析应用、数据挖掘等等,并面向陕西省教育厅各个职能部门、各高校、社会公众等提供数据支撑服务。
首先,该平台为陕西省教育厅职能业务部门及决策层提供了十一大类的功能,包括领导的仪表盘,可以进行陕西省跟其他兄弟省市的数据横向纵向比较,描述历年来各个业务数据历史变化的情况;为陕西省教育厅高教处、研究生处、科研处等11个部门提供专项数据服务;提供教育质量数据的在线查询、监测预警、对比分析,质量报告;提供全省高基统计报表及统计年鉴报表81张的查询查阅;提供全省教育经费统计报表191张和统计报告的查询查阅以及高校就业数据的统计分析、重点指标结构分析等。
第二,为高校提供服务。为高校对内自查、自评、自纠,对外横向关联比较提供支持,定位问题,寻找差距,促进高校人才培养、学科建设决策的科学化。陕西省目前有100多所高校,未来还可以进行省内高校的横向比较、陕西省同类高校和兄弟省市同类高校之间的对比分析,通过数据整合,在基础数据层面解决应用数据的碎片化问题,在管理体制层面建立健全学校数据的智能化管理体系,从而实现管理信息化向服务信息化、服务智能化的方向转变,这是过去管理信息系统所难以做到的。
在高校大数据平台的基础上,支撑教育教学的评估和专业认证。过去的评估都是专家进校,通过长时间的现场考察、师生交流等等来发现问题。有了数据平台之后,现在评估可以分两个阶段。第一阶段,在高校大数据平台基础上,通过数据的分析找到问题;第二阶段,专家进校考证这些问题的实际情况。所以数据的前期分析将对专家的进校评估提供有效的、有针对性的、面向问题和目标的引导。该平台上可以提供高校审核评估、专业综合评估认证、学生学习经历、与高等教育满意度的测量与评价,以及全省高等教育质量监控数据分析平台。
图2 陕西省高校大数据汇聚与分析评估
《中国教育网络》:高校大数据服务平台还有哪些典型应用案例?
郑庆华:在高等教育大数据服务平台上,我们还开展了陕西省高等教育MOOC平台的建设和服务工作,该MOOC平台已经汇聚了包括西安交大在内高校的253门课程,包含思想政治板块、通识类课程板块、基础学科板块、专业课程和特色课程板块一共五大板块的课程。MOOC平台将全省的优质教育资源分层分类地向全省高校提供支持服务,并实现了网上选课、课程互选、学分互认等。陕西省高校的学生足不出户即可以分享世界名校的课程,可以分享其它兄弟高校的优质课程资源。特别是,该平台通过学习大数据分析,进行学习过程的全过程跟踪与分析。
另一个典型应用是把互联网技术以及云计算技术渗透到日常的教学过程管理、智慧教室的建设当中。2015年学校一次性建立了80个智慧云教室,每一个教室的信息化设备全部通过互联网实现了互联互通,包括投影仪、还有中控系统、门禁系统、考勤系统等,全部实现了集约化、智能化、互联网的一卡通,将传统的安全监控、考勤系统、IP电话,以及教师教学的实时随堂录制、师生互动等功能整合到这一平台上。
目前,西安交大80个教室的课堂情况,教师上课实时场景、讲课内容、学生课堂状况等,可以通过一个集中监控屏的界面实时掌握。并且很多新的内容、新的教学管理手段可以部署和实现,如督导组的可通过授课录像实现精准督导;学生的到课率、考勤率、出勤率、排头率等等,通过这个平台也可以一览无余。通过教师授课的随堂录制,老师自己可以查找、审阅自己上课的过程,为今后改进教学提供很好的手段。
此外,对条件保障和资源的节约使用也有很大作用。过去学校中午有大量教室投影仪、灯光没关的现象,现在通过云的集中控制,所有教室设备都可以实现集约化管控。一旦出现故障,远端也可以集中恢复;设备系统的升级,也可以采用云的方式来完成,无须逐个教室手工进行。所有这些都给我们教育教学的智慧化管理、集约化管理提供了很好的支撑手段。
知识图谱:既见树木又见森林
《中国教育网络》:大数据的应用一直以来都是汇聚容易,分析难,价值体现更难,西安交大是如何实现的?做了哪些研究和尝试?
郑庆华:大数据如何挖掘价值,是当前大数据发展中的一个重大技术挑战,也是高校进行大数据研究的一个机遇。针对大数据的个性智能化的知识获取与个性化的知识服务,西安交大做了一些研究和尝试,并取得了明显的成效。
高校大数据平台最终目标是希望提高教育教学的质量,这个工作知易行难。客观上,大数据的确给人类自身造成严重的认知障碍、包括认知过程学习迷航等问题。原因是什么呢?首先是大数据造成了严重的认知碎片化问题。什么叫知识碎片化呢?就是某个特定主题的知识资源分散在了不同的数据源当中,分布在不同的网站或者数据库当中。比如,在百度中查“糖尿病”关键词,它会反馈回来4440万个数据源,有关于糖尿病的定义、有关于糖尿病的治疗、有关于并发症等等,林林总总,这些数据分散在各个网站、数据库,用户就像瞎子摸象一样,我们得到的永远是一个片面的、局部的、散乱的状态信息。可以想象,这样的情况给人们的认知造成很大困难。再比如,一家三口预算十万元到欧洲十日游,不管是百度还是谷歌,没有哪个网站能给出满意的答案,并不是说这个信息在网上没有,而是因为这些信息散落在各个网站上,而且得到信息之后还需要经过人工的处理才能得到需要的信息,这就是我们面临的现实问题。
简单地说教育大数据造成了四个方面的问题。第一,资源的分散特性,第二,快速动态变化的特性,第三,人人都可以产生资源、人人都可以提供资源,导致的资源低质化特征。这些特性我们日常都会有体会,比如动态性,每天的微信、微博、各个论坛帖子,都在发布各种各样的信息,海量信息让人们疲于跟踪;同时,这些信息源良莠不齐,内容可靠性、真实性、完整性以及可信度,都值得商榷,这也是我们在大数据处理方面要处理的典型问题。第四,结构无序性。数据源并非经过精心组织,导致其结构是无序的、散乱的,类型也是多样化的。
如何去粗存精、去伪存真,我们提出了知识图谱、知识地图的理论,这是一种全新的资源组织方式,面向用户提供精准化的信息推荐,为用户建立个性化的知识模型,将这两者融合起来,建立用户兴趣和个性的精准化资源模型,将无关的、冗余的信息去掉,从而实现了精准化的推荐。
研究模型是面向智能学习的一个新模式,即基于知识地图导航的知识学习系统。把知识的概念、定理、知识源通过语义关系,组合成一张知识地图,它的边是反应知识单元之间的语义关系,在这个知识地图的导航下,进行面向用户和学习的精准化推荐。
在这个模型中,第一个核心技术是解决知识地图海量资源的组织问题。我们在此模型下建立了一套研究平台和大数据集,包括对数百门课程进行了标注、研究,获取了它们之间的知识地图关系,开发了一系列知识语言处理工具、信息抽取工具、复杂网络分析工具、挖掘工具等等。
第二个核心技术是碎片化知识的聚合。碎片化知识聚合,就是要让学生既见树木又见森林,每一棵树是面向某一个主题的知识结构,而森林则是把某个领域的知识,比如计算机领域、互联网领域的知识主题组合起来,也就是“主题树”和“知识森林”的概念。所谓碎片知识聚合就是把多元、片面、无序的碎片化知识聚合成符合人类认知的多维关联整合的知识森林,其目的就是缓解学习迷航、认知过程的问题。整体来说它包括三个步骤,首先是构建主题分面树;第二,把语义和碎片化知识装配到知识主题树上,解决知识的散乱问题;第三,进行知识关系的挖掘,解决知识无序问题,最后形成了一个“知识森林”。在“知识森林”当中,既可以面向某个主题开展学习,也可以在主题之间按照知识的依赖关系,按照路径实现导航学习,也就是“既见树木又见森林”(如图3所示)。
这中间重点是解决三个关键理论和技术问题,第一关键技术是知识森林及聚合过程的建模问题;第二关键技术,如何建立主题分面、分层关系,即如何将碎片化知识装配到分辨树上,从而为学生、为用户提供按照学习者兴趣和个性的学习路径的选择;第三个关键技术是用户模型的建立,即如何找到用户的兴趣、需求、喜好、偏好。目前的工具可以实现对学习者的行为进行深度的分析和挖掘。在用户模型建立基础上,面向学习者定制、推荐个性化的学习路径、学习内容,反映学习者的学习进度等等。
《中国教育网络》:高校要实现大数据整合,难点何在?您认为应具备哪些要素?
郑庆华:我前面提到的数据整合,最终的目标是破解数据唯一性的难题,作为高等教育大数据,当前的难点在于如何建立一套技术、应用、管理、服务相互协同的运行机制,要建立一套数据的准入与规范的标准、建立数据相互交换的机制,以及大数据融会贯通、相互共享的平台,支撑服务平台。而要实现数据汇聚融通、落实数据整合工作,需要具备三个要素,第一,坚强的行政支持,第二,技术要过关,第三,要做好支撑服务体系,需要有一支能战斗的队伍,一支专业的技术队伍、管理服务队伍,以及职业化培训队伍,真正把技术、管理和服务渗透到我们教学环节当中。这三个要素,缺一不可。
图3 既见树木又见森林
为了实现数据整合,西安交大还建立了计算能力为122万亿次的高性能计算平台,能够支撑各类学科高新技术研发的需求。在这一高性能计算平台建立之前,西安交大一共有122个网站,每个网站都有自己的服务器,既占空间资源,也耗费大量能源和经费,建立高性能云计算机平台以后,122个服务器全部收并统一,所有二级网站只需要一个虚拟机就可以支撑服务,用物理机实际上不到一台物理机就可以支撑。这样,不仅集中了资源用以支持校内各个学科的高性能科学计算的需求,也整合了大量网络服务器资源,同时还可以面向高等教育大数据进行支撑服务。
大数据的三点体会
《中国教育网络》:从教育教学上说,您既是大数据的应用者,也是大数据的研究者,您对大数据时代的互联网创新有什么体会?
郑庆华:任何一个时代的技术创新与技术进步,我们不仅要关注技术本身和技术在个体上的应用,更重要的是要仰望星空,实现模式的创新。顶级的互联网公司有不同的商业模式,有不同的盈利点,有不同的技术支撑,但都是一种模式创新。微软的模式是建立在人人都要买我的软件,人人都要安装我的操作系统之上的。而谷歌的云平台则颠覆了这个模式。阿里巴巴也一样,对于传统零售模式在一定程度上的颠覆。因此,在互联网时代首先是模式创新,在这个领域没有迟到者,只有失败者。我常常说,空间无限,创新也无限。俄罗斯科学家、以太网络的发明人罗伯特·梅特卡夫提出了著名的“梅特卡夫定理”,即网络的价值与联网的用户数的平方成正比。电话是一个人打给了另外一个人,所以信息的效率就是一;电视是一个频道播出,有N个人收看,它的效率是N;而在互联网上有7个用户的话,它是用全互连的方式,每个人都是贡献者,也是共享者,所以它的效率是N的平方。IBM内部也有一句很好的名言,你有一美元,我有一美元,大家交换一下,大家还是一美元;如果是你有一个新的思想,我有一个新思想,两者交换一下,人人都有两个思想。这就是互联网信息是带给我们的好处,模式创新是最根本的创新。
第二,一定要树立一种观念就是打造平台,没有平台就像人缺钙一样。IBM作为IT领域的百年老店,之所以能长盛不衰,原因就在于它有自己非常坚强的软硬件技术基础,做设备、做集成、做服务都可以。微软、谷歌、苹果都是这样的发展,所以,真正能够长远发展的,一个平台是必不可少的。高等教育信息化也一样,要真正独立,应该有这样一个强大的技术平台支撑,不能老是依靠第三方的供应商解决问题,与公司的合作和交流是必要的,但是不应完全依赖于企业的技术和平台。
第三,也是非常重要的,内容、活力和服务是信息化平台赖以成功的三要素。MOOC之所以在短时间内能够快速成长,原因就在于受众群体的活跃度,及优秀的内容。IT领域中,软件比硬件重要,资源比软件重要,内容比形式重要,而服务比内容更重要。MOOC平台的优秀之处,在于平台上的每一门课好像就是在给你一个人上课,而不是传统的视频课程的模式,这一点吸引了很多年轻人。此外,MOOC网站不是一成不变,而是天天更新。它设法保持学习者的持续关注,内容时刻更新,服务随时到位。这是我认为作为一个信息平台来说,非常成功的三个基本要素。
没有错误的技术,只有错误的选择。在互联网上,在信息化时代,适者生存同样是一个法则。在这个时代我们更要强调,教育和学习要重视思维模式和方法。对今后的教育发展,个人认为这既是一个重大的新课题,也是未来很有探索空间的理论方法和技术的问题。