大数据在MOOC中的应用分析*
2015-09-21黄文富
叶 斌,余 阳,王 会,黄文富
(成都东软学院 信息技术与商务管理系,四川 成都 611844)
0 引言
2008~2012年国家财政性教育经费支出五年累计7.79万亿元,年均增长21.58%,占国内生产总值比例达到4%[1]。显然,这是历史性的,但也必须清醒认识到,这是一个迟到12年才达到的目标,而且是较低的水平,与发达国家或是中等发达国家相比,还存在很大的差距。
因此,我国教育产业还有很大的发展空间。但由于传统教育的一次性投资大,投资周期长,使得除政府投入以外,民间资本对教育产业的投入还不够。
随着网络走进千家万户,网络教育相比传统的全日制教育有投资小、周期短、实施方便等优势,逐步成为一种新型教育的潮流,成为传统教育的有力补充。网络教育成为教育事业引入民资的有效突破口。近年来,大型开放式网络课程 (Massive Open Online Courses,MOOC)发展迅速,给更多学生提供了系统学习的可能,成为网络教育发展的重大机遇。
目前,世界上最大的课程提供商有Coursera、Udacity、edX。到现在为止,几乎所有著名的全球顶尖大学都在Coursera上开设了自己的MOOC课程。在国内,清华大学也在2013年10月发布了中国大陆第一个由高校主导的MOOC平台——学堂在线。这一新型学习平台将发布清华大学原创课程以及其他国内外优质的MOOC课程。网易、新浪、过来人等商业机构也和中国大学合作进行MOOC课程的制作。MOOC蓬勃发展的同时,一些新的技术手段,特别是大数据技术逐渐兴起并日趋成熟,更为网络教育提供了一剂“强心针”。
1 MOOC教育产业中的大数据
1.1 大数据作为教育领域的新动力
2011年6月,美国咨询界的翘楚麦肯锡咨询公司发布了《大数据:下一个竞争、创新和生产力的前沿领域》的研究报告[2]。这份长达150余页报告的主要观点囊括了大数据对国民经济各部门生产效率的推动、大数据的快速增长及IT技术对产能的贡献率等。自此,大数据逐渐被大家所认识,并应用至各个行业中。而其与网络密不可分的关系,使大数据在商业智能、公共服务和市场营销、教育等领域成为首要应用目标。
大数据的定义在学术界还没有形成共识,但也有一些大家所共同认可的认识。即大数据是指用现有技术难以在可接受的时间内管理、处理和分析的数据集。广义上,大数据包含三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据管理和分析技术;三是运用数据分析形成新价值。
1.2 大数据在MOOC教育中的存在方式
在整个MOOC教育过程中,随时都会产生大量的数据,这些数据来自于学习者、与学习者相关的家庭成员、朋友、同学、教师以及MOOC教育提供商,甚至学习者的社交网络等数据源。这些数据只有少量被MOOC教育系统所记录,而且没有经过分析、整理,导致数据的价值被浪费。
这些数据可以大致分为三类:结构化数据、半结构化数据和非结构化数据[3]。结构化数据主要来自于学习者的注册信息、MOOC系统自动存进数据库的学习数据表、调查问卷等二维表,这些数据的数据价值密度最高,最有可能被分析利用;半结构化数据主要来自于电邮、网页,网络日志等数据;非结构化数据主要是与学习者相关的视频、音频、传感数据等。半结构化数据和非结构化数据价值密度较低,需要借助大数据技术提取和处理,例如 FaceBook的 Scribe、Apache的 Sqoop,以及适合Hadoop处理的Chukwa等。
2 大数据背景下MOOC教育的机遇与挑战
2.1 MOOC教育对传统教育的冲击
MOOC教育的产生对传统教育的冲击很大,学习者,特别是高层次学习者,不再那么依靠传统意义上的教师,甚至有些教师担心由此失业。这种冲击主要表现在:
广西崇左市现代特色农业发展模式研究 ……………………………………………………………………………… 杨月元(2/27)
(1)学生-教师比例反转。传统教育中,往往是很多学生面对一个教师,享受的教育资源相对较少,而MOOC教育使得这种情况产生了反转,即一个学生可以面对很多不同教师,得到更充足的教育资源。
(2)工具资源多元化。MOOC课程可以融合多种社交网络工具和数字化的学习资源,从而使学习工具更加多样化,学习资源更加丰富。
(3)课程更易于使用。由于依托互联网学习突破时空限制,学习者在家即可学到国内外著名高校课程。
(4)课程参与自主性。MOOC课程完全由学习者自己决定是否进行学习,何时进行学习,使学习者能更加灵活地安排自己的学习计划,同时也要求学习者有较强自主学习能力。
(5)课程受众面更广。突破传统教育中实体教室的限制,能满足大规模课程学习者学习。
2.2 当前MOOC教育所面临的挑战
MOOC作为一种新型的教育方式与传统教育相比,有其得天独厚的优势,但也有其劣势阻碍了它的蓬勃发展。其中,最严重的问题是学习者的个性化学习不足。传统教育中教师与学生面对面,学生的一举一动、学习情况大部分都被教师所掌控,教师能根据实际情况对学习者的学习进行有针对性的指导,学习者也能根据教师的提醒及时改进学习策略,从而使学习更加有针对性。而MOOC教育虽然也可以用一些网络技术手段让学习者与教师面对面,但效果并不理想,教师并不能对学习者的实际情况及时地了解并提出解决措施,也不能了解学习者所需要的课程内容。
MOOC教育很大程度上依赖于学习者的自主性,从而导致有时候连学习者本身都不清楚自己的学习情况,忽略了一些重要的学习信息,例如学习内容之间的联系、学习程度、学习进度的安排、阶段学习目标、下一步的学习内容等,这些都会导致学习的盲目性。
2.3 大数据给MOOC教育提供机遇
3 大数据在MOOC网络教育产业的应用路线
MOOC教育产业要想在激烈的竞争中立于不败之地,需要用数据驱动产业的发展。大数据在一个新的领域中应用,需要经历从无意识,到初步了解,再到试验性阶段,出现产业机遇,发生产业变革,最后驱动产业发展这样一个长期的过程。如下图1所示。
图1 MOOC教育产业接受大数据过程
大数据在应用过程中,需要与传统的数据采集、存储、计算方法结合起来,同时利用最新的大数据技术使得结构化数据、半结构化数据及非结构化数据能被充分利用。
在数据采集阶段,可根据不同的情况采用Flume、Sqoop、Scribe、Chukwa等系统。它们各有优势,例如,Flume是cloudera于2009年7月开源的日志系统,它内置的各种组件非常齐全,用户几乎不必进行任何额外开发即可使用。Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统上,以便于进行集中统计分析处理。Sqoop是Apache下用于RDBMS和HDFS互相导数据的工具。作为Apache的一个开源项目文件,Sqoop的源码可以用于从异构的数据库导入统一的云计算平台,操作非常简单。Chukwa简单地说是一个数据收集系统,它可以将各种类型的数据收集成适合Hadoop处理的文件并保存在HDFS中供Hadoop进行各种MapReduce操作。Chukwa本身也提供了很多内置的功能用于数据的收集和整理。
在存储阶段,由于大数据时代的数据数量级发生了很大改变,由原来的GB、TB到了PB、ZB,甚至更大。同时,为了提高处理效率,处理方式由集中式处理扩展为分布式处理。因此,对于不同的数据,既要考虑用传统的数据库管理系统,如 SQL Server、ORACLE等,也不得不应用最近的数据存储技术和相应的存储处理系统,如Hadoop。无论国内还是国外的大公司对于数据都有着无穷无尽的渴望,都会想尽一切办法收集一切数据,因为通过信息的不对称性可以不断变现,而大量的信息是可以通过数据分析得到的。数据的来源途径非常多,数据的格式也越来越多,越来越复杂,随着时间的推移数据量也越来越大。因此在数据的存储和基于数据之上的计算上传统数据库很快趋于瓶颈。而Hadoop正是为了解决这样的问题而诞生[6]。其底层的分布式文件系统具有高拓展性,通过数据冗余保证数据不丢失和提高计算效率,同时可以存储各种格式的数据。同时其还支持多种计算框架,既可以进行离线计算,也可以进行在线实时计算。
在数据计算阶段,由于采用的存储方式不同,计算方法也不一样。结构化二维表数据较为规则,处理比较方便,一般对传统的结构化数据可进行实时计算,而对于半结构化或非结构化数据不得不先进行汇总分析,再进行处理。
最后,在数据应用阶段,根据不同的应用要求,对计算和汇总分析的结果应用到不同的子系统中。在MOOC教育产业中,客户个性化分析实际上就是在对学习者个性化分析的基础上进行个性化的教育,给出个性化学习方案。还可以通过数据计算结果进行课程营销分析,以及提供客户统计查询服务和学习者管理,即客户管理。数据应用的过程如图2所示。
图2 MOOC教育应用大数据过程
4 总结
大数据在MOOC网络教育中时时刻刻都在产生,这些数据的价值密度要远大于社交网的数据,因为它们较有针对性,是针对学习者的学习,所以对这部分数据的价值挖掘非常有必要。同时,与网络学习相关的网络结点数据和网络交互数据,虽然价值密度较低,但对其进行持续的数据收集和数据计算,对学习者的个性化分析也能产生巨大作用。教育领域是大数据应用的首要目标,对于学习者的个性化教育、人才结构优化及个人社会适应度的提高都有很大的帮助。
在大数据的应用过程中,对学习者隐私信息的保护是大家所关注的重点,但同时也是不可避免的问题,需要教育主管部门结合法律法规制定相关的引导性规定,让大数据得到合理应用的同时避免产生不必要的法律纠纷;其次,应鼓励与其他大数据企业合作,得到更多高价值密度数据,为数据分析提供充分的资源;最后,提升大数据收集、分析与处理技术。这些措施是让大数据在MOOC教育领域持续发挥作用的必要保障。
[1]熊丙奇.中国教育欠债还没完全补上[J].基础教育论坛,2013(8):4-5.
[2]陈响园,张权伟.大数据背景下中国交通广播的“危”与“机”——以杭州交通经济广播91.8为例[J].现代传播,2014(3):130.
[3]谢华成,陈向东.面向云存储的非结构化数据存取[J].计算机应用,2012,32(7):1924-1928,1942.
[4]U.S.Department of Education,Office of Educational Technology.Enhancing teaching and learning through educational data mining and learning analytics:an issue brief[EB/OL].(2013-5-20).http://www.ed.gov/edblogs/technology/files/2012/03/edm-la-brief.pdf.
[5]祝智庭,管珏琪.“网络学习空间人人通”建设框架[J].中国电化教育,2013(10):6-12.
[6]曹坤.为什么很多公司的大数据相关业务都基于Hadoop方 案 [EB/OL].(2014-06-25)[2015-02-06].http://bbs.pinggu.org/forum.php mod=viewthread&tid=3104026&page=1.