APP下载

基于大数据的MOOCs发展研究

2015-06-24谢树奭

软件导刊 2015年6期
关键词:数据挖掘大数据

摘要:MOOCs是近几年来出现的一种网络教育模式,具有超大规模、完全开放、交互学习等优点,吸引了全球许多著名高校的积极响应,利用MOOCs进行学习的用户快速增长。大数据技术为爆炸性增长的数据处理提供了支撑。阐述MOOC的兴起与发展,结合MOOCs的特点,探讨大数据对MOOCs发展的促进作用。

关键词:MOOCs;大数据;数据挖掘;SNS社交网络

DOIDOI:10.11907/rjdk.151154

中图分类号:TP301

文献标识码:A 文章编号:16727800(2015)006001303

基金项目基金项目:

作者简介作者简介:谢树奭(1988-),男,浙江象山人,上海理工大学光电信息与计算机工程学院硕士研究生,研究方向为软件工程与数据挖掘。

0 引言

MOOCs是英文单词Massive Open Online Course的缩写,中文简称慕课,Massive代表大规模, Open代表资源开放性,包括用户、课程资源及技术,Online代表在线教育模式,需要依托高速发展的信息技术。MOOCs提供在线优质课程资源,面向全世界学习者,不论学习者的年龄、职业背景以及身处何地,不论在什么时间,只要有网络就可以享受到世界名牌高校的课程资源,是教育领域的一个巨大变化,被称为“教育历史上的一场海啸[1]”。

大数据是继云计算、物联网之后的又一IT行业技术革命[2],大数据技术给社会发展带来了巨大推动力。在信息呈现爆炸式增长的今天,利用好各种各样的数据能创造难以想象的财富,美国政府已经投资数亿资金对大数据的发展进行长期研究[3]。大数据技术同样能为MOOCs的发展起到促进作用。本文阐述MOOCs的兴起、特点及发展,介绍大数据的概念、特征及相关技术,探讨大数据在MOOCs发展中的促进作用。

1 MOOCs的起源与特点

1.1 MOOCs起源

MOOCs的基本形式是由加拿大学者西蒙斯和道恩斯提出的,他们在曼尼托大学开设了一门“联通主义与联通知识”的课程,在网上进行课程教学,来自本校的25名学生以及来自社会的2 200多位学习者学习了该门课程,最终有许多学习者通过了该课程的考核。在他们的成功尝试之后,MOOCs的概念最终由加拿大爱德华王子岛大学和国家教育技术研究院的戴夫·柯米尔与布莱恩·亚历山大正式提出[4]。2011年秋季,斯坦福大学开设了一门“人工智能”课程,面向全世界学习者,先后有来自全球190多个国家的10多万学生注册学习,最终有2万人完成了该课程学习。这一事件很快引起了教育界的关注,教育领域的研究者意识到这是高等教育适应时代发展的一个新型模式。MOOCs也自然而然成为了风靡全球的词汇[5]。

1.2 MOOCs的特点

MOOCs与以往的网络教育或者在线公开课有很大不同,主要体现在以下几个方面:

1.2.1 规模不同

(1)学习者人数。以往网络教育学习者人数十分有限,而且更多的是在职工作人员为了工作而学习,而MOOC平台学习者数量惊人。如三巨头之一的Coursera,截至2015年2月4日,Coursera的注册人数达到11 330 303,而且以每分钟60人的速度递增。

(2)课程数量。课程多是MOOCs的重要特征之一,它融合全世界众多的大学。同样以Coursera为例,截至2015年2月4日,它提供了包括118所来自世界各地的943门课程,这还仅仅是一个MOOC平台的数据,如果算上其它的MOOC平台,那么课程数将远远超过1 000。

(3)学习者分布。MOOC的学习者来自全球190多个国家,不论在什么地方,只要有网络就可使用MOOC进行学习,MOOC用户人群从高中生到老年退休人员,涉及各行业,有学生、教师、工程师等。

1.2.2 教学形式及评价

(1)教学形式。MOOC课程教学摆脱了以往网络教学中教师从头至尾讲解的形式,它提供了类似游戏化参与的教学、网上实验参与教学。

(2)评价形式。一般网络教育没有评价环节,主要依赖学习者自我评估。MOOC提供了短视频评估,完成视频学习后可以进行检测,学习者学习完后并且通过考核就可以获得由该课程教师签名的认证。

1.2.3 教学交互

(1)教师与学生。在传统网络教育中,学习者被动接受,几乎和教师零交流。而MOOC则不同,MOOC平台内置了论坛区域供教师与学生交流。

(2)学生与学生之间。学生与学生可以在MOOC内置的论坛中相互交流,也可以借助SNS社交网络进行讨论。

(3)学生与网络之间。学生利用Google、Yahoo、百度等搜索引擎,可以通过网络寻找答案并与网络上的用户交流。

1.3 MOOCs发展

MOOCs发展十分迅速,其概念被提出不久的2012年, MOOCs的主要提供者Coursera、Udacity、edX就相继在美国成立,因此2012年被美国《纽约时报》作者劳拉·帕帕诺称之为“MOOC元年”[6]。Coursera由斯坦福大学的两位计算机教授创办,旨在同世界顶尖大学合作,提供在线免费的网络公开课程。Udacity也是由斯坦福大学的教师创办,同样提供在线课程,只是侧重点和技术有所不同。edX是由麻省理工学院和哈弗大学共同创办的非盈利性平台。这三大平台一面世就吸引了众多的目光, Coursera已经累计接受超过6 500万美元的投资,Udacity投资也超过了2 000万美元,edX的投资超过了6 000万美元,这足以证明MOOCs的魅力和潜力。这三大平台提供了包括人文教育、计算机技术、通信技术、经济金融、哲学等1 000余门课程,其目标将是达到3000门课程,这个数字相当于一所综合大学所有课程的总和。

美国作为MOOCs的发源地,发展势头迅猛。调查显示,27.8%的院校对MOOCs的可持续发展性网络教育持认同态度,50%以上的院校认为MOOCs的发展对学校至关重要,将有助于学校发展[7]。事实上,美国政府也对MOOCs的发展持积极态度,连美国总统奥巴马本人也直言不讳地建议各州政府机构对MOOCs的发展给予更多关注[7]。欧洲的MOOCs网站OpenupEd.eu也在2013年4月25日正式面世,它由欧洲国家联合推出。OpenupEd.eu免费提供了超过40门学科,并且提供12种不同语言的版本[8]。目前,我国MOOCs发展也进入快车道,慕课网、好大学在线、东西部高校课程共享联盟等相继出现,各大高效也积极开展与美国三大MOOC巨头的合作,如2013年7月8日,上海交大和复旦大学宣布加盟MOOCs最大平台Coursera,成为了中国最早加入Coursera的大学,而在此之前,北京大学、清华大学也加入了三巨头之一的edX[9]。

2 大数据发展

随着互联网技术的发展,信息呈现爆炸式增长,据国际互联网中心IDC指出,互联网上的数据将每年增长50%,目前世界上90%数据是近几年产生的[10]。更为重要的是这些数据大多以非结构化形式存在,传统的数据存储以及分析处理很难适应,这是IT行业的巨大挑战。“大数据”就是在这样的背景下产生的。

目前,各界对大数据的概念并没有统一的定义,截至2015年2月4日,维基百科对它的定义是:大数据指所涉及的数据量规模巨大,无法通过人工,在合理时间内截取、管理、处理并整理成人类所能解读的信息[11]。百度百科的定义是:大数据指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[12]。IDC将大数据定义为:为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构设计[10]。其实不论是哪个定义,意思基本相似,即大数据涉及的数据量大,且很难用传统的方法得到及时处理。大数据的特点为“4V”:①数据量巨大(Volume)。数据规模至少达到10TB及以上;②数据种类多(Variety)。数据类型繁多且多以无结构化形式存在,需要特殊加工才可发现联系;③流动速度快(Velocity)。大量数据需要在一定时间内处理完成,实时性要求极高;④价值密度低(Value)。数据量巨大,有用信息并非成正比例增加,需要大量细分处理。

大数据相关技术主要有:①数据挖掘。利用爬取技术和搜索算法从大数据集合中获取数据;②分类。利用训练集,将数据划归到不同类别上;③聚类。将大量数据集使用无监督学习算法自动组合成小规模的类簇;④机器学习。研究计算机如何具备和实现人类思维与学习,并自动获取或组织新的知识;⑤数据存储。将数据集按一定的规则存贮在计算机或者其它的媒介上;⑥数据计算。对数据集进行用适当的统计分析方法提取有用信息以及概括总结。

3 大数据对MOOCs的作用

MOOCs是超大规模的在线网络学习,这势必会产生超大规模的结构化、半结构化以及无结构数据,包括直接的数据(MOOC平台上的教学资源、学生论坛、作业考试、学生学习记录等)和间接的数据(SNS社交网络上的讨论、贴吧和博客舆情、其它网络链接介绍等),而大数据技术就是对超大规模复杂数据的处理,因此利用大数据技术能给MOOC的发展带来促进作用。大数据对MOOCs的作用主要体现在以下几个方面:

3.1 数据获取

对于任何一个开放的MOOC平台,得到与之相关的信息十分重要。尤其对于平台授课教师、技术开发者以及教育研究专家等。相关信息包括用户对MOOC 平台的态度、使用感受、课程设计以及教学内容反馈等,这些数据除存贮在MOOC平台数据库(如学生注册信息、作业、考试成绩、学习记录等)外,剩下基本分布在互联网。这些数据结构化程度很低,数据关联性差,并且呈现碎片状,比如有小部分数据在SNS社交网络,有的在博客中,部分分布在一些不知名的网页中,传统方法已经很难高效、完整地获取这些数据。利用大数据挖掘技术可结合Hadoop和MapReduce进行大数据集合并行挖掘。

3.2 数据存储

MOOC平台除了需要存储基本的课程资源外,还需要存储学习者的注册信息、学习者在某一课程中的学习进度及作业、成绩、先前学习经验、学习态度等,而对于MOOC平台而言,某一课程可能吸引全球百万甚至千万学习者注册学习,因此对于提供1 000门及以上课程的平台而言,存储这些数据将是巨大的挑战。传统的关系型数据库由于对关系要求严格,且扩展性和灵活性不强,显然不能满足存储这些巨量且结构复杂的数据。大数据存储主要使用以下3种存储技术来解决此问题[13]:①分布式文件系统,主要代表是Google公司的GFS和开源的HDFS,它们主要用来存储海量的非结构化数据;②NoSQL,主要存储海量的无模式半结构化数据;③Greenplum,它是一个存储海量数据的并行处理架构的无共享分布式并行数据库系统。

3.3 学习者行为分析

在MOOC平台上注册学习的学生来自不同区域、不同年龄层、不同行业,因此他们在利用MOOC进行学习时的方法、风格、策略、心态不同,会在网上留下学习足迹碎片[14]。如:学生会在MOOC开课前,在MOOC平台内置的论坛中询问时间、内容进度等;开课后,学生会在SNS社交网站Facebook、twitter等发表自己的看法和提出问题;在学习观看视频中,有的学生会跳跃式观看,而非连续观看;在观看视频时间选择上,有的学生会选择深夜,而有的选择清晨等。这些信息碎片都反映出学习者的行为特点,收集和分析这些海量数据对于MOOC平台的开发者、教师等具有重要意义,方便他们利用教育学、心理学等专业知识更合理地使用教学策略和方法设计课程。大数据通过超强的数据处理能力,使Hadoop和MapReduce等新技术与传统数据挖掘技术结合,利用分类、聚类、关系挖掘以及学习模型建构等,对学习者的行为特点进行分析与预测,并且合理有序地呈现给MOOC教师、开发者与研究者。

3.4 学习推荐

MOOC平台提供了越来越多的课程,注册人数也越来越多,为学习者推荐适合的课程、感兴趣的课程以及必要的先修课程等是MOOC发展不可或缺。目前,MOOC平台在这方面还不够完善,这也许是导致MOOC目前有较高辍学率的原因之一[15]。学习者课程学习进度快慢、作业和测验成绩、在论坛社区里谈论的积极性、在Facebook等社交网站上的标签以及发表言论与关注对象等,都为追踪学习者的先前课程准备、个人兴趣爱好、学习能力及风格等提供了有效帮助。利用大数据技术回归分析、关联规则、机器学习以及人工智能等可对这些数据进行分析处理,系统可自动向每一个学习者推荐合适的学习内容、方法以及具有相同兴趣的其他学习者,为学习者量身定制学习环境。

3.5 课程反馈

MOOC平台上的课程都是主讲教师、助教以及技术人员花费较长时间准备而成的,他们对课程的内容选择、重点难点讲解、内容安排顺序、时间片段长度等只能依据已有经验以及概率统计模型作出预测。MOOC平台本身是一个开放平台,学习者的环境是开放的,学习者会在平台内置论坛上提出课程学习中的问题,会利用Google、Yahoo、百度等搜索引擎寻找答案,也会利用SNS社交网络、贴吧、博客等向其他关注者提问交流,这样在互联网的扩散作用之下,就相当于将一门课程抛向网络世界中各行各业的学习者,能得到巨大的、动态的反馈数据,利用大数据技术搜集分析这些反馈数据,将对课程内容安排与选择、重难点讲解、课程相关最新研究热点等作出合理调整。

大数据对MOOCs的影响作用的基本流程如图1所示。

4 结语

MOOCs的兴起与发展,打破了传统教育模式,使大量优质教学资源涌向整个世界,为世界各国大学之间的学术交流作出了积极贡献。对于学习者而言,MOOCs更是突破了传统教育在时间、空间上的限制,为教育注入了一股新鲜力量。大数据的到来与发展,给各行各业都带来巨大的影响,大数据会给MOOCs的进一步完善与发展提供技术的支持。下一步将研究MOOC开发成本、大数据获取分析成本、跨学科、跨领域的大数据专业人才培养等。

参考文献:

[1]TAMER LEWIN.Universities reshaping education on the web[EB/OL]. http://www.nytimes.com/201207/17/education/consortiumofcollegestakesonlineeducationtonewlevel.html?pagewanted=all&_r=0.

[2]严宵凤,张德馨.大数据研究[J].计算机技术与发展,2013, 23(4):168172.

[3]DAVID REINSEL,JOHN GANTZ. The digital universe in 2020: big data,bigger digital shadows,and biggest growth in the far east[EB/OL].http://www.emc.com/leadership/digitaluniverse/2012iview/analystperspectivejohngantzdavidreinsel.htm.

[4]Massive open online course [EB/OL]. http://en.wikipedia.org/wiki/Massive_open_online_course.

[5]苏芃,罗燕.技术神话还是教育革命——MOOCs对高等教育的冲击[J].清华大学教育研究,2013,34(4):68.

[6]Laura Pappano.The year of the MOOC [EB/OL].http://www.nytimes.com/2012/11/04/education/edlife/massiveopenonlinecoursearemultiplyingatarapidpace.html?pagewanted=all&_r=0.

[7]张运红,黄大乾,朱蕾.美国MOOCs发展的现状问题与趋势[J].外国教育研究,2014, 41(293):9394.

[8]石子.欧洲MOOCs网站OpenupEd.eu正式上线[J].中国远程教育,2013(5):58.

[9]曹继军,颜维琦.慕课来了中国大学怎么办[N].光明日报,20130716(6).

[10]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014, 48(6):959960.

[11]WikiPedia [EB/OL]. http://zh.wikipedia.org/wiki/大数据.

[12]百度百科[EB/OL].http://baike.baidu.com/link?url=4BM9ymGhbiOToMY9LtxMWmvlNgHoKFfxO0CwxVUrlrlgw WHDCgDkqq3GlItQNk8UhGQOOjle3ij94UfOQga RDMOUxHkzdFb5LQ0x_igApa.

[13]李海波.大数据存储技术和标准化[J].大数据与云计算标准研究专题,2013(5):2324.

[14]张燕南,胡继岳.关于大数据应用于教育的思考[J].教育理论探索,2013(32):67.

[15]JORDAN KALTY.Initial trends in enrolment and completion of massive open online courses[J].The International Review of Research Open and Distance Learning,2014,15(1):134136.

责任编辑(责任编辑:陈福时)

参考文献:

[1]郭唐永,李欣,谭业春,李翠霞. 中国新一代流动卫星激光测距系统研究[J]. 武汉大学学报:信息科学版,2006(1):3134,81.

[2]王志干,刘兆蓉,赵雁,李建荣,刘畅. 变形测量系统中激光光斑中心精确定位算法[J]. 电子测量与仪器学报,2011(6):485489.

[3]黄富瑜,李刚,何永强,应家驹. 全向激光探测系统中光斑精确定位方法研究[J]. 激光与红外,2010(11):12241228.

[4]周中亮,周冰,何永强,等. 成像型激光探测系统中光斑精确定位方法研究[J]. 激光技术,2008(3):248251.

[5]朱嘉,李醒飞,谭文斌,等. 基于圆心约束最小二乘圆拟合的短圆弧测量[J]. 光学精密工程,2009(10):24862492.

[6]刘珂,周富强,张广军. 半径约束最小二乘圆拟合方法及其误差分析[J]. 光电子·激光,2006(5):604607.

[7]孟苏飞,樊曙天. 非完整圆弧半径测量方法综述[J]. 机械管理开发,2006(6):5152,54.

[8]HUANG JIE,ZHOU ZHAO FEI.Study on Ddetection algorithm of the center of asymmetric sampling precision CCD image based on curve fitting[J].Journal of Optoelectronics Laser ,2004, 15(6):691694.

责任编辑(责任编辑:陈福时)

猜你喜欢

数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究