大数据在高校教育领域的研究热点及发展趋势*
2018-03-06宋如思夏火松
万 欣,黎 婵,宋如思,夏火松
(武汉纺织大学 管理学院,湖北 武汉 430200)
一、教育大数据与数据可视化
关于教育大数据的含义,目前为止,国际上尚未确切、公认的提法。为了进一步理解教育大数据的概念,笔者从教育大数据的组成与特征两个方面进行剖析。
从教育大数据的组成来看,其中最重要的成分是由教育实践活动产生的。既包括学生线下的学习过程及行为数据、作业练习和考试成绩数据等个体数据,也包括E-Learning和移动学习等学习形式的过程数据、设备状态数据、运维日志与用户日志数据、教育网络舆情数据等设备数据。通过整合分析多种形式的教育大数据,挖掘其规律及发展趋势。[1]
从教育大数据的特征看,教育大数据在继承了大数据特点的基础上有所发展。其数据来源大多来自录音录像等非结构化数据,这决定了技术上有一定的要求。由此可见,教育大数据的显著特征在于它的高复杂性。[2]
教育大数据的组成与特征决定了其需要借助数据可视化技术来摸索数据背后隐藏的规律。到目前为止,数据可视化所涵盖的技术方法和内容在不断丰富当中。对其概念加以宽泛定义,数据可视化可视为将大量数据以数据集的形式借助图像化的高级技术挖掘未知信息的方法。
经过“科学可视化—信息可视化—数据可视化”的演变过程,数据可视化趋向成熟。文本可视化、网络(图)可视化、时空数据可视化以及多维数据可视化是数据可视化最主要的几种方法。基于这些基本的可视化方法,使经过有效整合的海量数据能直观地反映其隐含的内在规律,促使人类更高质量地生活与工作。
二、研究设计
1.数据采集
在中国知网(CNKI)期刊数据库中,以“教育&大数据”、“教学&大数据”、“高校&大数据”为主题词,限定期刊来源类别为SCI来源期刊、核心期刊和CSSCI,同时勾选“中英文扩展检索”进行高级检索后得到2012-2016 年期间共 1252 条相关文献数据(Title、Author、Organ、Source、Keyword、Summary、PubTime、Fund),通过手工剔除CNKI检索的结果中重复文章、访谈、新闻、会议通知等非学术文章后,以ENDNOTE、RefWorks、自定义三种格式导出文献数据,最终得到2012-2016年的文献数量分别为 1、50、174、347、494,总计 1066 条有效数据。
2.分析过程
数据分析过程主要分为三个方面。首先,资源文献计量分析。自定义格式文献数据利用Excel数据统计分析工具,对教育大数据领域资源文献进行计量分析,包括科学研究产出趋势分析、载文期刊分布与产出趋势分析以及基金论文数量与地区分布情况分析。其次,共词聚类分析。将ENDNOTE格式文献导入SATI中,转换成XML格式后抽取关键词,进行词频统计,生成关键词共现矩阵。再导入Ucinet,生成.##h格式数据。进行高频关键词的中心度分析后,利用NetDraw对结果进行可视化,得到社会网络图谱。利用Ucinet层次聚类和SPSS 19.0多维尺度分析,得到聚类树图以及多维尺度图谱,以此来进行高等教育大数据的热点研究。最后,知识图谱分析,通过文献分析可视化软件Citespace将Ref-Works格式数据进行转换后,得到关键词的时序图与突变词、科研机构的合作图谱等,揭示大数据在高校教育领域的热点迁移及发展趋势并做进一步的预测分析。
三、我国高校教育大数据领域资源文献计量分析
1.科学研究产出趋势
为探究教育大数据文献的产出趋势,笔者以2012-2016年期间发表的相关文献为数据来源,探索教育大数据的科学研究产出趋势。自2012年以来,对大数据在高校教育领域的研究期刊与论文产出均显著上升。从论文数量来看,2012年仅1篇,之后逐年增长,2013年增长至51篇,2014年增长速度加快,2015年增幅达到顶峰,2016年数量高达497篇,占据2012-2016年总论文数量的46.62%。[3]相关的研究期刊与论文数量呈现的态势基本一致。由此可见,大数据在高校教育领域的研究始于2013年,2014年开始大规模涌现,并呈现持续快速发展趋势。
2.载文期刊分布与产出趋势
笔者选取样本数据中权重值较大的七个期刊,进行分析处理。处理结果表明,在2012-2016年期间,总发文数量排在榜首的期刊为《中国电化教育》,高达49篇;其次是《现代教育技术》和《中国成人教育》,数量均为40篇。同时,Top7期刊所载文献数量占据文献总数的25.89%,基于二八定律,表明多数载文期刊发表高等教育大数据相关文章数量逐年增长,《中国成人教育》于2016年就高达31篇文章之多,可见相比其他研究课题,大数据在高等教育领域的研究已呈现出压倒性优势。即使该方面的相关论文已处于高产阶段,但随着大数据时代的推动,高校教育大数据的研究在深度和广度方面都具备进一步的发展空间。
3.基金论文分布
在海量学术研究论文中,基金论文举足轻重,它往往揭示着当前研究领域的重大突破或是新兴研究热点和前沿方向。基金论文数量的多少,可以从侧面反映出一个学科的学术水平和科研力量以及其研究课题受到政府各部门与社会各界的关注与支持度。[4]
本文将基金类别分为国家级、教育部、省市级、院校级、其他5种,统计出每年不同级别的基金论文数量,以及基金支持的组织机构所在省市分布,其中地区分布共有32个,这里只选取了前10个基金论文数量多的省市,在总数中占比74.34%。
从横向的角度看,很容易直观地看出2012、2013两年大数据在教育领域的应用处于刚刚萌芽时期,国家、社会对新生事物认知能力与扶持程度不强。2014、2015是大数据迅猛突起与发展的两年,可以看到不光是国家、教育部,连各个省市、院校、其他社会组织机构,对其扶持力度也都陡然增加。在2016年至今,应该可以说是大数据发展进入全盛时期,特别是国家等级的基金论文数量增幅最大,反映出在以网络强国托起中国梦的时代背景下,国家对大数据技术在教育领域中掀起的改革浪潮是看好与肯定的。从纵向看,5类基金论文,虽然省市级别是占到最多的,但其每年增幅的多少受国家级基金论文数量变化的影响,这表明学科领域的研究方向一定程度受到国家宏观的调控,下级省市积极响应。
从地区的分布情况看,基金论文数量存在着地域差异性。在选取的样本中,75.13%的论文基金由江苏、广东、北京、上海、重庆五个省市提供,其中江苏省占据到了23.86%。广东、北京旗鼓相当,上海、重庆势均力敌,这与其经济发展有一定关系。
四、我国高校教育大数据研究热点探究
一篇论文的研究方向与精髓之处大部分可由关键词反映,因此在大量文献中统计出关键词的频次,就能观察到这个研究领域的热点。于是本文选择了文献题录信息统计分析软件(SATI 3.2),对知网得到的ENDNOTE格式的文献数据进行分析。[5]先将表述不同但含义相近的关键词进行统一(如高校思想政治教育、思想政治教育、思想政治理论课、统一为思想政治教育),再进行关键词的词频统计,共得到184个关键词。[6]提取其中词频不低于13的关键词为高频词,得到结果如表1所示。
表1 前28位高频词
本文所使用的SATI分析软件,已采用了Equivalence系数消除了多值共现矩阵中由于关键词频次的悬殊而对统计结果造成的影响。因此只需使用软件自带的Co-Occurrence Matrix(Similarity)方法,设置行/列的值为 28,即可自动产生高频词的共词相似矩阵,如表2所示。矩阵中的数值均属于 [0,1],代表着关键词之间的共现关系,数值越大则二者更有可能出现在同一篇文献中。
通过Ucinet(社会网络分析软件)对表2的相似矩阵进行网络中心性分析,再使用NetDraw工具进行结果的可视化,得到图1。图中正方形表示高频词的节点,正方形越大意味着节点度中心性越高;节点的颜色不同表示点接近中心性的高低,值越小,说明此节点距离其他节点的最短路平均距离越小,其中心度也越高。一般情况下,多篇文献同时存在一个相同的关键词,则此关键词接近中心度一般比较高。
如图1所示,可粗略观察到,大数据在教育领域的研究热点除开大数据本身外,突出的还有高校图书馆、数据挖掘、思想政治教育、创新、MOOC、学习分析等。其中与大数据相连距离最短的是数据挖掘,说明数据挖掘在大数据的应用中非常核心。从边缘看,互联网思维与其他关键词联系最少,说明此关键词并不是当下有代表性的研究点或研究得还不够深入。
图1 高频词社会网络图谱
使用Ucinet软件,对高频词进行凝聚的层次聚类分析,得到图2。
多维尺度分析实质上就是一个降维但又不改变对象间最初关系的分析方法。通过不同关键词在二维平面之间的距离发现研究主题的结构。由于关键词的相似矩阵存在太多的0,对多维尺度分析的拟合效果造成一定的影响,于是改用关键词的相异矩阵,通过SPSS 19.0进行多维尺度分析,得到图3。
将聚类树图(图2)与多维尺度图谱(图3)进行对照,发现除了少数几个关键词之外,其余聚集程度基本一致,于是笔者可将大数据在教育领域应用的研究热点主题大致归纳为以下四种:
图2 高频关键词聚类树状图
图3 高频关键词多维尺度图谱
第一,大数据时代下高校图书馆建设的研究。包含高校图书馆、云计算、信息素养、数据素养、智慧教育5个高频关键词。图书馆作为高校最大的数据资源库,大数据加云计算对其作用也更为显著。通过读者平时阅读记录,分析其兴趣偏好,为其提供个性化阅读服务;管理人员通过数据分析与管理,对图书资源能更有效整合,提高工作效率。这就需要培养高校师生从上到下的信息素养与数据素养,增强对数据与信息的敏感度与处理力,符合时代发展的需要。该主题旨在研究大数据对高校图书馆信息化建设的作用以及如何运用大数据实现高校图书馆信息化的实施建议。
第二,大数据技术对教学模式变革影响的研究。包含MOOC、教学模式、翻转课堂、教学改革、在线教育、大数据技术、信息技术、高等教育8个高频关键词。传统教育模式是一种灌输式、大众化教学,它忽视了学生个性化发展的需求。随着互联网与大数据的迅速发展,海量数据与信息资源能够达到共享,于是研究者将目光聚焦在传统教育模式变革上,一些诸如MOOC的在线教育平台应运而生,使学生能依据自身兴趣选择学习重点,达到个性化的学习;而且使教师资源能够充分利用,达到互通共享。课堂教学也由教师为主学生被动接受的模式,转而出现了翻转课堂,教师只是引导,学生主宰课堂,更好地发挥学生的能动作用。该主题旨在研究如何充分利用大数据技术,产生适应人才发展的教育模式,在基本教学中学生与教师能达到友好的交互。
第三,大数据环境下人才培养的研究。包含学习分析、人才培养、数据挖掘、教育大数据、互联网+、教育信息化6个高频关键词。大数据时代下,人才培养不再是一味地给予更多知识的灌溉,而是教师或学校当局在学生学习过程中萃取学习信息,通过数据挖掘和分析对其学习历程加以评估,进而对其学习方法或环境加以优化,从而达到有针对性和高效的学习。该主题旨在研究教育信息化对高校人才培养的启示与作用,从而使教学成果有质的提升。
第四,大数据在高校思想建设及日常工作中应用的研究。包括大数据时代、创新、思想政治教育、大学生、高校、档案管理、互联网思维、数据分析8个高频关键词。创新意识培养与思想政治教育是每个大学都必不可少要开展的基础思想建设。大数据逐渐成熟的背景下,基础思想教育有了新的契机,通过学生在学校学习生活产生的庞大数据,总结大学生群体性特征,实现整体行为的一个预警。学生多元化发展,使个性化培养成为大势所趋。档案管理是每个高校日常最基本的工作。大数据时代下,档案作为数据的一个载体,也具有大数据的海量信息,价值密度低、处理速度要求高的特点,使其日常的维护与利用将面临着更大的挑战。该主题旨在研究在大数据普及之下,高校的基础工作(思想建设、日常工作)如何改变其传统方式,适应现代信息化的需求。
五、我国高校教育大数据研究趋势分析
可视化软件CiteSpace中的Timezone view(时序图)是从时间维度出发展示学科或领域的知识演变过程,在此笔者以关键词为分析对象,探究我国高校教育大数据的发展趋势。通过CiteSpace聚类关键词得到关键词共现网络后,根据关键词最初出现的时间,进行Timezone view分析,得到关键词的时序图谱(见图4),由此能直观地反映出我国高校教育大数据的研究趋势。结果表明我国高校教育大数据的发展大致可分为两阶段:第一阶段是初期成形阶段(2012-2013年),大数据开始应用于学习分析、高校图书馆;第二阶段是快速发展阶段(2014-2016年),大数据主要涉及高校思想政治教育。[7]
图4 我国高校教育大数据研究关键词时序图谱
虽然2013年开始大数据已应用于高校教育领域,但2014年开始才在研究的深度上有所扩展。由于大数据的快速渗透与发展,高校教育大数据由初期阶段进入快速发展阶段成为必然结果。研究表明,初期成形阶段注重大数据在高校教育理论方面的应用,而快速发展阶段则侧重将大数据应用于高校教育的实践方面,从而体现了我国高校教育大数据研究从理论到实践的发展趋势。
Bursts(突变词)是具有短期内很大变化特征的变量值,该突变信息可用来反映更深层变化,由此探究领域的前沿与趋势,如图5所示。[8]结果表明,“科学数据”、“数据”、“学习分析”、“教育数据挖掘”和“云计算”均为 2012-2013年期间的突变词,其中学习分析的突变指数为3.5109,明显大于其他突变词,说明学习分析是未来最可能发展的一个新兴前沿方向。2014-2016年期间,只出现“翻转课堂”这一个突变词,说明这一时期因为快速发展,新的研究方向还未成形,仍旧是研究初期阶段的主题。大多数突变关键词均出现在2013年以前,即初期成形阶段,说明初期阶段的关键词在领域研究过渡的过程中起着关键性的作用。同时,学习分析的突变指数最为突出,并且最早出现在2012年,说明学习分析是最早将大数据应用于高校教育领域的主题之一。
图5 高校教育大数据关键词突现率(跨年度:1年)
一个领域的科研核心竞争力在于不同科研机构是否能发挥其各自的最大优势,懂得适当合作,人才互通,方能达到双赢之效。对高校教育大数据的研究,从初期至今也有不少科研机构涌现。为了发掘不同时期主要科研机构的变迁与它们之间的合作情况,本文以机构(institution)为节点类型进行聚类,得到科研机构的分布及之间合作的关系,再进行Timezone view分析,最终得到高校教育大数据研究的机构合作图谱(见图6)与时序图谱(见图 7)。
图6 高校教育大数据研究机构的合作图谱
图7 高校教育大数据研究机构的时序图谱
在图6中,节点大小表示论文产出数量多少,节点之间的连线用来表示机构之间的合作,标签字号大小表示中心性程度高低,字号越大中心性越强。[9]机构合作图谱中节点101个,连线 20条,网络整体密度显示为0.004,说明我国教育大数据研究机构分布零散,不同机构之间学术研究合作较少,尚未形成具有凝聚力的科研群体。从图7中可发现,这些机构发表相关文章大多集中于2014-2016年,即快速发展阶段。华东师范大学和江苏师范大学在初期阶段开始高校教育大数据的研究,东北师范大学和北京师范大学等于2014年成为第二批加入研究的机构,西南大学和武汉大学参与研究始于2015年。其中,高校教育大数据处于初期成形阶段时,武汉大学虽然尚未发表相关文章,但在其成为热点时,载文量骤增,迅速成为引领该领域的龙头机构。由此可见,我国对大数据在高校教育领域的研究,其发展态势不是逐步向前,而是在兴起后以爆发式状态呈现。在2014-2016年多数高产机构在这个时间段展开了教育大数据的相关研究。[7]
六、研究结论与思考
1.研究结论
本文通过几种不同分析工具对教育大数据领域相关文献进行了多层次多角度的分析,最终可以简洁概括为以下几点结论:
第一,我国高校教育大数据领域资源文献呈现逐年阶梯式增长。从大数据萌芽到如今野蛮生长,其发展过程只用了短短5年。各类科研机构、载文期刊纷纷紧随时代步伐,从不同角度出发对大数据在高校教育领域的应用展开研究,推动教育领域的全面革新。国家、教育部、省市、院校以及其他社会组织机构也不断加大对其扶持力度,教育大数据未来前景可观。
第二,我国高校教育大数据的研究热点主要集中在高校公共领域建设(如高校图书馆)、教学模式变革(如MOOC之类的在线教学、翻转课堂之类的课堂模式)、人才培养过程(如学生的学习分析)、思想建设工作(如政治思想教育、创新思维培养)以及日常工作处理(如档案管理)这些方面。虽然研究涉及高校建设主体的各方面,但在未来的研究发展中,仍需更加深入与契合实际。
第三,我国高校教育大数据的研究趋势主要分为两个阶段。初期成形时,主要研究大数据在学习分析与高校图书馆中的应用;快速发展时,研究重心转移至大数据在高校思想政治教育中的作用。整体表现为从关注高校硬件发展方面回归到思想教育的软件方面。另外,相较初期成形时,快速发展时期新的研究主题明显偏少,说明这一时期文献产出与研究成果只是量上面的猛增,并未上升到质的飞跃。因此在未来的研究发展中,应在其研究的广度上加以扩大,着眼新的方向,而不是旧的主题上的重复。
2.研究思考
大数据掀起的变革浪潮,已席卷了社会的各个领域,高校教育已全面进入大数据时代。虽然目前大数据在高校教育领域的研究,已然达到一定的高度,但未来发展趋势仍不可小觑。在此,笔者通过以上分析,认为教育大数据的未来有以下方面需要去关注与思考:
(1)数据采集
大数据技术和方法飞速发展的今天,全样本性是当前科学研究的一个显著特点,并且研究越来越关心效率、考虑因果关系以及相关的复杂性等。[10]教育大数据以海量的数据为依托,以便探索可靠有价值的规律。然而现今数据采集技术有限、覆盖面狭窄等原因,使教育数据的采集不全面,大数据在教育领域多元化的扩展与应用受到了限制。随着大数据的信息时代来临,高校纷纷推出校园一卡通,包含了餐饮消费、医疗就诊、图书借阅、选课记录等数据,但其涵盖的数据有限,共享数据模式尚未形成,难以与学习者自身的体质数据、生活数据等其他相关数据整合,形成数据链式分析。因此在今后的研究中,研究者更应该关注数据的来源采集而不是单纯理论上的如何使用,这样从源头上提高数据的质量,才能更好地挖掘其蕴涵的价值。
(2)领域专业性进一步加强
对教育大数据的研究与分析需要建立在科学的数学模型基础上进行。然而,现今的构建模型阶段,显得专业性不足。一方面,权威的专业人士的匮乏,难以将教育大数据的研究成果应用于教育领域。另一方面,数据分析处理技术的不充分应用,使大数据给教育领域带来的机遇并没有完全得到利用。教育大数据,是统计与教育两大领域的综合,这种跨学科的研究就更需要不同领域不同科研组织人才互通、资源共享,而不是孤立地、停留在自己擅长的领域去做研究。教育大数据未来的发展无疑离不开学科、机构之间的合作,只有这样才能更具全面性、权威性。[2]
(3)隐私保护有待完善
教育大数据的主体包括教育者和受教育者,他们的隐私保护至关重要。应当在完善法律的前提下,明确规定公开数据与隐私数据的界限。今后的研究者应当在确保教育大数据来源的可靠性、数据的合法性等的前提下,再开展教育大数据的研究。[2]
综上所述,教育大数据虽已进入黄金时期,但其发展仍有待进一步深化与巩固。在今后的研究中,研究者应从表面理论深入到技术实施层面,应拓宽现有研究范围,不断挖掘新的研究方向,使大数据在教育领域能实现更深层次的影响与作用。
[1]邢蓓蓓,杨现民,李勤生.教育大数据的来源与采集技术[J].现代教育技术,2016(8):14-21.
[2]孙洪涛,郑勤华.教育大数据的核心技术、应用现状与发展趋势[J].远程教育杂志,2016(5):41-49.
[3]陈善敏.我国图书情报领域特色资源论文研究态势——基于文献计量和多元统计[J]情报科学,2017(8):170-176.
[4]相东升.17种图书情报学期刊基金资助论文统计分析[J].情报杂志,2006(1):143-144.
[5]刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012(1):50-58.
[6]崔晓鸾,赵可云.大数据在教育领域的研究热点及发展趋势——基于共词分析的可视化研究[J].现代远距离教育,2016(4):79-85.
[7]王娟,陈世超,王林丽,杨现民.基于 CiteSpace的教育大数据研究热点与趋势分析 [J].现代教育技术,2016(2):5-13.
[8]陈超美.CiteSpace中的 Burst Detection[EB/OL].http://blog.sciencenet.cn/blog-496649-566289.html.
[9]张子石,吴涛,金义富.基于 CiteSpace的网络学习知识图谱分析[J].中国电化教育,2015(8):77-84.
[10]宣小红,薛莉,熊志刚等.教育学研究的热点与重点——对2013年度人大复印报刊资料《教育学》转载论文的分析与展望[J].教育研究,2015(2):29-42.