高校大数据应用热点探析与未来展望
——基于共词分析的视角
2020-09-26陶元磊
陶元磊
(淮北师范大学 经济与管理学院;安徽省高校管理大数据研究中心,安徽 淮北235000)
推进高等教育治理体系和治理能力现代化是高校落实党的十九届四中全会精神的重要工作,高校在探索现代化的治理模式之路上从未停息:从大数据在教育技术应用上初试锋芒,到2015 年国家发布《促进大数据发展行动纲要》勾勒出教育大数据的应用前景,再到2018年国家颁布《中国教育现代化2035》提出具体的应用目标,信息化时代教育变革的路径愈发清晰,高校实现治理能力现代化的方向日渐明朗。当前,在以“大数据”“互联网+”“人工智能”等为代表的信息技术发展和支撑下,包括高校在内的很多社会组织正在逐步向主动意识下的社会网络组织过渡,呈现出复杂联结、互动频繁的网络组织特征[1]。大数据技术和高校社会网络的融合与发展,使得高校已然成为一个巨大的、精准映射并持续记录各个利益相关者行为特征的数字世界,这一数字世界所蕴藏并不断积累的大量数据已成为深刻理解高校行为规律的必要依托[2]。一方面,庞大的信息量意味着更多的噪音干扰,但大数据可以从宏观角度,通过数据挖掘和预测分析帮助高校管理者更容易地发现问题、弱点和盲区;另一方面,大数据可以帮助提升高校的决策能力、执行能力以及评价能力,有效提升高校内部治理能力和治理水平。
然而,高校在运用大数据进行管理实践方面并没有达到人们的预期,高校作为科研人员聚集的高地,反而在研究和应用上已经明显滞后于工商业及一些政府管理部门[3]。胡弼成、王祖霖[4]通过文献梳理,认为大数据之于教育具有重要影响,可以促进教学,能推进教育决策的科学性,可完善教育质量监控体系,会促进教育评价的全面性和客观性,且能助力智慧教育。然而,根据刘凤娟[5]的研究,大数据在教育上的应用还处于起步阶段,尚未实现大数据与教育实践的深度融合;吴刚、陈桂香[6]则认为高校大数据应用仍然存在制度供给相对滞后、数据标准推进缓慢、共治格局尚未形成等问题。可见,高校大数据的研究与应用方兴未艾,但现有研究主题有碎片化倾向,热点与重点不清晰,使得研究者们不好把握进一步深入研究的方向,应用者们找不到期望的理论支撑,从而造成理论与实践的脱节。
本研究以近年来CSSCI 期刊所刊载的高校大数据文献为研究样本,以文献关键词为基础构建共词矩阵,结合社会网络分析法和聚类分析法进行共词分析,以期探索高校大数据研究与应用的热点问题,揭示现有研究领域之间的相互关系,展望大数据在高等教育事业发展中的应用前景。
一、研究方法与数据来源
(一)研究方法
传统的文献综述是以个人主观归纳为主,He Q[7]在社会网络分析基础上提出了一种以内容分析和科学绘图为核心的方法,即共词分析法,该方法拓宽了文献计量研究的视野。共词分析法一般是通过统计一对研究对象两两在同一文献中共同出现的频次,构建共词矩阵,然后利用社会网络分析方法探讨不同对象在网络中的地位和角色,并结合其他方法对研究对象进行深入研究,以定性和定量相结合的方法揭示特定研究领域的研究结构和研究热点,并且对研究领域动态发展过程进行监测和跟踪。由于关键词是为了文献标引工作而从学术论文中选择出来用以表示全文主题内容信息款目的单词和术语[8],因此同一领域一定时期内的关键词集合能够反映研究内容的总体特征以及相互之间的内在联系,所以本研究以关键词作为学界研究的关注点。
本研究首先获取与高校大数据主题相关的文献,然后从这些文献中提取高频关键词,采用递进研究的路径,分别对关键词构成的共词矩阵进行中心性分析、凝聚子群分析以及多维尺度分析,进一步挖掘关键词之间的内在联系,有利于更好地分析高校大数据应用的热点问题和发展趋势。
(二)数据来源
本研究所用的与高校大数据相关的文献来源于中国知网CNKI中国学术期刊网络出版总库,设置检索条件为“主题=大数据+高校”或者“主题=大数据+大学”,在CNKI 中对CSSCI 期刊进行检索。截至2019 年12 月31 日,根据检索条件得到1418篇文献,去掉会议、书评、访谈等非学术型文献,共得到620篇有效文献,其中最早对高校大数据研究的文献出现在2012年,趋势如图1箱型图所示。
利用SATI 软件,本研究从上述有效文献中共提取原始关键词2560 个,由于高校大数据研究与应用仍处于初级阶段,有些关键词的描述和界定并不清晰,有必要对原始关键词进行数据清洗:一是为了提高聚类质量,对意义相近的同义词进行合并,例如将“高校图书馆”“移动图书馆”“大学图书馆”“数字图书馆”等合并为“图书馆”;将“数据素养”“信息素养”“数据素养教育”“信息素养教育”“科学数据素养”“关键素养”合并为“数据素养”等;二是删除“策略”“路径”等没有学术意义的泛义词。数据清洗后共得到1668 个有效关键词。这些关键词代表了学者研究高校大数据的不同视角和思考程度。如图1折线所示,每年的关键词数量从2012 年仅有7 个快速增长到2019 年的338个,表明学界对高校大数据的研究广度在逐年扩大。
图1 高校大数据研究文献关键词年度分布图
由于本研究属于近几年新兴的研究领域,为了便于针对性地梳理研究热点,本研究对1668 个关键词中词频大于等于5次的关键词进行分析,共列出高频关键词57个,具体如表1所示。
表1 高频关键词统计列表(词频≥5)
将上述高频关键词利用R软件进行可视化处理,得到如图2所示的词云图,可以直观清晰地看到当前研究的应用热点主要集中在图书馆以及对大学生的思想政治教育方面,其次是数据素养、MOOC、人才培养等教育教学类研究,然而在更深层次的高校管理领域的应用并没有明显的体现。由于关键词的词频是绝对值,不能反映关键词之间的内在联系,所以简单地按照词频排序来划分研究热点并不准确,需要对之前构建的共词网络进行包容化处理。为了更深入地了解这些关键词之间的网络关系,本研究基于社会网络分析和聚类分析对高频关键词进行共词分析,以期挖掘更多有价值的信息用于指导大数据与高校融合的实践。
图2 高校大数据研究关键词词云图
二、基于关键词的共词社会网络分析
从社会网络的视角看,关键词是网络中的不同节点,节点之间的联系构成了共词分析的基础。在一定的时间范围内,有些关键词反映的是研究热点,而有些关键词代表的主题仍处于初始研究状态;有些关键词之间关联紧密,也有些关键词会相对孤立。通过对关键词网络位置的分析,研究者可以发现隐藏在直观表现背后的网络关系,这对探讨一个研究主题的成熟度、知识结构、研究的规模等状况具有非常重要的意义[9]。因此,社会网络分析是揭示关键词背后网络关系的重要辅助方法之一。由于中心性指标仅适用于对二值网络的测量[10]136,故本研究首先利用SATI 软件将高频关键词整理成一个二值共词矩阵(如表2 所示),然后再通过UCINET 软件得到网络中心性相关指标,以便进行后续分析,如表3所示。
表2 部分高校大数据高频关键词二值共词矩阵(6×6)
社会网络分析的中心性指标主要包括点度中心度、接近中心度以及中介中心度三项个体结构指标(见表3),本研究将结合词云图对网络中关键词的影响度进行个体指标分析。
表3 高校大数据高频关键词网络中心性指标
1.点度中心度表示网络中一个节点与其它节点相联系的程度,拥有高点度中心度的关键词,在整体中也往往处在一个重要位置。点度中心度值越大,反映其在网络中的地位越高,越有可能是研究的热点问题。由图2 和表3 可以发现词云图反映的热点“图书馆”“大数据时代”和“思想政治教育”点度中心度值也位居前列,说明这些关键词构成了研究热点的一部分。
2.接近中心度则是以距离为概念来计算一个节点的中心程度,与其它节点越近,其中心性越强,即该关键词越容易和其它关键词联系起来,所以该指标越小的关键词越是处在网络的核心位置。表3中接近中心度较低的关键词是“图书馆”“大数据时代”“人才培养”“人工智能”和“思想政治教育”。词云图中相对靠后的“人工智能”排序却较为领先,表明其已经成为研究热点;而原本词频比较高的“智库”落在了后面,表明“智库”主题是相对比较独立的研究领域,可能只与几个固定的关键词相连,目前还不能划为热点范畴。
3.中介中心度指标衡量了一个关键词作为媒介的能力,即占据在其它两个重要位置的关键词,若非经过该媒介就无法联系在一起。占据这样的位置越多,就越代表该关键词具有很高的中介性,越多的关键词建立联系时就必须要通过它,所以对其它关键词有较高的影响力。在表3中“大数据时代”“图书馆”“人工智能”“MOOC”和“人才培养”排名靠前,即这些关键词影响其它关键词共现的能力比较强。
一般而言,上述三种中心度应该是相关的,如果它们不相关或相关系数较小,可能预示着该网络隐含着潜在的结构特征[10]135。本研究将表3 的点度中心度排序后发现另外两个指标的排序发生了微小的变化,表明可能存在隐含的信息。进一步研究发现,词频较高的“创新”同时具有较高的点度中心度,但是中介中心度偏低,表明该关键词虽具有一定的研究热度,但当其它重要关键词构建研究方案时,却可以不用考虑该关键词所代表内容的影响,即目前围绕“创新”进行的研究相对比较独立;“数据治理”点度中心度较低,但是中介中心度却位于前列,该关键词出现少并不意味其在网络中不重要,因为较高的中介性表明它影响其它关键词共同出现在一篇文献中的能力较强,许多重要的关键词通过它联系到一起,结合高校治理现代化研究的兴起,表明“数据治理”很有可能成为未来新兴的研究热点。
三、基于关键词的共词聚类分析
以上通过中心性分析已经对个体研究热点有了初步结论,但这些热点又影响到了哪些研究领域尚不清晰,这需要在上述中心性分析的基础上继续对高频关键词进行聚类分析。根据关键词间的相似程度进行分类,可以通过多维尺度分析(Multidimensional Scaling,MDS)进行,该方法是一种将多维空间的研究对象降维后进行定位与分类,并且保留原有对象间关系的分析方法。关键词的多维尺度分析实质是依据关键词之间的“距离”,即关系的紧密程度对研究问题进行聚类,能全面反映研究的主要角度与热点[11]。本研究通过SATI 软件生成相异共词矩阵(如表4 所示),用来反映关键词两两间的紧密程度。
表4 部分高校大数据高频关键词相异共词矩阵(6×6)
利用SPSS 软件的多维尺度分析功能(ALSCAL)对上述相异共词矩阵进行分析,其中形态设置为正对称,选择欧氏距离模型(Euclidean Distance Model),得到多维尺度分析散点图(如图3所示)。通过图3散点分布可以发现,关键词有三个明显的聚类。继续在分析中加入局部多项式回归拟合(Loess)对两维散点图进行平滑处理,再次验证了关键词可以有三组分类,但在散点图下方的关键词相对比较集中,而其它两类关键词的分布可能存在较多的交叉和相互渗透现象,因此若要得到准确结论,还要进一步进行凝聚子群分析。
图3 高校大数据高频关键词多维尺度分析散点图
由上述分析可知本研究的关键词整体上可以分成三个聚类,通过UCINET中的派系分析功能进行分类,得到三个聚类所含关键词的具体分布。本研究使用特征向量中心度对每一组聚类中的关键词进行排序(见表5),以反映关键词在聚类中的地位。所谓特征向量中心度是指把与特定节点相连的其它节点中心度考虑进来而进行的测度,该指标越高,表明节点在以临近节点的影响力为权重进行判定时,越处于网络的权重影响中心,其代表了所在聚类的整体网络的核心节点群,因此可以选择特征向量中心度指标来测度核心节点群[12],有利于归纳出聚类所具有的属性特征。
表5 高校大数据高频关键词聚类表
本研究结合不同聚类中关键词的特征向量中心度对聚类属性进行分析。
(1)聚类1主要是围绕“图书馆”“MOOC”等应用场景展开数据挖掘与数据分析。一方面,高校图书馆具备文献信息资源、学科服务、数据挖掘和情报分析等诸多优势[13],其中这里涉及到的“智库”实际上就是与图书馆的数据服务功能密切相关,这也解释了前述分析“智库”主题词频高但中心度低的原因;另一方面,慕课过程中师生交互和生生交互会不断生成数据,选择合适的方法分析成为慕课研究者们当前关注的重要问题[14],因此很多关于数据挖掘与数据分析的技术在慕课领域得到广泛的应用。虽然当前的大数据技术应用仍集中在少数领域,在应用方向上有失均衡,但是在大数据应用理念上已经呈现出由传统的“数据管理”转向“数据治理”的趋势,高校的数据素养在这一过程中也得到了训练和提高,为高校日后在更多领域采用大数据技术奠定了基础,积累了经验。
(2)聚类2的核心关键词是“人工智能”。该聚类不仅把人工智能和云计算等先进的技术与“双一流”“智慧校园”紧密联系在一起,而且涵盖了“党建”“资助”“教师”等和高校日常运转相关的领域,并且能够更好地满足高校“个性化”的发展需求,包括学校层面的“个性化教育”和学生层面的“个性化学习”等。人工智能与大数据的结合,使得高校利用数据管理和治理学校变得更具有可行性和操作性。因此,认清当前信息技术发展所引发的教育变革,这不仅是“双一流”建设的重要组成部分,而且成为很多“非一流”地方高校实现弯道超车的契机[15]。正如信息管理专家涂子沛所分析的那样,“在大数据时代,计算能力是一种资源,对于小公司,不用投入大量的资金购买服务器和软件,通过租用,立刻就可以享受到以前只有大公司才能配置的软硬件能力”[16],对于高校同样如此。“非一流”高校虽然在软硬件投入上有限,但对数据处理的能力差距会逐渐缩小,而且每个学校的网络中心、教务、科研、学工、财务等职能部门基本上都已经实现了信息化,已经沉淀了大量和教学、科研、管理相关的大数据,因此,以数据共享为特征的大数据时代使得各类高校可以分析和使用的数据在大量增加,通过对这些数据的交换、整合和分析,高校可以挖掘出符合自身特点的、“个性化”的发展机遇。马费成在谈到大数据与高校人文社科领域融合时指出,“无论用什么样的方法去获取数据,这些数据都只是研究的素材,而世界的运行规律隐藏在这些数据当中,需要主体通过抽象思维去揭示和发现这些规律”[17]。高校更加需要的是一种新的思维方式或者说是一种新的世界观,“人工智能”终归取代不了人的智慧,高等教育的参与者们要善于利用大数据改进和提高现有高校治理体系的治理能力。
(3)聚类3主要围绕“大学生”展开。在大数据时代下,充分利用先进的大数据技术,对大学生进行思想政治教育、创新创业教育,开展系列教学改革、课程建设以及对新工科等人才培养模式进行探讨。归根结底,大数据给包括大学生思想政治教育在内的诸多领域带来了新的科学方法论[18],即通过对大学生在互联网络、智能手机以及其他各处的数字足迹的挖掘,我们可以准确地掌握大学生的思想动态、创业倾向和学习习惯,通过对历史数据进行分析,可以更好地预测大学生未来的思想和行为轨迹,从而达到对大学生科学培养、精准施教的目标。围绕这一方法论,大数据在大学生培养领域仍将有广泛的应用空间。相较于大数据在对“大学生”培养方面愈加深入的研究和应用,目前对高校教育者们的数据素养培养上还有较大差距,相关领域在本次研究中并未有突出显现。如果“授业者”们的大数据素养不高,很难想象可以培养出优秀的大数据人才,因此培养大数据教育家变得尤为重要。有学者已经提出了“智慧师训”的概念[19],探索教师角色和教师培养模式的变革,通过基于大数据等信息化技术的师训系统平台来提升教师的核心素养,打造一支高素质、创新型的教师队伍,更好地践行“以本为本”之承诺。
四、基于学科分类的检验
为了验证通过共词分析法对研究热点的判断,本研究利用CNKI 的“文献分类目录”功能,对样本文献的学科分类进行了分类。按照一级目录进行分类发现,“社会科学Ⅱ辑”和“信息科技”类的研究最多,分别达到了48.87%和46.26%。同时发现,跨学科交叉研究的范围越来越广,相关研究已经延伸到“基础科学”“工程科技”“哲学与人文科学”等领域,但是无论在数量上还是深度上还有待提高。
在“社会科学Ⅱ辑”的二级目录中,研究主要集中在“高等教育”类,占比为68.69%,进一步分析“高等教育”下的三级目录发现,“思想政治教育、德育”“学校管理”“教学理论、教学法”的占比居前,这些都是本研究探索的研究热点的组成部分,并且与聚类2和聚类3不谋而合。
在“信息科技”的二级目录中,研究主要集中在“图书馆学、图书馆事业”,占比高达75.99%,这体现了“图书馆”是当前高校大数据应用第一研究热点的事实,也是聚类1的重要组成。进一步分析该目录下的三级目录,有52.15%的文献研究“各类型图书馆”,36.5%的文献研究“读者工作及藏书建设”,而对“数字图书馆”“文献工作”的研究都只有6 篇,可见当前在图书馆领域的研究仍偏传统,图书馆信息化资源的数字化建设以及价值挖掘仍需要加强研究。
五、研究结论与展望
本研究以从高校大数据相关文献中提取的高频关键词为研究对象,通过对由其构成的共词矩阵进行社会网络分析和聚类分析,对当前高校大数据研究与应用的热点问题进行系统梳理,得到如下结论:第一,当前的研究热点集中在传统的“图书馆”和“大数据时代”下围绕大学生开展的思想政治教育、人才培养等方面的应用,但各应用场景之间缺乏理论与实践的相互支持,没有展现出大数据应有的跨领域合力作用;第二,“人工智能”方面的研究正在兴起,而潜在的下一个研究热点主要体现在“数据治理”方面;第三,无论是当前热点还是潜在热点,在高校管理应用上缺少系统研究,在高校决策支持层面上贡献不够,需要进一步加大研究力度,推进大数据在高校管理中更广泛的应用;第四,大数据属于工科技术,但从学科分布来看研究领域仍相对集中,与基础学科的交叉研究还不够充分。
正在变革中的高校需要充分利用大数据的优势来不断创新制度和更新理念,然而现在的研究力量整体上仍比较薄弱,有影响力的研究成果较少,面对未来庞大的理论和实践需求,本研究从三个方面进行展望:一是在理论上,加强跨学科研究融合,把握最新的大数据研究前沿,并结合现有的研究成果,构建高校大数据研究框架,为高校各个领域的大数据研究提供标准的研究范式和准确的方向引导,同时,有必要加强对高校管理者和高校教师数据素养的培养,提高他们分析和驾驭大数据的能力;二是在数据上,迫切需要建立系统的、强大的数据库资源,微观层面上高校自身可以注意对大数据的全方位收集和标准化管理,宏观层面上政府和教育主管部门应当出面组织省级层面的大数据平台建设,有关结构和非结构化数据的收集整理是实现高校大数据潜在规律发现的前提和关键;三是在应用上,提高高校的管理水平和治理能力才是根本,应当加强大数据与高校管理实务的深度结合,让核心职能部门都参与到学校的大数据建设和大数据使用中来,从而为学校各类资源的有效配置、教学科研活动的有效开展、行政机构的有效运行和公共服务体系的有效支撑等提供决策支持,真正将大数据战略嵌入到高校未来的发展蓝图中去。