机器学习在高校大数据的应用现状与趋势
2022-03-17聂文梅刘宏英宋晓霞
聂文梅,刘宏英,宋晓霞,李 勇
(山西大同大学计算机与网络工程学院,山西大同 037009)
随着大数据时代各行业对数据分析需求的持续增加,通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的主要推动力,机器学习成为一种支持和服务技术。如何基于机器学习对复杂多样的数据进行深层次地分析,更高效地利用信息成为当前大数据环境下机器学习研究的主要方向[1]。无论是军事领域还是民用领域,机器学习都被广泛应用。同样在高校教育中,以智慧教育引领教育教学的创新,成为信息时代的必然趋势[2]。如何利用技术支持和促进个性化教学[3]的开展,已经成为智慧教育研究领域的诉求。机器学习作为人工智能领域最核心、最热门的技术,能够基于大量数据的自动识别模式发现规则,预测学生的学习表现[4],为满足智慧教育和个性化学习的需求提供了可能。响应时代号召,应用机器学习技术挖掘、开发和利用高校大数据是我国教育现代化的必然要求。
目前,关于国内教育大数据的相关研究很多,诸如文献[5]通过文献分析法对我国教育大数据的研究现状进行归纳,总结出我国教育大数据概念、技术、应用及科学性四个方面的内容。文献[6]利用CiteSpace 和文献分析我国高等教育大数据的研究热点及发展趋势。文献[7]对近年来国外基于真实数据的机器学习教育应用案例研究成果进行了梳理和归纳。然而,从研究内容角度,多数文献是从教育大数据、思想政治教育或者某种学科角度出发进行研究,研究国内高等教育大数据现状的文献较少,关于机器学习在高校大数据中的应用现状与趋势研究的文献几乎没有。从研究方法上,许多学者对其进行了可视化分析,但多数可视化分析方法比较单一,诸如文献[6]采用可视化工具CiteSpace 进行研究现状分析。单一的分析方法不能达到多个维度的研究效果。
为此,采用文献计量法、科学知识图谱法并结合对比分析技术,对国内高校大数据&机器学习相关文献进行了多层次多维度的研究,探测机器学习在高校大数据的应用现状与趋势,以期为机器学习在高校大数据中的进一步研究、处理和应用提供参考。
1 研究方案
我们首先描述研究使用的数据、方法和可视化分析工具。其次,详细介绍采用的分析框架。
1.1 研究数据和方法
大量关于大数据、机器学习和人工智能的实证研究文献日益成为教育界的热门话题,并引起了研究人员的关注。使用系统的方法回顾和收集有代表性的研究文献数据集在揭示研究进展、识别现有研究差距和为未来研究提供议程方面特别有用。在评估研究进展时,选择不同的数据库、采用不同的研究方法和研究周期可能会产生不同的结果。
用于评估的数据库来自搜索引擎和流行数据库,如谷歌学术、Scopus、EBSCOHost 和Web of Science 等。每个数据提供者都有自己的优势。McKercher 认为,谷歌学术由于其庞大的数据库和易用性,对引文分析非常有用。他从Google Scholar 获得了包括54 种酒店和旅游期刊在内的数据,并使用Publish 或Perish 软件评估期刊的影响[8]。Lee 等利用谷歌学术的数据,对选定文献中的作者、篇幅、协作和引用次数进行了研究[9]。然而,谷歌学术因其不准确和重复问题而受到批评[10]。目前Web of Science 的科学数据库因为其覆盖面广且具有权威性被作为常用研究数据源[11-12]。然而它的登录门槛使很多研究者望洋兴叹。CNKI作为世界上全文信息量规模最大的数字图书馆也为文献的检索提供了支持。陈星等以CNKI 期刊数据库为检索数据源对国内教育大数据进行了现状和趋势分析[13]。考虑到主要研究的是国内高校教育大数据,所以采用了信息量大且容易获取数据的CNKI作为数据源的收集地。
文献计量学方法通常用于系统调查文献的影响。文献的影响一般取决于几个特点。例如,研究人员使用引用计数作为一个重要的指标来突出影响。一些可量化的元素,如字数、作者和合作网络,也可用于评估文献[9]。
评估结果的建模和可视化有助于获得直观、全面的结果,以揭示研究状态和不断发展的研究趋势。考虑到一个单一的属性只能从一个维度描述文章,不足以对整个研究进展进行评价。而CiteSpace 是一款应用于科学文献中识别并显示科学发展新趋势和新动态的工具。它是在文献计量结构的基础上发展起来的,如共引分析和趋势网络[14]。以前的研究中它被用来检测和可视化科学文献中出现的趋势和模式。同时引文和被引文分别代表了研究前沿和学术基础[15-16]。因此,在对所选文献数据集进行CiteSpace建模之后,可以构建一个可视化的共引网络。从多个角度分析所研究问题的现状、前沿和发展趋势。
1.2 研究框架
为了研究基于机器学习高校大数据相关研究的现状和进展,我们提出了一个如图1的分析框架。利用期刊文献中产生的共引网络和不同主题文献,研究出版数量的对比来评估相关文献。
图1 文献评估研究框架
文献评估步骤如下:
(1)检索科学文献数据库进行数据收集。数据来自于CNKI 数据库中2010-2020 年10 年的学术期刊全文。每个记录都包含出版物的若干相关属性,如作者、引文计数、已出版期刊和引用参考文献。
(2)数据初步分析指对收集到的数据集进行预处理,去掉无用和重复的数据。对特定的数据属性进行检查,确定文献研究影响的有用指标。
(3)网络分析是对初步分析后的数据使用可视化工具CiteSpace 进行分析。设计一个科学网络知识图谱,主要关注科学文献之间的联系。该网络图谱旨在评估以下指标:共引、聚类和趋势。
(4)利用传统对比分析方法对机器学习、高校大数据相关研究文献进行对比分析。
2 数据收集与分析
在CNKI 数据库中检索收集了两个数据集,分别为数据集1和数据集2。对数据集1利用CiteSpace进行了网络分析,对数据集2进行了对比分析。
2.1 数据收集和初步分析
数据收集的数据源是国内最大的知识资源平台CNKI 数据库,选择其中的核心期刊、SCI 期刊和EI 期刊的相关论文,数据源的时间范围从2010 年至2020年。每个数据记录包括以下出版物属性:作者、已出版期刊、出版年份、关键字、摘要、引用计数和引用参考文献,这些属性对于识别当前出版物的影响很有价值。为了收集到完整的数据集,保证研究结果的准确性,选择检索遵守以下数据收集规则。首先,关键词应该与特定的主题有实质性的关联。其次,搜索引擎应该返回权威和准确的结果。因此,我们分别使用了三种检索主题,“机器学习&大数据”、“教育大数据&高校”以及“机器学习&高校”对CNKI 数据库进行检索,并经过搜索去掉无用重复的数据,得到289条、440 条和10条,总计739条。该数据集作为网络分析的研究对象数据集1。另外,又分别使用“教育大数据”“高校&大数据”“机器学习”和“高校&机器学习”四种主题进行检索,经过数据初步分析处理后产生数据集2,其包含4 652条纪录。
2.2 数据网络分析
利用可视化分析工具CiteSpace 对数据集1 进行关键词共现分析来得到研究热点。通过关键词突现分析得到各个阶段的研究前沿。通过对研究机构进行共现聚类分析了解该研究领域空间域的研究情况。最后引入时间维度,利用时线图从时空角度进一步了解研究领域的发展情况及发展趋势。
2.2.1 关键词共现分析
关键词是从摘要或论文中提炼的,最能反映文献的主题内容,是论文核心内容的高度概括。它能有效地展现某一研究领域的热点内容和主题分布,从而揭示该学科的研究结构。采用关键词共现分析方法对收集的数据集进行共词挖掘分析。通过统计同一词组在同一组文献中出现的次数,测度关键词频次的高低分布和两两之间的亲疏关系,进而研究基于机器学习的高校大数据领域的研究热点。
图2 是对收集到的数据集1 进行关键词共现分析得到的关键词共现网络知识图谱,时区选择2010年到2020 年,时间切片1 年,每个切片阈值选择TOP 50。从中可以看出高校大数据的研究热点为:大数据、机器学习、人工智能、深度学习。
图2 关键词共现知识图谱
为了更有效、准确、全面地把握高校大数据的研究热点,从Citespace后台导出图3关键词出现频次及中心度前12 的具体数据。从中可见,中心度大于0.1的关键点除了与图2 相一致的大数据、机器学习、人工智能和大数据时代,还有思想政治教育,说明思想政治教育也是教育的一个研究热点。而且还可看出高校研究位于第七位,与位于第一、二位的大数据和机器学习从出现次数上还是有一定差距的。
图3 TOP 12高频和高中心度关键词图
2.2.2 关键词突现分析
突现词是指在较短时间内出现较多或使用频率较高的词。根据突现词的词频变化趋势可以有效地判断研究领域的前沿趋势。CiteSpace 将这种突变信息视为一种可用来度量更深层变化的手段。从图4中的CiteSpace突现分析结果可以看出,2010-2014年我国高校大数据的前沿主要是反馈体系构建和大学生心理健康,其中大学生心理健康突现率为3.09,体现了当时教育研究对大学生心理健康的关注度较高。2014-2017 年高校大数据研究前沿倾向于高校思想政治教育。2018 年开始人工智能又成为高校教育领域的一个极大研究前沿,其突现率超过了4.9,超过其他研究前沿。
图4 引用突现TOP4的文献主题
2.2.3 研究机构共现聚类分析
在研究结构的共现聚类分析中,Modularity 为0.819 2,意味着聚类结构显著。网络参数N=38,E=25,Density=0.035 6 表明研究机构共现性较低,说明各机构之间合作较少,各自为政。图5显示了共引次数最高的前十个机构,从高到低依次为浙江工商大学经济学院、武汉大学信息管理学院、中山大学地球科学与工程学院、中山大学地球环境与地球资源研究中心、广东省地质过程与矿产资源探查重点实验室、华中师范大学马克思主义学院、中国科学院大学、吉林大学管理学院等,说明这些机构在机器学习、高校大数据的相关研究较多,但从引用数量看都没超过个位数,可见国内高校大数据方面的研究并没有形成大规模的专门研究团体,研究机构整体较分散。
图5 研究机构共现聚类知识图谱
2.2.4 趋势分析
时线图将时间与关键词相联系,从时间维度上体现知识的演进过程,可以清晰地展示知识研究的更新和相互影响。图6 为基于数据集1 的时线图谱。由图可见,2010 年出现了关于大数据的相关研究。2012 年引入机器学习。2013 年出现深度学习,同时对教育理念进行了划时代的变革。2014 年进入了大数据时代,出现大量关于高校图书馆、高校思想政治教育、MOOC 教育和高校创新性研究。2016 年更多的关于高校和高等教育研究出现,而且开始引入人工智能,同时也出现了个性化教育研究,使用大数据技术进行学习分析。2018 年提出了智慧校园、教育大数据和教育大数据挖掘,使用Tensorflow 对教育大数据进行处理。2019 年提出了智慧教育,使用人工智能技术对高校学生、教育管理、教育改革等进行研究。从以上分析可见,国内高校大数据的相关研究经历了一个从理论研究逐步向实践研究发展的过程,从大数据技术到大数据与机器学习、深度学习和人工智能相结合的过程。
图6 关键词共现知识图谱
2.3 对比分析
通过对比分析,探讨基于机器学习的高校大数据研究与相关领域的关系。我们使用数据集2 分别从“教育大数据”“高校&大数据”“机器学习”和“高校&机器学习”这四个领域,对2010 至2020 年10 年间学者们的相关研究文献量进行了对比分析,结果如图7 所示。图7 表明机器学习的研究在这十年间整体呈现一个上升态势,于2019年达到最高点,说明机器学习一直是解决实际问题的一种有效方式,一直是学者们研究的热点。与之相比,教育大数据和高校&大数据的相关研究虽然也在逐年上升,但上升幅度较小,最高点都不足机器学习的1/4。而高校&机器学习在2015-2019 年间几乎没有什么变化。结果表明机器学习在高校大数据中的应用研究比较少,在其他领域却得到了充分的应用和研究。分析表明基于机器学习的高校大数据研究的必要性。
图7 2010-2020年高校大数据相关文献比较分析图
3 结论
通过对高校大数据、机器学习及其相关领域研究文献的分析得出:①机器学习、大数据、深度学习和人工智能是学者们的研究热点,高校大数据的研究还有待进一步加强;②2014 年到2017 年高校教育研究前沿倾向于高校思想政治教育;从2018年开始,人工智能又成为教育领域的一个极大研究前沿;③国内高校大数据的研究团体较为分散,相互合作较少,没有形成有影响的较大研究团体;④国内高校大数据的相关研究经历了一个从理论研究逐步向实践研究发展的过程,从大数据技术到大数据与机器学习、深度学习和人工智能相结合的过程。智慧教育是高校教育的发展趋势,用机器学习处理高校大数据是时代发展的必然;⑤机器学习的相关研究在2016 年以后急剧上升,然而机器学习在高校大数据中的应用较少,所以我们有必要加强基于机器学习的高校大数据研究。
此文是首次基于机器学习高校大数据的研究,并且收集了两个近10 年的相关文献数据集,分别对其进行了可视化分析和传统对比分析。这项研究借助于现有的文献,并提供实证结果。因此,研究为高校大数据中的机器学习应用研究提供了未来的方向。
这项研究也有一些局限性。尽管我们收集了近10 年的共计5 391 篇参考文献,但由于我们使用CNKI 数据库和CiteSpace 可视化建模分析工具,所以无法进行共被引知识图谱分析。未来希望在条件许可的情况下对其进行更全面详尽地分析,为以后的相关研究提供更准确的研究参考。