基于文献计量法的数据挖掘的网络学习行为研究现状分析*
2021-03-06李恬恬虞亚楠李京忠
张 薇,李恬恬,虞亚楠,李京忠
(1.许昌学院城市与环境学院,河南 许昌 461000;2.长江大学地球科学学院,湖北 武汉 430100;3.上海农林职业技术学院农业信息工程系,上海 201699)
在线教育资源的方便获取性以及种类的丰富性,使得网络学习成为新趋势,网络学习也成为当前高等教育中不可缺少的组成部分。
1 网络学习行为数据挖掘的研究背景
在如今信息技术与网络高速发展的时代,更多的教育资源以网络为媒介,为学习者提供更多种类的在线教育。在线教育资源凭借着本身的方便获取性以及种类的丰富性,使得网络学习成为新趋势,同时成为当前高等教育中不可缺少的组成部分。网络学习者的学习情况会在教育资源平台上留下记录,这些数据记录隐含着学习者大量的学习行为信息,通过对记录数据的研究与挖掘,能够探寻学习者的学习行为习惯、内外影响因素,为教学方法的调整和优化提供数据支撑,为教学的进一步完善与发展提供参考依据。
国外的研究较为深入,特别是随着Coursea,EdX,Udacity 等慕课平台的出现,产生了大量的教学互动行为数据,这些数据的出现为网络学习行为的数据发掘与钻研提供了数据基础。比如,AIRadaideh Q A 利用决策树算法,Chanchary F H 等[1]利用关联规则挖掘,Vaessen 利用离散马尔科夫模型,Cho 利用社会网络分析法,对学生成绩的影响因素进行分析研究,并对学生最终成绩进行了预测。Geigle C 利用隐藏的马尔科夫链,Touya K 利用聚类关联规则,Yu 利用模糊关联规则,Talavera 利用最大期望算法,Araya 利用聚类分析法,对网络学习者的行为模式进行分析研究。
行为特征分析、系统实现和成绩预测等方面是国内对网络学习行为记录数据挖掘的主要研究方向。在网络学习行为现状、特征、影响因素以及对学习效果的影响等方面,李家文[2]、马志强等[3]、陈丹等[4]、李玉斌等[5]学者做了系统的研究。在构建学习成绩挖掘系统、学习特征分析系统、学习行为评估系统、网络教学视频优化系统等方面,夏华[6]、屠宏等[7]、范洁[8]、刘文静[9]等学者做了大量的研究和实践,为教学方式优化、在线学习指导、教学质量量化管理,提供了系统和算法的支撑。在网络在线学生成绩预测方面,孙力等[10]、武彤等[11]、吴青等[12]、崔东平等[13]、李庆香[14]等学者利用聚类分析、决策树等数据挖掘算法做了大量的研究,为提高教学质量、优化学生个性化学习环境提供了有效的教学策略。
根据国内外研究现状可以发现,目前对网络学习的数据挖掘研究比较丰富,但是研究的成果落实到实际应用的较少,落实到大学生网络学习的应用也较少,特别是针对高校学生作为研究群体的数据挖掘分析研究鲜有相关文献。因此,以高校学生群体的网络学习行为为依托,数据挖掘高校学生群体的网络学习行为,对高等教育的优化具有重要的意义。挖掘网络数据的潜在价值,探索与教学信息之间的关联,从而进一步为学生学习行为纠偏、教学系统完善和教学策略制定提供数据支撑和参考依据,并为高校的转型发展以及实力的增强提供理论基础。
2 网络学习行为数据挖掘的研究数据及研究方法
2.1 数据来源
中国知网全文数据库覆盖面广,学科类别齐全,是当今最大的中文期刊数据库,基于中国知网的相关研究具有广泛的代表性[15]。本研究的数据来源于中国知网全文数据库,笔者在中国知网全文数据库中以网络学习、学习行为、数据挖掘作为主题词进行检索,发现相关文献369 篇,剔除无效文献84 篇,保留有效文献285 篇,下面的研究将其作为基础数据进行相关分析和探索。
2.2 研究方法
文献计量学是指集数学、统计学和文献学为一体的定量地分析一切知识载体的交叉科学。其研究方法主要是采用数理统计分析的方法,将计量对象如文献数 (文献类型)、作者数 (作者、第一作者单位)、词汇数以图表的形式呈现[16]。该研究方法在学科研究热点分析、研究知识网络结构解析等方面得到了广泛的应用,是科学研究必不可少的工具。
3 网络学习行为数据挖掘的研究现状分析
3.1 时间分布
基于中国知网全文数据库,可得网络学习行为文献发表时间分布图,见图1。由图1 来看,国内的相关研究最早在2003 年,随着信息化和网络教学平台的发展,这方面的相关研究论文文献数快速增长,在2016 年达到顶峰,相关研究论文文献数达到43 篇;2017 年有所减少;2020 年相关研究论文文献数达到27 篇。总体来说,随着信息化技术兴起,网络学习行为的相关研究论文文献数也在逐渐增多,在2016 年达到顶峰,2017 年以后有所减缓,近两年随着大数据分析技术的成熟,对于网络学习行为的分析挖掘研究又开始逐渐变热,预计结合大数据的网络学习行为的相关研究将会迎来新的高峰。
图1 网络学习行为文献发表时间分布图
3.2 主题分布
了解网络学习者主要关注的主题分布,对了解现在的主要研究方向可以提供一些借鉴。对该数据进行分析,可得主要主题分布图 (见图2)和次要主题分布图 (见第81 页图3)。由图2 可知,在主要主题中,数据挖掘的文献数最多,149 篇;网络学习的文献数次之,58 篇;网络学习行为的文献数位居第三,57 篇。由图3 可知,在次要主题中,同样是以数据挖掘为主,其文献数与主要主题中的文献数一致,149 篇;学习者的文献数次之,142 篇;数据挖掘技术的文献数位居第三,51 篇。在主题检索中,可以发现网络学习者对数据挖掘方面的关注度远高于网络学习以及网络学习方法。
图2 主要主题分布图
图3 次要主题分布图
3.3 文献来源机构分布
通过研究文献来源机构分布,可以了解该领域内的领先区域以及研究机构,为避免重复研究提供便利,同时能够更加有目的和时效地提升研究层次和研究深度。对检索结果进行统计可以发现,在文献来源机构中,发表相关研究论文文献数最多的是华中师范大学,占比高达11%;吉林大学和东北师范大学次之,占比分别为8%和7%。纵观文献来源机构分布可以发现,文献来源机构主要分布在高等院校,其中研究型高等院校与其他普通高等院校差异明显,文献来源整体数量上差异较小。
3.4 学科分布
根据文献的学科分布情况可以发现,相关研究论文文献数及其占比较大的学科,主要集中分布在计算机软件与计算机应用、教育理论与教育管理、自动化技术等学科。其中,计算机软件与计算机应用学科最多,占比为43%;教育理论与教育管理学科次之,占比为26%;自动化技术学科位居第三,占比为12%。其余文献分布在剩余学科领域,学科比较分散,文献数也比较少。根据学科分布的占比情况,可以了解学者的关注领域以及现在研究的主流方向。
3.5 作者分布
文献作者分布可以让研究人员更好地了解该领域经验较为丰富的作者与研究机构,为研究人员提供优秀作者以学习和借鉴。陕西师范大学的傅钢善发表的文献数最多,有4 篇相关研究论文文献;东北大学的赵蔚、南通大学的施栓、兰州工业学院的李兴笃,发表的相关研究论文文献数均为3 篇;其他作者发表的相关研究论文文献数以2 篇为主。
3.6 基金分布
通过对出版文献所依托的基金资助研究项目进行统计分析可以发现,受到国家自然科学基金资助的研究文献数最多,为13 篇;受到国家高技术研究发展计划资助的研究文献数为6 篇;受到国家社会科学基金资助的研究文献数为5 篇;受到浙江省教育厅科研计划资助的研究文献数为4 篇;受到全国教育科学规划课题、湖南省教委科研基金、国家重点基础研究发展计划资助的研究文献数均为3 篇;受到吉林省科技发展计划项目、山西省自然科学基金、安徽省自然科学基金资助的研究文献数均为2 篇。综合分析可以发现,资助研究项目的基金以国家级基金和省级教育基金为主,其他类别基金对该领域的资助处于萌芽阶段,还没出现系统性的发展。为了更好地研究与发展网络学习,需要国家级资金和地方资金与高等院校相结合,基金加大资金支持与资助力度,院校加强研究水平。
4 结论
本研究以中国知网全文数据库为依托,检索网络学习、学习行为、数据挖掘等主题词,利用文献计量法进行整理与分析,得到如下结论。
1)网络学习行为相关研究呈小幅度波动,且有阶段性特点。随着网络学习的日益发展,在时间分布上可以明显地发现时间分布具有阶段性特点,整体呈现波动变化。由于整体发表文献数较少,因此从2003 年到现在整体变化不大。从整个研究过程来看,相关研究论文文献数出现小幅度波动,呈现一定的向好趋势,但还需要广泛关注。
2)网络学习行为相关研究学科广泛,研究单位以高等院校为主。综合分析数据挖掘下的网络学习,发现涉及的学科种类丰富,其中计算机软件与计算机应用、教育理论与教育管理、自动化技术的文献数及其占比最大,其他学科文献数较少。文献来源机构分布、作者分布,主要集中在高等院校,不同高等院校之间的文献数具有一定差异性。
3)网络学习行为相关研究的资金支持以国家级资金为主,省级资金支持差异较大。对网络学习的基金资助研究项目进行统计分析可以发现,资金主要来源于国家级资金支持,其次来源于省级资金支持。省级资金和其他地方资金对网络学习的支持情况各不相同,存在着明显差异。结合机构分布情况可以表明:网络学习研究较为广泛的机构与省级资金支持有一定关联性。