大数据背景下面向研究生数据素养的文献分析与探讨
2023-11-07王利东刘永朝
王利东,刘永朝
(1.大连海事大学,辽宁 大连 116026;2.大连理工大学,辽宁 大连 116024)
随着大数据技术的快速发展,人工智能进入一个全新的发展阶段,数据智能正与各领域产生着深度的融合,智能化产品已经深入各个行业[1]。数字技术正日益对生产活动产生重要影响,传统产业借助于大数据和人工智能技术从数据中发现有价值的知识辅以生产、销售与管理决策,数字化、智能化特征趋势日趋明显。在此背景下,数据不但是信息的载体,更是一种重要的生产要素。数字经济正在成为新型经济形态,成为整个经济活动中重要的一环。在数据科技时代,无论个人生活、科学研究还是社会管理都是在一定的数据环境下进行的,因此拥有数据素养成为一项通用的技能。
数字时代赋予研究生教育新的挑战与机遇。研究生是我国科技创新和社会发展的主要源泉之一。大数据时代,数据素养必然是大部分学科研究生应具备的科研素质。研究生数据素养的提升有利于增强他们在数据科技时代中的核心竞争力,为我国经济和社会发展提供源源不断的智力支持和人才支撑。目前,国内高校已经开始注重本科生和研究生的数据素养教育,培养学生的数据思维和数据分析技能,使他们准备好迎接新时代所带来的机遇与挑战[2-3]。
本文以CNKI(中国知网)数据库公开发表的文献作为数据源,通过文献分析软件CiteSpace 梳理、探讨了国内有关研究生数据素养的教学研究发展现状及存在的问题,并针对问题提出促进研究生数据素养的建议,为今后开展研究生数据素养教育提供参考。
一、数据素养与发展现状
尽管数据素养对于学生发展很重要,但目前对数据素养定义尚未形成统一的界定,在文献中存在相关的术语有“数据素养”“数据信息素养”“科学数据素养”“科研数据素养”“研究数据素养”等[4]。综合来看,数据素养是对统计素养和信息素养的延伸和扩展,泛指具备数据意识和数据敏感性,能够掌握合理和恰当的技术来获取、分析、处理、利用和展现数据,并对数据具有批判性思维的能力。
拥有数据素养就是具备了一项通用的技能,使得个体能够在“一切都被记录,一切都被分析”的数据化时代生存和发展[5]。国内高校已经开始注重研究生的数据素养教育,关于数据素养的教研论文是相关教学经验交流的平台,对相关文献进行分析可以了解数据素养教学研究现状和借鉴经验。本文首先对“数据素养”的关注度指数分析(检索范围:源数据库,包括期刊库、博士论文库、硕士论文库、报纸库、会议库),图1 显示了自2010 年以来主题为数据素养的论文发表情况,大致分为三个阶段,第一个阶段为2010—2012 年,该阶段每年文献发表数量较少,处于起步阶段。第二个阶段为2012—2016 年,处于发展阶段,数据素养受到一定重视和关注,该阶段每年发文量呈指数增长。第三阶段为稳健发展阶段(2016 年至今),该阶段发文量相对稳定,每年保持在90 篇左右。在2020 年发文量达到最大值105篇。我国对数据素养的研究整体上呈现出稳健发展的状态。
图1 关注度指数分析
二、研究生数据素养文献分析与讨论
研究生是高校科研活动的主要参与者和贡献者,是国家科技力量的重要储备。大数据和人工智能蓬勃发展的背景下,大部分学科研究生的科研活动要涉及数据的采集、分析、建模和应用等环节。广泛开展研究生数据素养教育,培养研究生的数据素养能力将有利于学生综合素质的提升、国家科技创新和经济社会的发展。因此,分析与讨论我国研究生数据素养的现状和对策有利于进一步优化研究生数据素养的发展策略。
(一)数据来源
本文以CNKI 收录的相关教学研究文献为数据源,以CiteSpace[6]为工具进行文献梳理,从文献分析视角分析国内研究生数据素养的研究现状。CNKI 数据库平台学术资源丰富,并具有较高的权威性和专业性。使用“专业检索”选项,输入检索命令“TKA=(数据素养+ 数据信息素养+ 科研数据素养+ 科学数据素养+ 研究数据素养)AND TKA=(研究生+ 硕士+博士)”,检索时间截至2022 年9 月7 日,共获得89 条文献。对检索结果进行文献复检、参考文献追踪后,最终得到67 条满足要求的文献,构成本研究的数据集,并以RefWorks 格式导出文献信息。
本文利用陈超美教授团队研发的CiteSpace 可视化分析软件和Excel 软件数据统计模块,对67 条文献数据的发文机构和期刊以及高频关键词等信息进行分析,梳理研究生数据素养教学改革与研究的现状,同时结合本校的数据素养类建设与教学情况提出相应的分析与讨论。
(二)研究生数据素养分析与讨论
1.发文量。发文数量反映了对研究主题的研究热度。利用中国知网的计量可视化分析对该领域相关文献进行总体趋势分析。图2 截取了2006 年到2022 年间与研究生数据素养研究有关所选文献、参考文献和引证文献的变化情况。
图2 总体趋势分析
所选文献中有关研究生素养的研究最早出现在2015 年曲德强发表的《当代大学生数据素养的现状分析及培养方法研究》论文中,文中分析了本科生与硕士研究生数据素养的特点、区别及存在的问题。所选文献的发文量整体上呈现稳中有升的状态,表明研究生数据素养已经得到了有效关注,但研究热度不高,处于酝酿发展阶段。参考文献可追溯到1992 年,2006 年之前参考文献的数量在2 篇以内,在2016 达到峰值57 篇后逐年减少。2016 年是数据素养从快速发展到稳健发展的一个转折点,数据素养相关教学研究的不断深入,为研究生数据素养的发展奠定了坚实基础。引证文献自2016 年起一直处于快速发展阶段,文献数量在2020 年达到峰值109 篇,说明国内学术界和教育界对研究生数据素养的关注度正逐年上升。
2.作者所在单位及文献来源。识别研究生数据素养的所在单位和文献来源有助于后续研究人员快速掌握该领域的研究前沿与最新动态,为深入研究打下良好基础。本文按第一作者所在单位列出了前13 所发文量较多的单位,并统计了相关单位的被引量,结果见图3。
图3 单位发文量与被引量分析
从图3 中可以看出,发文量最多的单位为武汉大学,发文量占总发文量的7.46%;其次是黑龙江大学,占比5.97%。中国科学院大学、江苏大学和山西医科大学发文量相同,分别占总发文量的4.48%。在被引量角度上,67 篇文献的总被引数为778 次,篇均被引数为11.61次。其中,武汉大学在2018 年发表的《数据素养教育:大数据时代信息素养教育的拓展》被引量位于榜首[8]。文献总被引量排在前3 名的单位分别是武汉大学、中国科学院大学和江苏大学。从中可以看出武汉大学在发文量和被引量上都表现突出,为研究生素养领域的核心研究单位。中国科学院大学和江苏大学在发文数量上低于武汉大学,但他们成果的总被引次数都超过了50 次,表明在该领域具有较高的影响力。
本文所选文献主要来源于期刊文献和硕士论文两部分,其中,期刊文献占比70%。根据学科分类可将期刊文献分为图书情报类、科学技术类、教育类、医学类和其他五部分。图书情报类期刊发文量占总发文量34%,包括《情报理论与实践》《图书情报工作》《图书与情报》《现代情报》《图书馆学研究》和《图书馆理论与实践》等13 种期刊。这表明研究生数据素养教学研究与改革主要集中信息检索领域,更多的工作是关注于信息检索与分析等相关的教学改革与研究。教育类期刊占比13%,包括《教育现代化》《工业和信息化教育》和《高等工程教育研究》等9 种期刊。大科学技术类期刊占比7%,包括《科技创业月刊》《江苏科技信息》和《河北科技图苑》等4 种期刊。医学类期刊占比6%,包括《南京中医药大学学报》《医学与社会》和《医学信息学杂志》等4 种期刊。
3.作者分布分析。识别研究生数据素养研究领域的核心作者,有利于提升后续研究者信息资源的获取效率。利用软件CiteSpace 进行作者共现分析,共涉及115位作者。根据普赖斯定律可知,构成研究生数据素养研究领域的核心作者群的条件为每位核心作者至少发文两篇,并且核心作者的总发文量应占所有作者发文量的一半以上。所选文献中共有13位作者发文量大于等于2 篇,累计发文量29 篇,占总发文量的43.28%。这表明国内研究生数据素养研究领域尚未形成能够持续对其进行深入探索和研究的核心作者群。虽然没有形成核心作者群,但可以通过发文量和被引量等确定该领域的代表性作者。从发文量角度,浙江财经大学的吴成、中国科学院大学的胡卉和山西医科大学的贺培凤等三位学者发文量最多。从被引量角度,武汉大学司莉、中国科学院大学的胡卉、江南大学张群和江苏大学张晓阳等学者的文献被引量都超过30 次,这表明三位学者的研究工作对同行研究起到引领作用。从合作角度看,研究生数据素养的研究者倾向于在机构内部独立研究,或者进行小范围内的合作研究,并且合作不够紧密和深入。
4.高频关键词。本文基于CiteSpace 可视化文献分析软件,对样本文献进行关键词共现、节点中心性分析以及关键词聚类分析,以此揭示研究的核心内容及出现频率、相互联系。出现频次排在前十名的关键词,由高到低依次是数据素养、研究生、大数据、信息素养、影响因素、扎根理论、数据分析、人才培养、博士生和大学生。其中,中心度大于等于0.01 的关键词除搜索词“数据素养”和“研究生”外,还包括“大数据”“影响因素”和“人才培养”,这表明它们也是研究生数据素养教学研究重点关注的子领域。其中,“大数据”的词频最高,大数据时代来临,数量庞大、结构复杂的数据集使研究生对数据素养具有强烈需求。其次是“影响因素”,大数据背景下,各个学科对研究生数据素养的要求逐渐增加,但专业特征、课程设置和教育环境等都会影响数据素养的提升效果。相关影响因素已引起研究人员的关注,并给出了相应的建议。人才培养是该领域关注的又一热点,人才培养是国家强盛和民族振兴的基石。强化研究生的数据素养,既是提升研究生科研创新能力的核心要素,又符合当下社会对高层次人才的需要。
通过CiteSpace 软件输出所选文献关键词的聚类图谱,见图4。图谱中共97 个关键词节点和161 条连线,网络密度为0.0346。可见,目前我国研究生数据素养的研究领域范围广,研究学科也逐渐从图书情报领域向医学、教育、科学技术等领域拓展,但研究内容不够紧密。CiteSpace 根据图谱网络结构共生成6 个聚类结果,分别为“信息素养”“影响因素”“大数据”“研究生”“学习方式”和“现状分析”。其中,最大的类为信息素养,信息素养类别主要探索数据素养兴起的动因以及数据素养与信息素养、统计素养等相关概念的异同点。影响因素类别主要聚焦于数据素养培养的相关因素。大数据类别主要从数据意识、数据资源和数据分析等多个维度对数据素养进行探究。研究生类别主要关注研究生数据素养的调查分析、教学手段、评价量表等视角进行研究。从文献统计分析角度看当下研究生数据素养的教学研究主要围绕信息素养、影响因素、教学模式和评价体系等方面展开。
图4 关键词聚类图谱
(三)研究生数据素养分析与讨论
结合图2 和图4 可知数据素养教育前期关注的群体大多数是图书馆学领域的教师,并且关注的内容大多是有效地获取、分析、利用文献数据库等信息素养层面的研究,涉及的数据分析技术较少,尚未达到能使学生有效且恰当地处理自己专业领域实际数据的目标。从2016 年至今的文献已开始关注数据挖掘、数据分析、数据编码、评估指标等技术性内容的教学探索。例如,王路漫等学者以“医学大数据分析”教育实践为例,探索了数据素养通识教育与具体学科深入交叉与融合教学策略[3]。
随着国内数据产业的发展,各行业需要一批面向领域的数据分析应用型人才,为社会发展提供智力支持。数据产业需要多学科深度融合、协调发展。国内部分科研院所成立交叉科学研究中心,关注于大数据和人工智能的交叉学科研究与人才培养,以服务于经济社会发展。数智时代的到来给研究生教育带来机遇与挑战。强化研究生的数据素养,既是提升研究生科研创新能力的核心要素,又符合当下社会对高层次人才的需要。因此,提升工科类、经管类、医学类、交叉学科类专业的研究生数据分析、处理及展示技能是十分必要的,从学校和教师层面都应提升研究生数据素养的提升策略。高校应开设研究生数据通识教育课程,同时加强师资队伍建设,提升教师团队的数据素养。教师注重引导学生将理论教学和实践应用相结合,在讲解数据分析等基本算法的同时也应提升数据处理软件应用能力、数据伦理和数据安全等相关道德及法律法规,提高研究生的综合素质。数据分析技术、算法与数学理论密切相关,以数学基础课提升研究生数据素养,提升数据建模的实践能力也是一种可行的方式。在“矩阵分析”“优化方法”“模糊数学”“随机过程”和“数据分析与建模”等数学基础课教学中,可以借助案例教学的手段,通过逐步揭示算法背后的数学原理,使得学生更直观地体会到数学在数据分析中的关键作用,辅以自主科研训练激发学生学习兴趣的同时,提高他们解决实际问题的能力,以此全面提升研究生的数据素养,为培养社会需求的创新人才提供支持。
三、总结
大数据背景下,市场对数据人才素养的需求越来越高。本文以CNKI 近十年与研究生数据素养相关的文献为研究对象,借助Cite-Space 软件分析了发文量、发文机构、发文期刊和高频关键词等情况,以此得到了当代研究生数据素养教学研究的研究现状及不足。针对如何提升数据分析技术和应用实践等问题,本文从开设通识课程及依托数学类公共基础课等视角给出提升研究生数据素养的建议。大数据与人工智能快速发展的背景下,研究生数据素养教育和教学研究在理论和实践方面存在较大的发展空间,需要学校、教师结合社会人才新需要,努力探索新教学内容、教学模式及实践方法,从多角度、多方位提升研究生的数据素养。