高校研究生数据素养现状及提升策略研究*
——以山东省高校为例
2023-12-04邵吉宁解崟崟刘俊晓
邵吉宁 解崟崟 刘俊晓
(山东师范大学图书馆,山东 济南 250013)
1 引言
新世纪以来,数据素养已成为信息时代人才的核心素养之一。5G时代,我国在通信技术领域已处于世界先进水平,国家积极实施大数据战略,推进数据资源的整合、开放、共享,加快数字中国建设进程。国务院于2015年印发《促进大数据发展行动纲要》,提出要加强数字图书馆、数字档案馆、数字博物馆、数字美术馆、数字文化馆等公益服务设施的建设,构建大数据综合服务平台,为社会提供文化服务,传播博大精深的中华文化,彰显国家对于大数据战略的发展决心[1]。美国政府早在2012年就倡导实施“大数据研究发展计划”[2],鼓励国家科研人员自觉提升从复杂数据中获取知识的素养,用大数据来助力国家科学工程的进步、科学研究的改进、国家安全的巩固。可见,提升研究生群体的数据素养是顺应时代发展大趋势的必然要求。
面对“第四科研范式”带来的机遇与挑战,提升研究生的数据素养水平是新时期信息素养教育的进一步深化和发展。但实践的开展需要理论的支撑,由于目前我国对数据素养的研究还处于起步发展阶段,因此,明确数据素养研究目标,清晰界定数据素养概念,合理构建数据素养评价指标体系,对于开展数据素养研究非常必要。
2 文献回顾
数据素养(Data Literacy)一词最早出现在1997年,由美国学者杰尔斯特(Gilster)最早提出。他认为数据素养是指“能够识别理解电子计算机出现的各类信息资源的能力”[3]。Carlson[4]等认为数据素养是指个人对数据深层次含义的个人见解,诸如能从数据中获得想要的结论,能够辨别数据中不恰当的使用和错误。Calzada[5]等认为数据素养指的是个人进行数据评估批判和分析管理的能力,以及在使用数据过程中对数据道德的遵守。Brown[6]等认为数据素养指的是个人在数据环境中,能够正确使用数据工具和设备对数据资源进行开发利用,能够利用数据创造新知识,进行沟通交流的一种意识和能力。
澳大利亚统计局(ABS)从实际出发,认为公众具备数据素养的标志是拥有良好的数据意识、数据分析理解能力和数据解释交流能力[7]。美国学者在开展“数据质量运动”期间,将教师群体作为研究对象,提出将教师数据素养与教师工作评价标准相结合的观点,对教师数据素养提出的要求为:知道如何从可利用的数据资源中收集数据,如何对数据进行重组与分析,如何使用不同类型的数据,如何利用数据为学生制定针对性辅导计划,帮助学生提升个人数据分析能力[8];Carlson[4]通过一系列的实验和访谈,概括归纳出数据素养的核心要素,包括对数据库的认知,数据的发现、获取、组织、管理、变换、实践、可视化、数据道德。C.Ridsdale[9]等专家学者构建了数据素养能力矩阵,该矩阵由5大知识领域和22个能力指标及相应的技能要素构成。
从科研人员的角度来看,张静波[10]认为数据素养是科研人员必备的一项专业技能。她揭示了利用科学数据进行科研创新的规律,认为国家应该尽快为年轻科学家的培养制定专门的数据素养教育机制。李楣[11]认为数据素养是指拥有数据意识和数据辩证思维,能够对数据进行合理解释、评估、分析、保存和共享,同时掌握借用数据进行科研论证和决策的能力。吴成[12]认为,数据素养是指能对数据的来源进行思考,理解数据分析、利用、评价结果,能利用数据创造新知识并应用于实践的能力。Gebre[13]认为数据素养是采集、分析和整理学生作业数据,评估学生学习效果数据的一种能力。
从社会公民的角度,杨晓琼提出的数据素养能力指标具有高度概括性,研究对象涉及范围广,适用于各行各业的群体。她认为数据素养可以看成两部分,第一部分为数据意识的驱动作用,第二部分为能够认识到数据技能的重要性[14]。数据素养概念的提出者之一Milo Schield认为,数据素养是统计素养和信息素养的组成部分,具有数据素养的人懂得如何高效获取数据、如何正确评估处理数据、分析总结数据以及展示数据[15]。
3 研究设计与数据收集
3.1 研究思路
笔者基于现实发展、政策引导和研究现状,提出研究问题,探究山东省高校研究生群体的数据素养教育发展对策。在结合研究生数据素养相关研究的基础上,对数据素养的维度进行划分,构建能力评价指标体系,编制了研究生数据素养调查问卷。采用纸质问卷和电子问卷相结合的形式,随机发放给山东省高校的硕博士研究生。先对回收的数据进行加工整理,再对数据结果进行描述性、差异性和相关性分析。总结出山东省高校研究生目前的数据素养现状,以及在数据素养方面存在的问题,根据现状与问题提出针对性对策建议,同时总结研究不足,并对未来研究进行展望,研究路线如图1所示。
图1 研究路线
3.2 数据素养能力指标体系构建
科学系统的量化指标是构建高校研究生数据素养能力指标体系的关键,它将直接影响数据素养能力评价的效果[16]。对数据资源进行合理展现、描述、解释,可为后续的分析环节做好必要准备。
截至目前,学界对于数据素养内涵和框架的界定尚未达成共识。笔者在结合国内外学者观点并参考2015年出台的美国《高等教育信息素养框架》的基础上[17],构建了数据素养能力框架(如图2所示)。该框架由4个大类,12个具体指标构成。这4大类分别为数据意识、数据知识、数据能力和数据伦理和道德,每个大类又细分为3个具体的指标。
图2 数据素养能力框架
在阅读大量国内外数据素养相关研究领域专家学者著作文献的基础上,结合高校学生个人知识管理的基础理论知识[18]以及欧盟数字素养研究框架[19],从中提取出能力表征要素,初步拟定37个三级指标,具体数据能力要素指标体系[20]见表1。
表1 数据素养能力指标体系
4 山东省高校研究生数据素养现状研究
4.1 问卷设计
基于调研目的,笔者采用问卷调查法来深入了解山东省高校研究生群体数据素养现状。结合数据素养能力指标体系的内容以及研究生群体的特征因素,初步确定了调查问卷的内容框架,经过3轮的修改与完善,最终完成调查问卷的设计工作(见表2)。
表2 调查问卷设计项统计
为了保证自编问卷结构和题目设计的合理性,在问卷正式发放前先进行小范围的预测试。选取山东省不同高校不同学科专业的研究生为预调研对象,共发放预调研问卷50份,根据被调查者反馈的共性和个性问题,对部分存在理解分歧、表述不合理的题目进行修改与完善,同时对问卷的信度和效度进行初步检测,以确保最终形成的问卷能够为开展研究服务。
4.2 问卷发放与收集
本次问卷调查时间为2021年12月15日至2022年1月13日,采用发放纸质版和电子版问卷两种方式,共得到问卷343份,其中有效问卷331份。调查对象为包括山东大学、山东师范大学、中国海洋大学、青岛大学、山东农业大学、曲阜师范大学、鲁东大学等十余所山东省高校在内的硕博士研究生。
4.3 问卷信度分析
信度分析又称为可靠性分析,通俗地讲就是用来研究调查样本是否真实地回答了问题。笔者采用的是最常用的“Cronbach.α系数法”,同时运用专业的统计分析软件SPSS26.0来进行量表的α信度测量,结果如表3所示。
表3 信度检验
4.4 问卷效度分析
效度分析能够检验研究题项是否有效地表达了研究变量的概念信息,通俗地讲是为了检验题项设计得是否合理。笔者以调查问卷数据结果和研究生数据素养能力评价指标体系为基础,使用KMO值和Barlett’s Test来进行检验。通常情况下,KMO值>0.8说明问卷结构效度较好,数值越大说明越适合做因子分析。笔者对问卷进行“KMO检验和Bartlett的球形度检”,结果如表4所示。效度分析是进行因子分析的基础,当问卷的效度KMO值>0.6,Bartlett球形检验sig<0.05时,说明可以进行因子分析。从分析结果来看,相关性检验的KMO值为0.879,说明问卷有较好的结构效度,Bartlett球形检验的值为3623.387,自由度df为276,显著性为0.000,小于0.001,达到了显著水平,由此可知变量之间有公共因子变量存在,适合进行后续因子分析。采用主成分分析方法提取因子的结果见表5。从中提取了5个成分,并且因子解释原有变量的累积方差贡献率为59.5%
表4 KMO和巴特利特检验
表5 总方差解释
5 数据分析结果与讨论
5.1 样本基本情况
本次调研有效人数共计331人,其中男生占比31.1%,女生占比68.9%,整体来看女生占比较多,男生占比较少。从样本的年龄分布来看,21~25岁的研究生占73.97%,26~30岁的研究生占23.9%,其余年龄段研究生占2.13%,可以发现参与调查的对象主要集中在21~25岁这个区间,30岁以上的对象较少。 从年级分布来看,硕一占总人数的24.78%,硕二占44.61%,硕三占23.03%,博士研究生占7.58%,参加调研的硕士研究生中以硕二和硕三的学生为主体,博士研究生人数较少(见表6)。
表6 样本性别及年龄构成
在研究其他维度现状之前,将有关研究生对数据素养这一概念的认知程度的题目安排在前面。调查结果显示,有41.11%的同学表示“听说过但是不了解其内涵”,有29.45%的同学表示“基本了解其内涵”,“完全不了解”数据素养概念的同学占20.41%,“有较深了解”的人数仅占9.04%。从宏观角度来看,山东省研究生群体对“数据素养”这一概念的认知程度并不高。
5.2 差异分析
5.2.1 独立样本t检验
进行独立样本t检验是比较两个组别在某个连续变量上是否存在显著差异的统计学方法,检验之前分组和指标类型都要达到一定的前提要求。分组要求是两组之间进行差异对比;指标类型要求是两组都是连续数值型变量且都服从正态分布。
经过正态分布检验后可知,男女研究生在数据意识、数据获取、数据加工与处理分析、数据交流这4方面的数值都服从正态分布(见图3~6)。
?
5.2.2 单因素方差分析
(1)不同年级研究生数据素养方差分析
单因素方差分析,用于研究分类数据与定量数据之间的差异关系。为了判断研究生所处的年级是否会影响其数据素养,对年级进行单因素方差分析。统计结果如表7所示。从统计结果可知,在数据意识(F=1.417,P=0.197)、数据加工与处理分析(F=1.639,P=0.124)、数据评价(F=0.957,P=0.463)、数据伦理道德(F=1.881,P=0.072)4方面P值都大于0.05,所以这4方面在不同年级之间不具有显著性差异。在数据获取(F=2.13,P=0.04)方面P值小于0.05,所以不同年级研究生在数据获取方面具有显著性差异。其原因可能在于,高年级的研究生学习了更多的课程知识,参与更多的实践活动,数据方面的意识和态度都逐渐提升,在数据搜集与获取方面也更有经验,且撰写论文发表文章的需求与计划更多,所以在数据获取方面拥有更强的能力。
表7 不同年级研究生数据素养的方差分析
(2)不同学科门类研究生数据素养方差分析
为了判断学科门类是否会影响研究生的数据素养,对学科门类进行单因素方差分析。统计结果如表8所示。从统计结果中可以看出,在数据获取(F=1.23,P=0.266)、数据加工与处理分析(F=1.642,P=0.086)、数据伦理道德(F=0.59,P=0.837)3个方面P值都大于0.05,所以不同学科门类在这三方面不具有显著性差异。在数据意识(F=2.582,P=0.004)、数据评价(F=3.454,P=0)两方面P值都小于0.05,可知不同学科门类研究生在数据意识和数据评价两方面具有显著性差异。其原因可能在于,不同学科门类的研究生所学的专业内容千差万别,理工科研究生在学习生活中接触到的数据比较多,社会科学类研究生接触较少,经过时间的积累不同学科门类的研究生在数据意识和数据评价能力方面就产生了差距。
表8 不同学科门类研究生数据素养的方差分析
(3)多重比较方差分析
运用最小显著差异法(LSD法)对数据进行事后检验发现(检验结果见表9),在数据获取这一因变量上,硕一和博二的P值为0.02,小于0.05,说明这两个年级在数据获取方面差异是显著的;硕三和硕一的P值为0.025,小于0.05,说明这两个年级在数据获取方面差异也是显著的,其他年级之间是不显著的;在数据加工处理与分析这一因变量上,硕一和博四的P值为0.035,小于0.05,说明这两个年级在数据加工处理与分析方面差异是显著的,其他年级之间是不显著的;在数据伦理道德这一变量上,硕一和硕三的P值为0.002,小于0.05,说明两个年级在数据伦理道德素质方面具有显著差异。其原因可能在于,硕三是硕士研究生最后一个阶段,博士研究生都经历过硕士阶段,通常来讲硕三和博士研究生在知识储备、学习经历、学术道德、科研成果储备方面都远远高于硕一研究生,这也就导致了彼此在数据获取、数据加工处理分析、数据伦理道德方面具有显著差异性。
表9 不同年级研究生数据素养的多重比较方差分析
5.3 相关性分析
相关性分析可以用来研究不同变量之间的相关关系,相关系数的大小是衡量相关关系的标准。相关系数分为皮尔逊(Pearson)相关系数和斯皮尔曼(Spearman)相关系数两种,皮尔逊相关系数法是最常用的,所以笔者选用皮尔逊相关系数研究变量之间是否存在相关关系。通常情况下,皮尔逊相关系数的取值范围介于-1~1之间,如果数值大于0,则说明变量之间存在正相关关系,反之则说明变量之间是负相关关系,检验结果如表10所示。
表10 相关分析结果
经过数据处理之后,可以发现“对科研数据的敏感性”与“能用图表呈现数据并揭示数据中隐含信息”之间的相关性显著性数值为0,小于0.01,说明二者之间存在显著相关性关系。观察数据可知,“对科研数据的敏感性”与“能用图表呈现数据并揭示数据中隐含信息”之间的皮尔逊相关性系数值为0.325,大于0,说明二者之间存在正相关关系。即“对科研数据敏感性”越高,则“能用图表呈现并揭示数据中隐含信息的能力”也越高;“能用图表呈现并揭示数据中隐含信息的能力”越强,则“对科研数据敏感性”也越强。
同时,还发现“对科研数据的敏感性”与“对获取的数据进行分析与解读的能力”之间的相关性显著性数值也为0,同样小于0.01,说明二者之间存在显著相关性关系。由数据可知,“对科研数据的敏感性”与“对获取的数据进行分析与解读的能力”的皮尔逊相关性系数值为0.412,大于0,说明二者之间存在正相关关系,且相关关系更加密切。可以得出“对科研数据敏感性”越高,“对获取的数据进行分析与解读的能力”也越高;“对获取的数据进行分析与解读的能力”越强,“对科研数据敏感性”也越强。
6 现状及存在问题分析
6.1 现状分析
通过调研结果和数据分析结果可以看出,山东省高校的研究生在基本数据素养方面的表现是值得认可的,普遍对自身所处的数据环境比较满意,初步具备良好的数据意识,能够对自身的数据需求做出判断,能够利用数据与他人进行简单的交流。在数据伦理道德素质方面,整体表现也较好,能够明确自身在进行数据运用过程中应遵守的数据道德规范。
但是,在数据信息获取能力、数据内容创建能力、独立解决数据问题等数据素养综合能力方面还存在不足。在数据素养各项维度中,数据意识与数据伦理道德的维度水平最好,而数据加工处理与数据交流的维度水平较差。在性别方面,男女研究生的数据素养水平在性别上差异不显著;在学位类别方面,学术型研究生和专业型研究生的数据素养水平差异不显著。在年级方面,不同年级研究生的数据素养水平差异显著,年级越高数据素养水平越高;在学科门类方面,不同学科门类的研究生数据素养水平差异明显,理工类专业研究生数据素养水平高于文史类专业研究生。在对数据素养内涵了解方面,近六成研究生不了解数据素养具体内涵,说明山东省高校研究生对数据素养的关注度仍需加强。
6.2 存在问题分析
6.2.1 不同个体间数据素养各维度指标差异显著
总体而言,高年级研究生优于低年级研究生,理工类专业研究生优于文史类专业研究生,而且相同年级和相同学科内部也存在差异。
6.2.2 数据知识的熟练掌握能力有待进一步提升
调查整体呈现的结果是研究生数据获取、数据解读、数据评估、数据可视化表达能力一般,对数据格式知识了解不足,对数据进行管理分析能力有待提升,对数据知识熟练掌握度较低,利用数据搭建起知识间关联模型的能力较差。
6.2.3 缺少利用数据工具开展学习的主动性
在调查过程中了解到,能够主动利用数据工具进行资料查找和文献处理的人数占比不足1/5,大部分研究生只是到要进行数据加工处理时,才去尝试探索学习数据工具的使用方法,而不会提前进行自主学习,做好相应准备。
6.2.4 缺少利用数据技能解决实际问题的创新能力
调研结果显示,大部分研究生对新兴数据技术仅保持观望态度,不能扮演好数据知识贡献者的角色。如果仅是被动地接受数据知识,而不主动去学习实践,那么很快就会被数据时代淘汰,研究生利用数据技能进行创新的意识和能力亟待提升。
7 高校研究生数据素养提升策略
7.1 数据意识方面
7.1.1 合力营造良好氛围,推进研究生数据意识培养
数据意识是人类对数据的一种感知和对数据的迫切需求,是决定我们能否在数据素养起跑线上获胜的关键。社会大环境对数据意识的培养有重要影响,社会各方应为研究生积极创造良好的数据素养环境,在全社会范围内营造出一种重视数据、尊重数据的大环境,助力研究生早日培养良好的数据意识。新闻媒体要发挥各自优势,开展诸如数据素养调查、数据素养原创视频征集、数据素养知识竞赛等活动,将培养研究生数据素养的努力渗透社会生活方方面面。其他政府机关和非营利性组织应做好数据素养教育宣传工作,在宣传教育过程中提升研究生数据素养。
7.1.2 强化数据意识,提升对数据信息的敏感度
研究生应该树立良好的数据意识,增强对数字信息的敏感度,掌握熟练使用数据工具的操作技能。数据工具在研究生开展科研工作中发挥着不可替代的作用。在坚持数据知识学习的前提下,强化自身对数据知识的求知欲,锻炼利用检索网络数字资源分析和解决问题的能力,并不断提升自身的数据资源应用水平和利用能力。在提升自身数据意识的前提下,增强对数据资源的开发与合理利用。
7.2 数据知识方面
7.2.1 整合优质资源,注重数据素养教育空间的创建
创建正式和非正式数据学习空间,可为研究生提供更为灵活和丰富的数据素养教育支持。正式学习空间可通过组建数据素养教学团队、设置课程群、搭建大数据平台来实现。而嵌入式学习、协作学习内容则可通过非正式学习来完成。高校图书馆应充分发挥在数据素养培训中的作用,开展面向研究生的数据素养与技能挑战赛,邀请数据领域的专家设计大赛流程、建设题库、担任评委。延伸和深化数据素养教育空间,实施嵌入式数据素养教育。采用分学科、分模块的形式进行课程设置,提供学科化的数据素养课程服务。采用线上线下相结合的方式开设数据素养课程,利用信息化的开放教育平台,对优质数据素养课程进行推广宣传,以此来打造全方位的数据素养教育空间。
7.2.2 借鉴成功经验,广泛开展研究生数据素养教育
首先要开展针对不同学科、不同年级的多维度数据素养教育。不同专业背景的研究生由于自身知识储备的差异,在进行科研时表现出的数据行为也呈现出不同的特点。开展数据素养教育之前应先进行调研,提前了解不同学科领域学生数据素养现状和数据需求,同时开设数据素养通识教育课程和专业课程,深化教学内容。其次,要开展统一协调各方机构的数据素养教育。数据素养教育的开展要依靠高校内各单位共同推进。各方机构应提前了解研究生的数据需求,提供科学数据咨询服务,根据学生需求对学生群体进行细分,推行个性化定制服务,通过开放研讨会、专题讲座、基础培训课程等形式,不定期开展数据素养教育培训。最后,发挥自身优势,积极从内容和形式上进行创新,推出独具特色的数据素养教育课程,各单位之间要加强数据素养教育过程中的经验交流分享。
7.3 数据能力方面
7.3.1 确立培养目标,全面提升研究生数据技能
结合山东省高校研究生数据素养调查结果和影响因素来看,首先要确立研究生数据素养培养目标。其次要主动培养研究生数据创新意识和科学数据精神,应以培养科学精神和科学数据意识为核心,以培育创新能力和批判理性精神为重点。再次要注重培养研究生自我评价能力,通过对研究生数据素养评价了解其在数据素养方面的不足,探寻解决问题的办法。最后要培养研究生熟练使用数据工具的技能。数据工具范围广泛,包含有关数据获取、数据查询、数据分析、数据应用的各类自媒体、多媒体和应用程序。帮助研究生熟练掌握数据工具使用技能,有利于锻炼培养他们的数据挖掘能力、数据分析能力、数据利用能力,进而提升数据素养。
7.3.2 重视能力提升,加强对数据知识的积累与反思
研究生要强化自身的数据获取、处理、交流、分析能力。面对良莠不齐的数字信息,要进行合理选择与摒弃,同时利用多方面的数据信息检索,思考并寻求最优化答案,在实践过程中提升数据能力,加深对数据的了解,增强对数据知识的思考。要主动加强数据知识学习经验的交流与分享,相互学习,取长补短。在进行数据知识积累与反思的过程中,不断提升自身解决数据问题的能力。
7.4 数据道德方面
7.4.1 发挥社会各方主体优势,推动数据素养服务平台建设
当前研究生群体的数据素养教育工作主要是由高校承担,而政府和企业参与度不高,缺少主动服务的实际行动。应联合多方力量,发挥主体优势,结成合作伙伴关系来推动研究生数据素养水平的提升。政府部门应充分认识到开展数据素养教育的重要性,合理地将教育资源向数据素养教育领域供给,推动完善研究生数据素养教育相关的法律法规建设,加强校企合作,助力形成“产学研一体化”教育体系。教育部门应建立合作关系,合力开发搭建公益性网络教育平台,为全省研究生提供平等的数据素养教育机会。高校研究生应主动加强与企业之间的联系,共同完成数据知识项目。社会各主体要以提升研究生数据素养为目标,做到资源共享,共同完成数据素养科研项目。社会其他主体应在新时代提升研究生数据素养实践中有新作为、新担当,更好地为数字中国国家战略服务。
7.4.2 端正科研态度,提升自身数据伦理道德素质
在互联网快速发展的今天,数据的获取和保存变得更加容易。有相当多的研究生对数据的正确引用规则缺乏了解。数据信息应该得到尊重,每一名研究生都应该自觉遵守学术伦理道德规范。研究生要强化自身数据伦理道德素质,牢固树立学术伦理道德的意识,明确自身数据需求,不盲目获取数据资料。要始终保持对研究数据的敬畏与尊重,严格遵守学术道德,不违反科研规定,不随意窃取、编造科研数据,不随意传播虚假数据信息,对于学术不端的行为坚决说“不”。