我国教育大数据技术及规范发展的进程、问题、对策探究
2023-05-13张志新
张志新,孟 歌,高 凯
(1.首都师范大学 教育学院,北京 100048;2.河北科技大学 信息科学与工程学院,河北 石家庄 050018)
一、引言
近年来,教育大数据的研究与应用已然成为教育事业发展的驱动力。2015年5月,国家开始部署教育大数据的相关工作;2015年8月,国务院颁布《促进大数据发展行动纲要》,明确提出要建设教育大数据。各地纷纷响应号召,相继成立各类教育大数据研究院和研究机构。2018 年4月,教育部印发《教育信息化2.0行动计划》,提出利用大数据技术为学习者提供海量、适切的学习资源服务,深化教育大数据应用,助力教育教学、管理和服务的改革发展。
教育大数据通常是指“在整个教育活动过程中所产生的以及根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据集合”[1]。目前,在互联网技术与信息技术支持下,产生多种多样的教育数据,全面、协调地利用这些数据对教育事业的发展具有重要意义。然而,相应的技术、制度、规范不完善使教育大数据在快速发展中暴露出一些问题。例如,多元化的采集与分析技术可能会带来用户隐私泄露的风险;数据管护不规范导致数据质量不佳,使分析结果缺乏可靠性等。因此,提高教育大数据的采集、分析及管护技术,完善相关规范,是发展教育大数据的基础性问题。
国内学者关于教育大数据的采集、分析、管护技术及规范内容的研究较为零散,尚不够系统。在中国期刊全文数据库中,以“教育大数据”为主题,检索时间从2013年国内出现的第一篇关于教育大数据的文献为起点,直到2023年1月,再以“核心期刊”为筛选条件,共筛选论文908篇;在中国知网《中国硕博论文数据库》中,共搜到论文310篇;以“教育大数据”为题名在中国国家图书馆官网可以检索到图书360本,其中直接相关的有约140本。本研究将以上文献作为本研究的中文数据主要来源。另外,在web of science数据库以“education big data”与“educational big data”为主题进行检索,可以搜索到2023年1月之前的期刊论文17 893篇,作为主要的外文文献数据来源。
本研究分别对教育大数据的采集、分析、管护技术及规范进行综述,方便研究者了解本领域的概况。在此基础上,本研究进一步分析我国教育大数据发展亟需解决的问题,并提出相应对策,以期为我国教育大数据后续的研究与实践提供参考。
二、我国教育大数据采集、分析、管护的技术与规范进展
(一)采集技术进展
“教育大数据主要是由人和物产生的,‘人’是指参与教育活动的教师、学生、学校管理者等;‘物’是指在线学习平台、校园一卡通系统、智慧教室、录播教室、多媒体计算机等各种教育设施设备”[2]。教育大数据常用的采集技术包括平台采集、视频录制、图像识别、物联感知等。
1.平台采集
平台采集技术是指“通过各种与教育和学习相关的移动或桌面应用平台来获取教育数据的技术”[3]。随着互联网的快速发展,教育领域出现越来越多的移动或桌面学习平台,具有代表性的有中国大学MOOC、Coursera、学堂在线、网易云课堂等。这些学习平台积累了庞大繁杂的教育数据,主要收集课程信息、学习者学习记录、学习者的学习状态、学习者答题测试数据等,为教育研究提供了支持。基于平台采集的教育数据,常用的采集技术有自动记录技术、网络爬虫技术和日志搜索分析技术。
自动记录技术是内嵌在平台里,能够自动记录并获取学习者的在线学习行为数据的一种技术。网络爬虫技术是指“根据一定准则,借助计算机程序或脚本自动捕获网页信息的技术”[4]。日志搜索分析技术是指对学习平台中用户以及系统的操作信息(如运维工作记录、学习者练习日志等)进行记录并分析的技术。这些技术可以对在线学习平台产生的数据进行采集,为进一步的分析和教育改革提供基础。
2.视频录制
视频录制技术是指“通过计算机硬件设备对屏幕内的内容进行录制的技术”[5],包括视频监控、智能录播、情感识别。视频监控是指对指定区域实时展示的现场图像进行记录的一种技术,在教育领域可用于长期监控校园的运行状况,采集校园安全数据,从而发现校园的异常情况和预测可能发生危险的地点,保障在校师生的安全。智能录播技术是目前教育领域应用最广泛、最实用的采集技术,通过智能录播技术可以录制课程视频、进行教学直播,为后续分析提供大量的、真实的课堂教学数据,以反映学生的上课情况并对课程进行教学诊断。情感识别技术是指“通过摄像头及录音设备对学习者学习过程中的面部表情、声音声调、语言文字进行获取和识别,并从中提取和分析学生的情绪状态的一种技术”[6]。该技术可以判断学习者的负面情绪如疲劳、倦怠等,进而提供针对性的支持服务。
3.图像识别
图像识别技术是指“对图形图像进行监测、分类,通过对不同模式的目标和对象进行识别,从中提取重要特征信息的一种技术”[7](P770-778)。图像识别在教育领域的应用包括网评网阅技术、点阵数码笔技术和拍照搜题技术等。网评网阅技术用于收集学生的学习成果,如智能阅卷技术可获取学生的考试成绩数据。点阵数码笔技术用于保存学习者的最终书写结果,如收集学生的课后作业及随堂练习数据,同时也可以记录学习者的书写过程。拍照搜索技术是指通过拍照自动搜索相关信息从而为学习者解疑答惑的技术。既能帮助学生解决问题,也可以通过学生拍照上传的练习过程及结果来反馈作业情况。
4.物联感知
物联网强调事物的互联,是指“通过可互操作的信息传感设备使各种事物互为连通的网络”[8]。物联网分为感知层、网络层、应用层三个层次。其中,感知层是物联网的核心,相当于物联网的五官和皮肤,主要用于识别外界物体和采集信息。物联感知是指物联网的感知层技术,在教育领域中常用的有校园一卡通技术。校园一卡通技术是指“基于智能卡物联网技术、网络通信技术、计算机技术的综合信息网络化管理系统”[9],可采集学生的日常消费、图书借阅、网上选课、日常考勤等海量校园生活信息。
(二)分析技术进展
当前,教育大数据常用的分析技术有可视化分析、数据挖掘、预测分析、语义分析以及综合性分析平台。
1.可视化分析技术
可视化分析是指“对分析过程以及分析结果进行展示的技术,用户能够通过图形化手段,清晰、有效地传达与沟通信息,并通过人机交互界面直观地了解和掌握数据中隐含的规律,明确所需的分析结果”[10]。
目前,国内外教育领域对可视化分析技术的应用逐渐增多。一些教育平台通过可视化分析技术将学习数据以直观化、易理解的方式呈现给学生、教师和教育管理者,如用柱状图、饼状图、直方图、回归曲线等形式展示数据。以南京大学的学生使用Blackboard 平台学习“双语学习科学导论”课程为例,教师利用平台中的“统计评价”功能将学生对知识点的点击量、讨论程度等大量的在线学习行为数据自动生成统计图,从而直观地掌握学生的学习情况。
2.数据挖掘技术
数据挖掘是指“对模糊的、随意的、不规则的数据进行处理,借助数学模型、机器学习算法、专家系统、模式识别等诸多工具和算法,从这些数据中发现有潜在价值的信息和知识,实现数据的有效提取”[11]。教育数据挖掘是“对教育大数据进行处理和分析,通过数据建模,发现学习者学习内容与学习结果、学习资源和教学行为等变量的相关关系,从而预测学习者未来的学习趋势”[12]。数据挖掘的分析方法包括:分类与回归、聚类分析、关联规则等,近年来在教育领域得到广泛应用。
分类与回归的主要目的是对未来的趋势与规律进行预测,常用的算法有决策树、支持向量机、贝叶斯、线性回归等。有研究者利用支持向量机、邻近算法对北京某Java培训公司学习者的学习行为进行研究,通过分析对学习者的学习成果进行预测,并找到影响学习者成绩的因素,以此来提高培训效果。
聚类分析主要用于关键词聚类分析、学习者分组等,常用的算法为K-means、DBScan等。有研究者对陕西师范大学现代教育技术专业学习者的在线学习行为进行聚类分析,通过K-means算法根据学习者的学习行为特征将学习者分为四类,对不同类型的学习者分别给出网络学习的建议,从而提高学习效果。
关联规则的目的在于发现数据之间的相关性,及时改变数据之间的因果关系,应用于课程推荐、学习者学习行为分析等,常用的算法有Apriori算法、FP—树频集算法等。有研究者通过Apriori算法对某师范大学教育技术学专业学习者的成绩与三学年专业课时间编排的关系进行分析,发现将关联规则较大的课程编排在同一学期在一定程度上可以帮助学习者提高学习成绩。
3.预测分析技术
在教育领域,预测分析常用于从教育大数据中挖掘出学习者的学习行为数据,包括学习者的学习方式、学习频率、学习路径等。通过统计分析和算法可以发现行为数据中所隐含的规律,从而对学习者的学习进度、学习状态、学习效果及分数进行预测。预测学习者的学习效果是数据分析技术的一个常用应用领域,如基于北京大学在Coursera上开设的6门慕课,挖掘出约8万余人产生的庞大学习行为数据。通过大数据分析学习者学习行为与学习效果之间的关系,从而对学习者能否通过任务和获取证书进行预测。
4.语义分析技术
语义分析是指“对信息所包含的语义的识别,并建立一种计算模型,使其能够像人那样理解自然语言”[13]。目前,语义分析已经在语音识别、图像识别、自动驾驶等方面取得突破性进展。由于大数据的数据类型包括结构化、半结构化和非结构化数据,这种多样性使数据分析起来比较困难,需要一套系统的工具去提炼、解析数据。语义分析技术可以帮助研究者智能提取所需数据,有效过滤图片、文本、视频、音频中与内容无关的数据。如北京理工大学张华平等人研发的NLPIRParser大数据语义智能分析平台就融合文本挖掘、自然语言理解、语义搜索等核心技术,是对语法分析、词法分析、语境分析等的综合应用,能够在分析时过滤掉敏感信息、垃圾信息,从大量的数据中识别符合要求的信息。
5.综合性分析平台
Hadoop、Spark是教育大数据分析系统中较为常见的分析平台,可用于数据挖掘、可视化分析和预测分析等,属于综合性的分析处理平台。Hadoop平台的使用较早,是一种开源框架,而Spark近几年的使用率逐渐增高。
Hadoop是在2006 年由Doug Cutting提出的一个平台,主要语言为Java。Hadoop 的核心框架为HDFS分布式文件系统和Map Reduce引擎,在数据处理与分析中有很强的适应性,能够为海量的数据提供存储与计算,具有可靠性、高扩展性、高效性、成本低等特点。Hadoop平台进行数据挖掘时,常用的分析方法是聚类分析的Kmeans算法,它处理数据的效率较高且在教育领域应用相对广泛。如国内某高校通过Hadoop的HDFS框架结合K-means算法对学生的平时成绩和“挂科”率进行分析,预测学生的期末学习成绩,并对不同学生提出针对性建议和个性化教学方案。
Spark是由美国加州大学伯克利分校AMP实验室在Hadoop框架基础上开发的一个大数据分析平台,支持Scala、Java、Python等多种语言。Spark与Hadoop相比“迭代运算效率更高、容错性更高、数据处理速度更快,提高了处理数据的实时性”[14]。Spark在教育领域的应用可以为校园管理提供依据,如国内某高校通过Spark对校园网络使用者的上网日志数据进行分类、聚类分析,并把结果可视化展示给用户,以此优化校园网络环境、加强网络管理。
(三)管护技术进展
数据管护是指“在数据生命周期,即数据的生成、整理、存储、维护、共享、利用过程中的持续管护活动”[15]。在教育领域,数据管护技术能够对海量的教育数据进行有效处理,使数据在后续研究及重复利用的过程中保持可信性,近年来引起高校、研究机构、图书馆的重视。
数据管护主要有战略规划、数据收集、数据处理和数据保存4个阶段。数据管护实施前需要做一些准备工作,可以设立一个数据管护团队。例如,美国佐治亚理工学院图书馆在2008年设立了管护小组,以提供申报、技术、后台运营等支持。数据管护的关键技术包括数据清洗、数据集成等。数据清洗是指对重复数据、错误数据、缺失数据进行处理,从而提高数据的质量。数据集成是将不同类型的数据整合在一起,以扩展数据的内容,包括模式匹配、实体解析、数据整合3个部分。具有代表性的数据管护工具有DBWiki、Vizier、Clowder等,利用这些工具可以对数据进行清洗、整合和管理。
目前,欧美的一些国家对数据管护的研究和实践已取得一些进展。例如,2004年英国数字管护中心DCC(Digital Curation Center)成立,提出数据管护生命周期模型(Digital Curation Lifecycle Model)。该模型包括鉴定与选择、采集、获取与利用、存储、数据描述等管护活动,目的是为英国高校提供管护技术培训、专家咨询等,发展对数据的管护能力。国内对数据的管护意识逐渐增强,但技术发展相较于国外而言还较为滞后。对于学校和教育机构来说,想要实现数据处理过程中的管护,需要投入大量的人力、物力尤其是技术人员的培养。目前我国在这些方面投入较少,数据管护技术尚未得到广泛使用。
(四)采集、分析、管护的规范进展
1.采集、分析的规范进展
随着教育大数据采集与分析技术的使用,数据安全、隐私保护、数据质量等问题逐渐显现出来。国际上普遍主张在采集和使用大数据时要保护用户权利,为此出台许多法律法规和企业规范,其内容较为完善且具有实用性。例如,欧盟的《一般数据保护条例》规定了数据产生者的知情权、个人决策权、访问权、反对权等具体数据权利,还建立了问责机制。美国则采用分散立法模式,在各个层面的不同领域分别制定信息保护制度。
近年来,国内对保护用户权力、用户隐私、数据安全等越来越重视,专门颁布一些法律法规约束数据的采集与分析。典型的有全国信息安全标准化技术委员会在2020年3月发布的一项中国国家标准《信息安全技术个人信息安全规范》,对个人信息的采集、使用、保存、共享、披露、删除等活动的原则和安全要求进行了规定。2021年8月全国人民代表大会常务委员会颁布的《个人信息保护法》,也规定了个人敏感信息、个人信息处理等的相关规则,旨在保护个人和行业的数据安全。
2.管护的规范进展
国际上,一些国家科研资助管理机构制定了科学数据管理政策,如美国联邦政府支持的自然科学基金委员会(NSF)颁布的《项目管理指南》规定所有提交的项目申请中必须有“数据管理计划”,该计划的内容应详细描述申请者如何管理和使用研究项目所产生的数据。另外,许多高校科研机构、图书馆系统、教育机构在不同领域分别设置数据管护制度,旨在规范数据的有效管理。例如英国剑桥大学对数据的开放共享制定了“科研数据管理措施”,主要规范数据的利用。
近几年,我国也在加强对数据存储和维护等方面的管理。2015年,国务院印发的《促进大数据发展行动纲要》明确提出科学数据要逐步分层级的有效管理,以便日后实现共享。2018 年,国务院颁布的《科学数据管理办法》要求对数据生命周期的步骤进行分层管理,并要求各个领域要明确数据管护职责,完善数据管护政策,做好数据的管理、审查和监管工作。
三、我国教育大数据采集、分析、管护的技术与规范问题
(一)采集问题
第一,教学过程数据采集困难,信息采集不完整。教师在教学过程中利用在线学习平台进行教学是近年来较流行的一种教学方式,对促进学生的学习效果起着重要作用。但在线学习平台在设计上往往未考虑数据分析的需要,后台对教与学过程中的行为数据记录和存储不够完整。普通教师、学生、学校在采集信息时会出现信息采集不全甚至获取不到的情况,这对后续分析和应用都造成了困难。
第二,学习场景多样,采集过程易受影响。由于数据采集场景的多样性,采集过程中存在许多不确定因素,无法确保获取持续的、连贯的教育数据。
第三,数据类型不一,存储难度大。结构化数据是最常见的数据类型,如数字、符号等,存储和分析起来较为简单,但可挖掘价值不高;非结构化数据如视频、语音、图片等的数据结构不规则或不完整,在存储、检索时较为困难;半结构化数据介于结构化数据和非结构化数据之间,数据的格式和内容混在一起,在存储时需要转化为结构化数据或者按照非结构化数据进行存储,存储难度较大。
(二)分析问题
第一,教育领域中Hadoop等分析平台应用较少。通过梳理国内外大数据分析平台的学术论文发现,Hadoop、Spark平台在医疗、电商等领域应用广泛,但教育领域的应用相对较少。目前还未形成支撑教育大数据平台开发的相关技术体系,没有充分发挥平台及相关技术带来的便利。
第二,大规模数据处理难,输出有限。随着大数据技术的发展,所生成的数据量大幅增加,数据规模持续增大,这也加大了数据存储、分析的难度。传统的大规模数据处理方法处理时间较长、数据压缩精度不高,并且由于屏幕空间的限制,数据输出的显示也有限,对教育大数据的发展带来了阻碍。
第三,可视化分析技术滞后,呈现方式单一。目前,数据可视化技术已广泛应用于医学、航空航天等领域。但教育领域的可视化分析技术研究与应用相对较少且不够深入,数据可视化的呈现方式较为老旧,表达的内容深度不够,难以满足用户的需求。
(三)管护问题
第一,各个层级的数据管护意识薄弱。对数据管护重要性的认识不足,技术设施较落后,影响各地区对国家政策的响应与实施;机构和高校图书馆对数据管护的认识也不足,对上级政策的落实不到位,直接影响数据管护的整体实施。
第二,对数据管护的规定不够细致具体,缺乏有效的管理体系。我国出台的法律法规中有提到要对科学数据进行分层管理、按步管护数据各个生命周期等,但总体来说政策制定不够细致具体。如何进行有效管理、怎么实现各环节的数据管护等内容未做详细制定,且未出台强制性的管理办法。因此,我国的科研数据大多还处于分散管理、相互封闭、开放共享程度较低的状况。另外,目前国内还没有建立较为有效的数据管理体系,难以在各个层级对数据的生命周期管护采取实际性的措施。
第三,专业技能培训欠缺,人才质量不高、数量不足。由于国内数据管护工作刚刚起步,高校和科研机构尚未建立起相应的管理部门,也没有开发出系统的培训课程,专业技能培训欠缺,导致专业人才质量不高、数量不足。人才短缺会进一步限制数据管护事业的发展,因此需要加大数据管护技术的培训。
(四)规范问题
第一,缺少统一的标准体系。目前我国教育大数据在采集、分析、管护过程中缺乏统一的标准、程序和要求。例如,对数据质量、数据采集与分析流程、数据安全等没有统一规定,导致获取的数据质量不佳、被采集者的基本权益无法得到有效保障等。另外,许多研究者和从业者数据素养还不够高,对数据进行规范管理和储存的意识比较薄弱,将采集到的低质量数据在未做数据清洗的情况下进行分析,影响后续数据分析结果的可靠性和严谨性。
第二,法律法规制定不完善。目前我国出台的一些法律法规有提到数据采集、分析时需注意的事项,但制定的内容多是框架性的,还不够详细,实施起来难度较大。例如,法律法规缺乏对具体行为的规范界定和敏感涉密数据的规定。因此,有关个人信息保护的法律法规要有清晰的定位和边界,否则将导致法律法规的适用模糊化和泛化。
四、我国教育大数据采集、分析、管护的技术与规范完善对策
(一)完善采集技术
一是建立综合性采集机制,获取完整教学过程数据。大数据技术与教育的融合为在线学习平台与智慧校园等的发展提供了良好的条件,并丰富了教育数据的来源。但在教学过程中产生的数据往往具有动态性,因此,在采集连续不断的教育数据时难度较大。针对这一难题,应构建综合性数据采集机制,建立不同数据之间的关联。如根据教师的教学与学生的学习成果、课堂环境与学生的学习效率之间的关联进行综合采集,利用二者之间的因果关系构建完整的数据集,确保动态数据持续、完整的获取和保存。
二是开发多样化技术设施设备,支持不同场景的数据采集。考虑到教育场景的多样性和复杂性,在开展数据采集时,要选择合适的采集技术,以防止数据中断或受损。因此,有必要探索更多专业化和多样化的新型技术设施,为多种场景的信息采集服务,加强数据采集的稳定性,确保数据采集的持续性。
三是开发新型数据库技术,存储不同类型数据。对于复杂的分析过程,需找到一种全面的解决方案,不仅要解决图形、模型等非结构化数据的处理,还要将功能扩展到数据类型的转化、海量数据的存储、智能数据分析等。非结构化数据往往需要分布式系统进行存储,Hadoop 作为分布式开放系统,在普通PC 端上也可以进行分布式存储和处理,且具有良好的可拓展性与容错性。因此,可利用此类特征开发新型分布式结构框架来扩展数据的存储容量,以有效解决非结构化数据存储的相关问题。
(二)完善分析技术
一是增加Hadoop等平台的使用率,掌握平台相关的核心技术。Hadoop、Spark平台可以实现数据的快速处理,并将处理结果可视化,便于用户理解和利用。高校和科研机构可以根据自身需求学习和掌握相关平台的核心技术,挖掘教育数据的潜在价值。利用这些平台对大规模用户的行为特征进行提取,将得到的用户关键信息进行分析并将结果可视化,从而对用户行为进行预测和预警,以提高办学质量、优化校园管理。
二是采用多种处理方式,引进专业化的大规模数据分析技术。大规模的数据分析对数据处理工具的要求较高,想要缩短数据处理时间、提高分析效率需要更专业的处理技术来实现。因此,高校和教育机构可由教育部门牵头或者委托,寻求外部专业数据处理人才的支持,引进专业技术公司的大规模数据处理技术,从而提升研究者自身的专业技能。近年来,国内外对大规模数据可视化的研究逐渐增多,可以解决大规模数据处理时遇到的一些问题,如可以通过并行可视化和原位可视化对大规模数据带来的难处理、输出瓶颈等问题进行处理。
三是应用可视化工具,发展多样化呈现方式。数据可视化在国外的研究较早,有许多较为成熟的可视化工具,如Google Trends(揭示数据关系)、Visual Eyes(在线可视化编辑工具)、Many Eyes(集合可视化工具的在线社区)等。这些工具中有的可以通过挖掘数据之间的重要关联及发展趋势进行图形化处理,制作的可视化数据动画能够生动、准确地传播信息。国内近几年也有一些新兴的可视化工具,如阿里云的DataV 和Quick BI、蛛网时代—云蛛系统的AutoBI和Data View 等。教育领域可以借鉴当前较为流行的可视化工具,挖掘其特点和生动的呈现方式并加以应用,开发多样的可视化工具,发展更多直观、有趣的呈现方式。
(三)完善数据管护技术
一是提高各个层级的数据管护意识。数据管护的最终目的是实现数据的共享、再利用和增值,只有深刻认识到数据管护对国家科研发展的重要性,才能解决其发展面临的其他问题与挑战。在国家层面,我国应加强同国外教育领域数据管护方面的学术交流,找出国内外数据管护各方面的差距,引进国外高校图书馆与机构的数据管护经验,为国内数据管护的进一步发展提供有益经验。在学校、机构层面,各高校和机构要树立数据价值意识,认识到数据是能够通过管理、利用发挥其最大作用的;并提高专业人员、从业者对数据管护的专业意识,对数字信息进行有效的管理,保证数据的长期利用。同时,还应加强政府、学校、图书馆之间的合作与交流,建立数据管理平台或中心,进行多方协调共同实施项目,并由专业人员指导研究者、从业者进行科学的数据管护规划,从而实现整体数据管护意识的提升。
二是细化数据管护政策,建立分级管理体系。我国的数据管护政策应细化于数据生命周期的每个阶段,明确每一个阶段的具体流程与操作,切实管护好采集、分析、存储、分享等阶段的数据,以提高数据质量,增加数据分析结果的可靠性。此外,我国可以借鉴欧美国家的一些经验,如建立分层管理体系,包括国家层级、地区层级和机构层级。国家层级或地区层级的管护需要政策上的建议与引导、制定明确的标准、进行多方合作交流、加大重大项目投资等,来促进数据管护的发展。机构层级的管护相对简单些,可以发展数据管护的自动化,减少人力资源的浪费。这样,各个层级的数据管护都有相关的实施措施,使不同层级的数据得到相应的管护。
三是加强数据管护技术培训,培养更多专业人才。培训是提升数据管护技能的重要手段,包括职前培训和职后培训。
(1)职前培训是一项长期、系统的全方面提升工作,国家应鼓励高校加强与专门的情报科研机构和大数据中心的长期合作,开展以解决问题为导向的项目,培训教师、学生的数据管护技术。同时,我国高校可以设立数据管护相关专业的课程与图书情报院,让在校学生系统、完整地学习数据管护技能,培养更多具有专业技能的学生。科研机构与图书情报学院在科研基金以及协会的资助下,共同致力于数据监管专业人才职业技能的培养。另外,我国高校开设的数据管护专业相关课程内容应涉及数据生命周期的各个阶段,国内高校可以学习多伦多大学设立数据图书馆学,学习内容包括数据采集、获取、存储、管理、分析以及数据安全与隐私等方面,贯穿数据管护的各个方面。
(2)职后培训是短期提升管护技术的一种重要方式。有一定基础的企业与机构可以成立数据管护培训中心,一方面对从业者、相关机构人员进行企业内训,举办短期培训课程,培养内部人员的数据管护素养;另一方面可以对从业者、相关机构人员进行企业外训,提供关于数据管护与共享的讨论会,让企业和机构间的从业者共同参与培训和经验交流,从而快速培养大量具有数据管护基本知识与技能的人才。
(四)完善采集、分析、管护规范
一是建立统一的标准体系,加强落实与监督。我国应尽快完善教育大数据规范体系,包括数据质量标准、数据安全标准、数据管护规范等。数据质量标准可以参考中国科学院计算机网络信息中心制定的《数据质量评测方法与指标体系》,包括数据的形式质量、内容质量、效用标准。针对数据使用可能引起的国家安全、用户权益保护等问题,需研究科学数据生命周期中数据采集、分析、存储、共享等关键环节通用安全技术标准,制定数据存储安全管理标准、数据安全审计要求、数据权益保护标准等。其次,研究者还应加强对数据生命周期的监管,有效管理和维护数据生命周期各个环节的数据,确保数据质量,提高分析结果的可靠性。
二是完善法律法规。法律法规的制定和实施是保障数据安全的重要途径。法律法规需建立起清晰的信息处理规则,明确其内涵,构建以生命周期为基础的个人信息采集、存储、分析、分享和应用等行为的规范。此外,还应明确界定信息的边界以及法律的适用范围,如区分敏感信息与非敏感信息,明确哪些数据是可供采集与使用的;且需制定数据存储、管理与删除等方面的操作保护措施,提高数据的安全性。同时,政府和行业应加大法律法规的推广,切实保障数据利益相关方的权益,规范和引领教育大数据高质量发展。