智能时代的教育数据治理变革:挑战与路径
2022-02-24张臻
张臻
(中国教育科学研究院教育信息与数据统计研究所,北京 100088)
一、引言
伴随着信息技术的迅猛发展,数据已成为当今社会正常运转的基石。2020年3月出台的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》中,明确将数据作为与土地、劳动力、资本和技术并列的五大生产要素之一,意义十分重大深远。可以说,数据是数字时代最重要的战略资源,其在各行各业中的地位和价值日益凸显。
在教育领域,由于教育信息化发展和智慧教育探索的不断深化,教育数据的采集、存储、分析、应用已逐步覆盖教育的方方面面,数据驱动已成为现代教育的基本特征[1],数据技术已经引发了教育实践与教育研究的范式转变。[2]特别是人工智能技术的快速发展及其在教育中的加速应用,更加巩固了教育数据在未来教育中的基础性、战略性地位。无论是基于深度学习的教育行为理解和分析、基于大数据分析的个性化学习,还是基于计算机视觉和自然语言处理的智能学伴、基于泛在计算的智慧校园等,智慧教育样态无不仰赖于我们对教育数据的获取和理解。与此同时,教育数据也给教育评价改革带来新的契机,利用学习分析、学生画像、教育大数据等数据科学手段,能够实现因材施教和过程性评价的统一,将“千人一面”的标准化考试变成“多一把尺子”的个性化评价。[3]
2021年7月,《教育部等六部门关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》提出,到2025年,要基本形成结构优化、集约高效、安全可靠的教育新型基础设施体系。教育数据无疑是教育新基建的核心要素和关键变量。为确保教育数据在分析和应用中发挥最大的效能,教育数据治理成为一个不可回避的话题。
数据治理在不同的专业领域往往有不同的内涵,但总体上来说,学术界基本认可DAMA的定义,即数据治理是对数据资产管理行使权利和控制的活动的集合。[4]数据治理的概念由信息管理领域提出,并伴随信息技术的普遍应用逐渐渗透到经济、社会、法律和教育领域。
从数据治理发展的外延来看,最早是以个别组织的角度考虑大数据治理的相关问题,强调的是从组织内部的高级管理层及组织架构和职责入手,建立企业级的数据治理体系,自上而下推动数据相关工作在全企业范围的开展。但随着数据开放、流通技术以及渠道的逐步完善,数据的跨组织乃至跨境流动和应用已经发生并呈现出日益普及的趋势。数据治理是涉及个人、企业、政府,行业内和跨行业,区域内和跨区域,全国乃至全球多个层次的问题,通过多层次的协同才能实现。总而言之,教育数据是智能时代教育的核心要素之一,教育数据治理也将对智能时代教育的发展起到全局性和引领性的作用。
二、教育数据治理面临的复杂挑战解析
由于教育数据属性的复杂性和教育数据利益相关方的多样性,在教育数据治理领域长期存在着数据安全风险、数据质量等问题。随着大数据、人工智能技术的发展和在线教育领域的应用,教育数据治理面临着诸如数据无偏性、应用结果可解释性等一系列新的挑战。总结当前教育数据治理面对的各种问题和风险,是应对这些问题的前提。综合归纳来看,教育数据治理面临的挑战主要表现在以下几个方面:
(一)数据源挑战
教育数据的突出特点之一是数据来源的广泛性和复杂性。伴随着数字社会的深化和教育信息化的发展,教育数据的来源已经大大扩充。从课堂到校园,从线下到线上,从教师到学生,各类教育数据已经大量生成。换言之,教育数据生态已经进入一种典型的“多中心”组织模式,多样的数据源带来了教育数据治理三个方面的困境:
第一,不同数据源的权威性和有效性不同。对于同一客体,不同数据来源产生不同的数据,往往其权威性和有效性不可等量齐观。例如,从教学效果评价角度来看,课堂测试的学业数据往往比学生课堂行为数据更加准确有效。
第二,不同数据源往往数据格式和数据标准不一致,无法有效地实现数据融合。例如,对于高校外部的专利、基金项目、教育部统计等数据源与学校内部的教务、科研等管理数据源之间,由于数据源在建设时仅考虑自身需求,同样数据在不同数据源中有不同的属性信息,各数据源间缺乏协调,彼此独立,增加了数据治理的难度。[5]
第三,数据源的无偏性成为影响教育数据的重要因素。受制于教育数据采集的事业环境因素和技术水平条件,数据源生成的数据往往是有偏的,在基于机器学习的应用中,会导致算法的不可靠,并会对教育行为的正确解释带来负面影响。
(二)数据质量挑战
数据质量是数据满足使用需求的程度。随着教育数据体量的急剧增大,非结构化数据占比增加,教育数据的质量问题也日益突出。
从教育数据的完整性来看,不同种类的教育数据其完整性往往各不相同。一般来说,根据不同的应用需求,教育数据完整性要求也不同,部分不完整数据的治理问题可以通过多维数据校正等方法获得改善,但如何保证教育数据的完整性、降低应用的复杂度依然是一个重要的问题。
从教育数据的准确性来看,作为最基本和最重要的属性,教育数据的准确性往往需要自动化数据采集和处理过程进行保证。在现阶段部分数据源无法避免人工干预的条件下,教育数据的准确性还将继续成为数据质量的挑战之一。
从教育数据的可用性[6]来看,相当一部分的教育数据处于“冷存储”状态,无法实现实时可用,对“热数据”的备份与容灾能力也不能满足日益增长的数据应用需求。
从教育数据的时效性来看,随着各种教育信息化技术的广泛应用,对教育数据的时效性需求不断提升,教育数据的时效性也成为衡量教育数据价值的重要因素之一。
(三)数据应用挑战
教育数据独特的价值在于其表征的教育活动以及对各类教育活动之间关系的描述[7],教育数据的应用也必须遵循教育规律和教育价值的一般要求。在教育数据应用层面,教育数据治理面临的挑战如下:
第一个挑战是教育数据产权的模糊性问题,由于教育数据本身的复杂性,部分数据(如数字教育资源、法定教育统计数据等)产权较明确,而教育行为数据、学情数据等方面则存在一些模糊地带,有待规范。[8]
第二个挑战是教育数据使用权限的管理问题,即教育数据在应用中由谁授权、由谁使用、如何使用的问题,这也是教育数据管理领域必须回应的一个重要问题。
第三个挑战来自于技术方面,即教育数据应用结果的可解释性问题。一般来说,大数据应用往往仅基于数据的相关性,即数据间的匹配关系不基于某种因果逻辑,仅表现为数值趋势的相关。在其他一些学科或领域,例如统计学或市场营销领域,这种无须得到合理解释的变量相关性,往往会带来意想不到的有益结果。然而在教育领域,因果性的需求往往是必要的,换言之,教育数据应用的结果应当具备逻辑上的可解释性。
第四个挑战是随着教育数据应用广度和深度的发展,教育数据应用的伦理问题日渐突出。[9]从实践应用来看,教育数据的隐私保护和开放共享之间存在严重冲突,教育数据应用必须在保护师生隐私和开放共享之间求取一个平衡点。[10]此外,和其他数据类似,数据安全风险也伴随着教育数据应用的全过程。随着人工智能技术的发展,教育数据应用的无偏性问题也值得重视。由于人工智能应用存在无偏性传递的问题,即“Bias in,Bias out”,也就是“偏见进,偏见出”,对于智能教育应用来说,其用来训练算法的教育数据本身的无偏性以及对智能算法进行应力测试的过程,都会影响算法最终应用中的无偏性。数据源体现出的教育价值观、数据集存在的偏见和技术本身的缺陷都会反映到算法中,并被放大为一个不可忽略的风险。
三、智能时代教育数据治理目标
数据治理是追求公共利益最大化的社会治理过程[11],因此,首先需要明确数据治理的基本原则。智能时代教育数据治理作为数据治理的一个特定子集,其本质可以概括为既充分挖掘教育数据的价值,又同时降低数据使用成本和控制数据应用中潜在风险的过程。
教育数据治理目标中的这三方面要素既互相联系,又互相制约,形成一种如图1所示的类似“不可能三角”的关系,即在实际应用场景中,往往只能完全满足其中两方面的要求。鱼与熊掌不可得兼时,就要求我们必须在进行数据治理之初就做好统筹规划,根据实际场景的需要进行适当取舍,不可简单偏废任何一方。
图1 教育数据治理目标三个维度间关系
(一)教育数据精准治理
教育数据精准治理是充分挖掘教育数据价值的前提和保证。此处的“精准”治理包含有两重含义:首先是价值数据的精准识别,其次是数据本身的准确性。一方面,教育数据作为一种教育活动的电子化记录,充斥于教育过程中,在多数情况下都无关教育活动或智能教育应用的重大利益,并没有特别进行数据治理的必要。有鉴于此,教育数据治理需要符合满足数据应用需求前提下的最小化获取原则,重点关注具有较大教育价值的数据。另一方面,对于具备较大教育价值的数据,则需要确保其准确性和可追溯性,以便为人工智能时代的教育应用创造更加有益的价值。
(二)教育数据敏捷治理
数据治理的敏捷性是反映数据服务中的灵活性、数据快速适应需求、快速执行请求和持续性改进的一种能力。教育数据由于具有体量庞大、涉及面广、多元异构、实效性强等特点,如果采用全域、复杂的治理模式,将极大地提升数据治理和数据应用的成本,而敏捷治理成为降低数据应用成本的一个重要方式。
首先,教育数据的可用性挑战决定了教育数据治理体系需要面对快速的数据应用需求,进行不间断的数据交付。其次,教育数据的时效性挑战,决定了教育数据治理体系需要及时响应数据需求,以保证数据的实时性价值。最后,数据治理必须要建立起长治久安、持续运行的机制,敏捷治理强调面向交付的结果,而非复杂的过程,可以为数据应用的改进提供持续性的支持。
(三)教育数据安全治理
海量的教育数据关乎教育未来发展、师生个人隐私,教育数据的安全也决定了建构于其上的教育智能应用的安全,因此,确保教育数据不受任何未经授权的访问、篡改、公开和破坏,确保其机密性、完整性和可用性是教育数据治理的题中应有之义。教育数据安全治理,从空间维度上来说,涵盖从应用层到技术层,从管理制度到工具支撑,是一个自上而下建立的数据安全保障体系和技术防护体系,同时贯穿整个教育数据治理架构的完整链条。从时间维度上来说,教育数据安全必须在规划之初就纳入教育数据治理的体系设计中,覆盖数据的生成、获取、传输、利用、消亡全生命周期,并贯穿整个教育数据治理过程。
四、智能时代教育数据治理策略
通过对教育数据面临的挑战进行剖析,梳理智能时代教育数据治理的价值取向,我们可以发现教育数据治理是一种复杂的治理结构,其中既包含管理制度等“软”的方面,也包含技术支撑等“硬”的方面。智能时代的教育数据治理必须坚持管理体系和技术支持体系“软硬结合、齐头并进”的总体治理策略,才能达到精准、敏捷、安全的治理效果。
(一)管理体系
完善的教育数据管理体系是智能时代实现教育数据价值最大化的重要保障。从教育数据治理实现路径的依赖关系来看,又可分为数据确权、治理机构和数据标准等几个重要方面。其内在逻辑关系是,数据确权为后续进行数据管理奠定法律法规基础,并提供一个权责明晰的逻辑前提;机构设置为教育数据有效管理提供抓手,避免令出多门,确保教育数据的有效管理、安全使用;数据标准提供了教育数据共享的必要条件,为教育数据发挥价值提供基本保障。
1.数据确权
教育数据作为教育活动的产物,已经成为教育活动的要素之一,是教育的战略资源,教育数据权属明晰是对其进行管理和利用的前提。虽然目前学术界对数据确权应适用的法律法规还存在一些争议,但是对数据确权的重要性和紧迫性的认识是一致的。《数据安全法》明确了国家建立数据分类分级保护制度,而《个人信息保护法》规定了敏感个人信息的处理规则,但是对数据确权问题都策略性留白,针对教育数据确权的具体措施和实践方案仍有待探索。
对于教育数据来说,数据产生者是教师、学生、教育管理者等教育活动的主体,但是这些人群往往不持有数据,数据一般情况下存储在教育应用端,面临着数据越权使用的风险。从有利于实践探索的角度出发,为简便起见,可以采用产权保证、权责共担的方式,先行确定教育数据产权的问题。按照“谁产生数据,谁负责管理”的原则,由学校或政府部门暂时代行教育数据的产权管理职能,由数据使用方对数据的合规使用负责,并为以后通过法律法规形式对此问题加以解决探索路径。
2.机构设置
“徒法不足以自行”,良好的教育数据治理制度必须依赖有力的机构执行。当前,教育数据治理往往依托学校的信息管理部门进行,教育数据散见于各个数据孤岛内,需要一个更具有全局统领性的机构统一进行治理,其治理方略可以归纳为以下几个方面:
首先,针对数据源的广泛性和复杂性,教育数据治理机构要做好数据源治理。按照“一数一源、多元校核”的原则,在数据源分类的基础上明确权威数据源,确保教育数据源的一致性和无偏性。在此基础上,还需要在合法正当原则、最小必要性原则和知情同意原则下,规范教育数据采集活动,确保数据的精准性。
其次,针对数据的不同应用场景,规范数据使用流程,确保教育数据安全应用。按照数据管理规范要求,应根据教育数据的重要性和利用范围,对教育数据进行分级分类管理。在教育数据全生命周期中,必须要明确不同级别数据可以应用的场景,各教育数据集支持的产品和用户,以及使用不同等级、不同类型数据的前置审核条件等对应关系,教育数据治理机构据此进行教育数据的合规管理。
最后,做好教育数据的质量控制。一般认为,教育数据的质量由教育数据的标准和技术支撑体系决定,但是从实践过程来看,合理且强力的制度执行保障才是教育数据质量的关键。教育数据治理机构的执行保障是数据治理体系有效运转的动力源,能够确保教育数据采集存储符合标准、使用过程符合技术指标要求,为真正实现数据完整性、可用性、准确性、时效性提供有效支撑。
3.数据标准
数据标准是保障数据使用和交换过程一致性和准确性的规范性约束。制定规范和完备的数据标准体系并加以落地执行,是推进教育数据治理有效性和持续性的核心工作。
首先,要加强教育数据标准体系设计。教育数据标准的制定应该是一个从上到下、由粗及细、渐进实施的过程。国家、省市、各级各类学校分别制定本级标准,下级标准与上级标准做好衔接,共同组成教育数据标准体系。
其次,应重点完善教育元数据标准。元数据是关于数据的组织、数据域及其关系的描述,是定义数据的数据。定义合理、描述有序的元数据对提升数据检索、分析和交换的便利性具有重要意义。
(二)技术体系
教育数据治理技术体系是管理体系发挥作用的物质基础和活跃变动的环境因素。由于数据处理和应用技术不断进步,教育数据治理的技术体系也应是一个动态调整、渐进明细的构型。从教育数据全生命周期的角度来看,教育数据治理的技术体系应包含以下三个方面的内容:
1.敏捷的教育数据部署模型
敏捷的教育数据部署模型是为了解决教育数据生命周期内精准有效使用并平衡数据使用成本的策略。其核心意义在于,在实现数据部署管理标准化、规范化的同时,通过应用接口的方式,满足数据精细化、敏捷化和个性化的应用需要。目前此类模型的代表技术是基于数据即服务(DaaS)的数据中台。
数据中台是提供数据采集、数据存储、数据处理与数据服务的全链路一体化,面向业务应用的数据智能平台,通过构建全域数据共享,能够有效实现教育数据的快速流转与价值挖掘。[12]DaaS是一种数据部署和使用模型,它参考了云计算“一切皆服务”的理念,通过应用接口API实现服务数据的安全调用,以提供各种与数据相关的服务,例如存储、处理和分析。[13]基于DaaS的数据中台,融合了面向数据服务的理念,同时实现了教育数据相关的任何服务(如数据聚合、数据清洗、数据抽取等)都能由中台提供,然后再将数据按照管理基准提供给不同的应用端系统和用户。应用端基于数据中台API精细而敏捷地获得所有所需数据,无需再考虑这些数据来自于哪些数据源。
2.可信的教育数据日志管理方案
数据日志是覆盖数据全生命周期的过程记录。数据日志可以跟踪数据使用状态,并为数据管理提供依据。可信的教育数据日志管理方案能够记录教育数据在采集、传输、存储、处理、交换、销毁各阶段活动情况的同时,通过日志的不可篡改性为数据的安全使用提供支撑。区块链技术旨在不可信的开放网络中,维护一个安全可信、不可篡改的分布式数据库,是目前较为理想的教育数据日志管理技术。
区块链是将数据按照区块生成时序链式存储的数据结构,采用共识机制算法实现各个节点数据的一致性和不可篡改性,从而保证了数据的完整性和可验证性。以往有研究认为,教育数据可以直接上链进行存储和共享。事实上,在区块链系统的实际使用过程中,为了保证区块链上记录数据的可溯源、可验证等特性,所有数据都必须公开给区块链网络中的所有节点,这一特性在保障安全、可验证的同时,也会导致恶意攻击者可以直接获取区块链账本中记录的数据[14],破坏了数据的安全性。
利用区块链对教育数据日志进行管理则不同,由于教育数据日志是可以公开的数据,如果教育数据的各种活动行为都能如实上链,一方面可以保证教育数据日志的完整性,另一方面数据管理方也可以准确获知任何教育数据被应用调用情况,这将大大增强数据应用活动的可追溯性。
3.可靠的教育数据共享机制
可靠的教育数据共享机制旨在确保教育数据隐私不泄露的前提下,解决数据流通、数据应用等数据服务问题。可靠的数据共享机制是解决数据安全与数据利用成本间矛盾的一种方式,可以在彻底杜绝数据越权访问的基础上实现数据共享,目前此类机制的代表技术是隐私计算。
隐私计算技术是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。[15]简而言之,通过数据与算法的解耦,隐私计算可以依托“数据可用不可见”“本地数据异地计算”等理念,实现在不共享教育数据的前提下,发挥教育数据的价值。
五、结语
大数据和智能技术的发展已经开始深刻变革人类社会,教育领域人工智能的应用方兴未艾。教育数据作为教育智能应用发展的基石,必将发挥越来越重要的作用。教育数据治理是一个长期持续的过程,需要建立长效机制保证治理工作的开展,无论是管理体系或技术体系的支撑,最终都离不开人的因素。因此,注重数据素养,培养高数据素养的人才,也是教育数据资产治理能够发挥价值创造功能的重点。对于未来在教育数据治理方面面临的理论和实践问题,必须要未雨绸缪,才能更好地推动教育信息化和智能教育行稳致远。