APP下载

算法教育治理:技术逻辑、风险挑战与公共政策

2020-05-26肖凤翔张双志

中国电化教育 2020年1期
关键词:算法人工智能大数据

肖凤翔 张双志

摘要:智慧学习、智慧课堂、智慧校园等智慧教育的具象形态,从本质上来说,就是算法学习、算法课堂、算法校园,这也使得算法教育治理日益成为教育现代化进程中不可忽略的研究议题。遵循“技术逻辑一风险挑战一公共政策”的分析框架对算法教育治理进行系统探讨,发现由于数据鸿沟、算法黑箱、效率优先等众多因素的复合影响,导致算法教育存在自我强化偏差、技术控制困境、主体性危机等治理难题,也让教育公平、教育平等、教育效率等传统议题在“互联网+教育”时代显得更加突出。为规避只注重相关关系描述,而不重视因果关系研究的算法给教育带来的风险挑战,可从算法教育基础的数据正义、算法教育程序的合理公开、算法教育结果的有限使用等三个层面开展对算法教育治理的公共政策选择,以更好地推动人工智能在实现发展更加公平更有质量教育过程中的重要作用。

关键词:人工智能;大数据;算法;算法教育;算法教育治理

中图分类号:G434

文献标识码:A

一、问题提出

2019年的政府工作报告明确指出,“互联网+教育”是实现教育基本公共服务均等化、推动发展更加公平更有质量教育的重要途径。其中,教育移动互联网应用程序(教育APP)是“互联网+教育”的重要载体,极大地整合了学生、家庭、学校、企业、政府等社会资源,丰富了教育方式与学习渠道,成为促进教育现代化发展的新动力。从本质上来说,教育APP是人工智能在教育领域的特定应用,搜集了学生、教师、家长等教育用户在互联网上产生的教育大数据,通过机器学习算法处理生成学习评估、成绩预测、课程定制、高校自主招生、高考志愿填报、职业生涯规划等推算结果,以影响线上线下的教育资源配置。以“深度学习”(Deep Learning)为代表的机器学习算法,让发端于1956年达特茅斯会议的人工智能迎来了其历史上的第三次崛起,而这次人工智能的迅猛发展有望助推人类社会从工业社会、信息社会到智能社会,甚至是智慧社会的跨越,实现人类社会形态的重塑与变革[1]。人工智能的发展与应用在教育领域产生了一系列新概念,例如智慧学习、智慧课堂、智慧校园、智慧教育等,它们的核心要素皆是支配其运行发展的机器学习算法。实质上,这些新概念应该被准确地称为算法学习、算法课堂、算法校园、算法教育。换言之,算法早已渗透在教育生活的方方面面,算法教育时代已经悄然来临。

例如,南京大学运用“推荐算法”对2018级新生的生活作息习惯、兴趣爱好、交友观念等迎新网调查数据进行分析,自动生成新生寝室分配结果。2019年8月,同样位于南京的中国药科大学在部分教室先行安装了人脸识别系统,用于自动签到签退、学生学习行为识别及教师课堂教学管理。其实,早在2016年上海市小升初“摇号入学”招生录取改革中,算法推荐结果就成为当时舆论关注的焦点。当报名的学生人数超过学校招生计划数时,学校可根据事先搜集的学生性别、年龄、家庭地址、父母受教育程度、前置学校类型等学籍统计信息进行“电脑派位”来决定录取名单。那么,看似公平合理的算法推荐结果是否真的能够“祛除”歧视与偏见,完全实现“价值中立”,解决现实教育生活中一直固有的教育不公平问题?2009年,美国华盛顿特区政府利用一套自动化算法程序对教师业绩进行评价时,将一名被普遍认可的教师Sarah Wysocki和其他因得分不佳的205位教师一起解雇了,这引发了当地教育系统的普遍质疑。然而,华盛顿特区的这起教育乌龙事件,根源却在于测评程序将少数族裔学生群体的学习成绩比重赋值过高,而没有考虑到均衡问题,有意或无意形成了对白人学生群体的算法歧视。

算法不仅规定了“智能体”(Agent)所欲达成的行为目标,也预设了其为实现此目标应遵循的行为路径。简单来说,算法就是可以让智能体自动执行任务的一套数字代码规则,这也是新一代人工智能得以迅猛发展的核心要素。舍恩伯格(Schoenberg)等在《大数据时代:生活、工作与思维的大变革》中明确指出,在信息爆炸的时代,人类只需要知道“是什么”,而不必去探究“为什么”[2]。也就是說,在大数据时代重要的是相关关系,而不是因果关系,这对人类千百年来的传统思维定势提出了全新的挑战。然而,教育作为一项独特而义复杂的人类社会活动,以培养人为根本目的,不仅要知其然,更要知其所以然。因此,算法教育不能只是相关关系的分析,更要注重因果关系的探究。显然,这对于“弱人工智能”时代的算法教育而言,是一个短时间内难以逾越的技术鸿沟。算法在重塑一个更加便捷、高效与良性循环教育生态圈的同时,也由于“算法黑箱”的客观存在,使得教育公平、教育平等、教育效率等传统议题在“互联网+教育”时代显得更加突出。算法难以审查、不易识别、不可公开性等内在缺陷,所导致的算法歧视、算法鸿沟与算法操纵,已经引发了社会民众对智能教育的普遍忧虑和指责。因而,我们在肯定大数据、人工智能等“互联网+”时代科技产物对教育现代化发展贡献的同时,也要前瞻性研判在传统教育向现代教育转型过程中所面临的新型治理挑战,滥用“人工智能”并不利于教育发展[3]。可喜的是,2019年9月,教育部、中央网信办等八部门联合发布了《关于引导规范教育移动互联网应用有序健康发展的意见》,在国家层面对“互联网+教育”开始实施公共政策的规制治理。鉴于此,本文遵循“技术逻辑一风险挑战一公共政策”的分析框架,试图对算法教育治理提出切实可行的政策建议,以期更好地发挥人工智能在发展更加公平更有质量教育进程中的重要作用。

二、算法教育的技术逻辑

人工智能的第三次浪潮让人类看到了颠覆“波兰尼悖论”(Polanyi Paradox)的希望,这不仅得益于大数据几何级数增长和运算力日趋高端精密化,更主要归功于以深度学习为代表的机器学习算法划时代的突破进展。机器学习算法通过数据搜集、数据清洗、变量表征、相关性探索等统计分析手段,将海量的高维、非结构化数据进行降维、结构化处理,以期对事物“是什么”这个问题做出更为全面、准确与清晰的描述刻画。从内涵构造来说,“技术基础层一技术程序层一技术结果层”有序形成了技术的发展逻辑,为探究技术进步的内在机理提供了切入视角。因此,通过对算法教育之基础、程序、结果等三个层面的论述,有助于从技术逻辑的角度分析算法教育在发展过程中所面临的风险挑战,进而为选择治理算法教育的公共政策提供有依可循的经验证据。

(一)算法教育基础:教育大数据

随着信息技术的迭代发展与“互联网+教育”战略的深入推进,教育事业正在快速进入大数据时代。截至2019年6月,我国在线教育用户规模为2.32亿,较2018年底增长3122万,占网民整体数量的27.2%[4]。毫无疑问,在线教育将成为信息时代教育行业最重要的供给方式,与大数据的深度融合已成为信息时代教育发展的必然要求。在线教育用户规模的快速增长,有助于将虚拟网络空间与现实物理空间整合起来,获得更加全面、真实和客观的教育数据。具体来说,在线教育具有全员(面向所有学习者)、全程(贯穿终身学习)和全类型(面向普通教育与职业教育)的特点,能够为“厚教育数据”的形成提供广袤来源。大数据通过对在线教育用户的人口统计信息、浏览偏好、付费金额、学习行为、跟帖讨论等信息的搜集与运算,掌握学习者的偏好、态度和行为,为个性化学习推送、发展性学习评估、终身学习课程定制等提供精准教育服务。可以说,教育大数据已成为推动教育现代化变革的基础性战略资源,其内涵、应用、价值等研究引起了学界的重新认识与评估。

就内涵方面而言,教育大数据是指在整个教育活动过程中所产生的一切可采集到的数据集合,其主要来源于线上线下的课堂教学、教育管理、学习生活等不同教育场景。与传统教育数据相比,教育大数据具有很强的实时性、连贯性、真实性与复杂性,这也为人工智能在教育领域的广泛应用提供了必要的基础支撑。从应用层面来说,教育大数据不仅有助于推动教育研究手段的多样化、科学化与精密化,也有助于研究者更有效地对教育发展进行相关性、因果性与预测性分析。当前,教育大数据在贫困生资助、算法排位择校、高校白主招生推荐、高考志愿填报决策、学生寝室管理、就业创业预测、学校资产信息化管理等方面已经出现了许多成功的应用案例。可以说,教育大数据在革新教育研究方法、重塑教育形态和推动教育现代化发展等方面具有巨大潜力。因此,就价值体现而言,教育大数据在与教育主流业务的深度融合中发挥其最终价值,即推动智能教育乃至智慧教育的实现。智慧教育是教育形态发展的高阶层次,主张通过数据积累、技术更迭与精准服务实现智慧学习、智慧管理和智慧发展。在实现智慧教育的过程中,教育大数据发挥着推动个性化学习、教学模式改革、教育管理信息化、教育评价科学化和教育服务人性化等功能价值[5]。

(二)算法教育程序:机器学习算法

如果说大数据是信息时代的石油,那么机器学习算法就是从中提取衍生产品的炼油厂。大数据支撑了机器学习,机器学习获取了知识信息,知识信息推动了社会进步。可见,算法在信息时代的知识生产过程中发挥了十分重要的中介作用。算法研究可以追溯至1962年弗兰克·罗森布拉特(FrankRosenblatt)出版的《神经动力学原理:感知器和大脑机制的理论》,书中介绍了单层可变权重的神经网络模型,被视为今天机器学习算法的初始状态。之后,针对如何提取、表征和处理数据这一核心问题,机器学习算法的发展演变为两条不同的逻辑进路:一条逻辑进路,主张设计者事先给机器预设好完整的代码程序,以掌控机器从数据输入到数据输出的每一步;另一条逻辑进路,得益于大脑逆向工程研究的重大突破,强调机器直接从数据中进行学习、训练与预测,完全是一个自动化决策过程[6]。1986年在美国丹佛科技中心举办第一届神经信息处理系统大会之后,根植于数学、计算机科学和神经科学的深度学习在摸索中逐渐成熟起来,最终战胜了理论建制派,成为新一代人工智能机器学习算法的主流范式。其实,深度学习算法发展的早期囿于训练数据缺乏、计算能力不足等因素,其研究一直没能取得实质性的突破进展。直至2006年,Hinton等学者提出了基于无监督学习与监督学习交替使用训练深层神经网络的基本原则后,深度学习算法迎来了重大转机[7]。后来,Krizhevsky等学者在2012年提出的深度卷积神经网络,伴随着大数据的增长和运算力的提升,在图像识别、语音识别、语言识别、视频分析等众多领域获得了广泛应用[8]。

与传统机器学习算法不同,深度学习算法并不遵循“数据清洗一特征提取一代码运算一逻辑推理一结论预测”的繁琐过程,而是直接从原始数据出发,自动形成一條“学习一训练一预测”的高效率机器运行系统。正如让·皮亚杰(Jean Piaget)的“认知图式”理论所揭示的那样,深度学习算法通过对已有训练数据的学习获得“图式”,随着新训练数据的产生,进一步在“同化”和“顺应”过程中完善已有的图式,从而获得新的认知“平衡”,至此义重新进入下一轮的认知循环。可见,深度学习算法对大数据的学习训练已经初步接近于人类的智力思维方式。究其原因,在于Hinton等学者提出“深度信任网络”(Deep Belief Network)的无监督学习算法,通过对学习网络进行贪婪的逐层预训练,以便在时间效率上优化深度信任网络的线性权值,进而将复杂问题逐步分解为若干更简单的子问题来快速解决[9]。这就解决了如何将无标记数据进行机器学习训练的难题,随着海量的高维、无结构的无标记大数据出现之后,机器学习算法的训练数据也呈几何级数增长,极大地推动了人工智能时代来临的速度。换言之,深度学习之所以能够成为最接近类人智能的机器学习算法,就在于其表达能力灵活多变,可以对海量无标记数据进行逐层变换,且允许设计者对网络层数进行自由设定,从而支持计算机不断地进行尝试直到最终接近预设目标。

(三)算法教育结果:效率优先

算法的设计初衷就是为了提升数据处理的时间效率与空间效率,其结果自然带有明显的效率倾向[10]。从技术层面来说,对算法在运行时间与存储空间的资源利用效率进行分析,是算法结果研究应有的题中之义。随着近30年以来计算机技术的快速迭代更新,运算力的计算速度与存储空间都已经实现了质的飞跃。相比之下,现在存储空间利用率已不再是算法结果的关注重点,而时间效率的重要性上升为当前评判算法结果优劣的唯一标准[11]。也就是说,如果一个算法的运行时间达不到预设的最低标准,那么就必须果断抛弃它,继续寻求别的更具时间效率的算法。通常来说,大数据具有数量多、体量大、类型杂、更新快和密度低的特点。而以大数据为运行基础的算法,就必须通过降维与解构的方式克服和解决大数据固有的这些难题,以从大数据中快速挖掘与获得高价值的信息。很明显,信息不同于数据,数据需要经过算法挖掘、加工和训练之后,才能输出具有价值与意义的信息。那么,追求时间效率的算法,势必会放松对算法结果精确程度的要求。即最优效率分析远远不如最差效率分析重要,因为最差效率可以快速确定算法运行时间的上界。

算法为了全面、快速、实时呈现事物的属性特征,只能优先进行事物“是什么”的相关性分析,而对事物“为什么”或“怎么样”的因果推断关注度不够。算法教育作为机器学习算法在教育领域的特定应用,也自然遵循机器学习算法对时间效率的路径依赖。算法教育的结果也是优先对教育领域中发生的社会现象进行描述性(相关性)研究,而对其解释性(因果性)分析显然表现平平。如今,越来越多高校将人脸识别、大数据决策分析、智能终端平台等技术引入校园,以助推智慧学习、智慧课堂、智慧校园的建设。例如,某学校为了实施“云中信大”智慧校园建设,将对学生的上网行为数据、成绩数据、消费数据、社群数据等进行大数据分析,以形成教务、学工、后勤等学校管理部门对学生成绩预测和预警、奖助学金评选、贫困生精准资助、心理健康服务、寝室管理等事务的决策参考。不可否认,机器学习算法能够迅速搜集、解构、训练与分析相关的教育大数据,为教育管理部门的决策提供了全面详实的数据依据。然而,由学生外显行为产生的教育大数据似乎并不能准确反映学生内在的态度、观念等心理特征。特别是依据学生消费数据进行所谓的贫困生精准资助,姑且不论其可信程度,至少可以预见的是此举会变相刺激相当一部分学生恶意“比穷”。这些重要的内在因果推断分析,显然是目前算法教育结果所无法有效呈现出来的。

三、算法教育的风险挑战

机器学习算法的快速迭代发展对教育的影响日益凸显,与此相随的质疑之声也是不绝于耳。从本质属性来说,教育公平是教育发展的核心要义,是社会公平的重要基石,更是教育平等和教育效率相互促进的和谐统一[12]。教育实证主义虽然一再强调价值“祛魅”,但实践证明,那种认为完全数字化的研究方法能够为教育事业的发展决策带来客观量化和價值无涉的认识是不现实的,也是不科学的。在很多时候,教育问题的研究方法总是在定性与定量之间来回摆动,然而教育终究是关于人与自我、人与社会、人与自然的问题集合,不能单纯地在数字量化结果中寻求终极答案。数据鸿沟、算法黑箱、效率优先等可能会引起算法歧视,而这正是教育公平所需要克服和规避的重要问题。算法教育时代,机器学习算法在给教育带来极大时间效率提升的同时,也对教育公平产生了新的不可控因素,其风险挑战成为教育现代化治理必须高度重视的研究议题。

(一)算法教育数据:自我强化偏差

大数据的井喷式增长促进了机器学习算法的跨越式发展,算法在本质上是数字代码的表达,对回答事物“是什么”的描述性分析具有明显效率优势,而在事物“为什么”或“怎么样”的因果关系探究中表现乏力。算法教育依赖于教育大数据,而教育大数据是从现实教育生活中抽取的,就不可避免地带有教育发展过程中已固有的属性与特征。如果输入的教育数据本身是具有偏差性的,那么以教育大数据为基础的算法教育所输出的推算结果也很有可能带有歧视。这是因为机器学习算法会对识别到的大数据进行学习,以形成“训练数据”(Training Data),继而将此训练数据运算得出的算法结果用于下一轮的数据识别、数据训练与结果运用。在这一过程中,很有可能会不断重复训练本身就带有偏差的教育数据,固化甚至是加剧现已存在的教育不公平现象,这被称为教育大数据的“自我强化偏差”(Self-reinforcing Bias)。2016年,美国白宫发布的《大数据报告:算法系统、机会和公民权利》基于人类社会既有的“数据鸿沟”(DigitalDivide)现实,着重考察了教育、就业、信用评分、司法量刑等领域存在的数据自我实现怪圈[13]。即那些一开始就处于被歧视状态的教育用户,可能不会因为机器学习算法所宣称的“价值中立”的算法结果而改善其现有教育境遇,反而会一直处于运气不佳的状态。

目前,学界对教育大数据自我强化偏差的原因探究,主要集中于以下三个方面的分析:其一,教育大数据的代表性问题。教育大数据的采集来源主要是互联网用户,未上网的教育对象的数据是无法被现有信息技术所搜集的。也就是说,现有的教育大数据在本质上是有偏数据,只能反映连接了互联网的教育对象的相关数据,并不是所宣称的“全样本数据”[14]。显然,互联网的接通和使用与家庭经济收入及所在地区的经济发展状况是密切相关的,教育大数据中的用户个体存在明显的不平等。其二,教育大数据的质量问题。教育大数据的价值主要体现在机器学习算法将其进行降维与结构化处理之后,获得反映教育社会现象的特定关系、模式和趋势。然而,现有网络爬虫、编程代码等算法技术只能对反映教育用户人口统计信息、外显行为特征等能够数字化的数据进行处理,而对支配教育行为背后的态度、心理、价值观等主观性较强的数据识别运算则无能为力。这样一种有选择性的数据处理得到的算法结果,其信度与效度自然会面临社会大众的广泛质疑。其三,教育大数据的隐私问题。教育用户的性别、年龄、民族、政治倾向、宗教信仰、受教育程度、健康状态、纳税情况、家庭住址、邮政编码等数据构成了识别其个人信息的基础性数据,一旦被机器学习算法用于不正当途径的采集与运算,可能会产生带有歧视的算法教育结果。

(二)算法教育程序:技术控制困境

作为构成社会发展基本要素的技术,在提升生产力、增加人类福祉和推动社会进步的同时,也对人类社会发展带来了一些难以预测、控制与消除的负面效应。正如,英国著名社会学家大卫·科林格里奇(David Collingridge)在《技术的社会控制》一书中对“技术控制困境”(Technology Comtrol Dilemma)进行了一段十分精彩恰当的描述:“一项技术的社会后果不能在技术生命的早期被预料到。然而,当不希望的后果被发现时,技术却往往已经成为整个经济和社会结构的一部分,以至于对它的控制十分困难”[15]。显然,技术控制困境暗含的假设前提是技术与社会的分离与对立,技术权力介入、技术知识更新、线性时间演化等构成了对技术控制困境发生逻辑分析的三个维度,这也是一个对技术在权力介入和知识更新在线性时间轴上进行控制的两难问题[16]。那么,机器学习算法在推动人类社会从工业社会、信息社会迈向智能社会、智慧社会的同时,也会给人类社会带来技术控制困境,甚至算法带来的治理困境将会远远超越以往任何技术对人类社会产生的负面影响。究其原因,是以深度学习为代表的人工智能算法与传统机器学习算法有着本质上的区别。

对于传统算法来说,其需要程序设计者事无巨细地给机器设定好在给定条件背景下实现某项工作流程的所有运算代码。换言之,传统算法的运行过程实际上就是人类思维表达能力在机器学习过程中的投射与转换。那么,用于描述人类思维表达能力困境的“波兰尼悖论”,也自然适用于传统机器学习算法。但是,深度学习算法却能直接从大数据的原始特征出发,通过自我训练和自我学习来生成高级认知结果,这显然超越了人类思维表达能力,也突破了“波兰尼悖论”[17]。然而,深度学习算法在搜集大数据之后到输出决策结果之中有一段数据处理、训练与学习的过程,这段过程是连算法设计者都不清楚或不能查看的计算系统内部工作情况。学界将这个无法洞悉的运行过程称之为“算法黑箱”(Algorithm Black-box),人工智能的技术控制困境根源也正是源于这里。算法黑箱给出的只是一个冰冷的数字,而它是如何得到这个结论的过程却无法获知也不能解释,这对于以公平和平等著称的现代教育来说真是莫大的讽刺。公开透明是一个新事物得以在现代社会合法存在的正当性基础,这对于算法教育来说亦是如此。如果不能在算法教育的技术萌发时期进行制度规制,等待算法技术越发成熟且得到更广泛应用时,再对其进行控制就会非常困难。因为还要考虑除技术之外的其他众多社会因素,这将是一个费时费力的高成本控制工程。算法教育应该蕴含着一种深层次的价值诉求,即通过现代科学技术实现人类对“美好教育生活”的期待与追求。

(三)算法教育结果:主体性危机

追求效率优先的机器学习算法,促进了人工智能技术逐步发展成为具有一定智慧能力的自动化决策系统,并且突破了人类思维表达能力的局限,在教育、就业、司法、新闻等众多专业领域应用成效显著。然而,人工智能在给人类带来便捷、多元、高效、舒适的生活方式体验的同时,也引发了诸多问题。在算法时代,人工智能可以将人类的有意识和无意识行为进行算法化,导致了人与客观世界的边界逐渐模糊,勢必会冲击到人类社会长期演化而成的生存基础与发展秩序[18]。换言之,随着算法对人类思维方式的不断接近,人类在客观层面的特殊性也会逐渐弱化,这就引出了一个哲学问题,人的主体性是否还存在?伊曼努尔·康德(ImmanuelKant)认为人不仅是自由意志和自然存在的统一,也是一切规范的中心和本源。马丁·海德格尔(Martin Heidegger)则进一步将石头、动物和人的世界进行比较,指出石头没有世界,动物的世界是受本能支配控制的,而人是建立世界的主体。如果说“弱人工智能”阶段算法产生的危机,是源于人类因人工智能的安全问题所产生的控制权焦虑;那么, “强人工智能”阶段的算法则会更加类人化,甚至是超越人的智力水平,进而成为现行社会生活的更强主体,这势必会引发人的主体性危机。

深度学习算法基于大数据进行自我训练与自我学习,以形成不依赖人类思维表达能力的“规则集”(Rule Set),被称为算法的自我生产能力。算法对时间效率的路径依赖,意味着算法不仅是实现了机器自动化决策的飞跃发展,也反映了算法的生产过程及结果应用将与人类的行为主体性相分离。即机器学习算法很有可能在强人工智能时代不再受人类认知的控制,将在相当长的一段时间里对人的主体性发起挑战。将效率至上奉为圭臬的算法,为了在有穷时间内快速处理海量、高维、非结构化的大数据,甚至不惜抛弃最优效率分析,而选择最差效率分析。这就不可避免的产生了算法只注重对大数据的相关性描述分析,而忽略了其因果关系推断。算法对目前教育系统最大的冲击将是重塑教与学的关系,智慧学习、智慧课堂、智慧校园等皆直接指向“互联网+教育”时代的教学关系变革。“因材施教”一直被视为完美课堂教学的典范,反映了师生教学关系由“主客体关系—主体关系—主体间关系”的嬗变。以人脸识别系统为例,大数据算法通过快速搜集学生在课堂学习过程中的每一个眼神、表情、动作等,经过数据解构、数据训练、数据分析获得学生在课堂上的学习情况,呈现实时的课堂学情分析,以供教师实现课堂教学的智慧管理。然而,学生的学习情况是否能通过眼神、表情、动作等得以全面分析,显然是值得怀疑的。目前,人脸识别系统只能对学生的课堂表现行为进行相关性描述分析,而不能做到对学生课堂表现行为背后的深层次原因进行探究,即不能实现对学生课堂表现行为的因果推断研究。如果教师按照人脸识别系统的学情报告来进行课堂教学管理,看似是非常科学有效的教学手段,实则是对学生课堂表现行为背后心理动机等深层次因素的有意忽略,似乎义回到了最初的“主客体”教学关系。这显然是对经过长期演化形成的师生“主体间”教学关系的一种倒退,教师教的主导性与学生学的主体性是师生在双向、交往和理解的过程中共同构建起来的。因此,以效率优先为导向的机器学习算法,如果在教育领域中不加以判别使用,可能会对师生教学关系造成主体性危机,最终不利于教育现代化发展。

四、算法教育的公共政策选择

2019年8月,联合国教科文组织以联合国6种官方语言正式发布了《北京共识——人工智能与教育》,建议各国政府、国际组织、教科文组织总干事等利益攸关方根据相关法律法规、公共政策和公共惯例,采取积极行动以应对人工智能技术所带来的教育发展机遇和风险挑战。其实,第三次人工智能的崛起发展所带来的社会冲击是具有基础性、复杂性和全局性的“奇点”革命,这是人类社会以往发生的其他技术革命所不能比拟的[19]。作为通用技术的机器学习算法在教育领域中获得了广泛应用,在推动传统教育向智能化、智慧化教育快速转型的同时,也引起了算法数据的自我强化偏差、算法程序的技术控制困境、算法结果的主体性危机等治理难题,需要政府做出相应的公共政策选择。接下来,通过从算法教育基础的数据正义、算法教育程序的合理公开、算法教育结果的有限使用等三个方面展开公共政策选择论述,以期推动和规范人工智能在教育领域的健康发展。

(一)算法教育基础:数据正义

“互联网+”时代,学生、教师、家庭、学校、研究机构、政府教育部门、教育行业企业等多主体无时无刻都在产生海量、多重维度、多种类型的教育大数据。如果说大数据是“互联网+”时代经济生产活动的关键要素;那么,教育大数据亦是“互联网+教育”时代教育现代化发展的基础性资源。算法基于教育大数据搜集,通过自动化的数据处理、评估、分析及预测学生的学习偏好与成绩、教师的教学业绩与表现、学校的升学情况与质量等。然而,教育大数据在发挥推动个性化学习、教学模式改革、教育管理信息化、教育评价科学化和教育服务人性化等功能价值的同时,也囿于数据的代表性较差、质量不高、隐私泄露等问题招致学界、社会公众对算法教育公平的普遍质疑。对于受教育者来说,大数据与算法并不总是福音,可能由于“大数据傲慢”(Big Data Hubris)抑或由于算法歧视,而导致其自身受教育权受到“技术精英主义”(Technical Elitism)的严重侵蚀。那么,如何应对教育大数据有可能造成的数据鸿沟,避免固化或强化现有的教育不公平现象,已成为各国政府制定相关教育大数据公共治理政策的目标取向。

为了积极应对算法自动化决策对个人权利的重大影响,欧盟在1995年《数据保护指令》的基础上,进一步强化了对个人数据的保护力度,于2018年5月25日生效了《统一数据保护条例》(GDRR)。可以说,CDRR于大数据的公共治理意义,不仅在于提供了一系列具象的原则规定,更重要的是其传递出的“数据正义”(Data Justice)理念[20]。数据正义将贯穿大数据从收集存储到分析使用的全过程,核心原则是“数据透明”和“结果非歧视”。考虑到算法黑箱的客观存在给事中监管带来的治理困境,算法教育基础的大数据治理更应强调事前监管和事后监管。事前监管强调“数据透明”(DataTransparency),其要求增强教育用户对算法输入数据的知情权,以应对大数据生产、搜集与处理过程中产生的信息不对称问题,将教育大数据治理延伸至数据搜集的源头,强调教育大数据的有用性。事后监管则强调“结果非歧视”(Result Non-discrimination),其关注的是数据输入与结果输出之间的因果关系,而不仅仅是相关性描述结论。换言之,结果非歧视原则强调算法教育结果的可理解性,而非可阐释性。从2019年10月1日起执行的《儿童个人信息网络保护规定》,正是“数据正义”理念在儿童网上信息保护的贯彻落实,将对目前国内总量超过7万的教育APP网络运营商从教育大数据收集、存储、分析、使用等环节形成法理约束,以规避算法对儿童合法教育权利的损害和侵犯。

(二)算法教育程序:合理公开

美国学者珍娜·布雷尔(Jenna Burrell)认为算法黑箱产生的原因是因为算法不透明,即算法可以根据不同的应用场景对大数据进行自动化处理,而这个过程会存在两种类型的不透明。其一,主观上的不透明,即由于涉及国家安全秘密或者大数据、互联网等高科技公司的商业秘密而产生的机器学习算法刻意隐瞒与保护。其二,客观上的不透明,由于算法是一项高精尖的前沿技术,其不仅运算过程存在较强的复杂性,连最终形成的推算结果也包含着许多不为人所知的自然语言,这对于算法设计者来说也是非常具有挑战性的理解难题[21]。换言之,算法黑箱治理的困境除了不能直接观察外,更在于即使算法主动向我们解释,我们也很有可能无法理解其运行过程[22]。这当然与我们对算法的认知不够全面有关,还主要是因为机器学习算法已经突破了人类思维表达能力的局限。随着算法自动化决策结果日益被广泛应用到个性学习、课堂管理、教学评价等众多教育领域,算法歧视问题也在教育生活中越来越突出。算法黑箱也伴随着算法教育结果应用逐渐深入教育管理,如果不能在可预见的未来对其加以规制,等待强人工智能时代来临时,算法教育的治理成本将会非常巨大。

鉴于机器学习算法日益决定着各种事务决策,一些发达国家已经开始通过立法对算法黑箱问题进行专门治理,强调算法透明性、可审查性与可解释性。早在2017年12月,美国纽约市议会就通过了《算法问责法案> (Algorithm Accountability Act),这是全球第一个有关算法治理的法案。同样在美国,2019年4月10日,民主党参议员布克(Cory Booker)和怀登(Ron Wyden)在国会联合提出了《2019算法问责法案》,试图对大数据与算法黑箱引起的算法歧视问题进行法律规制。通过对比美国的两份算法治理法案,发现要求“算法透明”(AlgorithmTransparency)是它们的核心原则。然而,完全公开算法教育程序,接受教育用户监督,看似给教育带来了一种掌控感和安全感,实则不然。算法透明就算克服了教育行政部门、教育行业企业等主观上的算法隐瞒,也在技术层面存在很大局限性。因为机器学习算法本身就是一项前沿的科学技术,对许多教育用户来说是具有明显的认知理解难度,就算把算法教育程序公开,他们也无法与算法互动,就很难有效实现对算法的监督。所以,算法透明并不能做到真正有效监督算法,反而会阻碍算法技术的创新进步[23]。完全透明化监督既然是不可能的,也是无效的。那么,不完全透明化监督,即要求算法教育程序的合理公开是否可行呢?可考虑由学生、家长、学校、企业、政府等教育利益攸关方组成一个算法教育程序的监督委员会,专门承担算法教育程序合理公开的审查工作,以确保将算法歧视对教育生活的负面影响降至可接受的程度。

(三)算法教育结果:有限使用

数据鸿沟、算法黑箱和效率优先的设计取向都有可能单独或者联合造成“算法歧视”(AlgorithmDiscrimination),这也意味着算法歧视治理是一个十分复杂的问题。特别是考虑到人类社会在长时间的历史演化过程中,形成了以因果关系为制度基础的社会治理体系,而追求效率优先的算法将不可避免地给现行社会运行规则带来主体性危机[24]。由此,学界引发了两种针锋相对的观点:一种观点认为算法只是实现人类自动化生产决策的一种辅助工具,不应具有道德意义、政治意义或法理意义上的主体性地位,也就意味着算法不需要为其行为承担任何责任;另一种观点则认为奉行效率优先的算法不仅无限接近于人类思维表达能力,而且在很多方面已经超出人类的认知局限,那么赋予其道德意义、政治意义或法理意义上的主体性地位,无疑是恰当可行的。然而,不管怎么样界定算法产生的主体性危机,有一点是不能忽视的,那就是“服务于人的自由发展”必须成为人工智能的“绝对律令”(Ahsolute Laws)[25]。换言之,如果教育用户对算法白动化决策结果存在不满意,可以主张“人工介入”(Manual Intervention),以保障自己的主体性权益不受算法教育结果的损害或侵蚀。

完全遵循算法自动化决策结果,无论是在实际教育生活中,还是在法律伦理上都是不现实的。那么,算法教育结果的有限使用可能提供了另外一种可行路径。算法教育结果的有限使用是针对算法歧视而言的,也就是说,算法歧视的识别成为甄别算法教育结果具体使用场景的前提条件。算法歧视比以往任何形式的歧视都具有隐蔽性,这也给算法歧视的识别带来了很大的困难。其一,算法黑箱可能存在主观上有意为之的算法黑箱,也有可能有客观层面存在的算法黑箱,甚至是主客观原因兼具的算法黑箱。无论是哪一种算法黑箱导致的算法歧视,都意味着这种歧视被隐藏于冰冷的数字代码程序之中,这种情况下的算法歧视识别要求教育监管者、算法教育结果被使用对象等都需要有相应的机器学习算法知识,才有能力去识别隐藏于算法黑箱之中的歧视。其二,大数据时代也被称为“数字资本主义”时代,数据成为数字经济社会运行的核心要素[26]。学生、教师、家长等行为主体产生的数据自身就存在不具代表性和偏差,可以说教育数据鸿沟源于教育生活中固有的不平等、不公平现象。那么,以教育大数据为基础的算法教育就不可避免地带有教育大数据自身固有的顽疾,算法歧视的识别也就显得更加困难。其三,效率优先是算法设计的首要目标,是为了突破人类思维表达能力的局限而产生的,其目的在于提升數据处理效率,快速获得有效信息,进而获得可观的经济社会效益。然而,过分追求数据处理效率的算法只能优先采用相关性描述分析,不能对因果关系形成有效的推断。因此,线性的算法运行思维就与以公平与平等权利为导向的非线性教育生活显得格格不入,这种算法设计理念产生的算法教育结果也自然会带有歧视倾向。正是因为算法歧视的广泛存在,那么算法教育结果就有必要在人工介入甄别之后,且只有在教育用户知情和授权的情况下才能得以合法使用。可见,贯彻知情同意原则的算法教育结果有限使用,不失为治理算法歧视问题的一种有效路径。

五、结语

新一代人工智能为教育变革提供了新的发展契机,对教育系统产生了基础性、复杂性和全局性的影响。智慧学习、智慧课堂、智慧校园等不仅是智慧教育的重要组成部分,同样也是助推智慧教育实现的重要手段和发展路径。随着“互联网+”战略的大规模实施,大数据的生成与采集似乎已变得不再那么困难;同时,计算机存储空间和运算能力的快速提升,也让算力不再成为人工智能发展的技术瓶颈。因此,机器学习算法也就一跃成为影响新一代人工智能发展的核心要素。换言之,作为智慧教育具象形态的智慧学习、智慧课堂、智慧校园,在本质上就是算法学习、算法课堂、算法校园。算法成为推动智能教育、智慧教育实现与发展的关键因素。然而,由于数据鸿沟、算法黑箱、效率优先等众多因素的复合影响,导致算法教育存在数据的自我强化偏差、程序的技术控制困境、结果的主体性危机等治理难题,也让教育公平、教育平等、教育效率等传统议题在人工智能时代显得更加突出。为规避只注重相关关系分析,而不重视因果关系研究的算法给教育带来的风险挑战,可从算法教育基础的数据正义、算法教育程序的合理公开、算法教育结果的有限使用等三个层面开展对算法教育的治理。这不仅要求确保算法教育结果的预测准确率,更要强调算法教育结果的可理解性。唯有在算法教育刚开始发展的时候,厘清其技术发展逻辑和研判其可能会带来的风险挑战,才能为破解算法技术控制困境的公共政策选择提供参考依据,进而助推人工智能在实现更加公平更有质量教育过程中发挥更大的作用。人工智能、5G、物联网等新兴信息技术在运用于教育的过程中,应以促进学生全面发展为中心,构建新型育人生态,提升学生的学习获得感,为其实现在信息时代的“完满生活”而准备[27]。概言之,算法教育治理业已成为教育现代化进程中不可忽略的研究议题,需要学界引起高度关注和探讨。

参考文献:

【1】丁波涛.从信息社会到智慧社会:智慧社会内涵的理论解读[J].电子政务,2019,(7):120-128

【2】维克托·迈尔一舍恩伯格,肯尼斯·库克耶周涛译.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.

【3】宋灵青,许林.人工智能教育应用的逻辑起点与边界——以知识学习为例[J].中国电化教育,2019,(6):14-20

【4】中国互联网网络信息中心.第44次中国互联网络发展状况统计报告[EB/OL].http://politics.gmw.cn/2019-08/3l/content_33124709.htm,2019-09-10.

【5】杨现民,唐斯斯等.发展教育大数据:内涵、价值和挑战[J].现代远程教育研究,2016,(1):50-61.

【6】特伦斯·谢诺夫斯基.姜悦兵译.深度学习:智能时代的核心驱动力量[M]北京:中信出版集团,2019.

【7】【9】孙志军,薛磊等.深度学习研究综述[J].计算机应用研究2012,(8):2806-2810

【8】刘全,翟建伟等.深度强化学习综述[J].计算机学报,2018,(1):1-27.

【10】Koher J,Peters J.Reinforcement Learning in Rohotics:A Survey[J].International Joumal of Rohotics Research,2013,32(11):1238-1274.

【11】姜野,李拥军.破解算法黑箱:算法解释权的功能证成与适用路径——以社会信用体系建设为场景[J].福建师范大学学报(哲学社会科学版),2019,(4):84-92.

【12】郝文武.平等与效率相互促进的教育公平论[J].教育研究2007,(11):25-29.

【13】【20】许可.人工智能的算法黑箱与数据正义叫J.社会科学学报,2018-3-29(006).

【14】涂涛,胡柯铭.一极两仪:教育大数据与厚数据关系辨析[J].中国电化教育,2019(8):18-22.

【15】Collingridge D.The SocialControl of Technology[M].Wew York:St.Martins Press.1981.

【16】陈凡,贾璐萌.技术控制困境的伦理分析——解决科林格里奇困境的伦理进路[J].大连理工大学学报(社会科学版),2016,(1):77-82.

【17】【19】贾开,蒋余浩.人工智能治理的三个基本问题:技术逻辑、风险挑战与公共政策选择[J].中国行政管理,2017,(10):40-45.

【18】贾开.人工智能与算法治理研究[J].中国行政管理,2019,(1):17-22.

【21】Jenna Burrell.How the Machine Thinks:Understanding Oparity inMachine Learming Algorithms[J].Big Data&Society,2016(1):1-6.

【22】汝绪华.算法政治:风险、发生逻辑与治理[J].厦门大学学报(哲学社会科学版),2018,(6):27-38.

【23】方可成.算法是个黑箱,让它“透明化”是不够的[J].社会政策研究,2019,(1):166-168.

【24】崔靖梓.算法歧视挑战下平等权保护的危机与应对[J].法律科学(西北政法大学学报),2019,(3):29-42.

【25】陈姿含.人工智能算法中的法律主体性危机[J].法律科学(西北政法大学学报),2019,(4):40-47.

【26】袁光锋.政治算法、“幻影公众”与大数据的政治逻辑[J].学海,2015,(4):49-54.

【27】趙兴龙,许林等.5G之教育应用:内涵探解与场景创新——兼论新兴信息技术优化育人生态的新思考[J].中国电化教育,2019,(4):5-9

作者简介:

肖凤翔:教授,博士生导师,研究方向为教育学原理、职业技术教育(tjxfx@126.com)。

张双志:在读博士,研究方向为教育信息化、职业技术教育(zhangsz0528@163.com)。

猜你喜欢

算法人工智能大数据
Travellng thg World Full—time for Rree
2019:人工智能
人工智能与就业
数读人工智能
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
基于大数据背景下的智慧城市建设研究
下一幕,人工智能!