大数据应用于教育管理的局限及其克服
2021-01-09王英
王英
摘要大数据应用于教育管理是大势所趋,但是要注意大数据应用的局限。局限一般体现在两个方面,一是与隐私保护相冲突,表现为数据过度收集、數据泄露、二级使用的风险;二是算法导致的不公平,表现为算法结果的全面性不足及算法偏见。克服的原则是以维护数据主体的利益为抓手。针对隐私保护,克服局限的办法之一是法律规定教育管理者使用数据的责任,办法之二是提高数据主体的法律地位。针对算法导致的不公平,克服算法的全面性不足,需要人为干预与算法结果相结合,克服算法偏见,则与隐私保护类似,需要规定教育管理者的强制性义务以及赋予数据主体相应的权利。
关键词 大数据 教育管理 隐私算法
中图分类号:G647文献标识码:ADOI:10.16400/j.cnki.kjdk.2021.22.002
The Limitation of Big DataApplied in Education Management and Its Overcoming
——Focus on Data Subject
WANG Ying
(School of Environmental Science and Engineering, Shandong University, Jinan, Shandong 250100)
AbstractThe application of big data in education management is the general trend, but we should pay attention to the limitations of big data application. The limitations are generally reflected in two aspects: one is the conflict with privacy protection, which shows the risk of excessive data collection, data leakage and secondary use; the other is the unfairness caused by algorithm, which shows the insufficient comprehensiveness of algorithm results and algorithm bias. The principle to overcome is to protect the interests of data subjects. For privacy protection, one of the ways to overcome the limitations is to stipulate the responsibility of educational administrators to use data by law. The second way is to improve the legal status of data subject. Aiming at the unfairness caused by the algorithm, overcoming the lack of comprehensiveness of the algorithm requires the combination of human intervention and algorithm results, and overcoming the algorithm bias, which is similar to privacy protection. It needs to stipulate the compulsory obligations of education administrators and give the corresponding rights to the data subject.
Keywordsbig data; education management; privacy; algorithm
1问题的提出
计算机技术和互联网技术的蓬勃发展迎来了大数据时代。在过去,只有重要人物的行为轨迹才会得到记录,数据的记录和使用无法扩展为全社会的普及应用。现在计算机技术和互联网技术提供了这样的机会:每个个体的行为轨迹被记录和分析,数据量急剧膨胀,大数据分析可望带来更为精准的预测和决策。欣欣向荣的大数据开始应用到人类生活的各个方面,尤其是商业和公共管理。在教育管理方面,乐观的倡导者不断地描绘大数据应用的美好前景,目前也出现了初步的应用。然而在大规模应用之前,审慎地认识大数据应用的局限是必要的。原因有二,一是教育本身的重要性,这是关系国计民生、民族未来的大事,不可马虎;二是教育管理是公共管理的一部分,委托——代理的问题始终存在并且不好克服,某种措施一旦推行开来,往往不能及时地、有效地止损。鉴于以上的原因,一开始就要做好追根溯源、清醒评估的工作。
一般来说,一切皆可量化,万物皆可贡献数据,大数据应该包括物联网记录的数据,比如存货数量、机器性能、石油储备、电力供应等等。但是本文论述的是教育管理,教育的目的是培养完善而有能力的个人,所以本文涉及的大数据仅仅指个人数据,也就是数据主体——每个活生生的个人任何被记录和分析的信息。即便缩小了范围,个人数据的规模也足以称得上是大数据,具备大数据的四个特征。这四个特征是数据的规模极大,收集、使用和传播的速度极快,数据种类极多,数据的价值极高。大数据可以应用到教育管理的各个方面,包括教育行政管理和学校管理,其精准的预测可以辅助教育行政部门、学校行政和教学部门的决策。
然而大数据不是万能的。大数据的收集过程涉及个人隐私,其风险不容低估,另外,大数据可以说明一些问题,但是很可能掩盖了另一些不能被数据记录和分析的重要问题。首先,大数据的收集与隐私保护在某种程度上是相背离的,如果不能很好地平衡这两者,反而会触发数据主体的反感,他们会抵触和逃避数据收集,或者故意释放虚假的个人信息,使得大数据无法建立在合法而有效的基础上。其次,大数据的运作依赖于算法,如果算法不透明或者管理者迷信算法,结果很可能导致对数据主体的不公平。总之,如果忽视了大数据的局限,则无法实现大数据应用于教育管理的初衷。下面就大数据应用于教育管理的局限展开具体分析,并给出相应的对策。
2大数据应用于教育管理的局限
大数据应用于教育管理是大势所趋。在过去,教育管理主要是行政化管理,依靠专业人士的经验进行决策,这是信息稀缺的约束下有效率的选择。大数据的应用使得决策更加科学,教育管理从行政化管理走向服务型管理,专业人士的经验决策走向以数据为基础的决策。教育管理变革的趋向体现在以下五个特征:及时性、前瞻性、个性化、整合性、权变性。这无疑将极大提升教育管理的效率。但是以上大数据应用的蓝图并不全面,大数据自有其局限,在教育管理领域表现得更加明显。数据主体——主要是教师和学生,他们真的欢迎大数据应用吗?他们发出疑问:大数据应用是不是仅仅有利于教育管理者的方便,而并非为了受教育者的利益?这是目前大数据在商业领域得到大量的应用、在教育管理领域只能缓慢展开的重要原因之一。具体来说,大数据应用存在固有的两个局限,教育管理者对此不能忽视。
2.1与隐私保护相冲突
大数据必须先被大规模收集,然后才能谈到应用,但是在收集过程中不可避免地要涉及个人隐私。数据主体——教师和学生的个人信息被详细地记录,包括姓名、性别、年龄、身高、体重、家庭成员数量、住址,他们的校内行动轨迹在管理者面前一览无遗,甚至他们校外的生活也被记录,包括位置信息、浏览互联网的网址和时间、社交媒体的使用情况等等。当然,倡导者认为这是必要的,如果不了解一个一年级小学生的饮食情况,怎么能为他制定合理的营养摄入计划呢?如果不能掌握一个高中生的在线浏览内容,怎么能制止他浏览不健康的网站?怎么能为他提供合理的学习建议呢?但是这些个人数据的收集带来了深远的风险。
首先是數据过度收集的风险。在教育系统内,教育管理者与数据主体——教师、学生的地位是不对等的,教师、学生相对于教育管理者处于弱势地位,而且学生相对于教师又处于弱势地位。尽管教师和学生对于数据收集享有知情权、同意权,但是征求他们的许可往往流于形式。在商业领域,消费者不满意一个APP提供者的数据收集可以换一个APP,但是一个教师和学生是不可能轻易换学校的。一旦教育管理者过度收集数据,事实上他们也有这样的倾向,教师和学生不可能质疑和反对教育管理者的做法。
其次是数据泄露的风险。一个私下里用功的孩子也许不愿意让人知道他每天放学后上三个小时的网课,以前他可以装作轻松地取得好成绩,而现在他至少在一部分人那里无法隐瞒了。更糟糕的情况是个人信息也许会被泄露给潜在的犯罪人,可能引发身份冒用、财产欺诈、恐吓勒索这样的风险,2016年发生的徐玉玉电信诈骗案就是典型的例子。同时,教师群体对数据泄露的恐惧会导致他们的紧张情绪,这对学生的教育肯定是不利的。
再次是数据二级使用的风险。数据的价值很大程度上体现在二级使用上,但是在收集信息时很难对具体的二级使用用途做出明确的提示。教育过程中的信息具有非常丰富的二级使用价值,它体现了一个人真实的学习能力。按照斯宾塞的说法,教育(尤其是大学教育)其实是一个甄别过程,它把那些不善于学习的人甄别出去,以此向雇主传递信号。那么教育大数据则部分替代了这个甄别手段,它记录了一个学生从小到大的受教育信息,它就是更直接的证据,充分说明了这个学生的学习能力。如果雇主得到这样的数据,它会轻而易举地淘汰掉那些学习能力不强的求职者。鉴于这样的前景,一个小学生也许就会被教导每天花三个小时在线浏览与教育有关的内容,尽管他只是一边打游戏、一边任由平板电脑播放网课而已。这样虚假的数据往往导致教育管理者做出错误的决策。
2.2算法导致的不公平
收集的大数据往往要依靠某种算法来获取有参考价值的结果,这是大数据应用的通常路径。作为基础的数据和进行大数据分析的算法都往往被锁在一个黑箱中,以至于当数据主体质疑其公平性的时候,教育管理者能借口这是自动化决策的结果,从而能为其决策的客观性辩护。然而细究一下,数据和算法的客观性只是表面现象,其同样容易出现经验判断导致的不公平。
首先,数据的全面性不足。有些事物适合于数据收集,而另外一些事物不适合于数据收集,不能说后者就不重要。如果输入的数据不全面的话,也不能相信其算法结果的全面性。比如教师业绩的评估算法,教师和学生之间交流的时长是适合于收集的数据,教师和学生之间交流的情感渗入则不是适合于收集的数据,甚至是无法收集的。实际上,教师和学生之间交流的质量是至关重要的,情感的作用远远超过时长。尤其对于低年级的学生而言,教师常常扮演家长的角色,充满爱心的情感教育远远超过了单纯的说教,这样的情感体验可能是受益终生的。然而情感不能反映在数据上,结果很可能是投入情感的反而比不上投入时长的老师,出现“劣币驱逐良币”的结果。
其次,算法的设计会出现偏见。在中国,算法设计很可能过分倾向于学生成绩,给予学生成绩过高的权重,对于教师业绩的评估以学生成绩为主。其他的基础数据,比如学生学习时长,也与学生成绩有较为密切的关系,对于学生的德育和美育,则给予较低的权重。这固然呼应了家长的需求,但是结果促进了教育内卷,不利于学生的全面发展,不符合教育的目的。
3维护数据主体的利益,克服教育管理的数据局限
以上列举的大数据应用于教育管理的局限,所幸是可以通过人为的纠偏措施给予克服。这些局限看起来是一团乱麻,需要一个贯穿全局的抓手,以此来规划克服数据局限的解决办法。这个抓手就是维护数据主体的利益。
3.1坚持数据主体的利益
数据主体主要是教师和学生。教师从事教育工作,基于教育的职责贡献某些个人信息,学生则是受教育的对象,绝大部分学生愿意贡献个人信息,以便获得更好的教育,这就像消费者交出个人信息以便获得更好的智能推送服务一样。数据主体是数据之源,他们应当获得权利来维护他们的利益。一方面,教师和学生享有法律规定的个人信息权利,包括同意权、知情权、查阅复制权、更正权、删除权、保密权;另一方面,教师和学生有权获得教育管理者的保证:教育管理者处理个人信息是为了服务于数据主体,除此之外别无他求。
3.2克服隐私保护的局限
数据主体贡献数据,数据使用者也就是教育管理者处理数据,数据主体不能控制教育管理者如何处理数据,二者中间存在着巨大的权力、信息的鸿沟。如何将数据过度收集、数据泄露、二级使用的风险降低到最小?办法之一是法律规定教育管理者使用数据的责任,如果教育管理者不能达到法律规定的标准,则由上级主管部门进行罚款等其他行政处罚,情节严重甚至可以对主要责任人追究刑事责任。这是外部管理者实施监督的办法。办法之二是法律抬高数据主体的地位,使之能够监督教育管理者处理数据的活动,如果教育管理者不能依照法律行事,数据主体有权向法院起诉,要求教育管理者停止某些特定的行为——比如违规使用数据,并且赔偿损失。这是利益相关者亲自采取行动的办法。
具体来说,针对数据过度收集的风险,最有效的是办法之一,也就是法律直接规定教育管理者收集个人数据的范围,然后由外部监督者判断数据收集范围是否合规。教育管理者收集数据遵循必要原则,收集的个人数据范围应当与使用用途相适应,不得超越使用用途过度收集个人数据。教育部可以下发统一的信息收集标准,给出信息收集指南,避免出现了收集的个人数据超出了必要范围的情况。比如按照特定目的处理数据,小学生不能完全自主的学习,社交存在一定的危险,可以对他们收集较多的信息,大学生的自主学习的能力较强,对社交隐私的保护需求强烈,收集信息的范围就要缩小。
针对数据泄露和二级使用的风险。首先,法律直接规定教育管理者数据泄露和违规二级使用的责任,教育管理者必须采取技术措施和其他必要措施(比如每个单位都必须设置数据专员),确保其收集的个人数据安全,一旦发生泄露或者违规二级使用,责任人将承担严厉的行政责任直至刑事责任,以此让教师和学生放心。其次,通过民事法律赋予数据主体的数据权利:教师和学生有权查阅、复制、更正、删除与自身有关的数据,如果教育管理者不能满足教师和学生的要求,教师和学生可以诉请法院保护他们的数据权利。如此一来,教師和学生行使数据权利既保护了自身的利益,又有助于监督教育管理者数据处理的行为,降低数据泄露和二级使用的风险。
3.3克服算法导致的不公平
算法不能说明一切问题,尤其可能掩盖重要的问题。这就需要人为干预与算法结果相结合。首先,教育管理者可以辅之以其他的干预措施,比如上一章提到的情感教育问题,教育管理者可以下发学生调查问卷,或者与受教育的学生访谈,掌握学生与教师交流的第一手情况。教育管理者将调查得到结果与算法结果相对照,如果出现较大差异再进行复查,不能完全相信算法结果,毕竟输入的数据不能涵盖做出合理判断所需要的全部信息。其次,设定相应的复议程序,赋予被评估的对象——教师和学生有质疑和反对算法结果的权利,允许教师和学生申辩和推翻算法结果。总之,教育管理者不能迷信算法结果,应当审慎的评估算法结果的有效性。
克服算法偏见有两种办法,与克服隐私保护局限的办法类似。第一种是规定教育管理者的强制性义务,比如教育管理者使用特定的算法处理数据,必须事先由数据专家对算法进行审计,对算法的使用过程进行监控,以便保证算法的公平。如果教育管理者敷衍了事,则由上级主管部门给予某种惩罚,并责令改正。第二种则是法律赋予数据主体相应的权利,比如数据主体有权要求教育管理者公开数据和算法,有权要求教育管理者解释算法的设计,这样的权利具有可诉性,数据主体有权向法院起诉,要求教育管理者改变算法的设计,并且承担消除影响、恢复名誉、赔礼道歉、损害赔偿的民事责任。当然,数据管理者也可以向教育管理者的上级主管部门投诉。总之,从外部到内部给予教育管理者双重的监督。
4结语
现代教育的目标是培养完善的、有能力的个人,基于大数据的教育管理应当致力于实现这个目标,而不是仅仅满足于数据的漂亮。这就需要数据主体——教师和学生理解和支持大数据的应用。要想获得数据主体的合作,就要克服大数据应用于教育管理的固有局限,满足教师和学生对于隐私保护的需要,消除数据泄露和不正当获取、使用的风险,消除算法带来的不公平和偏见。无论如何,大数据应用于教育管理将有效地提升教育活动的效率,基于大数据的教育管理获得了越来越多的关注。如果方法、措施得当,未来的教育管理有望迎来一个新的时代,一个数据化与人性化相互渗透、相互结合的时代。
参考文献
[1]莫里斯E.斯图克,艾伦P.格鲁内斯.大数据与竞争政策[M].北京:法律出版社,2019:17-33.
[2]维克托迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2013:220-230.
[3]周湘林.大数据时代的教育管理变革[J].中国教育学刊,2014(10): 25-30.
[4]杜鑫.每个诈骗案背后都有一本个人信息泄露的“糊涂账”[N].工人日报,2017-3-5(004).