APP下载

自动化系统中算法偏见的法律规制

2020-08-13

关键词:数据保护规制决策

张 涛

(中国政法大学 法学院,北京 100088)

一、问题的提出

自大航海时代以来,资本和机械动能一直是全球近代化的重要推动力。之后,技术变革一直在挑战传统做法,不仅仅是教育后代的方法,甚至是我们理解世界的方法都受到技术的影响。在技术变革带来数据的同时,也为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性。如今,数据正在成为技术革命和社会变革的核心动力,以“体量”(Volume)、“速度”(Velocity)、“多样性”(Variety)、“价值”(Value)为特征的“大数据”更是融入了人类生活的方方面面。一般认为,大数据是改进、完善决策机制的重要原材料,其产出应该是更聪明的选择和更明智的判断[1]。因此,许多过去由人作出的重要决定如今逐渐通过大数据的识别、分析、输出来完成,而“算法”(algorithms)在这个过程中起着至关重要的作用。许多以“算法”为核心的自动化系统(Autonomous Systems)开始广泛应用于医疗、就业、教育等领域,甚至应用于立法、司法和行政执法中。

许多过去由人类大脑作出的决策,如今可以通过各种自动化算法系统来完成。算法可以在极短的时间内完成对成千上万条规则的分析与判断,从而提高决策的效率,降低决策的成本。然而,我们越是依靠自动化系统去优化我们的决策,它们的影响力也就越大。在看到更智能的机器有可能代替人类完成认知任务时,技术乐观主义者也有了紧迫感和危机感。这样的隐忧来自两方面的疑虑:一方面,由于智能计算机可以完成越来越多的决策活动,人类会不会因此失去控制权;另一方面,由自动化系统生成的各类决策是否公平。对于前者,目前尚无实例予以证明;而对于后者,实践中的诸多实例已经一次又一次地给出否定答案,如表1所示。

表1 自动化系统中算法偏见实例概况

正如上述实例所揭示的一样,我们基于“数据客观主义”所建构的“算法中立”并非牢不可破。长期以来,人们一直认为算法不会受到其创造者偏见的影响,因为它是由纯粹的数学逻辑驱动的。如今,算法可能表现出与人类相同的偏见,在某些情况下甚至可能强化人类的偏见。目前,治理算法自动化决策过程的问责机制和法律标准没有跟上技术的步伐。政策制定者、立法者和法院的可用工具主要是为了监督人类决策者而开发的,在适用于算法时往往会失效[2]。因此,如何识别算法偏见并对其进行有效规制成为法学、计算机等学科共同面对的难题。

近年来,关于算法偏见(Algorithmic Bias)的学术文献也在迅速增加。国外自然科学、社会科学等不同学科领域的学者提出了一些消减算法偏见的技术性或非技术性措施。相比之下,我国学界对该问题的研究尚处于起步阶段[3],鲜有比较系统性的研究成果[4],从法律层面进行论证的文献就更少[5]。因此,本文以比较分析、实证分析为方法,试图对自动化系统中算法偏见的相关法律问题进行研究,旨在为我国算法规制及人工智能法治提供理论支持,为相关立法、政策的制定提供参考。

二、逻辑前提:算法偏见的内涵与成因

如今,算法已经进入到公共部门、私营部门及个人的决策行为中,其强大的工具性不容忽视,然而,算法偏见所可能引发的潜在风险也需要予以足够的重视。因此,我们有必要批判性地思考如何才能让算法以无偏见的方式生成和运行。在此之前,有一个重要前提是对算法偏见进行概念化处理,了解算法偏见的内涵与成因。

1.算法偏见的内涵分析:超越“技术”本身

从法理学的角度,法律概念的作用或性质不同于自然科学方面的概念,其本身带有规范性及命令的意图,当中包含了某些决定,一般只有符合了决定所指的范围及内容,才会产生其他条文所拟的法律效果[10]。我国《电子商务法》第18条第1款虽然在内容上对“算法偏见”进行了回应,但却并未对“算法偏见”进行明确界定。万维网基金会在《算法问责:将此概念应用到不同的国家语境》中提出了“算法歧视”(Algorithmic Discrimination)这一概念,并将其界定为:两个人在相关方面可能是相同的,但对待他们的方式却是不同的[11]。美国研究机构“Data & Society”在《算法问责:入门》中指出,算法的复杂性首先体现为“公平与偏见”问题,使用算法系统的目的是为了避免人为决策中的偏见,然而,算法系统却将已有的偏见进行编码或者引入新的偏见[12]。笔者认为,在对“算法偏见”的内涵进行界定之前,有必要对“算法”和“偏见”这两个基础性概念进行阐述。

在计算机科学、数学以及公共话语中,算法的定义不尽相同。在计算机科学中一般认为,“算法就是把输入转换成输出的计算步骤的一个序列”[13];在数学中一般认为,“算法是一种有限的、抽象的、有效的、复合的数学结构,通过强制输出实现既定目的”[14];在公共话语中,一般认为“算法是任何可以自动执行的过程”[15]。根据上述定义,可以将“算法”定义为:指示计算机如何完成特定任务的一系列指令。与“算法”密切相关的还有一个概念,即“机器学习”。所谓的机器学习是指利用实例数据或过去的经验来训练计算机,以优化某种性能标准,其中模型可以是预测性的(predictive),用于未来的预测,也可以是描述性的(descriptive),用于从数据中获取知识,也可以是二者兼备[16]。根据输入数据的不同类型,有学者甚至将机器学习分为“监督学习”(Supervised Learning)和“非监督学习”(Unsupervised Learning)。前者是通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出;后者是直接对输入数据集进行建模[17]。由于监督学习与模式识别、预测建模直接相关,因此,绝大部分机器学习都是由监督学习组成的。有鉴于此,以监督学习为基础的学习算法(learning algorithms)由于融合了计算、处理和推理,因此成为了利用大数据进行决策和分配资源的重要工具。本文所讨论的自动化系统也主要是指由学习算法构成的。

从古至今,人们对“偏见”的概念就一直争论不休。在中文语境中,《现代汉语词典》将“偏见”定义为“偏于一方的见解或成见”[18];在英文语境中,《牛津英语词典》将其定义为“支持或反对一群人或争论中某一方的强烈感情,通常不是基于公正的判断”。从心理学的角度看,“偏见”是指对某一社会群体及其成员的一种不公正态度,是一种事先或预先就有的判断[19]。一般认为,“偏见”通常由3种要素组成:(1)认知要素,包含了对目标群体成员的描述和刻板看法;(2)情感要素,包括对目标群体的负面反应和情绪[20];(3)行为要素,包括对目标群体成员不利的行为[21]164。尽管人们对“偏见”的概念会持不同观点,但总体态度是一致的,即“偏见”向来被赋予了明显的贬义,只要与偏见有关的现象必然要去努力克服[22]。与“偏见”密切相关的还有一个概念,即“歧视”(discrimination)。一般认为,“歧视”是指社会中一个或多个群体成员剥夺其他群体成员拥有的特权、声望、法律权利以及其他社会利益的行为。偏见与歧视并不完全一致;一般认为,二者是态度与行为的关系。通常情况下,一个人对某人有偏见,就大多会歧视他;反之,没有偏见也就没有歧视[21]164。尽管我们都知道偏见的不利后果,但是每个人都或多或少带有偏见。

鉴于“算法”与“偏见”本身存在很大的不确定性,因此要对“算法偏见”进行严格界定也并非易事。从大脑决策机制来看,若能够利用计算机程序模拟人的大脑,完美捕捉每个神经元的行为,那么这种程序本身就是一种算法。因此,从这种意义上看,算法决策并没有任何特殊之处。人类决策可能产生偏见的任何情况,算法也可能产生偏见[23]。还有学者认为,由于“偏见”一词的不同含义及用法,学习算法中的相关讨论受到阻碍。它有时作为一种纯粹的描述性术语使用,有时作为一种贬义性术语使用,这种变化可能会导致混淆,并妨碍关于何时以及如何应对算法偏见的讨论。因此,应该以一种更为中立的观点来界定学习算法中的“偏见”,即“偏离标准”。换言之,并非所有的算法偏见都需要消减,只需要识别并回应“有问题的”算法偏见[24]。

尽管算法决策可以在速度、效率甚至公平性方面带来好处,但有一种常见的误解,即算法会自动生成无偏见的决策。算法看似是无偏计算,因为它们采用客观的参考值并提供一个标准结果,但这些输入和输出仍然存在许多问题。正如美国学者弗兰克·帕斯奎尔(Frank Pasquale)所提出的,算法决策是一个“黑盒子”(black boxed),这意味着,虽然我们可能知道进入计算机进行处理的内容和结果,但目前还没有外部审计制度或法规来评估数据在处理过程中发生的情况[25]。综合上述分析,笔者认为可以将“算法偏见”定义为:一种预测相对于另一种预测的非预期算法偏好,导致法律或伦理上不恰当的影响。简而言之,算法偏见是指违反公认的规范、法律或道德原则而对数据进行有偏处理。

2.算法偏见的成因分析:类型化思维

对算法偏见进行类型化分析,有助于我们发现导致算法偏见的原因,并选择相应的措施。早在1996年就有学者指出,计算机系统中的偏见主要有3种类型:一是既存偏见(preexisting bias),这种偏见植根于社会制度、实践和态度;二是技术性偏见(technical bias),这种偏见产生于技术限制或考虑;三是突发性偏见(emergent bias),这种偏见出现在使用过程中[26]。有学者通过对网络系统中的偏见进行研究,认为网络偏见主要包括以下6类:行动偏见、数据偏见、选样偏见、算法偏见、界面偏见和自选偏见,这些偏见共同构成了一个单向循环图,每一阶段都将有偏见的数据带入下一阶段,从而复制已有偏见或增加额外偏见[27]。还有学者认为,算法偏见的根源主要包括以下几个方面:训练数据偏见、算法聚焦偏见、算法处理偏见、场景转换偏见、算法解释偏见[24]。

通过对已有研究成果的总结,从“同类聚合”的角度看,导致算法偏见的原因主要包括两个方面:一是与输入数据相关的偏见;二是与算法自身相关的偏见。下面分别论述。

(1)输入数据导致的偏见

如前文所述,在实践中广泛使用的学习算法有一个重要特征,即需要输入大量数据进行“学习”。因此,导致算法偏见的一个重要原因是向算法提供的训练数据(training data)或输入数据(input data)本身存在偏见,即所谓的“偏见进,偏见出”[28]。算法一般是为了特定的用途或任务而进行训练或学习的,然而,算法所使用的数据可能以某种方式存在偏见,从而导致对这些任务产生偏见影响。如果训练数据或输入数据本身存在偏见,那么即使是“中立的”学习算法也有可能产生一个严重偏离实际人口统计数据或理想道德的模型[24]。例如:2015年,谷歌的“Photos APP”错误地将一张两个黑人的照片标记为大猩猩,因为它的算法没有利用足够多的深色皮肤图像进行训练[29]。2016年,国际选美大赛中的“Beauty.AI”评委更倾向于选择白人作为获胜者。在44名获胜者中,几乎所有人都是白人,原因在于“Beauty.AI”的训练数据主要是针对白人形象进行设计的[30]。

导致训练数据或输入数据存在偏见的原因主要有以下几个方面:(1)数据选择不当,即算法系统的设计者决定不同数据在决策中的权重时存在偏见。与此相关的是,设计人员可能会选择粒度(granularity)过大或过小的数据,从而导致潜在的偏见影响;(2)不完整、不正确或过时的数据,即数据收集可能缺乏技术上的严谨性和全面性,或者收集的数据可能存在不准确或空白之处;(3)选择性偏见,即输入模型的数据集不能代表整体,因此得出的结论可能不利于某些群体;(4)历史性偏见的无意延续和扩大,即反馈回路(feedback loop)导致过去的输入偏见或结果偏见在算法系统的输出中不断复制[31]。

(2)算法自身导致的偏见

除了输入数据或训练数据是算法偏见的来源外,算法自身也可能导致算法偏见,包括算法设计、算法处理、算法解释、算法应用等。如前文所述,对于未直接参与算法技术开发的人而言,算法系统就像是一个“黑箱”,它利用输入数据,执行一系列难以理解的流程,最终提供不可解释的输出。消费者、求职者、求医者、求学者等可能深受算法输出影响的群体,却对与算法相关的一系列技术一无所知,因为开发算法系统的组织或个人通常认为这些技术属于“商业秘密”或“专有特权”,无需向公众披露。在这种情况下,一方面,没有经过专业训练或具备专业知识的人难以对算法作出的决策进行有效质疑;另一方面,对决策负有说明理由义务的机构可以借此逃避相关责任。若某一算法输出是不公平的,一旦这种算法输出成为后续决策的依据,那么对于算法偏见的评估将更加复杂和困难。

以政策制定中利用回归分析(regression analyses)进行因果分析或政策预测为例。标准回归系数,是指消除了因变量和自变量所取单位的影响之后的回归系数,其绝对值的大小直接反映了自变量对因变量的影响程度。因此,即使因果关系倒置,结果也通常会产生与其原因相关的非零回归系数(non-zero regression coefficients)。尽管在一些科学研究领域中,通常都将非零回归系数视为因果关系强度的表征,但是在政策预测中这种解释行为需要慎重,因为有可能这是因果关系倒置的结果[24]。

导致算法自身存在偏见的原因主要有以下几个方面:(1)算法模型设计不当导致偏见。技术人员在设计算法模型时有意或无意将偏见带入模型中。例如,在企业中广泛使用的“简历筛选算法”,若企业不想招聘女性职员,那么在设计该算法系统时就可能设定诸多对女性求职者不利的计算程序。(2)算法模型缺乏监督机制导致偏见。算法模型运作的典型特征是标准化、流程化及复杂化,对于运作过程本身,算法模型并没有相应的监督机制。换言之,一旦某些因素被错误地考虑或忽略,算法模型一般不会进行自我纠正。例如,在电子商务中广泛使用的“推荐算法”,这种算法可以根据消费者的信息,提供个性化的推荐服务,但也可能无意中限制某些信息流向某些群体,从而导致他们缺乏与其他群体一样的消费机会。(3)算法模型选择错误导致偏见。算法模型常常是为了特定的用途或目的,并在特定的操作环境中运行,然而,当算法模型在这些特定情境之外使用时,它所采用的道德标准、法律标准、技术标准不一定能够适用。(4)算法模型解释错误导致偏见。即使在预期的操作环境中,用户或更广泛的自动化系统可能会对算法输出或功能产生错误解释。这种错误解释主要体现为一种“不匹配”,亦即算法产生的信息与使用算法输出的用户的信息要求之间不一致[24]。

三、正当性求解:规制算法偏见的必要性

算法偏见并非一个新兴问题,长期以来,各个领域的专家学者都极力主张对算法偏见保持警惕。然而,随着各类算法系统全面融入人们的日常生活,算法偏见已经不再只是一个理论问题或技术问题,已然成为一个亟需解决的社会问题。

1.算法偏见可能放大已有的人类偏见

一般认为,人类偏见是一种“预先判断”,它所针对的对象是多种多样的。如前所述,偏见与歧视这两个术语经常一起出现,有时也可以替代使用,但是二者是有区别的,偏见常常会导致歧视。歧视已经成为一种社会问题,为了提供更公平的经济及社会机会,很多国家通过立法为寻求不同群体的平等权利提供了法律支持。

在数据驱动的世界中,随着算法系统的广泛使用,算法偏见却可能导致人类偏见的不断放大。“技术乌托邦”(techno-utopian)的基本信念是,与人类相比,算法系统更加客观,也更加公平公正,因为它的本质是代码和数据,不具备人类的偏见包袱[32]。有鉴于此,越来越多的组织或行业使用算法进行决策,从保险费率到信用评分,从就业申请到学校入学等各方面的决策都深受算法的影响。然而,一系列研究已经表明,将算法视为绝对客观是错误的,看似中立的算法却可能产生偏见结果[24],前文也揭示了诸多因素可能导致算法偏见。更为重要的是,算法偏见可能借助技术的高效率与低成本,将人类偏见进行固化或放大。以简历筛选算法系统为例,当前很多雇主都使用信用评分算法系统来评估求职者。雇主的想法是,及时支付账单的人更可能准时到岗和遵守规则,但信用评分低的人中也有很多有责任感的、称职的员工。然而,由于雇主相信信用评分低和工作表现差呈正相关,这就导致了信用评分低的人很难找到工作。失业又导致他们陷入贫穷,而这又进一步降低了他们的信用得分,让他们找工作难上加难。如此就形成了一个恶性循环,雇主永远也不会知道,他们因为只关注信用评分而错过了多少个优秀的员工[33]8。不同类型的算法偏见通过“复制”或“放大”已有的人类偏见,将严重影响不同群体平等权利的实现与维护。

2.算法偏见可能消减个人的自主性

理论界对于“自主性”主要有以下几种见解:首先,自主性既是一种能力,也是一种人们或多或少可以拥有的条件[34]。其次,对于那些出生并生活在他人制造的世界中的人而言,自主性是一种最有用的价值[35]11-12。最后,自主性既涉及个人行为与偏好之间的关系,也涉及个人偏好与自我之间的关系[36]。一般认为,自主性的失败可能根源于个人创作生活能力受到内外因素的限制,其中,内部因素包括领悟能力失效和意志失效;外部因素包括将个人的目的、原则、策略及偏好从行为中分离和将个人的偏好从自我中分离[34]373。

个人自主性的限制因素与其所处的信息环境有关,多样化的信息环境将有利于自主性的实现[37]。随着算法自动决策的到来,个人所处的信息环境正逐渐趋于单一和封闭,个人自主性正在不断削减。第一代算法主要是向消费者提出建议,包括选择产品、服务或操作。例如,在线购物网站中为消费者推荐商品的算法;新闻网站中为用户推荐新闻的算法;音乐试听网站为用户推荐音乐的算法。第二代算法则不仅仅是提出建议,而是为用户做出决策,并代表用户自动根据决策执行操作。例如,英国的Flipper应用程序可以监控能源市场的价格,并在盈利时自动为用户切换供应商;香港一家名为“Deep Knowledge Ventures”的风险投资基金为其董事会任命设计了一个算法,使其能够与5名自然人董事一起对投资决策进行投票。面对此种现象,有学者认为,无论是推荐算法还是决策算法都有可能引起“回声室效应”(Echo Chamber),即个人接受到的都是和自己相似的信息,个人的视野越来越窄,可以接触到多样化信息的机会也越来越少[38]。还有学者认为,“精心设计”的自动化系统正如那些看似平淡的行为,都成为了操控并设计我们生活的重要原材料,包括价值体系。如果不去认真探究,或许我们根本无法想象自己被利用到了何种程度,又或许这种危害已经超出了人们已有的认知[39]。

表2给出了耐用品折旧率不同取值下当货币政策盯住目标分别为产出缺口、通胀、耐用品部门通胀、非耐用品部门通胀时产出波动性、通胀波动性以及社会福利损失的取值。基于表2可以得到如下结论:

3.算法偏见可能妨害个人的人身财产安全

如前所述,技术乌托邦假设算法更加公平公正,这是算法广泛使用的合法性基础,然而实践证明,这种“假设”并不稳固。正如每个人都或多或少带有偏见一样,绝对公平公正的算法并不存在,更何况还有各种引发算法偏见的诱因。在日常生活中,算法偏见大量存在,但并非所有的算法偏见都是有问题的,剔除那些只是被贴上“算法偏见”标签的情形后,算法偏见可以分为“有问题的”和“没有问题的”[24]。那些“没有问题的”算法偏见并不会对个人产生实质性的负面影响。例如,“电子地图APP”中的算法系统在为个人自动规划路线时,即使存在偏见,也在个人可以接受的范围之内。然而,那些“有问题的”算法偏见常常会出现在关涉个人基本权利的行业或领域中,是我们需要认真对待的。因为“有问题的”算法偏见所带来的负面影响将是巨大的,有时甚至是致命的,如在医疗诊断、司法裁判、警察执法中,算法偏见将对个人的人身财产安全造成重大威胁。

以警察行政中的“预测性警务”(predictive policing)为例,它可能导致真正的犯罪行为可能得不到及时惩治,而无辜的“犯罪群体”却可能时时处于监控之中。所谓的“预测性警务”是指在警察执法中使用数学统计、预测分析和其他分析技术来识别潜在的犯罪活动[40]。目前在美国加利福尼亚州、南卡罗来纳州、田纳西州等州已经购买最新的预测性警务软件,以打击盗窃、扒窃等财产犯罪。然而最新的研究成果却表明,预测性警务可能导致歧视性政策(discriminatory policy),一方面它可能会加强不良执法习惯,而实际上警察的执法力量也主要是部署在这些社区。

四、他山之石:欧盟规制算法偏见的经验解读

如前所述,在很多国家和地区,算法偏见已经成为一个亟需解决的社会问题。理论界与实务界均就如何有效规制算法偏见进行了有益的探索。例如,美国著名计算机科学教授本·施奈德曼(Ben Schneiderman)提议成立一个“国家算法安全委员会”(National Algorithms Safety Board),对“主要”算法的使用进行独立监督,包括审计、监控和许可[41]。德国联邦司法部长海科·马斯(Heiko Maas)认为,有必要制定“数字反歧视法”,以防止所谓的自动化歧视,并迫使公司在算法使用方面更加透明[42]。不同国家或地区在应对算法偏见时,所采取的规制策略可能有所不同,但其出发点是一致的,都是为了确保算法能够更为公平地运作。为了使欧洲适应数字时代,并在整个欧盟范围内为公民的数据保护权提供相同的法律支持,欧盟于2016年5月制定了《一般数据保护条例》(The General Data Protection Regulation,简称“GDPR”),自2018年5月25日起开始正式适用。《一般数据保护条例》对算法偏见进行了直接回应,并通过一系列具体措施对算法偏见进行严格规制。

1.明确反对“自动化决策”及“数据画像”中的“算法偏见”

《一般数据保护条例》在前言中明确规定了“数据画像”(profiling)系统中的算法偏见以及可以用来消除偏见的统计方法。根据《一般数据保护条例》前言第71条第2款之规定,为了确保对于数据主体之公平与透明的数据处理,在考虑个人数据处理的特定情况与脉络时,数据控制者应在数据画像时使用适当的计算或统计程序,应采取技术化、组织化的措施以适度确保尤其是可使个人数据不准确性得以更正及将错误风险最小化的要素,并在考虑数据主体的利益与权利所受潜在风险,及预防包括但不限于基于个人基因或健康数据等理由对当事人的歧视效果或造成此种效果的态度下保护个人信息。此外,《一般数据保护条例》还在正文中对“算法公平性”(algorithmic fairness)进行了明确规定。根据《一般数据保护条例》第22条第4款之规定,对个人有法律效力或其他重大影响力的“自动化决策”(automated decision-making)及“数据画像”不得基于(GDPR第9条规定的)个人基因或健康数据等特定数据。

2.赋予公民对“自动化决策”及“数据画像”的“解释权”

在算法规制中,“解释权”(right to explanation)是指要求对算法输出进行解释的权利[43]。《一般数据保护条例》在前言中明确规定数据主体享有要求数据控制者或处理者对“自动化决策”及“数据画像”进行解释的权利。根据《一般数据保护条例》前言第71条第1款之规定,在任何情况下,自动化决策基于包括数据画像在内的数据处理,应该采取适当的保障措施,包括向数据主体提供特定信息,以及获得人为干预的权利,以表达数据主体的观点,在评估后获得决定解释权并质疑该决定。此外,《一般数据保护条例》在正文中有关“个人数据访问”(access to personal data)的规定在一定程度上也可以视为是“解释权”的内容。根据《一般数据保护条例》第13条第2款的规定,为了确保数据处理过程的公正与透明,数据控制者应该向数据主体提供包括数据画像在内的自动化决策机制及有关的逻辑程序和有意义的信息,以及此类处理对数据主体的意义和预期影响。

不过,关于“解释权”在《一般数据保护条例》中的法律地位,理论界还存有争议。有学者认为,《一般数据保护条例》中并不存在所谓的“解释权”,而是有限的“知情权”(right to be informed)[44]。还有学者则认为,《一般数据保护条例》有效地创造了“解释权”,使数据主体可以要求对他们有重大影响的算法决定作出解释。尽管这项规定可能给产业界带来巨大的挑战,但它强调了计算机科学家应当在设计无歧视和可解释的算法及评估框架方面发挥主导作用[45]。

3.赋予公民对“自动化决策”及“数据画像”的“反对权”

在欧盟个人数据保护法制中,“反对权”(right to object)是指数据主体有权与数据控制者联系,并对其个人数据的某些用途提出异议。就算法偏见而言,“反对权”主要体现为数据主体不受“自动化决策”及“数据画像”的限制[46]。《一般数据保护条例》在前言中明确规定数据主体对“自动化决策”及“数据画像”享有“反对权”。根据《一般数据保护条例》前言第71条第1款的规定,数据主体应有权不受制于包括仅采用自动化处理手段对其个人进行精确评价,以及对其产生法律效果或者重要影响的情况,例如,自动拒绝无人介入的在线信贷申请或电子招聘。该等处理还包括评估个人特征的个人数据自动化处理的任何形式的“数据画像”,尤其是为了分析或预测有关数据主体的工作表现、经济状况、健康状况、个人偏好、行为习惯、位置或行踪等特征,会对其产生法律效果或类似的重要影响者。此外,《一般数据保护条例》第22条第1款也规定,数据主体应有权不受仅基于自动化处理(包括数据画像)所作成而对其产生法律效果或类似的重要影响的决策所拘束。

4.要求数据控制者承担“数据保护影响评估”义务

五、现实选择:我国规制算法偏见的法律对策

如前所述,学习算法、人工智能等前沿技术正在影响世界,从医疗到教育,从贸易到金融,越来越多的行业或领域都受到算法的影响,行政执法、司法裁判也不例外。我国国务院2017年7月印发的《新一代人工智能发展规划》明确指出,人工智能在教育、医疗、养老、环境保护、城市运行、司法服务等领域广泛应用,将极大提高公共服务精准化水平。在大力发展以学习算法为基础的自主智能系统的同时,必须高度重视可能带来的风险,加强前瞻预防与引导,确保“安全、可靠、可控发展”。2018年10月,国际数据保护和隐私专员会议发布了《人工智能伦理与数据保护宣言》,明确指出“应减少和减轻在人工智能中使用数据可能造成的非法偏见或歧视”。美国学者凯西·奥尼尔(Cathy O’Neil)甚至将算法取名为“数学杀伤性武器”(Weapons of Math Destruction)。她认为,大量数学杀伤性武器已经现身于我们所能想到的任何一个行业,加剧了社会不公平[33]12。“算法偏见”是学习算法、人工智能等前沿技术深入发展不可回避的问题,尤其是自动化系统,其所造成的影响巨大,实有规制的必要性。笔者认为,欧盟对自动化系统中的算法偏见所采取的严格立场值得肯定,其所倡导的相关规制理念、规制措施值得我们参考借鉴。

1.规制理念:超越算法中的“技术乌托邦”

在大部分人的传统观念中,以数据和代码为支撑的算法总是客观的、公正的,它能最大限度克服人类决策中的各种偏见。这种对待算法系统的态度可以视为是“技术乌托邦”的一种表现。“技术乌托邦”不仅存在于一般人之中,而且也广泛存在于技术人员、管理人员中。对于一般人而言,受“技术乌托邦”的影响,我们不仅拱手奉上自己的数据信息,纵使深陷其中也无法拨开迷雾看见真相。换言之,我们对于算法的过度信任,导致我们对算法偏见的感知力不足,再加上算法本身就是“黑盒子”,透明度不足,这进一步加剧“有偏”算法系统的“恶性循环”。对于技术人员而言,受“技术乌托邦”的影响,他们在设计算法系统及对算法系统进行数据训练时,一方面对算法技术本身存在的偏见缺乏感知意识,另一方面对自我偏见可能导入算法技术缺乏感知意识,这就导致算法系统可能有意或无意地产生偏见结果。因此,在对算法偏见进行规制时,无论是普通公众,还是技术人员,无论是立法者,还是执法者,均要超越“技术乌托邦”,承认学习算法、人工智能的固有局限性,对算法偏见保持高度警惕。

值得说明的是,本文主张超越“技术乌托邦”,谨慎使用算法,并非是要抛弃算法。虽然算法并非灵丹妙药,但它可以而且应该成为去除歧视、促进公平待遇整体战略的一部分。另外,就规制算法偏见本身而言,依然要超越“技术乌托邦”,因为彻底解决所有偏见的根源并纠正相应的缺陷在技术上、法律上和政治上都是存在困难的[48]。

2.规制原则:“通过设计实现公平”

为了保护个人隐私,理论界与实务界提出了“通过设计保护隐私”(privacy by design),即数据保护在数据处理过程创建时就已经集成到技术中[49]。这种主张实现了法制化,《一般数据保护条例》第25条要求数据控制者必须在任何处理项目的设计阶段就考虑个人数据,实施适当的技术性和组织性措施。“通过设计保护隐私”对于我们规制算法偏见具有借鉴意义,如前文所述,有偏见的数据导致算法偏见,有偏见的算法导致算法偏见。因此,规制算法偏见必须从源头出发。当我们的过去明确决定我们的未来时,通过自发性、开放性和实验性来实现自我发展就会变得更加困难。温斯顿·丘吉尔(Winston Churchill)曾有一句名言:“我们塑造我们的建筑,然后,我们的建筑塑造我们。”[50]借用这句名言,我们也可以说:我们塑造了我们的算法;之后,我们的算法塑造我们。有鉴于此,笔者认为,规制算法偏见的基本原则应该是“通过设计实现公平”(fairness by design),即在算法运行创建时就应该将公平融入到技术中。

为了促进“通过设计实现公平”原则,很多学者提出了不同的策略。笔者认为,这些经验都值得我国参考借鉴。有学者提出了实践“通过设计实现公平”原则的基本要求:(1)确保专家的多元性。数据科学家和社会科学家使用的语言有所不同,对于数据科学家而言,“偏见”有着特殊的技术含义,是指分类模型中的分割级别;相比之下,当社会科学家谈论偏见或歧视时,他们更可能涉及公平问题。因此,在算法设计项目中,从一开始就纳入各个相关领域的专家,有助于更好地认识到可能潜入算法中的人类偏见。(2)提高技术人员的偏见识别水平。诸如文本和图像之类的非结构化数据通常由人工注释器生成,其提供结构化类别标签,然后用于训练机器学习模型。尽管注释的质量对于许多任务来说是足够的,但人工注释本质上容易受到根深蒂固的偏见影响。因此,一种有效方法是在注释器培训模块中包含潜在的偏见案例,以提高识别水平。(3)量化公平性指标。机器学习分类模型的性能通常是使用一组成熟的度量指标来衡量,这些度量指标侧重于总体性能、类级性能和全面模型的可通用性。因此,可以通过设计用于量化机器学习偏见的公平性指标来加以补充。(4)确保数据代表性。在进行数据抽样时,所有受试者应该有相同的机会在数据中出现,这意味着需要将代表性不足的人群添加到任何训练数据集中。(5)建模时去除偏见。在建构模型和训练数据阶段,实施去除偏见测试[51]。

3.规制手段:通过“合同治理”增强算法的透明性

如前所述,算法就是一个深不可测的“黑盒子”,输入数据后发生何种变化才得到眼前的结果,大部分人并不清楚。换言之,自动化系统作出决策的标准尚不明晰,导致个人提出质疑、寻求救济的可能性几乎不存在。此外,算法缺乏透明性也是诱发算法偏见的重要原因。因为算法系统都是依靠自己的内在逻辑来定义其所处理的情况,然后再以其自己的定义来证明其输出结果的合理性,这种模型会不断自我巩固、自我发展,极具破坏力[33]7。有鉴于此,笔者认为,为了让算法更加公平公正,需要采取一定的措施让算法更加透明、更加负责,这样才能为受害者提供相应的救济。然而,在实践中,通过要求算法设计者公开并解释算法中涉及的程序标准,来增加算法的“透明性”的方法遇到了很大的障碍。一般而言,算法设计者都将算法系统中涉及的程序标准视为“商业秘密”,受到法律保护,一旦公开将严重影响自身的发展。因此,当有质疑者要求公开算法中的程序标准时,算法设计者均以“商业秘密”为由拒绝公开。

对此,有学者提出可以通过“合同治理”实现“有意义的透明度”(meaningful transparency)。美国学者罗伯特·布劳尼斯(Robert Brauneis)和埃伦·古德曼(Ellen P. Goodman)认为,总体而言,在公共实体中采用开放源代码(open source code)或以其他方式发布运行预测分析的代码是有价值的,但是获取代码通常不是实现“有意义的透明性”(meaningful transparency)所必需的,有时甚至没有帮助。公共实体应该更加专注于如何以更为稳健、透明的方式进行算法过程(algorithmic processes)的设计、采购和实施。公共实体合同应该要求供应商创建并交付解释关键决策和验证工作的记录,而不必披露精确的公式或算法。此外,这些记录还可以向社会公布,并不会对供应商的竞争地位造成不利影响[52]。尽管前述学者的主张主要是站在公共部门的角度,笔者认为,这对于增强私人部门的算法透明性依然具有启发意义。在实践中,算法的使用者与设计者通常并不一致,如私人部门所使用的简历筛选算法,可能是外包给技术公司进行设计。因此,算法使用者与设计者之间通常会签订合同,来对双方的权利义务进行划分与确认。笔者认为,可以从各种类型的算法合同入手,要求算法合同如同商品房买卖合同一样进行登记备案,同时对于合同内容进行限定,如明确可能存在的算法偏见风险、解释关键决策和验证工作的记录等,这部分内容必须向利益相关者进行公开。

4.自我规制:强化“算法影响评估”

为了强化个人数据保护,有效解决自动化决策可能产生的偏见结果,《一般数据保护条例》第35条规定了“数据保护影响评估”的最低限度要求。在此基础上,欧盟“第29条工作小组”于2017年制定了《数据保护影响评估指引》,并指出“数据保护影响评估”的本质是一个构建和展示合规性的过程,同时规定了执行“数据保护影响评估”的共同标准。以此为借鉴,美国学者安德鲁·塞尔斯特(Andrew D. Selbst)对预测性警务系统中的“算法影响声明”(algorithmic impact statements)进行了研究。他认为,“算法影响声明”既可以要求警察部门评估所有可供选择的预测性警务技术之有效性和潜在的歧视性影响,而且还将允许公众通过“公告评论程序”(notice-and-comment process)参与进来[53]。2017年12月,纽约市通过了“算法问责法案”(Algorithmic Accountability Bill),要求成立一个特别工作组,研究城市公共机构如何利用算法作出影响个人生活的决定,以及其中是否存在任何的歧视。特别工作小组的报告亦会探讨如何让公众明白这些决策过程。由此可见,上述“算法影响评估”(Algorithmic Impact Assessments,AIAs)已经成为规制算法偏见的重要举措。因此,笔者认为,我国也有必要出台有关“算法影响评估”的法律规范或技术标准指引,强化算法设计者、使用者对算法可能产生的歧视性影响进行评估[54]。

为了促进“算法影响评估”尽早实现,一些学者提出了相应的制度性框架,尽管其侧重点有所不同,笔者认为,这依然可以为我国提供参考借鉴。纽约大学AI Now研究院狄龙·赖斯曼(Dillon Reisman)等几位学者认为,“算法影响评估”的关键因素应该包括以下几点:(1)各机构应对现有和拟用的自动化决策系统进行自我评估,检测自动化决策系统对公平、正义、偏见或其他重要问题的潜在影响;(2)各机构应制定有意义的外部研究人员审查程序,以发现、测量或跟踪长期的影响;(3)各机构应在获得自动化决策系统之前,向公众披露其对该系统的定义,以及所有相关的自我评估、外部评估的评审过程;(4)各机构应征求公众意见,澄清关切事项并回答未决问题;(5)当各机构未能减轻或纠正那些评估不足、不公平、有偏见或其他危害的自动化决策系统时,政府应该为受影响的个人或群体提供完善的正当程序机制,确保权利得到有效救济[55]。

六、结 论

随着大数据、机器学习、人工智能等前沿技术的快速发展,我们已经进入了“算法社会”。各类算法系统与我们的生活、工作密切相关,尤其是自动化算法系统更是影响深远,风险评估算法正在重塑司法裁判,预测性警务系统正在改变警察执法,AI驱动的资源分配系统正在掌控着医疗、教育、交通等关键性基础设施的分配。在大部分人的认知中,以数据和代码为支撑的算法总是客观的、公正的,它能最大限度克服人类决策中的各种偏见[56]。

然而,实践证明,算法系统是可能产生偏见的,而导致算法产生偏见的原因主要有两点:一是输入数据导致偏见,即所谓“偏见进,偏见出”;二是算法自身导致偏见,在算法设计、算法处理、算法适用、算法解释等诸多环节都可能产生偏见。算法偏见与人类偏见并无本质区别,但是由于算法“规模化”“不透明”,因此,算法偏见的影响是“致命的”[33]21。算法偏见不仅能够放大人类偏见,而且还会妨碍个人的自主性,甚至威胁人身财产安全。因此,我们必须认真对待算法偏见,对其进行有效规制。

欧盟对算法偏见采取了旗帜鲜明的严厉态度,《一般数据保护条例》在保护个人数据的同时,也对自动化决策系统进行规制。《一般数据保护条例》赋予了个人对“自动化决策”及“数据画像”的“解释权”“反对权”,并要求数据控制者履行“数据保护影响评估”义务,这有助于消减自动化系统中的算法偏见。笔者认为,中国应该借鉴欧盟的规制经验。在规制理念上,要超越“技术乌托邦”,承认算法的局限性;在规制原则上,要坚持“通过设计实现公平”;在规制手段上,可以通过“合同治理”加强算法的“透明性”;还要加强自我规制,积极实施“算法影响评估”。

算法偏见本质上是一个人类问题(human problem),而不是单纯的技术问题(technical problem),真正的解决办法是消除我们个人生活和社会生活中的偏见。如果我们试图修复算法,应该从修复自己的认识偏见开始,因为我们塑造了算法;之后,算法将塑造我们。

猜你喜欢

数据保护规制决策
网约车平台责任条款的识别方法——基于解释进路的正当规制
控制股东滥用权利规制的司法观察及漏洞填补
欧洲数据保护委员会通过《一般数据保护条例》相关准则
决策大数据
决策大数据
欧盟最严数据保护条例生效 违反将严惩不贷
欧盟“最严”数据保护条例生效
诸葛亮隆中决策
完善地方政府行政作为法律规制的思考
内容规制