基于数据平等的算法公正论
2025-01-23李伦张晓燕
摘 要:数据不平等是数据不公正的关键因素,它包括数据可及不平等、数据代表不平等和数据控制不平等,其中数据控制不平等引发和促进数据可及不平等和数据代表不平等,是数据不平等的集中体现。数据控制不平等直接导致数据所有权的不平等,进而引发与数据相关的人格权和民主权的不平等。当算法与不公正的数据结合时,便产生算法的分配不公正、承认不公正和代表不公正等问题。因而,应构建基于数据平等的算法公正论,倡导数据化平等、数据访问平等和数据共享,追求数据可及平等;坚持数据代表在质和量上的平等和最小伤害原则,追求数据代表平等;从基于数据权利和规范数据权力两条进路着手,追求数据控制平等,引入原则主义和社会实验的方法促进数据平等。
关键词:算法伦理;数据伦理;算法不公正;数据不公正
基金项目:国家社会科学基金重大项目(17ZDA023)
作者简介:李伦,哲学博士,大连理工大学人文学院教授、博士生导师,大数据与人工智能伦理法律与社会研究中心主任,主要从事科技伦理研究;张晓燕,女,大连理工大学人文学院博士生。
中图分类号:TP18;D922.17 文献标识码:A 文章编号:1000-2359(2025)01-0099-09 "收稿日期:2024-05-04
算法在人类的生产生活中扮演着日益重要的角色,算法通过助推、引导、控制和约束等方式,对人的行为和社会发展产生深远影响。身处算法社会的人们能够享受算法带来的诸多益处,如更高效、智能的决策和服务,也可能面临算法压迫、算法自动化决策的不平等以及算法暴政等潜在风险。算法逐渐成为一种权力的运作模式,自动处理和分析大量数据,形成某种结论或预测,并据此自动对用户进行资源方面的奖励或惩罚。然而,这种未经正当程序就对人们进行奖励或惩罚的方式,影响整个社会的资源分配,甚至重构社会秩序,极易引发不公正问题。因此,深入探究算法不公正的成因,全面揭示其背后的逻辑机制,并构建一种与之相适应的算法公正理论,将有助于推动算法的公正设计与使用,充分发挥算法在促进社会公正方面的积极作用。
一、数据不平等:算法不公正的生成逻辑
萨斯坎德认为,算法不公正是指“算法的应用会产生不公正的结果”" 杰米·萨斯坎德:《算法的力量:人类如何共同生存?》,李大白译,北京日报出版社,2022年,第231页。,他将算法不公正划为两类:基于数据的不公正和基于规则的不公正。基于数据的算法不公正是指算法依赖的数据集存在不良数据,这些数据导致不公正的结果。基于规则的算法不公正包括显性不公正和隐性不公正两种类型,前者是指由表面看起来不公正的规则引发的不公正,后者是指间接地使某些群体受到不如其他群体的待遇。萨斯坎德还提出算法规则的“中立谬误”,认为设计的中立算法会随着时间的推移习得人类身上的不公正,可能重复和巩固世界上已经存在的不公正,并将其加以制度化" 杰米·萨斯坎德:《算法的力量:人类如何共同生存?》,李大白译,北京日报出版社,2022年,第233-242页。 。
(一)数据不公正:算法不公正的关键因素
从萨斯坎德的分析可以看出,算法不公正的原因可归结为数据不公正、算法规则不公正和社会不公正三大成因。
其一,数据不公正会对算法公正产生深远影响。数据不公正不仅涉及不良数据,更重要的是它还包括因社会不公正导致的数据本身的不公正。换言之,数据的构造性质可能使不公正因素嵌入数据本身,从而影响算法的公正性。具体而言,一方面,技术设计和部署不当导致的不公正对数据的影响最为显著。例如,因为没有在某地部署数据化技术导致未纳入数据集的人或事物往往被忽略,这些未能被充分涵盖的数据为扭曲的分析和误解提供了土壤。另一方面,人类潜意识中蕴含的不公正对数据的影响更为隐蔽。例如,人类语言本身就存在偏见,这种偏见深深地植根于我们的潜意识之中,以至于记录在互联网上的语言也难以避免其影响" Caliskan A, Bryson J J, Narayanan A. Semantics Derived Automatically from Language Corpora Contain Human-like Biases. Science,2017(356).,使用这些包含偏见的数据可能引发算法不公正。其二,算法规则不公正是引发算法不公正的重要因素之一。算法设计主体可能存在偏见或不当意图影响到算法规则的公正性;同时,数据不公正可能通过算法的学习渗透到算法规则中导致其变得不公正。即使设计的算法规则是中立的,由于数据集中存在不公正的数据,仍可能在使用过程中引发不公正的结果。其三,社会不公正是导致算法不公正的另一个重要因素。社会不公正影响数据的产生和使用方式,并进一步影响算法的设计和使用方式。社会不公正会通过算法设计主体和数据不公正渗透到算法规则中,引发算法的不公正。如果社会不公正,那么算法设计主体和数据也很难保持公正。
算法规则不公正是导致算法不公正的直接因素。这种在设计上就存在缺陷或恶意的算法会直接引发算法不公正。对于这种不公正,我们可以通过规范算法设计在一定程度上得到改善" Kleinberg J, Ludwig J, Mullainathan S. Discrimination in the Age of Algorithms. Journal of Legal Analysis, 2018(10).。一方面,如果我们可以考察设计人员的多样性并采用技术手段测试算法规则,就有可能判断其可能蕴含的价值倾向是否公正" 雅各布·特纳:《机器人现代法则》,朱体正译,中国人民大学出版社,2023年,第338-339页。;另一方面,出于主观恶意设计的算法也很容易引发争议和遭到社会群体的广泛抵制或禁止。因此,一个主观设计是恶的算法难以在社会上得到广泛的支持和认同。尽管如此,算法设计仍然“不可避免地充斥着价值判断”,我们应该认识到消除价值判断的困难要比规范算法设计大得多,相对容易的做法是根据不同情境设计和部署适合当地伦理价值的算法。
社会不公正是导致数据不公正和算法不公正的根源。社会不公正会影响算法设计主体的价值取向,导致算法规则不公正。社会不公正也会影响数据化技术的部署和安排,从而影响数据化过程,导致数据不公正。同时社会不公正还会在数据中镜像出来,导致数据本身存在不公正因素。此外,社会不公正是一个广泛存在的问题,涵盖了社会、经济、政治等多个领域,表现为贫富差距、教育不公、性别歧视、种族问题等。这些不公正不仅体现在个人或群体之间的差异上,还体现在社会结构和制度的不合理上。
数据不公正不仅是导致算法不公正的关键因素,而且是连接算法规则不公正和社会不公正的纽带。基于深度学习的算法只有与数据相结合才能发挥作用,如果没有数据,算法就无法正常运行。当算法与数据结合时,即使设计的规则是中立的,其运行结果也可能由于数据集里的不公正因素而变得不公正。同时,社会不公正引发的算法不公正在很大程度上也是通过数据化将社会不公正映射在数据集中,进而影响到算法的运行结果。
算法不公正的三大成因既相互独立又相互交织,共同构成了算法不公正生成的复杂逻辑。算法规则不公正,作为影响算法不公正的直接因素,可被视为算法不公正的顶层生成逻辑;社会不公正深藏在社会背景之中,既是数据不公正的催生者,又是算法规则不公正的土壤,可被视为算法不公正的底层生成逻辑;数据不公正犹如一根纽带,紧密地连接着社会不公正与算法规则不公正,成为算法不公正的中层生成逻辑。一旦数据存在不公正,算法便难以实现公正。因此,对数据不公正进行全面深入的分析,是理解算法不公正并确保算法公正的重要一环。
(二)数据不平等:从数据不公正到算法不公正
考虑到数据不仅是导致算法不公正的关键因素,而且是连接导致算法不公正的另外两大因素——算法规则不公正和社会不公正的纽带,为了更好地理解算法不公正的生成机制和治理算法不公正,我们需要对数据不公正进行更深入的研究。关于数据不公正的研究主要涉及“数据公正论”和“数据平等论”两大进路。通过研究这两个进路,我们可以更全面地理解数据在算法不公正中的复杂作用,以及如何通过改进数据实践来推动算法公正。
数据公正论关注的是不同社会群体和社区中数据的产生、收集、分析和使用过程中是否存在不公正的现象。梅特卡夫等人认为,数据不公正主要源于两个因素:一是社会结构中的不平等现象,二是社会不公正现象在数据化过程中的体现" Metcalfe P, Dencik L.The Politics of Big Borders: Data (in)Justice and the Governance of Refugees.https://firstmonday.org/ojs/index.php/fm/article/download/9934/7749.。丹席克等人强调数据控制不平等对社会公正的影响,并探讨了数字基础设施和数据驱动流程对社会公正的影响,认为实现数据公正,不仅需要技术参与,更需要政治参与" Dencik L, Hintz A, Cable J. Towards Data Justice?The Ambiguity of Anti-surveillance Resistance in Political Activism.Big Data amp; Society,2016(2).。此外,丹席克等人还特别关注社会边缘群体的数据隐私和代表权问题 Dencik L, Hintz A, Redden J. Exploring Data Justice:Conceptions,Applications and Directions.Information,Communication amp; Society,2019(7).。希克斯等提出结构数据公正的理论框架,指出治理数据不公正的关键是社会应包含和支持实现美好生活中所包含的价值所必需的与数据相关的机构、关系和知识系统,应当将数据所有权、可及权和代表权视为公正的基础内容 Heeks R, Renken J. Data Justice for Development:What would it Mean. Information Development, 2018(1)." 。与希克斯等在宏观层面构建数据公正的理论框架不同,泰勒则从人类普遍的需求出发,提出了更具社会实践意义的全球数据治理框架,认为数据公正性包括三个方面:可见性,涉及代表权和信息隐私,关注社会边缘群体的代表权和隐私风险;技术参与,涉及共享数据红利和技术选择中的自由,关注数据红利分配和使用或不使用特定技术的自主权;不歧视,涉及应对偏见和预防歧视的能力,关注数据生产和处理中的偏见以及人们应有不受歧视的自由 Taylor L. What is Data justice?The Case for Connecting Digital Rights and Freedoms Dlobally.Big Data amp; Society,2017(2)." 。上述研究为数据不公正的理论探索和实践方案提供了宝贵的借鉴。
数据平等论主要关注在数据的生产、积累和分析过程中,由于各种实际操作导致的机会和伤害的不平等。数据平等论致力于发现、减少和解决与数据相关的不平等模式。数据平等论将导致数据不平等的原因聚焦在两个方面:第一,数据主体与公司之间存在的数据流控制不平等导致数据不平等;第二,对与数据相关的基础设施的控制不平等导致数据不平等。辛纳蒙认为,数据不平等表现为数据可及不平等、数据代表不平等和数据控制不平等三个数据鸿沟。这些不平等基本上可以运用数字鸿沟这一概念来分析,即采用“水平”“镜像”和“贫困”的隐喻来分析。其中,数据控制不平等是最为重要的数据鸿沟,是指“个人行为数据的不平等积累,以及数据主体无法控制数据如何在数据控制者和数据受益者之间流动”。这种不平等可能导致机构用“有偏见的、部分的数据代表世界”,同时引发隐私侵犯、数据滥用、分析伤害等有害影响 Cinnamon J. Data Inequalities and Why They Matter for Development.Information Technology for Development,2020(2).。费舍尔则认为,数据不平等是“对生成、塑造、处理、存储、传输和使用数据的基础设施的不平等控制所产生的”,并提出收回基础设施管制,要求提高透明度、汇集数据和议价能力、发展差异化和有条件的数据可及机制等治理方案 Fisher A, Streinz T. Confronting Data Inequality. Columbia Journal of Transnational Law, 2022(3).。实际上,辛纳蒙将数据不平等视为数字不平等在大数据时代的新形态,其实质是数据鸿沟,目的是通过构建数据不平等的研究框架评估一切与数据相关的不平等实践。然而,费舍尔对数据不平等的看法更为具体与深刻,认为与数据相关的基础设施控制不平等是导致与数据相关的不平等实践的根本原因。
数据公正论和数据平等论在研究内容上存在显著区别。数据公正论主要关注数据化进程中可能引发的社会压迫、统治以及不平等问题,不仅关注由数据引发的危害以及可能的补救措施,而且将数据公正视为揭示社会不公正的指示器。它强调数据在实践中的伦理维度,旨在确保数据的使用不会加剧社会不平等或侵犯个人权益。数据平等论则侧重于将与数据有关的实践活动视为可能引发不平等问题的关键领域,认为数据的构造性质本身即蕴含不公正性,数据不平等具体表现在数据的生成、收集、处理和使用等各个环节中存在的不平等现象,这些不平等现象可能催生多种形式的社会不平等,从而进一步加剧整体的社会不平等状况。因此,数据平等论致力于发现和解决与数据紧密相关的各种不平等模式,以促进与数据相关实践的公正性和平等性。简言之,数据公正论提供宏观的社会视角,关注数据对社会公正的影响,数据平等论则从微观层面入手,具体分析数据实践中的不平等问题。
同时,数据公正论和数据平等论在研究内容上又存在共性,都聚焦于数据问题,并将数据视为决策和采取行动的基础。二者都认为与数据有关的实践活动将引发社会不公正或不平等问题。在治理策略上,二者都主张从社会结构和制度层面着手,以消除数据的不公正与不平等现象。这意味着需要改革数据生产、收集和处理的方式,确保数据的代表性、质量和透明度,同时加强数据监管和治理机制,确保数据的合法使用和保护隐私。此外,数据的可及性、代表性以及数据控制权构成的数据不平等也是二者共同关心的问题。数据的普遍可及性有助于打破数据鸿沟、数据孤岛,促进社会公正和平等。数据的代表性则要求数据能够真实反映社会各阶层的利益和需求,避免数据偏见和歧视。数据的控制权则是最为关键的问题,二者都认为数据控制不平等是引发数据不公正和数据不平等的核心因素,即个人与机构在控制数据方面的不平等引发了一系列基于数据开展的实践活动的不公正、不平等。
如果继续追问数据不平等的根源,我们会发现其来源于经济、政治、文化结构和制度的不公正。首先,数据控制权的不公正往往源于社会经济地位的不平等。由于社会资源和权力的不均衡分布,掌握更多资源的个体或团体就可以更好地主导数据的生成、传播和使用过程,从而在数据领域占据优势地位。这种情况下的数据所有权的不公正便体现了社会经济地位的不平等。其次,数据可及权的不公正可能与社会政治体制的不平等有关。不同政治体制对与数据相关的基础设施和数据的生产、传播和使用的限制各不相同,这直接影响了公众对数据的获取和使用权利。在有些情况下,可能存在与数据有关的基础设施的部署不公正、不平等和对数据的过度监管或限制,使得公众无法平等地获取和使用数据,这便体现了数据可及权的不公正。最后,数据代表权的不公正主要源于社会文化价值的不公正。由于社会价值观的差异和不平等的权力(利)关系,某些数据可能被视为更具代表性和权威性,而其他数据则可能被忽视或边缘化。这种不公正不仅体现了社会文化价值的不公正,也影响了数据的公正性和平等性。因此,数据公正论和数据平等论都认为,治理数据不公正和不平等问题的关键在于社会结构和制度层面。
二、数据不平等导致算法不公正的生成机制
通过对数据公正论和数据平等论的分析,我们认为数据不平等,包括数据的可及不平等、代表不平等以及数据控制不平等,是导致数据不公正的关键因素,并因此构成算法不公正的生成逻辑。其中,数据控制不平等尤为突出,它引发并加剧数据的可及不平等和代表不平等。鉴于数据控制不平等的核心地位,我们将在后续探讨中聚焦于它,讨论数据不平等导致算法不公正的生成机制。在此之前,我们需要明确数据类型,以界定讨论范围和对象。数据种类繁多,大致可以分为两大类:一类是由人类实体产生的数据,可称为“属人数据”,这类数据与人类的生活、行为、思想和感情等密切相关;另一类是由非人类实体产生的数据,比如关于动物、植物、自然现象等的数据,这类数据主要反映的是自然界的规律和现象,与人类的直接相关性较小。属人数据与公正问题更加直接相关,我们在此以属人数据为例,探讨数据不平等导致算法不公正的机制。
为了更好地理解和探讨数据与算法在现实生活中的应用和影响,我们将属人数据进一步细化为两类:一类是与个人直接相关的数据——“个人数据”,它涵盖从生物特征信息到网络行为等各种现实或现象,这些现实或现象经过转化和记录后就成为个人数据。例如,个人在网络环境中的浏览记录、在线购物行为,以及在现实生活中产生的交通出行、消费习惯等各种行为数据都属于个人数据的范畴。另一类是“群体数据”,与个人间接相关的数据,它主要反映个人与他人之间的关系以及相似性等特征。这些数据通常在数据集里以“类型”“模式”或“群体特征”的形式出现。
数据控制不平等包括两个方面:一是主体对数据本身的控制不平等;二是主体对基础设施的控制不平等。费舍尔认为,掌握“生成、塑造、处理、存储、传输和使用数据的基础设施”的主体就掌握了数据化权力 Fisher A, Streinz T. Confronting Data Inequality. Columbia Journal of Transnational Law, 2022(3).。这种数据化权力的不平等是导致数据控制不平等的关键所在。然而,这种观点并不全面。机构虽然通过控制基础设施确实可以获得数据化权力,但数据控制不平等的关键并非仅仅在于对基础设施的控制不平等,而更在于对数据本身的控制不平等。机构通过对数据本身的控制获得了掌握被数据化的人的能力、追求利润的“原材料”,以及进一步巩固其权力的力量。换言之,不论机构是以什么方式控制数据,只要机构控制了数据,就可能存在个人与机构之间对数据控制的不平等,导致个人与机构之间的权力不对称,从而出现数据不平等现象。实质上,这是一个关乎数据所有权的问题,即数据应该属于谁。准确地说,这个问题涉及数据是属于掌握基础设施的主体,还是属于被数据化的个人或群体。我们认为,数据权不能仅仅属于掌握基础设施的主体。具体而言,如果我们将数据按类型划分为个人数据、企业数据和公共数据,数据的所有权应根据数据类型进行区分。这些权利不应仅归属于掌握基础设施的主体,而应按数据类型进行分配。如果我们将属人数据分为个人数据和群体数据,数据的所有权应根据数据的类型以及掌握数据化基础设施的主体在数据化过程中的贡献进行配置。
(一)生成要素与动机
数据不公正来源于两方面,一方面源自人的数据化引发的不公正,即将与人相关的现实或现象转化为数据时,人的行为或潜意识的不公正现象映射在数据中,导致数据不公正。这种不公正是由人的数据化引发的不公正。另一方面,数据不公正源于数据化技术的设计和部署引发的不公正。这是指对数据采集、处理、加工、编码等流程的设计和使用的不公正引发的数据不公正。这种不公正是数据化技术的不恰当设计和部署引发的数据不公正。这种情况下,数据可能重现已有社会结构的不公正,同时也可能因为不恰当的设计和部署引发新的不公正,例如没有数据化的人不会出现在数据中,不完整的数据会影响算法对未被数据化的人的判断,从而引发不公正的结果。
数据化技术在确保数据公正中具有重要作用。现实或现象不是一开始就是数据,现实或现象需经数据化才会转变为数据,数据化技术是实现数据化的基础和前提,没有数据化技术就无法将现实或现象转化为数据形式。如果数据化技术的设计和部署中存在不公正,那么数据很难公正。数据化技术“不仅是‘社会’嵌入的,而且是有目的地铭刻在具有明确方向和后果的政治设计中的”" Masiero S, Das S. Datafying Anti-poverty Programmes: Implications for Data Justice. Information, Communication amp; Society, 2019(7).,这表明数据化技术的设计和部署通常体现了它背后的利益诉求、政治和意识形态,而这通常是由机构之间的利益妥协决定的。
机构重视利用数据化技术,在于将人作为数据化技术的对象,因为人的数据具有帮助机构实现目标的功能。机构设计和部署数据化技术总是为了达成某种目的,例如追求利益、控制和效率等,这就不可避免地涉及机构设计和部署数据化技术的对象——人。如果这个对象并不希望被转变为数据,机构就无法实现自己的目的。这个时候,人是否同意自身成为一个帮助机构实现某种目的的手段就十分关键。如果人希望保持对自己数据的控制,不希望自己的数据与自己分离,那么就可以要求不接受数据化技术的部署。然而,在现实中,机构设计和部署数据化技术却往往未经过人的同意。机构自行设计和部署数据化技术,然后将其释放到社会中,在这一过程中往往导致人与数据的逐渐分离。这种分离使个人逐渐失去对自己数据的直接控制,最终导致数据控制不平等的出现。
算法的出场意味着对数据的深度分析和挖掘。作为数据处理和价值转化之间的桥梁,算法发挥核心作用。由于大量数据仅具有潜在价值而无法直接产生价值,只有使用特定算法才能从中获得真正的价值。由此,作为具有交互性质的技术系统的核心,算法实现了数据与价值的连接。同时,机构在设计和部署算法技术方面具有控制权,算法如何训练数据、设计何种算法模型、如何应用和部署等个人无法参与决策。当机构控制的算法处理由机构控制的数据时,机构可以借助算法对数据化的人任意进行分析、预测和决策。机构借助算法,通过干预、引导和操控的方式,将数据中得出的观点渗透在社会中,从而对人们的思想和行为产生影响,加剧社会不公正。
具体而言,机构通过设计和部署数据化技术,导致个人与其数据的分离。这种分离使机构能够占有并控制这些数据。随后,机构利用算法分析这些数据时,导致数据中的不公正渗透到算法中。如果个人能够始终控制数据,那么个人就能够及时地纠正和调整数据中的不公正问题,使数据真实地反映个人状况。但现实是,机构占有数据,个人根本无法及时修改和调整数据中的错误与不公。通过拥有数据和算法,机构获得难以估量的权力,这不仅损害了个人权利,还侵蚀了民主的基础。无论是算法设计上的不公正,还是使用算法导致的不公正,其根源都在于数据被机构控制和占有,个人在此过程中丧失了与机构抗衡的能力和机会。个人与机构之间的权力鸿沟正不断扩大,要弥补这一裂痕,实现公正平等,就需要实现数据平等。只有当个人能够掌控自己的数据时,我们才有足够的筹码要求机构合理对待个人数据,从而获得应有的公正待遇。
(二)生成过程与结果
数据所有权的不平等导致算法在利益、资源和机会上的分配不公正。属人数据本应属于被数据化的人所有,却被机构控制和占有,形成个人与机构之间的数据所有权不平等。机构利用数据化技术将人与数据分离,掌握了对数据的控制权,它们决定哪些人能被数据化,哪些人不能;哪些数据能被认定为有效数据,哪些不能。随后,机构利用算法对数据进行深入分析,从中获取巨大利益。然而,机构认为数据属于机构而非被数据化的人所有,因此他们独占这些利益,并未与被数据化的人共享,导致共享数据和算法红利的分配不公正。由于数据所有权的不平等,机构可以随意使用这些数据,个人对此无法掌控,只能听任机构的摆布,引发算法在资源和机会上的分配不公正。例如,当机构使用算法分析个人数据时,个人失去对数据的控制就无法及时发现数据中的错误,如果算法依托这些错误数据进行资源和机会的分配,就容易引发算法在机会和资源的分配不公正。当机构使用算法分析群体数据时,群体特征成为决策的关键依据。如果群体特征涉及偏见和歧视,那么基于这个群体特征做出的预测和决策将影响整个算法类别中的群体在获得资源和机会上的公正性。
数据人格权的不平等导致算法在尊严、信任和权利上的承认不公正。数据作为人的身份和人格的延伸,本应体现人的独特性和自主性。然而,机构利用算法对数据进行深度分析,揭露人的人格特质或潜意识,并操控其思考和行动,形成个人与机构之间的数据人格权不平等。当机构利用算法分析属人数据时,人不再是目的,也不再被视为具有独特个性的存在,而是被当作发现新知识、新洞见的工具和机构获取利益的原材料,导致算法在人的尊严上的承认不公正。此外,机构对数据的处理和分析也导致算法在信任和权利上的承认不公正。机构更容易相信算法分析出的人物形象,而非现实中的真实个人,这使得机构与个人之间以及人与人之间的认识关系和信任关系变得不公正。同时,对群体数据的分析可能导致对整个群体的需求和利益的误解或不公正对待,这种误解或不公正对待可能引发并加剧对少数或边缘群体的歧视、偏见和压迫,从而损害这些少数群体或边缘群体的权利。考虑到算法被广泛应用于公共管理的行政决策中,这种对群体数据的分析所引发的在权利承认上的不公正,可能会对每个人产生有害影响。
数据民主权利的不平等导致算法在身份、决策、行动上的代表不公正。机构通过利用算法对数据进行深度分析,获得了巨大的权力,使他们在民主生活中拥有更多的话语权,从而造成个人与机构之间的数据民主权的不平等。控制机构的人能够为自己或机构定制所需的身份以获取特定利益,相比之下,那些被数据化的普通人则可能面临被错误代表的风险,导致算法在身份代表的不公正。机构可以通过算法对人们的思考产生影响,从而影响他们的决策和行动。人们在参与民主决策和采取民主行动时,极易受到各类算法的引导和误导,无法进行深入的思考,无法准确表达自身的利益和需求。一些少数群体在算法的数据中可能只有微不足道的少量数据,或者他们的数据根本不会出现在数据中,这意味着算法无法捕捉到他们的需求和利益,加剧社会的分化和不平等。
综上所述,我们可以看到数据控制不平等是如何导致算法不公正的。当机构利用数据化技术将个人与数据分离时,它们实际上占有了这些数据。这种数据控制的不平等直接导致数据所有权的不平等,进而引发数据人格权和数据民主权的不平等。当算法与不公正的数据结合时,便产生算法的分配不公正、承认不公正和代表不公正等问题。这些不公正现象不仅加剧了现有的不平等,还不断创造出新的不公正,为社会公正带来了巨大的挑战。
三、算法公正要基于数据平等
数据不平等导致了算法不公正,偏离了人类核心价值。为了实现算法公正,最终实现社会公正,摆脱算法不公正,构建一种基于数据平等的算法公正论势在必行。基于数据平等的算法公正要求从数据不平等回归数据平等,从算法不公正回归算法公正,主张以数据平等的框架审视社会不公正与算法不公正之间的相互影响,通过不断切近数据平等,促进算法公正,最终促进社会公正,增进人类福祉。
(一)数据可及平等
基于数据平等的算法公正论主张数据可及平等。数据可及平等主要包含数据化平等、数据访问平等和数据共享规范。数据化平等是指个体或机构在数据化过程中应享有平等的权利和机会。这要求数据化技术、平台和服务的提供者遵循公平、公正的原则,不因种族、性别、地域、经济状况等因素而歧视任何个人或机构。数据化平等还意味着数据资源的分配和利用应基于合理的规则和机制,确保每个人都能从数据化进程中受益。具体而言,它要求数据化技术的设计和部署应公平,即确保城乡之间、城市之间、国家之间的数字鸿沟、数据鸿沟差距不至于过大,使具有社会准入门槛的数据化技术的基础设施能够逐步覆盖到更广泛的地区,从而在数据收集的设施上达到基本平等。同时,应注重对数字能力较弱的人群、社会边缘人群和弱势群体的关注,通过提供必要的培训和支持,确保他们能够平等地参与到数据化进程中。此外,数据化自由也是数据化平等的应有之义。数据化自由是指在数据化过程中,个人或机构应享有自主决定其数据如何被收集、处理、存储和使用的权利。这包括数据访问的透明度、数据使用的控制权,以及在必要时对数据删除的权利。数据化自由强调的是个体或组织在数据化过程中的主动性和自主性,确保他们的数据权益得到充分尊重和保护。如果没有数据化自由,个体或组织就无法自主决定其数据使用,从而无法实现真正的数据化平等。
数据访问平等关注的是公共和非商业机密数据库的可访问性。它主张这些数据库应向公众提供平等的访问权限,确保公众在享有知情权的同时,机构也能够保护其合理的保密权。这种平衡的实现需要制定明确的数据访问政策和规范,以确保数据的透明度和公正性。数据共享规范强调数据共享和流通的重要性。它要求数据不应被少数机构所垄断,而应在符合相关规范的前提下,促进数据共享和流通。各国各部门应根据各自国家民众的利益需求和实现全人类繁荣的目标,制定具体的数据共享政策和规范,以确保数据资源的合理利用和价值最大化。2021年,国务院反垄断委员会发布了《关于平台经济领域的反垄断指南》,对算法合谋、大数据杀熟等利用数据和算法实施的垄断行为进行了规定 丁道勤:《产业链视角下生成式人工智能的竞争法规制研究》,《西北工业大学学报》(社会科学版),2024年第1期。。
此外,在追求数据可及平等的过程中,我们必须认识到现实社会不平等对数据可及平等的影响。这种影响可能导致数据收集的偏见和不均衡,从而影响到算法的公正性。因此,在数据集和算法设计上,我们需要特别关注这种不平等现象,并采取相应的措施进行纠正。例如,可以设计差异化的算法规则来弥补数据不平等带来的负面影响,以实现算法的实质平等。实际上,在资源有限的情况下,数据可及性的实现通常只能保证最低限度。尽管数据收集的不平等可能长期存在,但在实现算法公正的过程中,可以根据当时当地的具体情境设计符合该区域人民利益的算法,以实现具体的实质性的算法公正。
(二)数据代表平等
基于数据平等的算法公正论主张数据代表平等。数据代表平等包括数据样本在数据量和质上的平等,并确立最小伤害原则。数据样本的代表性平等意味着数据集中的数据应充分、准确、客观地反映各群体的特征。在数据量上,需权衡少数人与多数人的代表性,以避免主流数据淹没社会边缘人群、弱势群体和少数群体的数据,从而防止对少数人的压迫。因此,在设计算法规则和建模时,应充分考虑少数人的代表性,如通过计算并适当增大少数人群在数据样本中的代表权重,来平衡不同群体的利益。在数据的质上,代表性平等要求禁止偏见与歧视数据,即剔除包含偏见与歧视的数据,避免现实社会的不公正在数据中得到延续和反映。为了衡量数据平等的程度,应制定量化指标,明确何种情况下数据的代表性可能被视为不平等,以确保至少达到最低限度的数据代表平等。
确立最小伤害原则是将这一原则作为处理数据算法的基础平衡指标。该原则意味着在不得不牺牲少数数据代表权益以维护公共利益和人类福祉时,将伤害降至最低。这有助于在保障公共利益的同时平衡不同利益主体之间的关系,减少对少数数据代表的伤害。最小伤害最低指标包含不影响少数人群的资源分配和机会发展。此外,要警惕暗数据的影响,以避免因错误和失误分析引发的有害实践。正如汉德所言,我们要不停地问自己“我们缺失了什么数据”" 戴维·汉德:《暗数据》,陈璞译,中信出版社,2022年,第24页。。识别暗数据是一项具有挑战性的工作,汉德为我们总结了15种暗数据,但对暗数据的研究还需要进一步探索。
(三)数据控制平等
基于数据平等的算法公正论主张数据控制平等。数据控制不平等是数据不平等的集中体现,它在一定程度上导致数据可及不平等和数据代表不平等。数据控制不平等主要体现在数据所有权不平等、数据民主权不平等和数据人格权不平等上,这些不平等在上文的分析中已经得到详细探讨。因此,数据控制平等对于促进数据可及平等和数据代表平等具有重要意义。数据控制平等意味着实现数据所有权平等、数据民主权平等和数据人格权平等。如何使数据控制达到平等,实际上是个人数据权利和机构权力的平衡问题。目前主流的做法主要有两种:一种是针对个人往往无法有效控制管理自己的数据这一问题,主要强调个人对自己数据的掌控权力,包括在数据生产、处理和使用等方面的自主控制,以及最终共享技术红利的权利。这也是数据伦理治理的焦点之一,即将数据作为传输、保护、共享和利用的对象进行监管,可以称为基于权利的数据伦理进路。另一种做法是针对机构(特别是企业)由于掌握与数据相关的基础设施,拥有数据化权力(即“决定把什么内容转化为数据,哪些内容可以成为或不可以成为数据的权力”" Fisher A, Streinz T. Confronting Data Inequality. Columbia Journal of Transnational Law, 2022(3).)的数据控制不平等现象,主要关注与数据相关的基础设施的控制权,规范数据权力的合理使用,可以称为规范数据权力进路。因此,治理数据控制不平等,实现数据控制平等的措施应主要聚焦于加强个人数据的控制权和规范数据权力上。
基于权利的数据伦理,提倡以人的权利为本,而不是以数据的权力为本;它强调以人的自由为中心,而非以数据的自由为中心。这一进路主张有规范的数据共享和以人为本,要求尊重用户的数据权、隐私权和算法的透明度 李伦:《“楚门效应”:数据巨机器的“意识形态”》,探索与争鸣,2018年第5期。。它强调个人对个人数据的控制权,以及数据处理过程中的透明度、可解释和选择权,即个人能够根据自己的意愿和需求来控制数据的收集、使用和共享的方式。例如,在《中华人民共和国民法典》中,关于隐私权和个人信息保护的侵害免责事由均明确提及权利人的知情同意。其中,侵害隐私权的免责事由要求必须经过“权利人明确同意”,而个人信息处理的免责事由则要求自然人或其监护人“同意”,尽管对同意的强度要求有所不同,但都凸显个人控制的核心地位。同时,立法还规定信息处理者应遵循合法、正当、必要的原则,并赋予自然人“查阅复制权”“更正权”和“删除权”,以确保其能够对自己的个人信息进行有效的管理。
规范数据权力进路则主张直接对通过掌握数据而获得权力的机构提出要求,通过制定有关数据实践的机制设计,规范数据权力以促进数据平等。这一进路认为个人与机构之间的知识和权力不对称是客观存在的,因此仅仅赋予个人数据权利并不足以保证个体能够在数据收集、存储、使用、交易和利益分配上作出符合自身利益和社会利益的行为选择。因而,它倡导构建一种机制设计平衡个人和机构的数据控制。例如,可以构建数据信托制度,这主要包含两种形式,一种是信息受托人,在传统信托的基础上,巴尔金提出了将数据收集者视为信息受托人的见解,从而展开数据信托的讨论和构建。信息受托人的主体包括个人数据主体和企业,强调在二者之间建立信赖关系,企业需承担数据信托的责任,对个人数据主体有信义义务 Balkin J M. Information Fiduciaries and the First Amendment. UC Davis Law Review,2016(4).。与此不同,另一种是第三方数据信托。德拉克洛瓦等人指出信息受托人中并不寻求独立信托,在企业与数据主体之间会存在利益冲突和义务冲突,因而,他们“要求任命受信托宗旨和条款约束的独立受托人”即第三方数据信托。其主体包括个人数据主体、企业和第三方数据信托机构,强调第三方介入来平衡企业与数据主体之间的权力不对称 Delacroix S, Lawrence N D. Bottom-up Data Trusts: Disturbing the ‘One Size Fits All’ Approach to Data Governance. International Data Privacy Law,2019(4).。同时,构建以保护数据主体为中心的制度规则,将审慎、诚实、保护和忠诚等价值观嵌入建立或使用数据技术的机构的实践中 尼尔·理查兹:《为什么隐私很重要》,朱悦、嵇天枢译,上海人民出版社,2022年,第257页。。这些制度安排和规则的制定应综合考虑莱斯格构建的法律、市场、社会规范和架构等人文和物理因素的多元规制分析框架。例如,我们可以将技术手段引入制度规则安排中,利用这些技术手段来开展数据保护实践。一方面,可以强调数据保护的纯技术进路,即技术解决主义方案,其核心聚焦于设计安全和隐私增强技术;另一方面,作为纯技术进路的补充,可以强调数据保护的价值敏感设计进路,这种进路聚焦于数据保护设计和隐私保护设计。这些设计理念旨在确保在技术应用的过程中,数据的安全性和隐私性得到充分的考虑和保护。
这两种进路并不冲突,只是侧重点不同,基于权利的数据伦理是以权利作为限制权力的方式进行的制度安排,它引发什么是个人数据、数据权利对个人而言究竟是何种权利、是人格权还是财产权的争论,从而促进权利的细致安排以防范机构权力的侵入。而规范数据权力认识到权利进路的缺陷,主张数据从根本上来说是关于权力的,对数据保护的制度安排实际上是对数据所赋予机构权力的限制,因而,直接要求数据权力方审慎使用数据,对其进行一定的规则限制,使基于数据的实践能够促进人类价值。二者可以相互补充,共同推动基于数据平等的算法公正论的实践。
基于数据平等的算法公正论在追求三种平等的基础上,需要运用原则主义的细化和平衡策略指导数据平等伦理原则在具体情境中的实际应用,解决原则的冲突等问题,确保算法设计和运行过程中的公正性。在实践检验中,我们可以引入“社会实验”这一重要手段,来观察和评估算法公正在社会中的实际运行是否达到预期的理想状态,以及是否还存在不足或欠缺。通过不断的调试和修正,及时发现并修正算法中的不公正之处,以实验的角度持续审视数据平等与算法公正之间的相互影响,从而确保算法的公正性和准确性。同时,基于数据平等的算法公正论要求机构必须审慎使用数据,谨慎设计算法规则,将人类价值嵌入算法规则中,实现算法规则公正。此外,基于数据平等的算法公正论还特别注重现实社会不公正对数据收集、处理和使用的影响。这将使数据平等本身成为反映现实社会不公正、不平等的放大镜,即通过数据平等发现社会不公正,通过基于数据平等的算法公正矫正社会不公正,从而形成算法公正促进社会公正的正向公正迭代。
四、结语
在决策算法化日益盛行的当下,数据与算法作为两大核心要素,不断使社会数据化和算法化,塑造着社会的基础形态,对公正社会的构建起着举足轻重的作用。数据不平等通过影响社会公正、数据公正和算法规则公正构成了算法不公正的生成逻辑。因此,实现算法公正的关键便在于实现数据平等。深入剖析数据不平等如何导致算法不公正的机制,进而构建基于数据平等的算法公正论,已成为社会公众的共同责任和应有之义。基于数据平等的算法公正是一个综合社会公正、数据公正和算法规则公正的综合议题,为治理算法不公正提供数据与算法治理并重的研究框架,涉及数据的收集、处理、使用、算法规则的设计、应用、评估和数据、算法与社会相互构建等多个实践环节,需要我们不断深入研究和探讨。人与数据和算法的公正关系,或基于数据和算法的人与人之间的公正关系,是数据和算法伦理的核心议题。基于数据的算法公正倡导从数据不平等回归数据平等,从算法不公正回归算法公正,主张以数据平等的框架审视社会不公正与算法不公正之间的相互影响,通过不断切近数据平等,促进算法公正,最终促进社会公正,增进人类福祉。
Algorithmic Justice Theory Based on Data Equality
Li Lun,Zhang Xiaoyan
(Dalian University of Technology,Dalian 116024,China)
Abstract:
Data inequality is a key factor of data injustice, encompassing inequalities in data accessibility, data representation, and data control. Among them, data control inequality triggers and promotes inequalities in data accessibility and representation, representing the concentrated embodiment of data inequality. Unequal data control directly leads to unequal ownership of data and subsequently leads to unequal personality and democratic rights related to data. When algorithms are combined with unfair data, problems such as unfair allocation, unfair recognition, and unfair representation of algorithms arise. Therefore, it is necessary to establish an algorithmic justice theory based on data equality, which advocates for data equality, data access equality and data sharing, to pursue data accessibility equality, advocates for equality in both quality and quantity of data representation and the principle of minimum harm, to pursue data representation equality, and advocates for a two-pronged approach based on data rights and regulating data power, to pursue data control equality, while introducing principles-based and social experimental methods to promote data equality.
Key words:algorithm ethics; data ethics; algorithmic injustice; data injustice[责任编校 刘 科,段玲玲]