数字时代背景下的算法歧视及其规制

2023-05-11杨永兴

重庆开放大学学报 2023年5期

杨永兴

（北京邮电大学互联网治理与法律研究中心，北京 100876）

作为信息技术领域的开创性技术，算法对人类社会的发展与变迁产生了深远影响。以数据为驱动要素的算法自动化决策正悄无声息地渗透至政治、司法、执法等领域［1］。人类社会正在经历一场智能革命，而这场智能革命是建立在算法的基础上，无论是智慧城市、智能制造、智慧医疗等宏大远景规划，还是自动驾驶、智能机器、虚拟现实等前沿应用，抑或是智能购物、智慧出行、智能娱乐等生活日常行为，“智能”的实现都离不开算法。可以说，伴随着大数据、区块链、元宇宙等互联网技术的纵深发展和广泛扩散，人类社会俨然进入了“算法时代”。近两年，伴随着行业数字化的转型，社会经济发展迎来了数字化时代，万事万物正以数据化的形式存在，海量数据的处理远远超过人类的计算能力，而算法所具备的超大算力优势正使其逐渐从人类手中争夺分配社会资源的权力。在理想状态下，鉴于技术中立原则，基于算法的自动化决策不仅效率更高，还具有相对客观公正的优势。但是囿于算法工程师的主观偏见、数据偏差、冗余编码等原因，导致算法技术在实际应用过程中易产生诸如“大数据杀熟”“用户画像”所致的推送闭环等算法歧视问题。数字时代背景下，数字经济的发展离不开算法，而算法歧视所引致的负外部性正消弭社会共同体对该项技术的信任。为推动算法技术的健康发展与良性应用，使其真正为人类所用，本文拟围绕算法歧视的相关问题，构建起包含技术、法律、伦理等在内的多元规制体系，以期对算法歧视的规制有所裨益。

一、算法歧视的概念确定

对于事物概念的确定，既是认识事物本质的过程，亦是思维形成的过程［2］。算法歧视概念的确定，对于认识算法歧视的本质与形成规制算法歧视的体系性思维来说至关重要。算法歧视的概念确定需要从算法与歧视两个角度着手。

算法有广义和狭义之分，狭义角度的算法源于数学和计算机科学领域，其被用来描述解决数学与计算机领域问题的一系列逻辑规则，如数学领域的代数算法、计算几何算法，计算机领域的决策树算法、加密算法、排列算法、推送算法等。因此，从这个角度而言，算法则指的是被用来实现某种目标而采取的一系列指令或者步骤的组合。随着人工智能的纵深发展，算法被广泛嵌于社会的方方方面。广义角度的算法泛指在诸多社会科学领域中，用于解决问题，实现预设目标的所有决策过程或程序［3］。现代意义上的算法，来源于计算机科学领域，20世纪英国数学家图灵提出“图灵测试”，并运用算法作为“图灵测试”解决不同问题的程序。

歧视与平等为一组对合概念。我国宪法规定“中华人民共和国公民在法律面前一律平等”，此外《劳动法》《妇女权益保障法》《残疾人保障法》《未成年人保护法》等法律均规定了禁止歧视条款，再次强调了对公民平等权的保护。但是，我国立法仅设置了原则性的反歧视条款，并未给歧视进行精准的定义。而不同学科对歧视分别有着不同的理解，如伦理学认为，歧视系以侮辱、诽谤等形式为特定个体或者群体贴上贬低、媚俗等标签，使其产生罪恶感，从而对其实施不公正待遇的行为。法学认为，歧视系基于性别、血缘、种族、教育背景、性取向等特征而对特定群体或个人实施的旨在克减、限制、排除其法律权利的差别处理措施［4］。

综上所述，笔者认为算法歧视是算法应用者利用算法技术实施的，通过算法决策的形式对特定主体或者群体实施不公正待遇的行为。

二、算法歧视的类型

传统反歧视理论从结果导向主义出发将歧视划分为直接歧视与间接歧视。然而对算法歧视的划分不能简单地立足于结果导向主义，否则容易影响到系统性规则的建构，因为以深度学习为代表的算法正逐渐脱离人类主体性的控制，渐渐朝着准自主式趋势发展，甚至出现算法开发者难以预料算法模型建构将发展到何种程度的情形，使得算法歧视的生成原因更加多元、隐蔽且不易被查知，这对以结果为标准划分算法歧视的行为带来极大的挑战。通过对现有文献研究发现，学界已经有不少学者开始对算法歧视进行类型划分。如有学者以时间和社会因素为标准，将算法偏见划分为先行算法偏见、技术算法偏见和浮现算法偏见三种类型［5］。该划分类型对算法歧视的类型界分具有一定的借鉴意义，但是偏见与歧视不可同日而语，偏见不一定就会导致歧视性后果的发生，比如算法工程师仅仅将某偏见性观念停留在想象阶段，并未将内隐偏见内嵌于算法研发中，则一般不会因为人类的内隐偏见而形成歧视性结果。笔者根据算法的社会属性，结合算法歧视的生成机理将算法歧视划分为以下几种类型。

（一）镜像同构型算法歧视

歧视本身并非是算法社会的特有产物。从人类社会诞生的那一刻起，社会便处处充斥着歧视现象。不同群体之间的歧视均源于人类社会的分工。社会分工的不同导致不同群体之间的政治经济地位的不平等，经过岁月的累积，不同群体之间的政治经济地位的不平等会形成思想上的刻板印象、认知偏见等，处于较高政治地位的群体持着明显的优越感，对政治地位较低的群体秉着鄙夷、否定的态度，进而对其实施排除、限制、剥夺其基本权利的歧视行为。镜像同构型算法歧视是指人类社会中现存的各种认知偏见、社会分工所致的结构性不平等等现象被嵌入算法的设计、研发、应用中，通过直接或者间接的方式将人类社会中既存的歧视现象加以复现的算法歧视类型。镜像同构型算法歧视项下包含直接复现型与间接复现型两个子类别。

美国亚马逊公司曾经在开发智能招聘简历筛选系统时，并未将女性、女子院校等涉及敏感字眼的性别参数予以剔除，导致筛选系统对女性简历打低分的算法性别歧视即是直接复现型［6］。因为这种算法歧视与社会中现存的性别偏见、认知偏差、刻板印象具有高度关联性，通过算法工程师的偏见设计、机器自我学习等方式将社会现存的歧视性思想内嵌到依据算法实施的决策过程中。

间接复现型是指算法模型表面上在设计时将性别、种族、年龄、宗教信仰、性取向等敏感参数予以剔除，但却辅之以替代性参数或者伪中立参数将之作为实施算法决策的依据，进而间接地将传统歧视现象加以复现的歧视类型。电商巨头亚马逊几年前在美国各大城市开通“当日送达”服务，只要会员在亚马逊平台下单，平台内超百万种商品在当日内可以免费送达。然而不久后，有媒体记者发现，美国一些城市如纽约、华盛顿、芝加哥等黑人聚居的社区被排除在“当日送达”的服务范围内。这一事件被曝光后，亚马逊方回应，其从未将种族因素作为是否提供“当日送达”服务的参考因素。很显然，尽管亚马逊在开发“当日送达”服务算法模型时将种族这类敏感参数予以剔除，但是其辅之以邮政编码、当地会员数量、犯罪率等伪中立的替代性参数，用以计算“当日送达”的服务范围，同样达到歧视黑人的效果，使得种族歧视通过间接的方式在算法系统中加以复现［7］119。

（二）加剧型算法歧视

人类通过日渐智能化的算法程序，在模拟大脑思维的道路上不断探索，在表现出类人性的同时，也呈现并加剧人类的固有缺陷—偏见。当今，人类已经步入算法社会，算法被广泛地应用于电子商务、新闻推送、搜索引擎、智慧医疗、智慧城市、餐饮外卖、信用贷款等各个场景之中，但同时也导致公民在算法应用的不同场景下频繁地遭遇不公的算法对待。在此背景之下便产生了加剧型算法歧视，加剧型算法歧视分为针对个体的加剧型算法歧视与针对群体的加剧型算法歧视两个子类别。具体是指某个体或群体被同一决策者于不同算法决策场景下频繁地实施不公平的歧视对待、某个体或群体在同一算法决策场景下遭遇不同决策者的不公平的歧视对待，以及个体或群体在不同算法决策场景下被不同决策者分别实施不公平的歧视对待［7］120。

（三）新增型算法歧视

新增型算法歧视意味着算法在决策的过程中将新的偏见予以外化，主要存在于深度学习算法的应用场景中。深度学习算法通过数据的自我抓取完成数据的自我训练，并通过参数的自我选择完成模型的自我建构，从而实现算法的自组织过程［8］。算法对于普罗大众而言，本身就是一个“黑箱”，而深度学习算法的准自主运行趋势，让身为初代算法开发者的算法工程师也很难掌握算法模型自我建构可以到何种程度，自我抓取数据的标准是什么，这就使得日益复杂的深度学习算法在运行过程中产生了诸多难以预料的新的歧视性结果。

三、算法歧视的原因

（一）算法工程师的主观偏见

算法作为人机交互的产物，很难克服由于算法工程师的主观偏见所导致的算法歧视问题。因为由于所受教育、所处环境等因素影响，不同主体对同一事物存有不同的态度。久而久之，基于个人主观心理对某个事物或者物体形成一种概括固定的看法，忽视个体之间的差异。如果算法工程师在开发算法原始模型之始时，将带有主观意愿的偏见性思想内嵌至算法编码中，就不可避免地导致算法形成歧视性决策。在传统的线下招聘场景中，曾有很多求职人员因为地域歧视、性别歧视等原因被招聘者拒之门外。而转移至线上招聘时，如果研发招聘系统的算法工程师将自身对来自某地域的应聘者的主观偏见嵌于系统时，就会放大这种求职歧视并且使得这种歧视变得更加隐蔽。

（二）数据偏差

算法模型的建构系机器学习的产物，而机器学习更是离不开对原始底层数据材料的聚合。数字社会与人类社会构成一种镜像关系，数据作为数字社会的载体本身就承载了人类社会的各种道德价值观，其中不乏一些带有偏见的价值观。如果这些带有偏见价值观的数据被用作算法的训练材料加以训练，基于此生成的算法模型在生成结论时则会还原初始的偏见，继而产生“偏见进，偏见出”（Bias in，Bias out）的现象。以ChatGPT 等生成式人工智能大模型为例，大模型的研发设计需要大量的数据作为训练的语料来源，而现阶段用于训练大模型的数据来源于互联网。互联网上公开的数据质量良莠不齐，当一些带有歧视性色彩的数据被搜集起来用于训练大模型时，就会导致大模型学习到数据中的歧视，从而生成歧视性的结论［9］。

从传统统计学的角度而言，用于调研所采样的数据越多，基于此形成的概率结果则可能越精准。在算法模型的建构过程中，如果采集的数据样本过于集中于某类群体，而忽视其他群体时，那么算法就只能根据被采集的数据样本提取相关特征作为生成预测性结论的依据，由此便会导致没有被作为数据采集样本的群体成为被算法歧视的对象。

（三）冗余编码

以深度学习算法为例，其在基础建构的模型基础上，会不断地挖掘数据，不断地完成自我迭代更新，因此其并非严格意义地按照算法工程师所转译的区分特征进而作出区别对待，相反会将预训练的数据与自我迭代更新过程中抓取的数据进行杂糅，从而提取相关特征进而作出区分决策。由此会产生将个体或群体本应受到保护的私密性、敏感性的数据与其他可以合法获得的数据进行编码关联性地使用的现象，从而诱发因“冗余编码”所致的算法歧视［10］。

四、算法歧视的规制

算法歧视引起的危害民众合法权益的问题已然引起世界多数国家的关注，多数国家陆续出台相应规范性文件以应对算法歧视的问题。针对算法歧视，欧盟颁布了《欧盟基本权利宪章》《机器人民事法律规则》《通用数据保护条例》等规则，并以《通用数据保护条例》为核心，以“数据保护”为主旨对人工智能算法歧视进行规制。为解决算法歧视问题，纽约在2017年12月发布了《算法问责法案》，要求政府建立算法决策使用问责制。2019 年4 月美国国会引入《2019年算法问责法案》，从用户角度，防止用户遭受算法歧视性决策。2021年5月，美国国会针对互联网平台的算法问题，提出《算法正义与互联网平台透明度法案》，要求平台规范算法过程，保证用户特征和个人信息不受歧视。2022年2月美国俄勒冈州民主党参议员罗恩·怀登（Ron Wyden）、新泽西州民主党参议员科里·布克（Cory Booker）和纽约州民主党众议员伊薇特·克拉克（Yvette Clarke）提出《2022 年算法责任法案》，要求自动化决策系统具有新的透明度以保持可问责［11］。2022 年9 月，美国华盛顿听证会讨论《停止算法歧视法案》，以禁止特定主体在算法决策中使用某些类型的数据，确保消除算法偏见。

目前，我国尚未出台专门性的算法歧视规范性文件，有关歧视性条款见于《宪法》《劳动法》《妇女权益保障法》等法律文件中，但是其以原则性规定为主，而且算法时代下的算法歧视表现形式多样且较隐蔽，很难将其纳入此类文件的规范范围内。有鉴于此，我国出台《个人信息保护法》《互联网信息服务算法推荐管理规定》《新一代人工智能伦理规范》《关于加强互联网信息服务算法综合治理的指导意见》等文件以应对算法的滥用，但是算法歧视的生成逻辑是复杂多样的，现有规定很难完全应对算法歧视的风险。为此，我国有关算法歧视的规制应当在借鉴域外经验的同时，立足于我国国情形成具有中国特色的算法歧视的规制路径。具体而言，可考虑从以下几个方面着手。

（一）算法歧视的法律规制

近年来学界在规制算法歧视研究中，逐渐形成将推动算法透明作为有效规制算法歧视手段的共识。但是，笔者对此观点不太赞同。因为算法透明机制的应然层面与实然层面存在很大的差距，其并不能实现预期设想的约束效果。首先，即便将算法公开，公民也很难理解。因为算法系由一连串的逻辑代码组成，对于不具备算法素养的民众来讲，算法代码犹如天书。其次，一个算法模型的构建需要企业投入大量的人力、物力、资金等成本，建构算法模型的沉淀成本巨大，而回报周期较长，因此大多数企业将其作为商业秘密予以保护。而一旦将算法公开，将可能诱发竞争者反向破解算法，进而实施不正当竞争行为，产生劣币驱逐良币现象，继而损害企业的商业利益。因此，为平衡算法企业与算法用户二者之间的利益，推动算法技术创新与算法用户权利保护，针对算法歧视，笔者主张构建算法审计制度。

放眼全球，目前国际上已有不少国家在立法中多有提及算法审计。如美国纽约立法明文规定雇主在招聘过程中使用算法时，必须进行年度算法歧视审计，否则不可在招聘过程中使用算法进行简历评估。但遗憾的是，目前尚未形成一套成体系化的算法审计完备制度。算法审计是指审计主体对被审计者所使用的算法模型、数据，以及算法研发等技术活动的风险、合规进行审计，以此监督算法的正当使用。结合审计学领域的审计实践经验，笔者认为一套完备的算法审计制度应由算法审计主体、审计对象、审计方法、审计后果四个要素组成。

关于算法审计主体，可以分为内部算法审计主体与外部算法审计主体。内部算法审计主体主要是指科技企业的内设机构，如法务部或者审计部，或者单独筹备内设的算法审计部门。他们在企业研发、设计算法时自行对算法开展的监督、评估，以检测算法系统的部署是否符合各方主体的合理利益期待。外部算法审计主体主要包括监管机构与第三方民间组织两类主体。由监管机构主导的算法审计主要关注“算法治理”的合法性与正当性。具体而言，监管机构通过现行法律法规、政策、平台用户协议对算法研发设计主体进行合规审计，以及围绕算法公平、算法透明、算法安全等对算法输出结论进行风险与影响审计［12］。外部算法审计主体中的第三方民间组织类似于传统审计实务中的会计师事务所，系由具备专业资格和专业资质的算法审计师组成并经批准成立的专门算法审计机构，以接受企业委托或者以监管机关指定的方式对社会中运行的算法开展审计活动。例如美国的奥尼尔风险资讯与算法审计公司（ORCAA）就是一家从事算法审计的第三方民间组织。

算法审计的对象主要聚焦于数据、算法模型、算法的研发与应用过程。在此需要厘定的是，虽然我国《个人信息保护法》第五十四条规定了个人信息的合规审计，但是二者并不能等同视之。原因在于并非所有的算法均需要进行个人信息合规审计，因为有些算法的运行是对非个人信息的处理。此外，《个人信息保护法》第五十四条规定的个人信息合规审计，是审计个人信息处理者处理个人信息是否符合法律法规的规定，其主要关注的是合法性的问题。而算法审计不仅审查算法的合法性而且关注算法的合理性。

在算法审计的实践中，审计主体可以采取代码审计、爬虫审计、非侵入式审计、众包审计四种审计方法对算法展开具体的审计工作。代码审计，顾名思义即对构建算法的底层逻辑代码进行全码通读或者通过敏感函数回溯以对算法的输入和输出全过程进行审计。但代码审计涉及算法公司的核心商业秘密、算法专利等问题，多用于算法公司的内部审计，因此外部审计主体很难通过外部审计的方式对算法展开代码审计。爬虫审计的做法类似于利用爬虫技术抓取数据，即审计主体通过API反复访问平台的算法，反复更改输入并对算法输出结果进行随意抓取，从而对算法输出结果展开审计。但是爬虫审计往往涉及平台算法的侵权问题，而且诸多平台均对算法部署了反爬虫技术装置，故利用爬虫审计方法开展算法审计活动对算法审计主体提出了较高的专业技术要求，且其面临的法律风险也较高。众包审计，与传统工作的众包模式类似，即审计主体通过招聘众多的用户对算法进行使用，以足够多用户的亲身体验来达到对算法的审计，但是采取此种审计方法会耗费巨大的成本，不太符合经济效益原则。非侵入式审计类似于传统审计实践中的调查、问询，即审计主体征得平台用户的同意，登录平台用户账户，查阅用户与平台算法之间的交互信息进而对算法进行分析审计。与其他审计方法相比，非侵入式审计的成本较低，且非侵入式审计不涉及爬取平台算法的侵权等问题，法律风险较低，成本和效益合乎比例，符合比例原则的要求，值得推广。

算法审计的目的就是通过审查算法应用的合法性与合理性，进而对算法保持可问责。然而，通过算法审计对算法进行问责不可或缺的重要一环即赋予算法审计以法律效果。故笔者认为，当算法审计主体对企业运行算法进行审计时发现存在可能导致算法歧视的风险时，有权要求企业对所选择的参数、算法决策依据做出陈述并进行修改，如果算法应用者拒不改正则出具否定的审计意见，并将审计结论上报给网信、公安、市场监管等主管部门由其进行处理。

（二）算法歧视的技术规制

20 世纪末，劳伦斯·莱斯格教授指出，有四种力量可以对技术进行规制，它们分别是法律、社会规范、市场以及代码［13］。算法歧视作为应用算法技术所产生的结果，自然规制算法歧视也需要依赖于技术。在有些场景下，算法之所以会产生算法歧视问题，是因为算法在运行过程中出现了算法漏洞，如果将这些漏洞予以修补则可以在很大程度上避免歧视的发生。在实践层面上，技术规制也有迹可循，如2023年1月，美国与欧盟签署“基于公共利益运用人工智能技术的行政协议”。该协议指出，为了加强个人隐私保护，欧美双方通过运用多种机器学习算法在互相不共享彼此数据集的前提下实现了人工智能联合模型的构建。为此，应当大力推动反算法歧视技术的研发与应用、扩充数据采集的维度、加强数据清洗等技术手段在规制算法歧视中的应用。

（三）算法歧视的伦理规制

公正作为人们被平等对待的道德期许，是社会共同体长久维系的原因所在。为推动算法歧视的有效规制，必须加强算法歧视的伦理规制，而算法歧视的伦理规制必须重视公正这一伦理道德的作用。具体而言，在算法的研发设计过程中，应当树立算法公正理念，算法工程师在研发设计算法程序过程中应避免主观偏见的带入；人工智能与算法等相关行业协会，应当充分发挥行业协会的作用，积极引导协会会员秉持公正道义信念；执法人员应公正执法，对待任何算法都应做到不偏不倚，发挥模范带头作用，推动社会整体形成公道正义意识。

五、结语

担心人工智能技术的进步可能带来不公正的歧视性后果，是数字时代计算与数据处理的一个永恒命题。数字时代的号角已然吹响，人工智能算法技术也会不断地向前迭代发展，未来已来。规制算法歧视将会是人们面临的一项长期的、前沿的时代课题。如果仅仅依靠法律机制规制算法歧视，可能很难达到最佳的规制效果。为推动人工智能算法技术的创新发展与公民合法权益的保护，一条合乎逻辑的规制路径在于构建起算法歧视的技术规制、法律规制、伦理规制三位一体的规制路径。