算法歧视:嵌入路径、风险界分与规制构建研究
2023-08-18邱琳郭纯
邱琳 郭纯
现今社会已进入大数据时代,大数据算法是这一时代的核心技术之一。人们在享受科技发展带来便利的同时,大数据算法技术所带来的歧视现象也引发了一系列社会风险。数据在本质上是人类观察世界的一种方式,而大数据则是人类观察社会的进化加速形态。基于大数据,人类观察与研究的进程极大加快,大数据算法作为一种海量数据的分析处理程序,适应了当前数据爆炸时代的需求。但其作为人类思维的一种外延形式,与人类思维一样也天然地存在“劣根性”即歧视。如果说人工智能取代人类属于杞人忧天的话,那么算法技术广泛运用所引发的“算法歧视”“算法霸权”“算法黑箱”等风险已然影响到人们的日常生活,并亟待解决。对算法歧视风险的规制是数字经济发展的基本需要。要对算法歧视进行规制,要先分析其生成的内在逻辑、风险的外在表现形式,再提出更有针对性的规制方案。
一、算法歧视的形成:歧视嵌入算法的多重路径
(一)算法研发者的歧视嵌入算法
算法技术归根结底是由人类设计的,难免受算法设计者思维的影响。算法研发者难以避免地会将自身偏好带入算法设计的过程中,并在算法运用过程中形成歧视。首先,算法研究者带入无意识的歧视。人类是“认知的吝啬鬼”,为了在信息纷繁复杂的社会中节约思维成本和认知资源,总是采用分类的方式简化自己的认知过程。[1]因此,人类本身就容易自带歧视。歧视的发端是源于个人认知,个人认知很容易形成“认知茧房”,进而形成人类社会普遍存在的内隐性歧视。内隐性歧视根植在人类的内心最深处,并会以难以察觉的方式表达出来,进而形成外显性歧视。算法的开发离不开人类的设计,而算法设计者本身也自带内隐性歧视。因此,进行算法开发和设计的行业工作人员的无意识的认知歧视将被嵌入算法设计中,进而隐藏在算法应用的全过程中。如在性别识别系统中,易将“长发”作为一项重要的识别标识,这一固有印象会导致一些长发的男性被识别为女性。这是基于算法研发者的固有认知,而非刻意为之,但客观上造成了算法歧视的结果。其次,算法研发者为追求自身目的,设置显性歧视。依托于互联网的人工智能算法的数字资本主义的重点在于价值生产,即通过数字分析和精准预测可以带来实在的经济利益。[2]算法技术的研发前期需要大量的资金与技术资源,而这些资源的提供者往往期望算法的应用能给其带来更多的回报。因此,在算法研发过程中会有意地嵌入对其有利或能为其带来更多效益的歧视。如“大数据杀熟”。这种刻意为之的算法歧视危害性更强,因为刻意为之的算法歧视往往通过损害算法相对人的利益来获得更大的利益。“大数据杀熟”的典型表现为价格歧视与特定推送,通过算法的精准计算,针对不同的受众制定不同的定价方式,以此达到利益最大化。这种算法歧视对于算法相对人而言防不胜防,其无从知晓自己已被算法“算计”,且无处申冤。
(二)数据理解维度的歧视嵌入算法
与人为歧视不同,数据本身的歧视更为隐蔽。作为算法的基础,如果所输入的数据本身可能存在歧视,那么算法产出的结果必然带有歧视。数据理解与选择维度的歧视主要分为三类:一是数据选择偏差引起的歧视。少数样本与多数样本的选择将对算法的最终结果产生至关重要的影响。许多大数据算法的运算依赖于抽样运算法,如果在样本数据选择上就存在多数派与少数派,数据样本中的多数派与少数派被抽中的概率不平等,从而导致算法决策的结果将更有可能倾向多数派,而少数派将可能被直接淹没。二是数据代表性不足引发的歧视。算法运用的最终结果依赖于“原材料”即输入数据的质量,若输入数据不够全面,则输出的结果也不会全面,即产生数据暗点。据中国互联网络信息中心(CNNIC)数据显示,截至2022年6月,我国网民规模为10.51亿人,其中城镇网民占整体的72.1%,农村网民占整体的27.9%,从年龄上看,50岁及以上网民占比仅为25.8%。这意味着农村人口和老年人难以在互联网上留下数据痕迹,他们的诉求与倾向难以被算法捕捉。因此,算法在进行决策输出时,由于没有农村人口与老年人口的数据,其想法与需求将难以被算法纳入,进而导致输出结果的不全面。三是数据代表性过度。由于代表性的不足引起的歧视被重视和纠偏之后,也可能走向另一个极端,即数据代表性过度。数据代表性过度是指针对少数派数据进行刻意强化,形成数据亮斑,夸张真实数据,导致最终的算法输出结果难以反映真实情况,进而形成算法歧视。
(三)技术自身的歧视嵌入算法
首先,算法原理本身就是一种歧视。换言之,算法技术的运行就是一种“标签化+分类化”的过程。而“标签”的产生毫无疑问地会隐藏与弱化样本的多样性,使少数或隐性的样本被标签化所抹去,涉及了差别性的对待与不公。可以说,算法歧视是算法技术得以应用的前提,其次,“偏见进,则偏见出”的运行规则将加固歧视。即在算法运行过程中,若输入为垃圾数据,则输出亦为垃圾数据。《自然》社论一文,则用“偏见进,则偏见出(Bias In,Bias Out)”来描述。[3]基于此种特征,算法的自我纠偏难度很大。只要输入的数据是带有歧视的数据,则输出的結果必定是带有歧视的结果。这种运作模式将直接将人类社会存在的性别、种族等歧视带入算法技术运用过程中,并继续输出与加固此类歧视。如Google算法歧视案中,人们搜索非洲裔美国人相关名称时,往往会显示更多的与犯罪相关的信息[4]。这些结果反映的是过去搜索行为模式形成的印象,而不是程序员故意地创造了一种歧视性算法[5]。最后,技术自带的黑箱效应将对外界纠偏造成阻碍。算法的黑箱效应是指算法的运行过程不公开、不透明。由于存在“黑箱效应”,算法运行在数据输入与结果输出之间存在无法知悉的黑色空间,这也导致若算法技术在黑色空间内产生错误将难以被外界知悉与及时纠偏。进而导致由算法技术本身带来的歧视,在黑箱效应的强化后,难以被察觉与有效规制。
二、算法歧视的风险:引发风险的类型界分
(一)个人主体性不断丧失:个体权利的让渡与滥用
当带有歧视的算法技术渗入人类生活的方方面面时,个体出于对日常生活便利性的追求,主动、被动地向算法技术让渡自身部分权利。算法技术基于所获得的个体让渡权利,使个体的空间控制、时间控制、选择控制等各项控制能力削减,个体的自主性受到算法歧视的严重威胁。主要表现在两方面:一是自主选择权受到侵犯。算法歧视十分常见的一种表现形式为算法推荐,其通过获取算法相对人的基础数据输入,有导向性地为其推送更具有针对性的信息,即“越爱看什么越推送什么”。个体因对便利的追求赋予了算法技术“决策权”,这也导致了算法对个体自主性的侵蚀。算法的决策具有非常明显的归类性与重复性,利用算法技术进行决策将大大消解个体生活的自主性、偶然性、延展性,使个体更具有自我“个性”,而与社会的多样性脱节。更多的选择与信息难以被使用者看到,使使用者的自主选择权难以在一个全知全明的状态下行使,严重损害了使用者的自主选择权。算法推荐的广泛运用使用者成为一个个更狭隘、更极端的个体,使其丧失了极为重要的思辨能力。二是隐私的让渡导致全景监控。隐私信息能最精准、最真实地反映个体的特质。这种全景监控导致社会个体大量的特征数据与行为数据不可避免地被全方位采集,其中就包括大量个体不想被收集的数据,如个人兴趣偏好、行动轨迹、社交群体、亲密关系、消费水平等。但由于平台应用的普及与渗透,其利用便利性诱使个体主动让渡部分不想被收集的数据,或者直接在个体不知情的情况下秘密收集,严重侵害了个体的隐私权。此外,隐私侵犯问题不仅在于个人私有信息的“公共暴露”,更在于无声监控和暗中利用[6]。
(二)社会性风险不断加剧:不公平性与不平等现象普遍
算法歧视的本质即区别对待,它意味着不平等和非正义,会产生针对特殊主体的个体性规则,这种规则会突破法的一般性,产生马太效应,造成实质的不平等。[7]目前人类社会天然存在着一些不平等和非正义,算法作为人造物,不可避免地继承了这些偏见,而且变得更加隐蔽。随着网络平台大行其道,算法技术的渗透性不断增强,而这些不公平与不平等再次被吸收与固化,形成“自我实现的歧视性反馈循环”。[8]算法歧视带来的不平等和非正义一方面体现在对人类现实社会歧视观念的固化上,这类歧视根源于个人内心偏见,主要表现为因种族、性别、外貌、病症等群体具有一定特征性。但算法技术固化并传播了这类歧视,并将此类歧视转化为隐性歧视,是指表面上中立的规定、标准或惯例被适用于个人的时候,将导致具有某些特征的人(通常是少数群体或其他受保护的群体)受到不平等对待的结果。这种新的发展趋势为传统意义上的歧视提供了一块遮羞布,也为隐性歧视提供了保护网,算法社会中歧视会以一种更为隐蔽的方式进行。另一方面体现在更为现实的“价格歧视”等逐利目的上。这种歧视通过算法推荐充分利用了信息资源的不公正分配,针对不同人群的消费能力、消费习惯、接受程度等特性,制定不同的定价方案,刻意制造不公平不平等的局面,采用个性化定价,形成“千人千价”,其本质乃是算法控制者利用算法技术,进而容易制造社会不公平不平等现象。
(三)算法操纵性不断强化:信息茧房逐渐形成与固化
算法操纵侵害主要体现在“信息茧房”与“算法分类”等方面。“信息茧房”是指,算法技术通过所掌握的算法相对人数据内容、浏览记录等,对其进行标签化并精准推送其感兴趣的内容,使其如同生活在茧房中,知识信息逐渐单一化、自我中心化,侵害用户的信息自我决定权,造成社群沟通鸿沟[9]。“信息茧房”所带来的危害不仅局限于使个体的认知与价值观的固化,还将造成群体性的认知割裂,进一步导致社会的割裂,阻碍公共意识的形成。对于整个社会而言,算法歧视具有十分严重的负面影响。如以抖音、快手为代表的短视频潮流已席卷全球,其通过智能算法重复地向用户推送所谓“感兴趣”的内容,一步步固化用户认知与信息输入,在此背景下可以发现,网络针对一件事件的评价往往越来越极端,呈现非此即彼,非黑即白的“二极管”思维,也体现出了算法干预用户自主观念与意志的形成,对个人或群体进行支配或操纵,不利于人类思维的进步与社会的良性发展。
除“信息茧房”外,算法技术还会利用“算法分类”来进一步操控群体性行为。其同样是通过获取个体的个人数据,但与“信息茧房”的推送不同,“算法分类”将对个体的属性进行精准划分,使其成为一个个具有相同属性的群体,并将这一个个群体贴上标签,如具有“财务风险”“犯罪风险”等。而这些标签仅为是通过算法不够全面的分析而成,但对被“标签化”的个体带来的影响却是深刻存在于现实生活。“算法归类”使个体因担心算法会对自己进行分类与标签,可能会数字世界里压缩自己的行为空间,这在一定程度上也是对个体自由权益的侵害。但目前对于这种行为尚未被法律有效规制。
三、算法歧视的规制:多元化规制体系的构建
(一)数据主体赋权:平等权保护模式的完善
算法歧视产生的根本原因是算法研发者和控制者与算法相对人权利的不平等。但如果直接采取削弱算法技术的方式抑制算法歧视,将产生技术创新的阻碍,有悖于社会发展的趋势。因此,对算法相对人进行赋权是抑制算法歧视,是保护普通私主体平等地位的重要手段。一是赋予算法相对人要求算法解释的权利。算法歧视之所以会愈演愈烈就是因为算法控制者与算法相对人之间的信息鸿沟巨大。算法相对人无法知悉算法技术的运行规则与运行逻辑,导致其难以知悉权益受侵害,或者即使知悉也难以举证证明受侵害。面对这一困境,算法解释权成为监管者和数据主体制衡算法歧视的关键一环。[10]算法技術通过输入数据,输出结果的方式进行运行,但由于算法技术的高门槛性,普通个体难以知晓运行逻辑,这就造成了算法控制者与个体使用者地位不平等的局面。而算法相对人也有知晓算法运行是否公平的权利。赋予算法相对人算法解释权,有助于平衡算法相对人与算法控制者之间的权利失衡,弥合双方的数字鸿沟。二是增强个体对个人数据的控制权。算法隐秘或者“软强迫”地大量获取个体的信息是算法歧视产生的重要原因。增强个体对自身数据的控制权,是抑制算法歧视“釜底抽薪”式的手段。增强个体对自身数据的控制权可通过全面赋予个体有关数据处理的各项权利,如对个人数据的访问权、删除权、更正权、限制处理权等。通过完善个人数据控制的权利细节,将个人数据的处理与使用范围牢牢掌控在个人手中,个人数据的处理完全做到遵循个人意识,以此强化个体对个人数据的控制权。此外,还应对平台、企业等算法控制者收集个人数据进行更为严格的限制,在立法层面强化违法收集个人数据的惩戒力度。
(二)代码规则监督:算法治理手段的创新
算法的源头便是代码。所谓代码,是程序员用开发工具所支持的语言写出来的源文件,是由一组字符、符号或信号码元以离散的形式表示信息的明确的规则体系。[11]代码的规制不存在技术盲区,可直接深入算法内部,动态调整算法运行的规则,实现算法技术的灵活规制。可通过法律归化针对代码构建起一个从事前、事中、事后三个层面的规制体系,以完善规制代码。首先,形成一个完整的算法运行程序前,对代码的生成进行监督。对代码的事前监管即是在形成算法程序的初期,对代码形成的过程进行监督和审核,主要审核内容为代码的运行过程、运行结果、是否存在隐性运行内容等。查找代码明显或隐性的歧视倾向,突破物理空间的限制,对渗透到社会中边边角角的算法歧视进行根源治理,以解决法律滞后性和行为主义逻辑的局限性。其次,在算法运行期间,不定期对运行代码进行审核和检测,以确保算法运行期间的稳定与合法。算法运行期间,运用专业技术对算法的执行进行持续监测,可随时根据外部环境、指标、内容的变化进行风险防范,将流动的因素考虑在内,形成动态的算法监督体系。如果发现算法存在严重错误,应及时中止系统服务,并采取有效措施及时纠偏。最后,对代码进行事后审查,可对算法歧视进行有效归责。当算法的运行已经造成了歧视的侵害后果,对代码进行专业性审查,可有效确认责任范围与责任承担对象,有助于算法歧视追责体系的构建。算法作为一项技术,目前尚未在法律层面认定其具有民事主体地位,因此无法独立承担民事责任,但这并不意味着对其设计者、运营者、许可颁布者等主体也无需承担民事责任。在对算法代码进行审核的过程中,对于造成算法歧视有过错的算法设计者、控制者、许可颁布者均应进行追责,责令其对算法的代码进行合理修改,以有效规制与纠偏算法歧视。
(三)责任主体的延伸:平台与企业社会责任的承担
平台和企业基于自身目的大量收集用户数据并借助算法技术进行分析,带来巨大收益。网络平台与人工智能企业与传统企业最大的区别在于其利用技术优势形成了独特的双元属性,即其角色双元、情境双元、价值双元。借助其双元属性在社会中形成了“用户(数据)—平台—用户(数据)”的链接社会的基本关系,而平台就是这一关系的中心与连接。作为关键的算法主体,网络平台与人工智能企业兼具商业性与社会性。因此,面对算法歧视的问题时,平台与企业应发挥“守门人”的功能[12],全面承担起社会责任,以构建健康合理的可持续性算法商业模式。
首先,平台与企业应改变传统以纯粹商业利益为导向的价值目标,转而追求经济价值与社会价值双重价值目标。进行算法技术运行的平台与企业掌握着算法的设计、优化、应用的全过程,尤其是一些大型平台企业在本平台公共领域内拥有对平台企业内数据使用与算法使用过程的全方位权限。因此,若掌握算法技术的平台与企业能担负起社会责任,将以商业利益作为唯一价值目标的观念转变为追求经济价值与社会利益的双重价值目标观念,可促进技术中立向技术向善的转变。同时,在其领域内对算法歧视行为进行治理,将能最大限度规制算法歧视。其次,平台与企业基于其地位与优势,可实现数据、算法、用户的三重治理有机结合。平台与企业拥有海量数据与用户,又坐拥算法技术,若能在其领域内建立起包括算法歧视责任披露、算法歧视责任承担、算法透明度管理等在内的算法治理制度,将有效规制算法歧视并进一步完善算法治理体系。最后,要在立法层面明确算法歧视规制的平台企业主体责任。要强化平台与企业的社会责任承担,最关键的是要在立法层面对平台与企业的社会责任承担进行明确。我国2021年发布的《关于加强互联网信息服务算法综合治理的指导意见》中提出要强化平台企业算法治理的主体责任。据此可以看出,我国已将落实平台企业算法治理责任提上议程。平台企业的算法治理责任承担要求其在自身所能控制的领域积极发挥主体治理能力与治理权限,以双重价值目标为导向,积极将社会责任落到实处。
基金项目:江西省社会科学“十四五”(2022)基金项目“数字治理背景下平台私权力滥用的法律规制研究”(项目编号:22FX10);江西省社会科学院2021年度基金项目“三元结构视角下网络平台算法权力异化的法律规制研究”(项目编号:21QN01)阶段性成果。
参考文献:
[1]张中学,宋娟.偏见研究的进展[J].心理与行为研究,2007(2):150-155.
[2]胡凌.人工智能視阈下网络法的核心问题[J].中国法律评论,2018(2):86-95.
[3]Editorial.More accountability for big-data algorithms[J].Nature,2016:537.
[4]Daniel R.Shulman.Whats the Problem with Google?[J].THE Sedona Conference Journal ,2014:17-34.
[5]Richard A.Primus.Equal Protection and Disparate Impact: Round Three[J].117 Harv.L.Rev,2003:494-587.
[6]马长山.智慧社会背景下的“第四代人权”及其保障[J].中国法学,2019(5):5-24.
[7]崔靖梓.算法歧视挑战下平等权保护的危机与应对[J].法律科学(西北政法大学学报),2019(3):29-42.
[8]徐琳.人工智能推算技术中的平等权问题之探讨[J].法学评论,2019(3):152-161.
[9]姜野.算法的规训与规训的算法:人工智能时代算法的法律规制[J].河北法学,2018(12):145.
[10]张欣.算法解释权与算法治理路径研究[J].中外法学,2019(6):1428.
[11]郑智航.网络社会法律治理与技术治理的二元共治[J].中国法学,2018(2):117.
[12]肖红军.算法责任:理论证成、全景画像与治理范式[J].管理世界,2022(4):221.
作者:邱琳,江西省社会科学院法学研究所研究实习员
郭纯,江西省青云谱区人民法院法官助理
责任编辑:刘小侨