APP下载

数据伦理学的基本问题*

2021-12-02邱仁宗

医学与哲学 2021年7期
关键词:伦理学伦理决策

邱仁宗

1 问题的提出

当我们读到恩格斯[1]在《反杜林论》中说:“原则不是研究的出发点,而是它的终了的结果;这些原则不是被应用于自然界和人类历史,而是从它们中抽象出来的;并不是自然界和人类要适应于原则,而是相反地,原则只有在其适合于自然界和历史的情况之时才是正确的。” 这段话好像是针对一些试图以哲学/伦理学研究来解决科技中的规范性问题来说的。他们的出发点是找到一些理想的哲学概念,然后从中演绎出对科技的规范性问题的解决。这就是恩格斯在《反杜林论》中批判的思路。笔者认为应该相反,生命伦理学/科学技术伦理学的径路应该将科技实践中的规范性问题作为生命伦理学/科学技术伦理学研究的逻辑出发点;这些规范性问题是在科技创新、研发和应用的实践中才能鉴定(抽象)出来;在解决这些规范性问题中要形成一些伦理原则/准则/指南(研究的最终结果),即形成一个评价决策和行动是非对错的框架,帮助科技专家和治理机构做出合适的决策,采取合适的行动。研究的终点不是发表文章(发表文章是重要的),而是用研究的结果改进实践。因此,生命伦理学/科学技术伦理学研究的径路应该是实践-理论-实践。从原则或哲学概念和理论出发,要求科技发展适应它,是我国伦理学研究的主要“疾病”,这种“疾病”是从西方某些学派传染过来的。哲学界需要一次“改造我们的学习”。

随着信息和通讯技术以及人工智能技术的创新、研发和广泛应用,各企业、科研、医院以及政府各机构(尤其是民政、卫生以及安全部门的机构)掌握着顾客、病人或公民大量、巨量或海量数据;技术先进和经营良好的数字企业在国际上日益扩展业务、国外数字企业也在我国经营,凡此种种使得数据保护和数据安全问题日益重要和紧迫。

国际上有一种说法:数据安全有两种径路,一种是欧美各国的径路,重视个人数据安全;另一种是中国的径路,重视国家数据安全。但确实,我国有《国家安全法》,个人数据安全只有《民法典》中八条。我国个人数据安全是一个重要问题,需要一部个人数据保护条例。

2 数据的概念

数据(data)往往被称为新的煤炭或石油,后者推动工业革命,前者推动信息革命。数据类似煤炭和石油,经过加工后可从中提取价值。但有基本区别:煤炭和石油提取价值(能源)后被消费掉了,而数据经提取价值后没有消费掉,数据可被再利用无数次而不被消费掉或减少;数据可共享或出售而无需最初加工者放弃它;数据可以多种独立的,甚至未知的方式被利用,最初也许是不明显的,也许仅仅在未来,也许当数据集被组合起来时才变得明显。

2.1 数据的价值

数据的价值和价格取决于情境(context), 这也与化石燃料不同。数据仅在某种情境内存在。孤立的数、数目(number)不是数据。数成为数据仅当提供补充的元数据(关于数据的数据,如一个文件的元数据可包括类似作者、文件大小、文件建立日期以及关键词等信息的集合),至少必须规定测量的单位。规定测量单位就是要将某一客体置于另一个客体的情境内进行比较。例如,41,单单41这个数不是数据,没有价值。必须提供与41有关信息的数据集(元数据),使41处于一定的情境内才是数据。如我们说“第41个”,再进一步说前苏联有一部电影名为《第41个》。那么41这个数就处于与元数据联系在一起的情境之内。有的俄罗斯电影制片商也许为电影故事的情节所感动决定重拍这部电影。但“第41个”也可以处于另一情境之内,这是讲在阿尔卑斯山麓有一个圣伯纳修道院,院长凡蒂斯养了一条名叫黑蒙的救生犬,经常救助爬山遇险的人,有一次在救出40个遇险者后,再去救第41个遇险的人,该人神志昏迷,以为黑蒙是一条狼,用枪把它打成重伤,黑蒙带伤回到院长身边死去,但这第41个人安然脱险了。39这个数字,如果是指体温39℃,那么在感冒和新冠疫情的情境下就有不同的意义。在生物样本和数据库内,样本的数据必须与临床、行为方式以及环境的数据结合起来,才有很大的价值[2]。

2.2 数据的自动获取

在现代,数据科技影响社会,其驱动力之一是数据往往(并非总是)在某些活动过程中被自动获取。这意味着在以后分析的大量数据集时无需追加努力或资源。这些数据是观察性的,它们不是在干预(如临床试验)过程中有意收集的,因此就可能有未知的、未曾预期的(unsuspected)偏差和歪曲的风险。例如,我们每个人每天在微信上的聊天记录都保存在腾讯公司,同样我们在淘宝或京东购买商品,你的信息就会保留在淘宝或京东。这些公司积累的有关客户的数据是被公司自动获取的,不费他们吹灰之力。这不同于管理数据(administrative data),管理数据是政府或某个组织为了解发生的真实情况以及为了改善管理而有意收集的数据。这类数据更接近社会实际。因为这些数据告诉我们这些是什么人,他们干了什么;而不是数据综述告诉我们,他们说他们是谁,以及他们声称他们干什么。

自动获取数据的其他含义还有:(1)无需努力获取数据后人们的态度往往是“可能有用,留着它”。可是仅仅因为拥有巨量数据,并不意味着它们一定对帮助解决我们的问题有价值。(2)“数据多多益善”。记录一切的做法部分是因为数据在未来可能有用,部分是因为记录这些数据太便宜了。这违反了数据最少化原则(data minimization principle),即应该仅储存为了某个目的所需要的数据。(3)“数据阴影”。由于积累大量数据的成本低廉,使我们个人处于长长的数据阴影之中。这些数据痕迹产生于日常生活之中,如使用信用卡、旅行卡、参与社交媒体、网络搜索、收发电子邮件、打电话等。这些痕迹揭示了人们做什么,他们与谁交往,他们的兴趣是什么,甚至他们的信仰是什么。追踪某人数据隐秘的能力可追踪恐怖主义分子和不法分子,但也可能追踪被冤枉的守法公民,或者被人讹诈。与实在的阴影不同,数据阴影可逗留很长时间,使我们在未来遇到可能的难堪,甚至更糟的处境[2]。

2.3 个人数据

数据的大多数伦理问题与人(person)的数据有关。欧盟定义个人数据(personal data)为:“任何与已辨识身份或可辨识身份的自然人(数据主体)有关的信息;可辨识身份的自然人是可以直接或间接地通过参照一个身份辨识符,如该自然人的名字、身份证号码、位置数据、在线身份标识符或一个或多个因身体、生理、遗传、精神、经济、文化和社会身份而异的因素而有可能辨识的自然人”[3]。这一条例增大了处理个人信息者的责任和问责层次,并要求各机构在数据严重泄露的情况下(如果可能的话),在24小时内尽快通知国家主管部门。它也给个人更大的控制权(自主性),个人将更容易获得“自己的”数据,以及拥有“被遗忘的权利”(right to be forgotten),以使他们可以请求自己的个人数据被删除,如果没有正当持有的理由的话。对违反该条例的组织进行处罚(问责),罚款可能高达全球营业额的4%。

3 数据科技的伦理问题

数据伦理学是伦理学的一个新分支,是研究与数据(包括生成、记录、策展、处理、传播、共享和使用)、算法(包括人工智能、机器学习和机器人)以及相应实践(包括创新、编程、黑客行为和专业行动规则)有关的伦理问题,以提出和支持在伦理学上得到辩护的解决办法(即正确的行动或正确的价值观)。数据伦理学建立在计算机和信息伦理学基础上,但它将从以信息为中心转变为以数据为中心。这种转变使我们集中于各种数据的不同伦理层面,即使这些数据尚未直接转化为信息,但仍能被用来支持某个行动。这也强调数据科技提出的伦理挑战的复杂性。由于这种复杂性,数据伦理学从一开始就应该是宏观的,即在一个整体的、包容广泛的框架内研究数据科学及其应用的伦理含义。在这一宏观伦理学中,数据科技、数据背后的人以及社会之间的相互作用、相互影响都要考虑到。唯有这种宏观伦理学,数据伦理学才能提供使数据科技对我们社会、对我们所有大家、对我们的环境的价值最大化的解决办法。

由于数据及其使用的特殊性,使得数据科技与其他新兴科技有所不同,例如,现代数据科技无所不在,与数学、逻辑、语言、交通一样,已经成为社会基础设施一个方面;数据之间相互联系,有关旅行或购物的数据可能发现其他东西;数据具有动态性质,现代的数据与时俱进,不断积累,使得在未来做出今天不可能做出的发现;有了数据就能做出实时和在线的分析与决策;通过合并和组合数据做出协同分析;数据不受空间、时间和社会情境的限制;能够用于意料之外的目的,并揭示意料之外的信息(这是数据挖掘的核心目的);由于不可能避免个人数据储存于多元数据库,就有例外侵入的风险;有被误用、隐私泄露、敲诈或其他犯罪的可能;微妙的所有权问题(“我的”);数据也许也是你的数据;我可以出卖“我的”数据同时保留这些数据,这些特殊性有可能提出新的挑战[2]。

数据伦理学的基本伦理问题是:一方面要促进数据科技的发展和应用,另一方面要确保对数据后面的人的尊严与人权的尊重。鱼和熊掌必须兼得。忽视伦理问题,会发生令人遗憾的后果,促进负面的影响,遭到社会的拒绝(social rejection)。必须考虑社会的可接受性(social acceptability)。社会的可接受性是基于伦理的可接受性[4]。转基因是一个例子。笔者与做转基因的科学家讨论过,要证明转基因食品的安全性,让使用者放心,就要做动物实验,像新药的临床试验一样。可是他们强调同质性以及“美国没有做”,就一直不做。同质性是分子层面的,在亚分子层次有没有差异呢?美国没有做也不是理由。所以他们一再强调转基因食品是安全的,但没有临床前证据。另外,我们强调安全性与消费者的知情选择不是一个问题,即使转基因是安全的,但是一些自然主义(崇尚自然)者或信奉佛教的人不愿意吃,我们应该给他们一个选择机会。科学家和政府都不能强迫老百姓吃仅由他们提供的食品。所以这些科学家和厂商一直拒绝贴标签,你不贴标签,那些制造非转基因食品的厂商他们贴标签:这是非转基因食品。这说明某些科学家对伦理问题不敏感,认为只要农业部支持他们就行了,不主动与公众沟通,结果遭到社会的拒绝。

然而,过分强调个人权利的保护,可能导致太刻板的监管,反过来妨碍数据科技实现其社会价值的机会。在互联网中我们要获得一定的受益有时就可能冒一定的风险(如隐私泄露),我们不可能绝对地保护个人隐私。要绝对地保护个人的隐私权利,那就不要上网,这样上网的受益也就没有了。绝大多数用户是做了受益与风险的衡量后决定上网的。

数据科技的伦理问题在这里主要讨论核心的伦理学价值、风险-受益评估、尊重人的自主性和知情同意、算法偏差等几个有特色的伦理问题。但先要谈谈不同文件强调的数据伦理学的核心问题。

3.1 核心价值

《欧盟数据保护概述》的作者认为人的尊严(human dignity)是中心驱动力,更好地尊重和维护人的尊严可以用来抗衡无所不在的检测以及个人现在面临的权利不对称[4]。因此,它应该成为新的数字伦理学的核心[5]。然而,从概念上说人的尊严是绝对的和平等的,这完全可以得到辩护,然而,在操作层面上难以给人的尊严下一个精确的定义或规定一个具体标准来测量某一行动是尊重或不尊重人的尊严。而且还有并非是人的,动物、植物、生态有无尊严问题。

由各大学组织的信息技术治理理事会(IT Governance Council)下属数据治理工作组(Data Governance Working Group)则认为“人的繁荣”(human flourishing)应该是指导制定数据治理体系的支配一切的原则。“人的繁荣” 被定义为在一个更大的个人共同体的情境内取得自我实现(self-actualization)的努力,每个人都有权从事这种努力[6]。“人的繁荣”也是一个难以界定的概念,“自我实现”又是指什么,可能会有许多种解释,因而也难以操作。笔者认为,核心价值永远是两个而不是一个:一个是我们发展科技是为了增进人的福祉 (human well-being):(1)个体、各类群体(性别、种族、民族、宗教、性取向等)、整个社会、人类、未来时代的福祉都要考虑在内;(2)福祉包括健康、安全、尊重、理性和情感方面、足量的美好生活(小康);(3)要发展科技使人的受益大大超过风险,不要追求零风险,而要确保风险在可接受的阈值以下。另一个就是对人的尊重,尊重数据背后的个人,对人的尊重包括对人的尊严的尊重,尊重人有明确的要求,尊重人主要是尊重人的自主性,因此产生了知情同意的伦理要求,尊重人也包括平等对待他人,不歧视人,保护人的隐私,以及科技成果的公平可及等[7]。

3.2 风险与受益的评估

数据是有待发掘的矿藏。经过整合分析可提供:洞见(insight,深入的、抓住事物要点的、能从新的角度看问题的见解),决策(decision-making),做出无假说的科学发现(scientific discoveries without hypothesis),其终端产物是新型产品、新型服务、满足新的社会物质文化需要、新疗法、有效的疾病、污染和犯罪的控制和预防,等等。例如,从大规模收集的医疗记录推论出疾病进展和有效治疗的结论。显然这使公众受益,但同样清楚的是,有关描述病人的数据在某一层次会被泄露,他的隐私可能处于风险之中[2]。

伤害/风险(可能的伤害)。目前在运转中的数据可能产生两类伤害:有形的伤害,如损害健康、财务损失或受到歧视;无形的伤害,如隐私被侵犯,个人可辨识身份数据落入那些会损害他们利益的人手中,引起人们极大的苦恼和焦虑;被排斥在服务、设施或机会之外。因此,各机构需要有发现和减轻因数据伦理薄弱而产生的风险的流程,未能辨认或处理误用或误解数据的风险,可能有严重后果。尤其是,这使在未来纠正积累的风险更难甚至不可能。如果这些风险未经核查留下来,一个产品或一项服务对数据的使用就有可能会降低甚至破坏一个消费者对品牌的信任。所以81%的执行官同意,随着数据的企业价值增长,公司面临的不当处理数据的风险呈几何级别增长。与数据有关的风险往往有两种类别:一类是无意泄露原始数据,如用户的照片或他们的信用卡信息;另一类是基于一位用户的数据做出不适当的决策。这些决策可以是人做出的决策(如决策是否服药),或混合决策(如是否提供贷款的影响引用报告的决策),或机器决策(如根据流量数据改变自动驾驶车路线)。

减轻这种伤害并在它发生时做出反应的策略取决于所做的决策的类型,包括撤销和分布式删除。虽然发布前的设计对于满足“不伤害”的期望非常重要,但是能够适应发布后的设计也同样重要。例如,用户直接提供他们自己的数据的社交网络 (无论是公共消费还是私人消费)很可能会从第一天开始就有隐私控制。然而,系统的所有者可能发现用户不知道可得的隐私控制,那就要引入一个通知/提醒用户可得设置的功能。在这种情况下,用户应该能够回顾性地影响他们过去共享的数据——即用户对隐私设置的任何更改都不仅会影响未来共享的数据,还会影响之前共享的数据。通过这种方式,一种最初不能做到完全知情同意的系统可以随着时间的推移被调整为允许撤销同意。然而,这样的能力要求系统设计者为适应和未来的变化做好规划。

而且,考虑到各种软件特性的相互依赖性,如果发生入侵或意外影响,计划应该包括如何从整个数据供应链中移除数据——而不仅仅是一个公司的服务器。降低与数据使用相关的风险的一个做法是处于共享计算资源网络中的利益攸关者之间进行协调。随着数据分析能力的进一步发展,其数据被收集的人面临的风险也在增加。以前匿名化的数据变得去匿名化的可能性随着每次新的进展而增加。固有偏差是通过算法选择、训练数据和假设测试引入的,这会导致有偏差的自动决策。分析可以发现以前无法可得的信息,例如,在某些情况下,政府已经有可能利用大数据分析发现原本仍处于秘密的犯罪行为。我们应该如何处理这些信息?当罪犯是恐怖分子或性侵者时,这个问题是否更容易回答?如果政府是一个压迫性的政权,而犯罪是违反了与审查有关的法律,那该怎么办?很难想象这些领域中意外后果的潜在危害,更不用说采取积极步骤为这种伤害做好准备、减轻伤害并从中恢复[8]。

与伤害有关的问题是:数据的安全和安保。数据安全(safety)关注通过确保安全存储和定期备份数据来保护数据不受损失。数据安保(security)关心的是保护数据免受未经授权的使用。未经授权的使用造成对个人、社会和国家的伤害:窃取、欺诈、讹诈、黑客攻击、个人反社会行为(瘫痪电网)、恐怖主义袭击等。必须明确谁可以访问数据,谁不能;谁可以更改数据,谁不可以。

3.3 知情同意及其困难

在生物医学研究中知情同意这一伦理要求,不仅在实践中更为具体化,而且有许多的论述已经得到科学界和监管界的公认,例如,将有关研究的信息全面忠实地告知患者,帮助患者理解提供给他们的信息,以及在不受强制和不当利诱的情况下自愿、自由地表示同意参加研究。这被称为“有效的知情同意”。在数据科技的情境下有两个特点:其一,现代大数据的未来应用是未指明的和未知的(实际上是不可知的)。其二,利用业已存在于数据库的数据进行的研究大多数是非干预的。

欧盟《通用个人数据保护条例》概述指出,处理个人数据应该在有关数据主体同意的基础上,或在法律限定的其他合法基础上,才可成为合法。不过,出于公共卫生领域公众利益的理由,未经数据主体同意而处理特定类别的个人数据可能是必要的[4]。

一般而言,使用数据的知情同意需要两个条件:(1)了解该数据将来可能用于什么用途,以及(2)了解该数据将如何被使用。第一个条件有困难,因为如上所述未来的用途是未知的。此外,数据可能会与其他数据集合并以揭示二者单独之中未包含的有价值的信息,但也许不可能说任何给定的数据集将做什么用途。数据集的合并对于探索一个群体的集合性质通常很有价值,如当两个变量来自两个不同的来源时,它们是否相关。然而,合并对于与个人相关的决策也很重要。许多分析的本质就在于,他人将来自个人的数据与来自这些个人组成的一个群体的汇总数据结合起来做出决策。例如,临床试验收集了来自受试者的数据,其结论随后用于决定个体病人的治疗方案和剂量[2]。

上述第二个条件假定被要求同意的人具有了解数据将如何被使用的专门技能和知识。这显然比较困难。现代数据分析工具,如神经网络、支持向量机和集成系统,相对复杂和难以做简单的解释。然而,数据主体有权获取“有关相关逻辑的有意义的信息”,数据主体有权“获得对评估后做出决策的解释”[4]。这是一个难以做到的挑战。

因此,在数据科技伦理方面,知情同意有两方面的困难:知情的困难和同意的困难。知情的困难是由于未来的使用未知,而且可能与其他数据合并以揭示任何一个单独数据未包含的有价值信息,也许不可能说出任何给定的数据集将对哪些使用做出贡献。如何解决未来利用的未知性?期待人们列出所有未来使用领域似乎是不可行的。同意的困难是由于难以理解,现代数据分析工具(如神经网络、支持向量机和集成系统)非常复杂,难以做出简单的解释。难以理解如何同意?建议是:(1)数据的再使用属于非干预性行为,对数据主体的风险较小;(2)告知数据主体未来使用的未知性、不可预见性、难以理解性本身就是在知情要素范围之内;(3)难以列出未来使用的范围,但可以列出可能的负面清单。

3.4 算法中的伦理问题

算法本身是计算机处理数据方法所不可缺少的。换言之,算法是计算机采取的一系列步骤以解决一个特定的问题或达到一个规定的结局。算法的作用有:确定优先次序,当算法确定优先次序时,它们会不顾及其他事物,让人们关注某些优先事物;分类,是通过查看任意数量的实体特性,将特定实体归类为给定类的一个组成部分的决策;关联,是标记关系;而过滤是排除信息(或其他输入或输出,取决于系统)的行为。并非所有的算法都引发伦理问题。但算法的属性需要我们对算法进行伦理审查:复杂性和不透明性、把关功能、主观决策。

3.4.1 复杂性和不透明性

足够复杂的算法通常对外部观察者来说是不可理解的,甚至对人来说是难以理解的,即使它们的源代码与有能力的观察者共享。在有很多选择的地方,就有内置的价值、偏差和潜在的歧视,这些并不总是容易看到或得到的。广泛的输入范围,加上内部步骤和分叉的范围,以及与环境的动态相互作用,意味着算法行为在某种程度上类似于生物体:不容易理解或预测它们做什么以及如何做,即使我们对它们如何工作有一个大致的理解。复杂而不透明的算法可能使人们难以理解它们的过程或干预它们的效应。复杂而不透明的算法最明显的例子是脸书的新闻推送,它的10亿多用户可以访问家人、朋友、熟人、市民或公司页面的更新,而新闻推送是由一个算法来策划的,这个算法决定什么该显示,什么不该显示。算法由一个26岁的工程师领导的研究团队每周进行调整。笔者猜测在我国绝大多数使用社交媒体的人都不知道有算法存在。正如这个例子所说明的,足够复杂的算法对外部观察者来说实际上常常是不可理解的,尽管它们不可避免地有内置的价值、偏差和潜在的歧视。在呼吁对算法进行监管或对它们要问责时往往忽视算法操作的复杂和不透明的本质。

3.4.2 把关功能

算法需要伦理考虑的另一个原因是,它们扮演着把关人的角色。越来越多的算法帮助我们做出更好的决策,但由于算法也时常发生偏倚,依据算法的决策也许是错误的,甚至是歧视性的。在将人工智能应用于医学时尤其应该注意。例如,在医用人工智能系统中我们依靠算法检查出疾病,改善诊断和治疗,管理慢性病,做出疾病流行的预测,提供医疗和公共卫生服务,改进临床试验以及发现新的药物。这帮助我们应对重要的医疗卫生挑战,但如果所得的数据有限或质量不高,尤其是数据中包含对某个群体(如女性、少数民族)的歧视,就会出现种种伦理问题,如做出错误的决策。例如,在2015年的一项临床试验中,一款人工智能APP被用于预测哪些病人在患肺炎后容易发生并发症因而住院。但由于其算法不能考虑情境信息,这款APP错误地指示将居家哮喘病人收住入院。如果算法所依据的数据含有对性别、种族、残疾和年龄的歧视,那么算法就会反映和强化过去数据中的偏倚与歧视。算法和机器学习利用来训练人工智能的数据集可能不代表整个人群,结果可能做出反映歧视的不公平决策,从而影响属于受到歧视的群体(如女性、少数民族和老年群体)的病人的生命和健康[9]。另有文章也指出,人工智能系统本身往往具有歧视性,因为训练算法的数据集本身有种族偏倚,这个数据集是由占病人大多数的白人的数据构成的,因此,医生利用人工智能系统治疗病人时就会发生种族偏倚:他不能给黑人或其他有色人种的病人提供合适的治疗[10]。

算法扮演的把关角色还包括招聘和解聘。例如,在招聘决策(以及解雇决策)中,算法正越来越多地发挥重要作用。招聘和就业对个人和社会都有重要的影响。在招聘、解雇和类似领域的歧视有可能产生终身影响。招聘(解雇)是研究算法伦理的重要案例,因为它们表明答案不能简单地是“人做得更好”,追溯几十年的研究也表明,人类管理者在招聘方面存在显著偏见,如人们倾向于从自己的社会阶层、种族和性别中招聘。面试是一个令人担忧的部分,因为持续数小时甚至数天的面试并不能很好地预示未来的工作表现。非洲人的“名字的声音”——在美国就业市场,即使拥有学院学历,没有犯罪背景,但有一个听起来是非洲裔美国人名字的申请者,与没有学院学历、有犯罪记录的,但有一个听起来像白人名字的申请者相比,往往处于不利地位。在过去,女性很少在公开试唱中被选为著名交响乐团成员。然而,在越来越多的投诉之后,评判员使用了帘子,只听到演奏的乐器声,而没有看到音乐家。这使得更多的女性通过了测试。显然,人力招聘系统远非完美。目前,越来越多的公司开始采用算法招聘,在某些可衡量的维度上,算法比人工招聘更加精确。与所有这些系统一样,该系统的力量部分来自于输入该系统的越来越多的个人数据,以及输入系统的未来绩效评估。事实上,许多算法正在变成越来越能学习的算法。这意味着算法不需要被告知规则是什么,而只需要提供输入和期望的输出。

3.4.3 算法的主观性决策

很多关于算法和自动化的辩论都集中在有正确答案的案例上,这些问题是,算法是否能找出这些问题的答案与人一样好,或比人更好。IBM的人工智能计算机沃森能战胜《危险边缘》竞赛节目超级冠军肯詹宁斯(他赢了74次,获奖252万美元)吗?自动化系统能控制飞机或驾驶汽车吗?电脑可以理解人们用简单的语言交谈,而不需要我们把它翻译成计算机可读的格式?算法能像医生一样预测心脏病发作吗?算法在有正确答案的地方,如医学诊断或驾驶飞机,提出了许多重要的问责、就业和人类技能在我们这个世界的作用等问题,但是评价这些算法的情境与没有可检查正确答案的地方的算法迥然不同。

随着算法从下棋转向在线配对约会和选择新闻阅读,这些算法回答的是一个全新类别的问题。什么是重要的? 什么是相关的? 什么是爱?什么值得注意?什么应该被忽视或压制?你应该看什么或读什么?谁对公共安全构成威胁?谁对公共安全不构成威胁?应该允许谁去开飞机?你应该和谁约会?这些类型的决策是与纯粹基于过硬事实做出的客观性决策,不同于主观性决策,掺杂个人视角、情感和意见在内。而在大数据时代,我们越来越多的、悄无声息地交给算法去做决策。2014年初,芝加哥警察局因探访被认为最有可能参与暴力犯罪的居民而成为全美的头条新闻。警察局使用了一种试图预测未来参与暴力犯罪的算法。这个算法列出了一份可能要探访的名单。虽然官员们已经给出了一些算法是如何运行的迹象(如它要考虑遭逮捕记录),但没有公开描述算法的操作或输入。美国的《信息自由法》要求人们能够看到名单上的名字,但遭到拒绝。无论某些系统是否能有效地减少犯罪,基于许多理由用算法预测未来犯罪行为都存在问题。主要的担忧是,这种自动化系统可能会产生一种“回音室”(在一个人仅仅遇到与他们自己的信念和意见一致的环境下,他们现有的观点会加强,而不考虑其他的想法),或自我实现的预言(一种使预言成为现实的社会心理现象,卡尔·波普尔称之为“俄狄浦斯效应”)。警力更多的地区或社区也会增加犯罪被发现的可能性,因为更多的警察意味着有更多的机会观察居民的活动。与此同时,对特定地区或社区的关注可能减少了其他地方的警力。此外,“预测”就是预测,不能保证它们都是正确的,有假阴性(未来的犯罪没有发现)和假阳性(寻找不存在的犯罪)。如果警官们根据不正确的预测行事,他们可能会因抓不到真正的犯人而感到内疚。除了在接受调查之前受到讯问或受到密切观察的消极影响外,警察人数的增加可能在法律适用方面有系统偏见的地区造成进一步的复杂情况。专家们建议为解决算法引起的伦理问题,应该采取算法透明和通告,增加算法可问责性,以及政府对算法进行直接监管[11]。

另一个要考虑的问题是机器决策与人的决策之间的区别。人们相信智能手机可以跟踪日历事件,或者连接恒温器来控制家里的温度。然而,许多人会犹豫是否接受一个对人类生活有直接和重要影响的机器决策。研究表明,人类对他人所犯的错误更宽容,对算法所做的决定更挑剔。这种有偏见的反应有两个基本理由。第一,人不会对机器有同情心,因为机器是没有生命、没有思维的系统。在法官决定判处一个人终身监禁时,要考虑该人在犯罪行为发生时的生活背景和精神状态。对一台机器来说,很难考虑这些情况。第二,机器的“思维过程”通常被认为是冷酷无情的。与之相对照,对人而言,伦理决策需要同情心、对人类价值观的理解,以及在多种情境下同时评价决策的能力。如果人类不相信机器有这种认知能力,那么他们自然会怀疑机器在涉及伦理的情况下做出的决定,或者更糟的是,在决定另一个人的未来生活的情况下做出的决定。

专家们建议系统的设计和使用必须充分考虑这些伦理挑战,以实现其使社会充分受益。设计师和用户在认识到这些伦理问题后可避免对他们自己和他们希望服务的社区的重大负面后果。监管和政策必须在管理这些算法“生态系统”和减轻此类风险方面发挥作用。更好的监管和政策可以通过制定更好的预防危害的防范措施来帮助解决问题。在这样做的时候,监管机构可以要求各机构考虑他们的算法行为的影响,并要求他们为这些算法执行中的伦理失误问责[12]。

猜你喜欢

伦理学伦理决策
《心之死》的趣味与伦理焦虑
为可持续决策提供依据
开拓·前沿·创新与学科建设——简评《中医生命伦理学》
“纪念中国伦理学会成立40周年暨2020中国伦理学大会”在无锡召开
护生眼中的伦理修养
决策为什么失误了
伦理批评与文学伦理学
医改莫忘构建伦理新机制
“蚁族现象”的伦理学思考
婚姻家庭法的伦理性及其立法延展