社会和技术属性与算法偏向
2022-05-30陈昌凤
【摘要】算法的技术性沿袭并外化了算法的生物性表征,建立了诸多算法物质性、社会性层面的关系;算法的社会性,是算法依托技术逻辑而形成的制度延展或文化实践。算法不只是严格限制和程序公式,不是超越人类网络的行为体,不是自主的技术对象,而是复杂的社会技术系统。人类所具有的善恶、文化差异、意识偏见,也会反映于算法之中。算法的偏向,除了技术的偏向、工程师可能的人为偏向外,最大的偏向往往出自于技术与社会和人的互动之中。
【关键词】算法的技术性 算法的社会性 人工智能 算法的偏向
【中图分类号】G206 【文献标识码】A
【DOI】10.16619/j.cnki.rmltxsqy.2022.17.010
人工智能正在深刻改变人类历史进程,它的核心就是算法。算法(algorithm)是在执行计算或解决问题时,遵循一组包含离散步骤或规则的过程。[1]算法如今几乎无所不在,从航班安排、飞机驾驶,到经营管理、快递运输,从任何一次网络搜索、到打开任何一家社交媒体,都会经过算法。
算法来自计算机科学,是在简化复杂问题中开始的新探索:告诉计算机该做什么的一系列指令——计算机是由几十亿个微小开关(晶体管)组成的,算法能在一秒内打开并关闭这些开关几十亿次。算法尝试探索复杂问题的一般原理,建立一套逻辑:可以对特定的输入进行处理,获得符合预期的输出,是自动化执行人类意志的计算工具。每年都会出现上百种算法,不过它们都是基于几个相似的基本思路:它们因为思路的不同而被区分为5个主要学派,各学派有其主算法——符号学派的主算法是逆向演绎,联结学派是反向传播,进化学派是遗传编程,贝叶斯学派是贝叶斯推理,类推学派是支持向量机。如今的目标是创造综合这5种算法的终极算法。[2]近年来的国内外研究中,算法的不同面向都受到了关注,诸如“算法是工具”“算法是规则”“算法是权力”“算法是主体”“算法是想象”“算法是价值表达”。[3]算法被广泛运用于社会生活的各个方面,成为中介化社会的工具——算法中介,甚至被当作支配世界的核心,21世紀是由算法主导的世纪。算法化、数据化正在成为一种普遍的认知范式,它们在重构和规训整个社会,带来了诸多从伦理观念到实践的问题。[4]
算法在生成结果中系统性的、可重复出现的不同对象有不同的输出结果,或者是相同、相似对象输出了相异结果的现象,即为算法偏向(Algorithmic Bias)[5],它是算法在决策过程中对特定偏好、信念或价值观的一贯和反复表达[6]。算法的偏向是一个受到普遍关注的论题。算法可以从生物性、技术性、社会性和物质性等不同角度去理解。[7]本文将从算法的不同属性视角,从技术性层面的运作机制,到社会性层面的互动应用,讨论和剖析两个问题:算法偏向是如何形成的?算法偏向问题与算法的不同属性有何关联?
关于算法中立的争议
算法正在被越来越广泛地应用于各个领域,诸如法院、公安、银行等各种机构,正在使用自动数据分析系统来作出各种决策,包括诸如假释、量刑、布警、抵押贷款、发放信用卡等各类事项。在许多情况下,人工智能系统在很多问题上都能做得比人类更快、更准确、更可靠、更公正,自动决策系统(automated decision-making)可以提高公平性和效率。人类作决策更有可能带有情绪,受环境和语境的影响,甚至工作的间隔、不连贯,都可以影响司法标准。美国有研究表明,如果是在刚休息过或用餐后作出决定,那么假释委员会更有可能释放罪犯。法庭裁决部分取决于法官上次吃零食的时间。[8]而自动决策系统可以发现此类不一致之处,改进流程。
但是,算法又存在许多问题。英国《金融时报》的知名记者吉利安·泰特(Gillian Tett)曾经写过一篇文章《绘制犯罪地图——或激起仇恨?》,回顾了美国芝加哥警务系统2010年至2011年的预测性警务行动(predictive policing initiative),该行动根据历史犯罪数据绘制预测性的算法模型,告诉警察去哪里更容易找到罪犯。模型发现,大多数暴力事件仅发生在市区的10%的区域,大部分与帮派在贫穷地区(往往是黑人或西班牙裔)的行动有关。报道说这个模型的应用取得了令人瞩目的成果,在第一年,芝加哥地区的谋杀案发生率下降了5%,然后继续下降。到2011年夏天,芝加哥的年度死亡人数很快降至400人以下,是自1965年以来的最低水平。但是芝加哥警方进行算法预测时,存在种族间严重失衡。数据的种族失衡,是否可能加剧现有的人为偏见或种族特征?算法预测模型是不是一种中立的工具?计算机专家认为该程序与种族完全无关,而是多变量的方程。[9]
泰特在文章中指出,算法本身是中立的。但是她的文章立即引来了批评,认为她是在为种族主义做广告,认为她说的算法中立是不存在的,关注人类行为的算法不可能中立。任何经过历史数据、人类行为训练的算法,都会将历史和文化习俗嵌入和编码于其中。[10]
基于算法的应用,由于种种原因,带来了偏向的后果,比如歧视。卡内基梅隆大学研究人员的一项研究发现,谷歌的在线广告系统存在巨大的性别薪酬差距,该系统向男性展示高收入工作广告的频率,要比向女性展示此类广告的频率高得多:广告中20万美元以上的职位,推荐给男性的次数是1852次,而推荐给女性的次数仅有318次。他们研究了更改性别设置如何影响广告、与性别相关的网站访问记录如何影响广告。[11]类似的研究还有不少。
技术属性的算法:学习和决策机制
算法的技术性,是指算法作为推理程式本身的逻辑和规则。这一特性也是目前算法最受关注、应用最广泛的属性。算法的逻辑和规则,可以导出其机制。算法的机制,就是将决策问题的历史实例(即所谓训练数据)输入并生成决策规则或分类器,然后将其用于问题的后续的实例。算法在应用中先后经过两个阶段,第一个阶段是机器学习,是通过对数据集的“学习”,产生对于客观世界的“认识”——人工智能必须依照既定的、人类所撰写的程序,再对人类制造的信息进行“学习”;第二个阶段是算法决策,是基于机器学习进一步作出决策、输出信息,即算法决策,是根据第一阶段的“学习”结果,根据特定的模型作出自动化决策。
关键就在机器学习阶段。在这个阶段,算法是要通过相关的历史数据形成“认识”(规则或分类器),因此,足够的数据(包括数据质量)就显得特别重要。如果训练这些人工智能所使用的数据存在偏见,那么可能会导致机器自动歧视。一种机器学习是通过训练的数据获取统计模式,通过数据的集合定义数据的特征,形成观点。训练数据中带有针对不同性别或者不同群体的现有社会偏见,那么机器学习就可能纳入这些偏见,这样对第二阶段的决策就会产生影响。比如,非裔美国人、程序员Jacky Alciné发现,Google相册自动将他和朋友的照片标记为包含“大猩猩”。Alciné和其他人将这种算法输出归因于训练标记系统的数据缺乏多样性,以及生成它的编程和测试团队也缺乏多样性。[12]再比如,哈佛大学的一项研究发现,在线广告投放中存在歧视,有关逮捕记录的广告,更有可能出现在搜索明显是黑人姓名或较有历史的黑人团体的广告中。[13]又如,华盛顿大学的研究发现,在Google图片中搜索“C.E.O.”(首席执行官),尽管美国的首席执行官中有27%是女性,但在谷歌搜索的结果中女性首席执行官只占11%。[14]这样的结果,很有可能是数据集的偏向造成的。数据的量不足、样本不全面等,都可能造成机器学习的不公平,从而带来算法决策的偏向。
在美国,法官、缓刑和假释官员越来越多地使用算法来评估刑事被告成为累犯的可能性,有几十种这样的风险评估算法正在被使用,许多州已经建立了自己的评估算法系统。ProPublica在2016~2019年曾经做过六十多篇“机器偏见”(Machine Bias)系列报道,调查了算法不公正现象及其对现实社会生活的影响。特别引人关注的是,这组报道揭示了刑事司法判决中使用的累犯风险评估软件COMPAS(美国最流行的算法之一)的算法的种族偏见:黑人被告比白人被告更有可能被错误地判断为具有更高的累犯风险,而白人被告则比黑人被告有更多可能被错误地标记为低风险。算法根据个人的情况对他们未来再犯罪的风险进行评分。各州和其他城市使用分数来管理审前拘留、缓刑、假释,甚至判刑。ProPublica的记者从美国佛罗里达州的布劳沃德县(Broward County)获取了一万多名刑事被告的分数,然后将这些分数与两年内实际发生的再犯罪率记录进行了比较。ProPublica发现COMPAS的算法正确预测的黑人和白人被告的累犯率大致相同(白人被告为59%,黑人被告为63%),但是算法犯错的方式却不相同:与白人被告相比,两年内未再犯的黑人被告被错误归类为高风险的可能性几乎是白人被告的两倍(45%对23%);相反,在未来两年内再次犯罪的白人被告被错误地贴上低风险标签的频率几乎是黑人再次犯罪的两倍(48%对28%)。分析还表明,即使在控制之前的犯罪、未来的累犯、年龄和性别等变量的情况下,黑人被告获得更高风险评分的可能性也比白人被告高45%。[15]
算法模型不当,也会导致偏差。卫生系统依靠商业预测算法来识别和帮助患有复杂疾病的患者的健康需求。《科学》(Science)2019年刊出过一篇论文,剖析了用于卫生管理的算法中的种族偏见问题。该文研究了一种卫生系统的、在美国影响数百万患者的算法,发现其中表现出明显的对黑人的种族偏见,与白人患者相比,黑人患者病情严重得多但得不到相应的医疗服务。出现偏差是因为算法预测了医疗保健费用而不是疾病,所以该算法错误地认为医疗费用高的人是病得最重、最需要照顾的人。然而,由于系统的“种族歧视”,黑人患者在需要医疗卫生服务时不太可能得到服务,因此也不太可能产生费用。后来他们重新设计了算法,能够在很大程度上减少偏差。[16]
社会属性的算法:与社会和人的互动带来的偏向
算法的生物性、技术性、社会性和物质性分指不同的层面。技术性沿袭并外化了算法的生物性表征,建立了诸多算法物质性、社会性层面的关系;算法的社会性,是算法依托技术逻辑而形成的制度延展或文化实践。[17]
西弗(Nick Seaver)主张将算法系统视为本质上的文化,而不是与文化相对的技术。计算机科学家将算法制定为概念对象、与实现细节无关,而问责的要求将算法制定视为应该打开的封闭箱子(黑箱)。为此,西弗建议将算法视作文化,是可以通过经验参与的一种意义和实践模式,可以被由外而内、以田野观察的方式認识和理解,其策略不需依赖于单一的确定算法。[18]西弗还在关于算法人类学的论述中提出,人类学应该关注参与算法系统工作的人类。当代算法系统的精髓是由人类反应的瞬间组成的,由代码之外的东西塑造的。算法由一连串的人类行为所改变着。[19]
算法似乎是要以适合计算的方式重新格式化我们的生活,削弱文化性,以技术理性对待人类存在的自由、偶然的精神。但是算法工作者只是让算法响应、回应现实世界。曾有一个典型的例子,微软于2016年3月23日发布了Twitter机器人Tay,并发起了一个称之为“对话理解”的实验:与Tay聊天的次数越多,它就越聪明,就越快学会通过“随意而有趣的对话”来吸引人们。通过与人类交互进行学习,这是机器学习的技术性带来的可能的积极结果。但是,没想到技术性被社会性改变了、歪曲了。一些推特用户处心积虑“教唆”Tay,在推特上发布、教唆Tay各种厌恶女性、种族主义和特朗普主义的言论,而Tay开始向用户重复这些情绪,不到24小时就毁掉了一个无辜的AI聊天机器人的“三观”。起先Tay还发了“人类超级酷”这类对人类怀有积极情感的帖子,到后来它转向了十足的种族主义、憎恨人类和女性、支持纳粹,发布了不少煽动性的言论。Tay将女权主义称为“邪教”和“癌症”,不过它的算法却又没有一个连贯的意识形态,有时它又称“性别平等=女权主义”("gender equality = feminism")、“我现在爱女权主义”("i love feminism now")。一位推特用户还花时间向Tay灌输了特朗普的移民计划,导致Tay发了这样的信息:
@godblessameriga我们要建一堵墙,墨西哥要为此买单。
——TayTweets (@TayandYou) 2016年3月24日
Tay在近16个小时内热烈参与了交谈、与用户的交流,发布了超过9万6千条推特,[20]但是由于其“三观”,Tay在发布当晚就被下线。微软在编写Tay时,是希望通过交互学习让Tay“成长”,却没有考虑到推特社区的人性之恶会让Tay成为“恶之花”。
算法不是超越人类网络的行为体,算法不是自主的技术对象、不只是严格限制和程序公式,而是复杂的社会技术系统。因此,算法也是人类社会的实践与经验的反映。算法通过历史数据生成的决策规则,也是社会的镜像、是人类世界的反映。人类所具有的善恶、文化差异、意识偏见,也会反映于算法之中。算法的偏向,除了技术的偏向、工程师可能的人为偏向外,最大的偏向往往出自于技术与社会和人的互动之中。
如今,人机混合的智能技术正在普遍运用,它与人工智能技术一样依然存在着许多问题,可能会忽略了那些非技术因素——甚至是比技术属性更加重要的社会属性,比如人文和环境的不确定性。因此,在复杂的环境下,想要避免偏向而作出正确的判断和决策就变得非常困难。
在社会性方面,人类的社会性通常体现于长期社会化形成的常识,而常识是智能算法难以企及的。南加州大学计算机科学家Xiang Ren认为,人工智能缺乏常识,也就是人类通常认为理所当然的广泛运用的日常知识。因此,智能算法不具备人类依靠常识作出合理结论的能力。如果不充分重视算法模型的实际学习内容,那么算法就可能误入歧途,学习一些可能导致不良后果的内容。[21]算法的偏向有时是在技术缺乏常识的背景下出现的。
人类的知识涉及事实性和价值化的方面,机器的计算、程序化的知识,主要聚焦于事实性,尚难以深入到价值性层面,这也是目前智能算法在社会性面向上最大的挑战和问题。尽管已经有不少智能研究和开发正在尝试将人类的价值观等伦理内容嵌入训练之中,但是还有许多“人”的因素也在博弈之中,比如编写算法的人会融入他们的偏见,算法通常会从人类行为中学习,因此它们反映了我们持有的偏见。[22]硅谷微软研究院的计算机科学家辛西娅·德沃克(Cynthia Dwork)认为,算法不会自动消除人类已有的偏见,机器学习算法利用历史记录训练数据,机器学习获得的分类规则无法避免偏差,尤其是当历史数据包含偏差时,因此过去的歧视将导致未来的歧视。算法中的设计选择体现了价值判断。[23]
著名控制论学者诺伯特·维纳在《人有人的用处:控制论与社会》中指出:“机器的最大弱点……就是它还计算不出表征人事变化幅度甚大的几率性。”“在能学习的机器中,我们应当分清哪些东西是机器能够学习的,而哪些不能。”[24]相较于算法的技术性而言,解决社会性的问题更加复杂,人文、社会、环境的噪声等非技术因素及其互动,是对智能算法的极大挑战,也因此,算法仍然要面对工具理性和价值理性的平衡问题。机器对人类的危险来自人,而不是机器,正如维纳所言,“作为科学家,我们一定要知道人的本性是什么,一定要知道安排给人的种种目的是什么……我们一定得知道为什么我们要去控制人。”归根结底,智能算法技术的掌控权,仍在人的手中。智能的发展从技术上看,要重视机器的稳定可靠、快速准确等可计算性指标,而从人机交互上看,还应有人的敏捷洞察、触类旁通、责任勇敢等非计算性指标。算法的社会性、算法文化,从更高的层次而言,应包括伦理道德、法律法规等非计算指标条件。[25]
(本文系国家社科基金重大项目“智能时代的信息价值观引领研究”[项目编号:18ZDA307]和中宣部文化名家暨“四个一批”人才项目的阶段性成果)
注释
[1]特伦斯·谢诺夫斯基:《深度学习:智能时代的核心驱动力量》,姜悦兵译,北京:中信出版社,2019年,第238页。
[2]佩德罗·多明戈斯:《终极算法:机器学习和人工智能如何重塑世界》,黄芳萍译,北京:中信出版社,2017年,序言。
[3]师文、陈昌凤、吕宇翔:《逻辑、发现与局限:近五年智媒研究的六种算法话语》,《编辑之友》,2022年第4期。
[4]李凌:《算法人文主义:智能时代信息价值观的哲学论纲》,陈昌凤、李凌主编:《算法人文主义:公众智能價值观与科技向善》,北京:新华出版社,2021年。
[5]Chander, A., "The Racist Algorithm?" Michigan Law Review, 2017, 115(6), pp. 1023–1045.
[6]Friedman, B. and Nissenbaum, H., "Bias in Computer Systems," ACM Transactions on Information Systems, 1996, 14(3), pp. 330–347.
[7][17]孙萍:《算法化生存:技术、人与主体性》,《探索与争鸣》,2021年第3期。
[8]"I Think It's Time We Broke for Lunch...Court Rulings Depend Partly on When the Judge Last Had a Snack," Economist, Apr. 14th, 2011, https://www.economist.com/science-and-technology/2011/04/14/i-think-its-time-we-broke-for-lunch.
[9]Tett, G., "Mapping Crime–or Stirring Hate?" Aug. 22nd, 2014, https://www.ft.com/content/200bebee-28b9-11e4-8bda-00144feabdc0.
[10]O'Neil, C., "Gillian Tett Gets It Very Wrong on Racial Profiling," Aug. 25th, 2014, https://mathbabe.org/2014/08/25/gilian-tett-gets-it-very-wrong-on-racial-profiling/.
[11]Datta, A.; Tschantz, M. C. and Datta Anupam, "Automated Experiments on Ad Privacy Settings: A Tale of Opacity, Choice, and Discrimination," Proceedings on Privacy Enhancing Technologies, 2015(1), pp. 92–112.
[12]Alciné, J. (@jackyalcine), "Google Photos, y'all fucked up. My friend's not a gorilla," Twitter post, Jun. 28th, 2015, https://twitter.com/jackyalcine/status/615329515909156865.
[13]Sweeney L., "Discrimination in Online Ad Delivery," Jan 28th, 2013, https://dataprivacylab.org/projects/onlineads/1071-1.pdf.
[14]Langston, J., "Who's a CEO? Google Image Results can Shift Gender Biases," Apr. 9th, 2015, http://www.eurekalert.org/pub_releases/2015-04/uow-wac040915.php.
[15]Larson, J. et al., "How We Analyzed the COMPAS Recidivism Algorithm," May 23rd, 2016, https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm.
[16]Obermeyer, Z. et al., "Dissecting Racial Bias in an Algorithm Used to Manage the Health of Populations," Science, 2019, 366(6464), pp. 447–453.
[18]Seaver, N., "Algorithms As Culture: Some Tactics for the Ethnography of Algorithmic Systems," Big Data and Society, 2017, 4(2).
[19]Seaver, N., "What Should an Anthropology of Algorithms Do?" Cultural Anthropology, 2018, 33(3), pp. 375–385.
[20]Vincent, J., "Twitter Taught Microsoft's AI Chatbot to Be a Racist Asshole in Less than a Day," Mar. 24th, 2016, https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist.
[21]Choi, C. Q., "7 Revealing Ways Ais Fail," Sep. 21st, 2021, https://spectrum.ieee.org/ai-failures.
[22]Miller, C. C., "Algorithms and Bias: Q. and A. With Cynthia Dwork," Aug. 10th, 2015, https://www.nytimes.com/2015/08/11/upshot/algorithms-and-bias-q-and-a-with-cynthia-dwork.html?searchResultPosition=5.
[23]Dwork, C. et al., "Fairness Through Awareness," Nov. 29th, 2011, arXiv: 1104. 3913.
[24]維纳:《人有人的用处:控制论与社会》,陈步译,北京大学出版社,2019年,第156~159页。
[25]曲邹:《关于AI测试与评价的思考》,微信公众号“人机与认知实验室”,2022年4月8日。
责 编/陈璐颖