算法不正义与大数据伦理
2020-09-02林曦郭苏建
林曦 郭苏建
摘 要:大数据正在对中国社会科学研究范式、路径、方法和未来发展产生极其重大而深远的影响和挑战。然而,对于以各种算法为基础的大数据而言,在其数据收集、处理和应用中,也出现了相应的不正义伦理议题,亟需社会科学研究者进行深入思考。所谓的算法不正义,指的是在大数据的知识建构过程中,社会不同个体或团体,在大数据资源的占有、使用和分配上出现不平等,从而导致在数据资源的“代表性”、“用户画像”、决策支持、行动干预等不同维度上出现不正义的情形。在大数据收集、处理、应用的过程中,算法忽视或者无法甄别数据来源,传输和使用过程中对某个区域范围内总人口中特定人群的优待或者排斥,从而导致数据本身所蕴含的不平等被原封不动地转移到大数据的计算结果之中,这种计算结果有可能反过来进一步加剧原本不同人群在数据资源分配和再分配上的不平等,进而导致基于算法的大数据不平等和不正义。为了解决这些算法不正义的问题,学者们也提出了诸如“促进平等的数据倡议”的行动方案,有些国家和地区还出现了公民自发的“量化自我”运动,以有意识地应对因大数据及其算法而导致的不平等和不正义。
关键词:算法不正义;“大数据鸿沟”;“用户画像”;算法分析
中图分类号:B82-057 文献标识码:A 文章编号:0257-5833(2020)08-0003-20
作者简介:林 曦,复旦大学社会科学高等研究院教授、院长助理;郭苏建,教育部“长江学者”特聘教授,复旦大学社会科学高等研究院院长 (上海 200433)
在过去的十年间,大数据对我们身处的社会进程和发展产生了很大的影响,在世界范围内,我们都可以观察到一个“数据化”(Datafication)的现象。它包含了数字技术的蓬勃发展,而且,数据在各个国家的发展过程中发挥越来越重要的作用。数据的体量、应用规模、速度、范围等都出现了大规模的增长,数据也逐步成为政策决策的重要参考对象。联合国把这个过程称之为“一场数据革命”,并预言这样的一场革命,将带领人类社会进入可持续发展的轨道。新形式的数据,尤其是大数据和人工智能,能够帮助发展中国家更好地实现可持续发展的目标,比如,通过无人机、数据监控,更好地服务农业的发展、提高第一产业的效率,在工业上运用大数据实现智能制造,在公共卫生方面运用大数据预测流行病、提前部署疾控措施,通过大数据提高政府公开透明和行政效率,等等。
从定义上看,大数据所包含的数据种类繁多、体量巨大,运算速度也比传统数据高很多,美国公共舆论研究学会曾给大数据下了一个定义,其认为大数据作为一个词汇,只是笼统地描述了一堆内涵丰富、复杂无比的数据集合,里面包含了各种与数据相关的特性、实践、技术、伦理议题以及结果。正因为大数据体量巨大、种类庞杂、来源广泛,对于大数据而言,其数据采集、分析和应用都是借由各种算法来进行。一般而言,算法的定义即旨在解决某个问题的方式或进程。如果问题可以被看成是一个需要求解的数学题,那么,算法就是解决该问题的方程式,将输入的选项通过一系列的解决方法,得出输出结果。对于大数据而言,算法在其中起到了不可替代的作用。搜索引擎运用特定的算法,对海量的数据进行采集、过滤、分类和索引;数据分析技术则依赖算法,对采集到的数据进行清洗、结构化处理和运算;最终,当数据分析结果需要呈现的时候,算法又对这些结果进行可视化的处理或者显示优先顺序的排列。大数据虽然是关乎数据的整个价值链,但是,算法是贯穿始终的。离开了算法,大数据就无法以一种被人类思维“可理解”的方式呈现出来。对于大数据与社会科学研究之间的关系,乐观派的人士认为,数据收集和大数据挖掘能够让我们获得全样本数据,避免数据采集过程中因为无法获得足够样本量而导致数据偏差,正是因为大数据本身在数据采集过程中的大样本优势,所以,它可以帮助我们避免因为人为偏好而导致误差。但是,大数据中的算法,只有在数据来源本身优良、高质量的情况下,才能真正发挥出上述的优势,如果数据本身是有缺陷的,或者不够完美,那么,技术乐观派的那种理想主义假设就无法落到实处。现实的情况是我们所收集到的数据很多时候都是不完美的,这些数据有可能是之前决策者基于人为偏好而得到的,因此,此类数据本身就包含了偏见、不平等、排斥。而且,因为设备和资源使用的分布不均衡,这也会导致我们在采集数据的过程中,那些占有更多数据资源的使用者的偏好更有可能进入数据,如此一来,我们所得到的数据就会与社会上广泛存在的偏好、偏见重叠在一起。在数据挖掘的过程中,有可能会出现的情况是它与此前业已存在的排斥、不平等现象呈现出惊人的相似性或者一致性,都以同样的规律来呈现。因此,如果我们对数据进行分析,本身不加反思、不加批判地接受,那么,这就让我们无视那些在过去的历史发展中被边缘化、处于弱势地位或者岌岌可危的群体所遭受的不公,这就相当于拒斥了这些群体完全融入到我们的公共生活之中。程序员或者编程人员在开发软件、设计算法的时候,可能并没有想到这些问题,而这些偏见都是人们在使用算法的过程中才出现的,因此,它是一个非意图的后果,如此一来,要想真切地发现并纠正此类算法所带来的偏见和不正义,就显得尤其困难。
对于大数据而言,经常会出现的一个迷思就是公众认为大数据是以“客观、公正、去意识形态化”的面貌出现,大数据否认自身存在意识形态或者偏见,这本身就是大数据的一个“意识形态”科恩首先提到了大数据中可能隐藏的“意识形态承诺”,她认为,现在大数据把自己包装成真理,并宣称大数据所包含的信息即真理,否认信息本身可能就携带着各种“意识形态承诺”,作者提到了大数据所承诺的“开放性”也是一种意识形态;作者将大数据所包含的“数据主义”(Dataism)当成是一种意识形态,即大家相信只要是量化,那么结果就必然是客观的;作者认为,大数据有双重的“意识形态”,一方面是“市场意识形态”,强调大数据是一场革命,能够给我们的生活和商业带来翻天覆地的变革,另一方面强调“大数据即真理”。。这其实是无视了大数据在数据收集的过程中,常常由商业公司来操作、带有商业目的或者追逐商业利益,由此而得来的数据难免会产生偏见或者偏好。不同类型的大数据,其内在的偏好有可能是不一样的,比如,在社交应用软件或者社交媒体网站上,一般在加入之前,都会在条款里面要求用户同意对方使用该用户录入的数据,如果有人对自己的隐私比较看重,不愿意接受这些条款,那么,这样的用户就无法在这些网站上注册成为用户。通过这些社交媒体网站或者应用软件而得到的大数据,很难宣稱自己的数据结果是无偏见的,因此,这些数据在收集伊始,就已经排除了那些对自己隐私更加看重的用户。
因此,对大数据在形成公众认知和社会科学研究当中所起到的作用进行一个正义伦理维度的检视就显得重要。大数据不仅仅关乎技术,更重要的是它已经变成一整套的知识生产和建构体系,改变了我们对理论和实践的认知比如,Boyd和Crawford两位学者就旗帜鲜明地认为,大数据改变了我们做社会科学研究的思维方式, Berry则认为,大数据所蕴含的“可计算性”(Computationality)成为了一种新的“本体论”哲学,成为人类“可理解性”的关键,这场由大数据发动的“知识论革命”,需要社会科学和人文研究的学者进行批判性的检,。因此,本文就从这一知识体系入手,希望能够从大数据知识如何得以建构的运行体系中,发现大数据及其算法、运算、数据流通背后可能被人忽略的不正义层面。为此,我们有必要从整个大数据知识建构体系来进行逐一分析。这个体系大致包含三个方面,涵盖数据收集、数据分析和数据应用。在数据收集中,在确定了相应的“数据源头”(Source)之后,会运用相应的技术对其中的数据进行捕获或者抓取,这些数据汇总起来就形成了对“数据源头”或者数据用户的一个“代表”(Representation)。在收集数据的基础上,还需要对这些数据进行清洗、分门别类、结构化处理,由此完成一个“用户画像”(Profile),形成对数据的初步分析,并在此基础上进行相应的算法分析。数据分析所得出的结果以一定的形式呈现出来,并可以被运用到各个层面,用以支持公共决策或对行动进行干预;希克斯则提出了一个“信息价值链”的说法。这些数据的收集、分析和应用,又会反过来为整个大数据知识体系添砖加瓦,推动整个体系在增量和存量层面的积累。下文对大数据正义伦理所进行的探讨,也将以这个结构来展开,笔者将逐一讨论这一大数据知识建构体系中所可能出现的不正义场景。
一、数据收集
对于大数据而言,收集或采集数据是数据挖掘至关重要的一环,后续的数据分析和应用都取决于所收集或采集到的数据质量。数据收集主要涉及两个方面的问题:“采集”和“捕获”。首先,大数据集合需要确认被收集或采集的对象,即所谓的“数据源头”。不同类型的数据源头决定了数据收集或者采集方式的差异,比如,数据源头是温度、气压、空气质量等,则较有可能通过物联网传感器进行收集;相比之下,如果数据源头与人类行为有关,则很可能通过各种社交网络、互联网站或便携移动设备来进行收集。以智能交通为例,如果数据源头是实时的路况信息,则数据采集会通过GPS定位信息、分布在交通网络上的摄像头以及交通关卡的车辆统计等方式来进行相关讨论参见李联宁《大数据技术及应用教程》,清华大学出版社2016年版;肖乐、丛天伟、严卫《基于Python的Web大数据采集和数据分析》,《电脑知识与技术》2018年第22期。。本文主要讨论社会科学视域下的大数据,因此,笔者将主要讨论以人类行为为源头的大数据收集。
(一)源头:从“数字鸿沟”到“大数据鸿沟”
针对以人类行为为源头的数据采集,有一点是毫无疑问的,即不同人群在使用数字设备和技术上存在千差万别,其中,有些差异是结构性的。正如有些学者担心的那样,在数据集中,有不少与发展相关的问题或者社会群体,其代表程度是偏低的、不够的。如果以这种数据作为决策的依据,那么,就有可能对那些代表程度偏低的问题或人群造成不公。造成这种不公的原因可能包括“数字鸿沟”、“大数据鸿沟”、数据质量问题、数据收集的程序、在发展中国家和地区与数据相关的能力建设不足等希伯特从以下几个维度讨论“鸿沟”的形成:(1)技术种类;(2)使用主体;(3)主体所具备的特征;(4)使用方法。所谓的“大数据鸿沟”(Big Data Divide),即不同群体或实体(比如公司、企业、高校)在创建、购买、存储、使用大型数据集层面存在的能力和知识等方面的差距,作者讨论了“大数据有产”(Big Data Rich)与“大数据无产”(Big Data Poor)之间的区别;作者主要从技术能力的角度分析了“大数据鸿沟”的表现形式。。这一“大数据鸿沟”与之前的“数字鸿沟”诺里斯是最早一批研究“数字鸿沟”的学者,(Digital Divide)存在着千丝万缕的联系。
最开始研究“数字鸿沟”的学者主要聚焦于数字有产与数字无产之间的区别,这些研究认为,在拥有数字基础设施(比如计算机、互联网接入)层面,会存在相应的社会经济不平等比如在农村地区,由于建设费用居高不下,用户又比较少,难以达到规模效益,所以电信公司不愿意为农村地区修建数字基础设施,。后来,随着互联网的普及,因为基础设施占有而引起的数字不平等在逐步缩小,研究人员转而更加关注其他层次的不平等者区分了两类“数字鸿沟”:第一代“数字鸿沟”主要是在技术使用和基础设施的可及性层面,第二代“数字鸿沟”则是数字能力和从计算机使用中获益的能力;作者主要讨论了家庭收入、种族与拥有个人电脑之间的关系,其认为,美国的“数字鸿沟”有鲜明的种族特征,即黑人和有色人群与白人群体在数字设备拥有上存在明显差距;有关“数字鸿沟”和“数字不平等”的研究,这些“信息层面上的被剥夺者”,他们处在一个更加劣势的发展和经济位置上,作者在文中呼吁,在欧盟层面,需要通过“信息社会”来提高成员国的数字化水平,并将其作为加入欧盟的准入条件之一。。后来,“数字鴻沟”学者的注意力主要转向了“数字技能”和“数字素养”上的差距,不同用户在内容生产能力上具有显著的差异,并且,这种差异是与一些地理上的区隔、差异重叠在一起作者主要通过布尔迪厄的“闲暇”(Skholè)概念,分析那些更具数字优势的人群运用数字设备做休闲、探索的应用,而处于数字劣势的群体则必须依靠数字设备进行谋生;作者论证了数字不平等和其他形式不平等之间的重叠和交叉关系。,以及这些差距与用户在健康状况、健康效应上的差别。因此,数字不平等本身是关乎人们接受、获取、使用某种新技术的倾向和能力,这样的倾向和能力又与用户在社会网络中的位置及其在该位置上所积累的各种资本相关。所以,数字不平等不仅仅是一个简单的、个体差异意义上的不平等,同时,它也彰显着个体背后的社会结构中的不平等,比如资源的分配、获取和使用技术的机会、训练数字技能的成本等。即便给不同群体赋予同等的获取技术的机会,仍然会存在其他的限制性条件,继而影响到个体对这些技术的实际使用,这些限制性条件包括语言、“媒体素养”(Media Literacy)以及其他结构性的影响因素部分,格雷厄姆从时间和空间的维度讨论“数字鸿沟”。
从“数字鸿沟”的文献中汲取了相当养分的“大数据鸿沟”研究学者,则关注那些大规模、分布式数据集中的数据有产和数据无产之间的差异D. Boyd and K. Crawford, “Critical Questions for Big Data: Provocations for a Cultural, Technological and Scholarly Phenomenon”, Information, Communication & Society, 15(5), 2012, pp. 662-679; C. L. McNeely and J. Hahm, “The Big (Data) Bang: Policy, Prospects and Challenges”, Review of Policy Research, 31(4), 2014, pp. 304-310.。“大数据鸿沟”体现在以下两个群体不对称的关系上:一方是那些有能力收集、储存、挖掘海量数据的主体;另一方是那些被收集数据的对象M. Andrejevic, “Big Data, Big Questions: The Big Data Divide”, International Journal of Communication, 8, 2014, pp. 1673-1689.。对数据的获取,有些是依赖技术手段,有些则与经济资源有关,看谁有支付的能力。比如,推特只给一部分公司开放了完全访问其数据的权限,对于公众而言,只具备相当有限的访问权限D. Boyd and K. Crawford, “Critical Questions for Big Data: Provocations for a Cultural, Technological and Scholarly Phenomenon”, Information, Communication & Society, 15(5), 2012, p. 669,作者区分了几个级别的数据访问:从理论上讲,推特提供了一个名为“消防水带”(Firehose)的数据集,这里面包含的推文数量最多,能够访问的主体也最少;其次是“花园水管”(Gardenhose)数据集,包含大约公共推文的十分之一;再次就是“汽酒”(Spritzer)数据集,里面只包含了推文的百分之一。。同时,大数据也是一柄双刃剑,本身也会带来一些和数据相关的问题,比如无处不在的监控、丧失隐私、发展收益被私人企业占了大头、日益增长的不平等L. Taylor, “What is Data Justice? The Case for Connecting Digital Rights and Freedoms Globally”, Big Data & Society, 4, 2017, pp. 1-14.。
以城市规划为例,放眼全球,各个国家在城市规划和管理的过程中,会越来越多地用到各种各样的数据,这形成了一种“新型的城市日程”,旨在指引未来的城市规划和发展UN-Habitat, New Urban Agenda, 2017, https://unhabitat.org/sites/default/files/2019/05/nua-english.pdf.。对于许多发展中国家而言,包括中国在内参见祖田峥《基于大数据云平台的智慧城市建设的思考》,《绿色环保建材》2020年第6期;滕丰耘、杜松茂、史丹《城乡规划过程中智慧城市及大数据技术的应用》,《智能建筑与智能城市》2020年第5期;王伟、王瑛、刘静楠《我国大数据研究综述及其在城乡规划领域应用机制探索》,《北京规划建设》2017年第6期。,政府都会有意识地力推“智慧城市”项目Privacy International, Smart Cities: Utopian Vision, Dystopian Reality, 2017, https://www.privacyinternational.org/sites/default/files/2017-12/Smart%20Cities-Utopian%20Vision%2C%20Dystopian%20Reality.pdf.。在这些政府看来,“智慧城市”和可持续发展、绿色发展等诸理念存在紧密的联系,数字技术也让城市规划部门能够运用更多的技术、智能和数据来协助其进行规划。比如,现在在各地应用非常广泛的远程感应就是通过在地面上布置的感应器来搜集环境数据。在这个过程中,还涌现了“数字孪生”(Digital Twin)技术对于“数字孪生”的文献回顾,参见David Jones, Chris Snider, Aydin Nassehi, Jason Yon and Ben Hicks, “Characterising the Digital Twin: A Systematic Literature Review”, CIRP Journal of Manufacturing Science and Technology, 2020, https://doi.org/ 10.1016/j.cirpj.2020.02.002.,即通过物联网、数据平台、信息模型平台等技术手段,把现实世界中的客体映射到虚拟空间,在虚拟世界中创造出一个与现实世界相对应的“孪生”客体苗田、张旭、熊辉、庄存波、赵浩然、吕卓、刘检华:《数字孪生技术在产品生命周期中的应用与展望》,《计算机集成制造系统》2019年第6期。。因此,顾名思义,“数字孪生”技术就是在虚拟世界中复刻和模拟现实世界中的具体对象,比如,现实中的地理空间、人口等信息,可以通过大数据在虚拟世界中进行相应呈现S. Lokanathan, G. E. Kreindler, N. N. de Silva, Y. Miyauchi, D. Dhananjaya and R. Samarajiva, “The Potential of Mobile Network Big Data as a Tool in Colombos Transportation and Urban Planning”, Information Technologies & International Development, 12(2), 2016, pp. 63-73.。这一技术现在也被广泛地应用到城市规划中参见魏勇、吕聪敏《利用复杂自适应系统理论探索数字孪生智能城市的发展模式》,《电子世界》2020年第9期;中国城市规划设计研究院信息中心《基于“数字孪生”的智慧城市发展建设思路》,《人民论坛·学术前沿》2020年第4期。。但是,有学者发现,在城市规划过程中,大数据所产生的影响,对那些已经在现实生活中被边缘化的群体而言,可能并不见得都是积极的。对于那些低收入、无固定住所人群而言,他们获取数据的途径缺乏,并且,他们的存在状态在各种大数据或由此产生的“数字孪生”模型中也很难呈现出来参见D. Mitlin and D. Satterthwaite, Urban Poverty in the Global South, London, NY: Routledge, 2013,尤其是第5章和第6章。。從程序上讲,如果大数据的采集或者“数字孪生”的创建过程不能很好地考虑到那些被遮蔽的群体,无法实现既定目标,不尊重居民的数据权利,或者在发展中国家和地区对那些已经被边缘化的群体造成“二度伤害”、排斥K. Pfeffer and H. Verrest, “Perspectives on the Role of Geo-Technologies for Addressing Contemporary Urban Issues”, European Journal of Development Research, 28(2), 2016, pp. 154-166,作者讨论了使用诸如远程感应成像和空间模拟等地理技术时会遇到的诸多挑战。,那么,其最终的成果也无法满足分配正义的要求R. Kitchin, The Data Revolution: Big Data, Open Data, Data Infrastructures & Their Consequences, Los Angeles, CA: Sage, 2014, Chapter 10; L. Taylor and C. Richter, “Big Data and Urban Governance”, in J. Gupta, K. Pfeffer, H. Verrest and M. Ros-Tonen, eds., Geographies of Urban Governance, Cham: Springer, 2015, pp. 175-182.。
在“数据捕获”的过程中,也有可能出现的情况是我们过于关注某个应用软件或者平台,从而让我们忽略了人们通过其他渠道进行人际交往的可能性,比如其他的线上服务平台或者打电话。而且,单纯依靠单一平台,其实是假设人们在日常生活中基本上都是在使用这个平台,很少或者没有通过其他渠道进行人际交往,这个假设与实际情况可能存在较大差异比如有学者探讨,与其他的社会成员相比,使用脸书的用户会不会采用不同的人际关系“连接策略”,并以此验证和社会资本之间的关系,参见Nicole B. Ellison, Charles Steinfield and Cliff Lampe, “Connection Strategies: Social Capital Implications of Facebook-Enabled Communication Practices”, New Media & Society, 13 (6), 2011, pp. 873-92;另外一项研究则对比了更经常使用社交网络的用户与不经常使用者之间的区别,参见E. Hargittai and Yuli Patrick Hsieh, “Predictors and Consequences of Differentiated Practices on Social Network Sites”, Information, Communication & Society, 13(4), 2010, pp. 515-536。。使用某個应用软件,其实是具有很强烈的行为型塑功能,会带来不一样的结果和行为模式。某个特定的社交软件或者网站,人们对其进行使用并不是随机的,而是与人口学、社会经济背景有关联Eszter Hargittai, “Is Bigger Always Better? Potential Biases of Big Data Derived from Social Network Sites”, Annals of the American Academy of Political and Social Science, 659(1), 2015, p. 73.,而且,“数字素养”、“数字技能”同样也是与人口学、社会经济背景相关Eszter Hargittai and Yuli Patrick Hsieh, “Digital Inequality”, in W. H. Dutton, ed., Oxford Handbook for Internet Studies, Oxford: Oxford University Press, 2013, p. 134.。因此,不同的社交软件、服务或者网站吸引了不同的用户人群,针对某一特定社交软件、服务或者网站用户而进行的研究发现,就很难被推广到其他社交软件、服务或者网站用户身上。
“数据捕获”其实还涉及到国家运用公权力进行社会控制这一层面,这就涉及到一个问题,即不同的人群是以何种形式被变成“数据”。
这个将不同用户群体进行“数据化”的过程涉及到“可读性”(Legibility)概念。在斯科特看来,国家会通过一系列的技术、测量、绘图等手段,让公民和社会变得“可读”,运用标准化的方法,对公民进行征税、征兵、防止动乱,就好比一个养蜂人,通过特定的布局和技术安排,让蜂巢变得井井有条、便于管理,从这个意义上讲,蜂巢之于养蜂人,正如社会之于国家,其都是通过一系列的手段,让前者能够被后者“读取”和“理解”,以便实施管理和控制参见J. C. Scott, Seeing Like a State, New Haven, CT: Yale University Press, 1998, pp. 2-3, 11-52,斯科特讨论了现代国家建构是如何通过各种社会事实测量和编纂技术来实现的。。多诺万将这一概念应用于大数据的研究,他指出,“可读性”打破了公民自身对数据和知识的控制,国家对公民和社会搜集大数据,有可能会用于强化自己的行政控制。这一点对于社会中被边缘化的群体而言,尤其如此。本来,被边缘化群体自身会发展出一套自洽的理解、知识体系,这样的体系对这些群体而言是赋权、有价值的,但是,国家权力干预进来,这可能对地方社群所具备的地方性知识和力量构成挑战和破坏。因此,“可读性”所可能带来的一个隐患就是控制权的丧失尤其是第三部分“可读性、简化和权力”。。多诺万以肯尼亚内罗毕市区的基贝拉贫民窟为例,讨论当地被边缘化群体是如何抗拒国家对他们进行“可读化”的“数据捕获”。在基贝拉,有些机构(学校或者药店)不愿意在地图上被呈现出来,他们担心自己会遭遇“见光死”,即数据上的能见度带来国家的强势干预,而干预的结果就是他们被关闭,因为这些机构本身就是非正式的存在,并未履行相关的手续、登记程序,但是却实实在在地为地方社群提供不可或缺的公共产品。无独有偶,同样的场景也发生在印度的金奈市,一些地方社群拒绝参与数据收集过程,他们觉得通过数据收集让大家都关注到自己的存在,反而弊大于利,因为别人一下子就会看到他们是“非正规”的存在,如果因为数据收集而“暴露在国家的视野中”,那就得不偿失了,很有可能会带来被驱逐、关停的风险。为了解决这个问题,一些非政府组织在印度金奈市收集那些编外、没有登记在案的捡垃圾者的时候,就会在数据上稍作处理,不提供这些人的地点或者法律身份,以便保护这些人免受国家行为的强势干预。
通过对“数据源头”和“数据捕获”这两方面的考察,我们可以看到,上述的研究指向了数据收集过程中的一个重要伦理维度,即数据收集可能会忽视、甚至强化已有的不平等和不正义。在城市规划的过程中,如果运用大数据来建造空间和建筑物,有可能会复制城市空间中已有的不平等。数据的采集和整理都有可能复制甚至增加现有的社会鸿沟,而不是弱化或者降低。而且,现在的城市规划用到了很多自动化的设备和联网的计算器,它们采集和整理大量的数据,我们在拿到这些源数据之后,有必要检视其中所隐藏的那些协议和技术偏好,尤其是算法按照什么样的规则进行分门别类和数据管理。因此,我们在检视大数据的过程中,有必要将技术的结构与现有的社会结构放在一起,进行比对和相互印证,看技术结构是否与社会结构相重叠,并且复制、强化了已有或者历史存留的不平等、不公正现象。
二、数据处理
在采集数据之后,就过渡到数据知识生产的第二个环节,即数据处理环节。被收集到的海量数据,经过一系列的技术手段和程序,变成有意义的信息。实际上,我们前文所讨论的“大数据鸿沟”,在数据处理环节同样也有相应的呈现。面对海量数据,只有那些拥有相关基础设施、数据技能的利益相关方,才能从中获取更大的收益,这被学者称之为“数据分析鸿沟”。因此,“大数据鸿沟”本身也应当包括数据分析能力上的对比和差异。所以,我们可以看到,那些有技术手段、经济资源、分析能力的一方,总是能够从数据中获取更多的收益。为了更好地检视这一“数据分析鸿沟”所造成的影响,本节将围绕数据处理的两个核心环节展开,即“用户画像”和算法分析。
(一)“用户画像”:数据处理中对不平等的复制
公司在挖掘数据的时候,使用大数据的方式,有可能会进行一些社会分类,即所谓的“用户画像”(User Profile)。企业在进行数据挖掘的时候,其实是把不同的人群进行分类,给他们分别赋予不同的值,用以表明其风险程度、商业价值,并且会按照已有的分类和不平等体系来对用户进行分组。这可能在一定程度上削弱个体在数据层面上的自主性,而且,建立数据庫其实相当于创建另一个搜索索引,把用户进行分类管理,尤其是“Surveillance and Personalization”一节的讨论。,这其实是把用户当成商品来进行制造,而且整个过程是不透明的。在这个过程中,“大数据鸿沟”有可能沿着以下几个方面来体现:第一,数据有产和数据无产;第二,数据分析能力;第三,结构性鸿沟,与技术基础设施相关;第四,创建者与被客体化的群体,即前者有能力创建各种身份和有用处的知识,后者只能是前者的客体、对象,前者可以很好地隐藏自己的身份,而后者处在被监测、被客体化的境地之中,在大数据中无所遁形。这种“大数据鸿沟”会带来几个方面的后果。首先,数据化对用户身份、数据对象的自主权产生影响作者呼吁要让整个数据挖掘过程更加具有“参与性”。。个体在数据中被客体化为一个个的数据对象,被分门别类,然后算法会自动决定这些数据对象的特征、性质和值。这就导致用户身份不再是由用户自行进行定义。同时,用户也失去了定义和阐释身份范畴意义的自主权。在这个过程中,这些公司、机构、企业所用到的算法、数据库,完全不对公众开放,由此我们也无法检视其正当性和合理性。这就势必造成整个数据化过程缺乏“透明度”。被客体化的数据对象,完全意识不到从自己身上收集到的数据是用于何种用途,是如何分类,是如何对他们进行画像,这些数据又是怎么进行分析,然后在此基础上公司又采取了何种行为和措施。尽管这种“不透明”在有些时候是公司有意为之(比如涉及商业机密),但是,有些时候其来源是结构性的,嵌入在大数据运行的基础设施之中。
按照布兰农的研究,在密苏里州的堪萨斯城,政府一直使用大数据进行治安和人员监测,这些自动控制系统会针对被监测对象的行为进行数据收集,即被监测对象在大数据上的呈现和表达。正如我们此前所讨论的那样,通过这一数据化的过程,被监测对象在政府部门眼里具备了“可读性”,这其实也增加了个体的脆弱性,由于个体的活动被系统自动收集并在数据集里呈现出来,政府部门或者建制机关就有可能针对这种个体活动展开控制。反过来,如果一个个体的行为并没有在监测网络里面被收集,那么,对该个体而言,这就意味着他在这个数据集里面不存在,这就构成了“代表性偏低、不足或者缺失”的问题,这通常会加深那些被边缘化群体本就不可见或者能见度过低的历史性问题。所以,在数据收集的过程中,这个算法背后的指导意识形态是什么,所针对的地理区域范围,用户的基本信息,这些都必须加以考察,才能看到自动控制的信息系统、数据生产机制是如何复制现实生活中的不平等。
“用户画像”背后所体现的“大数据鸿沟”,会围绕着已有地理空间的阶层区隔展开。堪萨斯城的东边历来犯罪频发,有着居高不下的刑事案件发生率。为了降低犯罪率,政府部门运用社交网络分析软件来识别和定位那些最有可能在未来涉足刑事犯罪的人员。这样的一份人员名单,包括线人提供的情报、交通站点、刑事犯罪记录,算法会自动在这些人员之间勾画出他们的社交路线,放置在同一个社交网络结构中加以监测。如此一来,许多有社交往来的人员就会成为被重点监测的对象,形成了一种“蛇鼠一窝便是有罪”(Guilt by Association)的局面。这样一种预防性的分析技术,让个体深深陷入刑事犯罪系统而不能自拔。
与此相对比,在堪萨斯城的市中心、商业发达地带,这里有一个“智慧城市”项目,布置了多种感应器相互支持的数据收集网络系统,形成了“万物互联”。这些数据的目的是为了让企业家能够更好地进行商业活动比如,有研究者乐观地认为,大数据会成为基础设施的一部分,就像水电煤一样,成为我们日常生活中不可或缺的部分,政府部门宣称,他们将数据作为支点,提高生活质量,增加资本投资和民众消费。这里的用语给公众形成了一种强烈的暗示,即人人都可以参与到一个新兴的知识型经济,并过上一种以技术创新为基础的新兴生活方式甘迪尼认为,这样一种心理暗示正是通过数字媒体上我们各种“被客体化的情感”表达来实现。通过科技和数据,这个“智慧城市”项目承诺解决我们在城市生活中所遇到的各种难题,其方式就是自动控制系统的反馈以及基于大数据的自动化干预措施。
如果我们详细审视上述两个项目,则不难发现,这两个项目的共同之处在于人们的行为都被量化为各种数据,输入到自动控制系统里面,经由算法加以分类、运算。只不过一个项目的结果是用来监测高犯罪可能性的人群,而另一个项目则是用来推动营销和商业活动。不管是哪一个项目,我们在其中所看到的都不是活生生的、自主的、独一无二的、有创造力的公民个体,而是一系列可量化的数据标签。这些数据标签让城市居民变成了一个可追溯、可预测的数据。在这个过程中,数据是如何收集和运算的,个人的信息是如何被分类的,这些都不是个体能够自主应对和控制的。政府部门也没有想过要打开这样的“数据黑箱”,引导公民进行讨论,共同建立一套公平公正的数据收集、分析和存储体系。从这个意义上讲,我们的算法自我、数据自我压倒了肉身自我、现实中的自我,成为个人身份的决定性因素,我们的主体建构现在要交由一套不经我们控制和检验的自动控制系统来进行,我们生活在一个经由“技术过滤的主体建构”存在状态之中。而且,这两个项目正因为基于不同的地点,把同样的人类行为依据不同的地理位置信息而进行不同的赋值和解读。仅仅因为我们身处某个地理位置,就把我们的行为强制性地往某个分类体系和身份标签上靠,这事实上构成对特定人群的歧视。同一个城市中的居民,其在地理空间上的区隔也毫无二致地在数字世界、数据集合(即“数字孪生”)中得到了复制和体现。毫无疑问,这样的一套分类和身份标注体系,本身对人类而言是一种矮化和化约,去除了人类行为中的多意义性、复调性和多种阐释的可能性,而且是简单粗暴地复制现实生活中的不平等、阶层差异。这势必会引发在房地产价值、商业投资、社会资本等一系列因素上的不平等的强化。
在这个过程中,还有不容忽视的一点就是这样一种对现实生活中“城市鴻沟”(Urban Divide)简单粗暴的复制,还会强化那些经由历史遗留下来的歧视和不平等问题。上述的两个项目,不光是在阶层差异的背景下展开,同时,其背后也体现了深刻的种族对立和在区域上事实性的种族隔离问题。有色人种居住的区域,通常也和居高不下的犯罪率、贫困率重叠在一起。通过对这两个项目的对比,我们可以看到,大数据的权力是沿着社会地理学的维度展开。技术本身并不能做到它们所宣称的那样,可以“无偏见地对空间进行测量”;恰恰相反,技术、数据和运算是沿着现有以及历史遗留下来的种族、阶层差异而展开,往往是强化了社会结构中既有的歧视和不平等。
(二)算法分析:被隐藏的历史偏见
前文的讨论表明,将用户进行分门别类,以此为基础而得出的所谓“原始数据”其实并不“原始”(Raw),相反,其总是嵌入在各种社会-技术的语境之中,这些数据本身也会携带着生产这些数据的那些结构之中存在的各种等级、不平等、偏见和歧视。有时候,这些偏见和歧视是通过一些“未意图的后果”(Unintended Consequences)而体现出来。我们首先可以看“目标变量”(Target Variables)的创建过程和分类标签是如何被定义的。在分类上,总有一些信息是受到重视的,而另外一些信息则是被忽略或不受待见。因此,对目标变量和分类标签的定义,会直接决定数据挖掘的结果以何种面貌呈现出来。如果以这样的数据为基础进行分析,那么,分析结果也会将上述的不平等、偏见和歧视原封不动地保留下来。更加令人担心的是,这种分析结果做出来之后,往往宣称自己是“客观、中立、公正、不偏不倚”的,这样一种被数据构建出来的新现实,实质上掩盖了数据生产和分析背后所隐藏的不平等、偏见和歧视。克劳福德将这种现象称为“数据原教旨主义”(Data Fundamentalism),即认为海量数据集和预测分析技术反映的都是客观事实。
大数据的一个工作过程就是导入大量的数据来训练程序。工程师会开发各种机器学习的算法,这些算法在发展过程中需要用海量的数据来训练自己的模型,从中学习,以便按照某种特定的方式来处理数据。可以想象得到,如果模型所使用的数据本身就是带有各种偏见、偏好和歧视,那么,机器学习算法输出的结果也会相应地携带这些数据之中所包含的“偏见基因”。数据本身无法独立于生产该数据的社会系统而存在,我们社会中各种不平等也会进入到数据结果之中。比如在美国,我们如果要使用现有的逮捕数据来预测未来的犯罪率,那么,这有可能会强化一些种族偏见,因为非裔美国人街区的逮捕率会高于其他街区,这基本上是强化了现有体系里面的种族偏见。因此,在用海量数据训练算法、开展机器学习的过程中,也容易出现结果上的偏见,导致统计学上对特定人群的歧视。
其次,分析特性的选择过程。算法在对大数据进行分析的时候,需要对一些边缘化组别所包含的数据差异进行考量,如果没有这些考量,那就会导致这些组别被排除在结果之外,从而造成系统性的偏差和偏见。有些时候,人们在处理大数据的过程中,还会使用到“代理变量”(Proxy Variables),这些“代理变量”要么无法准确地代表目标变量,要么无法考虑到目标变量背后所包含的历史遗留下来的偏见问题。这种情况尤其在大数据分析中可以看到,因为大数据分析是全样本分析,而非代表性样本分析,因此,这些全样本里面所包含的偏见及其背后所承载的历史遗留问题,有可能都会在大数据分析的结果中得以体现。
当下,在我们的城市建设中,有越来越多的自动设备、感应器和联网计算器,会自动产生海量数据。这些技术依托数字平台和网络基础设施,发挥着自主生产数据的作用。它们指挥着我们的社会运作,并在我们的社会中建立秩序,让越来越多的计量运算在我们日用而不知的情况下不停地运转。在我们看不见的地方,这些复杂的运算不知疲倦地进行着分类、标准化、标记和索引,对象包括公民的权利、特权、谁被包括进来、谁被排斥出去、谁对谁错的规范价值判断,几乎我们生活的各个领域都被涉及。这样的技术,布兰农称之为“数据黑箱”。这些由私人企业操控的软件和基础设施,其实自动携带了许多不为人知、个人形成的决断和准则。这些未经检验的个人决断和准则,成为编写算法的基础、规范算法运作的意识形态、分配算法结果的指导原则。然后,这些数据带着“客观、不偏不倚”的背景光环,又反过来影响到我们的世界观和决策过程。我们经常忘记拷问的一点,即算法既然是商业公司编写的,那么,其背后肯定也要符合公司追逐私利、创造商业利润的逻辑和要求。因此,算法的背后往往隐藏着那些不为人知、未经检验的商业目的。我们需要深思其背后所隐藏的规则、意识形态,正是这样的规则或者意识形态,主导了人们所编写出来的算法,而这些算法所进行的排序、分类和索引就是数据被结构化的初始入口。
我们在使用各种媒体、技术来进行互动的时候,这些技术设备之间也会进行相互的沟通,这都会产生一系列的数据,这些数据事实上构成了人所共知的“信息公地”(Information Publics)。这些公地实际上又可以用来形成可行动的知识,大数据分析就是从这些公地之中挖掘与用户有关的各种数据。但是这样的一个分析过程,本身是不对称的,用户没有能力也没有权限去决定自己被赋予了什么身份、类别和范畴,而对以此为基础的相关行为、决策,我们也毫不知情。因此,尽管我们共同拥有着一大片的“信息公地”,但是,这些公地作为数据富矿被公司和企业挖掘的时候,我们是无法控制这个过程的,从公地中挖掘出来的数据及其相应的分析,我们并没有发言权作者提出了“技术无意识”(Technological Unconscious)概念,即信息技术在不知不觉中型塑着我们的日常生活。。并且,在算法上,自动控制系统建立起一套自我参照体系,完全不需要与外界的用户进行沟通和协商,而这种自我指涉的体系,倾向于加重、强化现有社会生活中的分类、分化、不平等和差距。
除了用于支持公共决策,分析处理的数据结果还可用于干预社会行動。最直接的一个例子就是通过搜索引擎,实现对自杀行为的干预和预防。互联网在自杀预防上所起到的作用,在最近十年也得到越来越多学者的关注。搜索引擎在这方面发挥了急先锋的作用,因为许多潜在需要帮助的人群,会首先通过搜索引擎寻找相关信息。如果能够在这一时刻为这些群体提供足够、有效的帮助信息,那么,许多自杀完全是可以预防的关于自杀是可预防的研究,。因此,在互联网上,能够在搜索引擎结果中设置及时、有效的信息提醒就显得尤其重要。
在自杀预防上,作为全球第一大搜索引擎服务提供商,谷歌也有所动作。在最初的时候,有一位谷歌雇员发现,在搜索引擎结果中,很容易获取与自杀相关、具有潜在危害性的信息(比如自杀方法)。这可能意味着进行该搜索的用户,正在面临一场自杀危机。因此,谷歌在用户搜索与自杀相关、具有潜在危害性的信息时,就会在搜索结果上面提供自杀预防热线电话,最初的版本包含了14个国家。这个功能上线之后,谷歌发现在美国拨打自杀预防热线上升了9%。于是,谷歌决定将这一功能推广至全球其他国家。谷歌还对自己的搜索引擎结果页面进行优化,让用户能够更好地获取信息,预防自杀。后来,谷歌又实施了一个“自杀预防结果”(Suicide-prevention Result),即那些预防自杀的搜索引擎结果会优先置顶在结果显示页面上,包括线上和线下的自杀预防信息,比如,以国别分类的自杀预防热线、聊天室、网站等。从表面上看,这是一个具备相当社会公益和社会价值的项目,一旦用户在搜索引擎上输入与自杀相关的词汇,搜索那些具有潜在危害性的信息,那么,谷歌的这一提醒功能就能在第一时间、在有潜在自杀倾向群体最需要的时刻,呈现在他们的搜索页面最上端。谷歌的这些“自杀预防结果”,比起传统的自杀干预措施,还有一些数字时代的优势,比如,这些结果是自动生成并贴合用户的搜索关键词,能够更有针对性,其出现也更加及时,尤其是用户在面临巨大认知和情感危机的时刻。
但是,对于谷歌而言,这样一个看上去具有巨大社会效益的项目,同样会产生一些技术上和伦理上的两难境地。一方面,自杀预防自然有其社会价值,谷歌也一直将其视为自己“有社会担当”、承担企业社会责任的一个标志;另一方面,这涉及到用户隐私。如果要大规模地应用和推广这个服务、算法,那么,势必会触及许多地方性、保护个人隐私的法律法规,这与谷歌自身的用户数据隐私保护条款也多有抵牾,因为有效的自杀预防和对算法的优化,离不开对用户数据的获取和分析,即便法律法规或者谷歌的条款允许这么做,长此以往,这一做法也会损害用户对谷歌的信任。
对于谷歌而言,这一项目最大的挑战还不是用户的隐私权问题,而是运用不同语言导致算法输出结果的显著差异。此前有一个研究表明,在德语地区,谷歌的“自杀预防结果”即便对于那些潜在需要帮助的个体而言,其显示的频率也不是非常高。研究人员设置了一个网上搜索行为的模型,动用了1200个虚拟代理人,在搜索引擎上进行操作。如果在谷歌搜索引擎里面输入对自杀预防有帮助的信息(比如“如何克服自杀念头”),那么,十次里面有一次会触发谷歌的“自杀预防结果”(研究统计结果是11%);如果是输入具有潜在危害性的关键词(比如“最佳的自杀方法”),那么,四次里面有一次会触发这个功能(统计结果是25%)。对于德国或者德语用户而言,谷歌的“自杀预防结果”出现的比例偏低。
受这个研究的启发,在全球层面,有学者运用了更多的虚拟代理人,对全球不同地区使用谷歌进行自杀或者自杀预防的搜索进行研究。学者发现,谷歌的搜索引擎结果会随着地区而呈现出一些差异,比如在澳大利亚、爱尔兰、英国、美国这几个国家,如果搜索与自杀相关、具有潜在危害性的信息,那么,会有92%的概率出现“自杀预防结果”。但是,在其他国家,比如日本、德国、巴西、韩国和印度,这个结果出现的概率就低得多,不到40%,其中印度最低,只有11%。如果输入与自杀预防相关的求助信息,则美国和英国会有60%以上的概率出现“自杀预防结果”,德国最低,只有13%。显然,谷歌的算法是把英语的搜索结果设置成与“自杀预防结果”相关的优先语言或者默认语言。这一发现也在研究者对同一个国家或地区的对照实验中得到证实,在那些官方语言不止一种的国家(比如新加坡和印度),研究者发现,使用英语搜索与自杀相关的信息,无论是具有潜在危害性信息还是求助信息,都会触发“自杀预防结果”的显示。但是在新加坡,用中文进行搜索,或者在印度,用印地语和泰卢固语进行搜索,则“自杀预防结果”显示的几率大大低于用英语搜索时显示的几率。这事实上造成全球不同区域、不同语言在搜索引擎结果上的不平等,这会导致全球在健康信息上的“数字鸿沟”。通过机器学习来提高的算法,本身就会产生国家、地区和语言之间的差异,经由该算法而得出的结果,在缺乏人为介入的情况下,很难消除该算法分析结果中所蕴含的差异,由此而导致的行动干预也会呈现出相应的不平等。
因此,当我们准备将大数据的结果应用于行动干预的时候,其实有必要事先对这些数据结果进行一番检视,把这个干预过程的黑箱打开。唯有如此,我们才能看到并理解技术本身所携带的不平等、偏见、歧视及其他不可欲的后果作者着重讨论算法所具有的社会影响力。。正因为算法处于公众的视线之外,人们对算法看不见、摸不着,因此,很难对那些运用算法进行决策的企业展开问责。从算法偏见和数字不平等的批判研究来看,公司不见得有意编写一些带有歧视或者偏见的算法。只不过问题的关键在于,在实施这些算法之后,一旦出现了歧视或者偏见的结果,公司却常常没有投入时间、人力、财力和资源来解决这些问题。如果运用算法比没有算法的时候产生一些看得见摸得着的成果和效益,那么,公司就没有动力去进一步的完善。比如,对于谷歌而言,在设置了“自杀预防结果”这一功能之后,在美国,人们拨打全国自杀预防救助热线的比率提高了,对于谷歌而言就已经足够了。要想让谷歌在没有商业回报的项目上投入更多的资源和成本,这也不太现实。
结 语
本文主要从数据收集、数据处理和数据应用这三个环节来讨论我们社会安排中与大数据相关的知识体系,其有可能会在不同的环节“埋伏”着相应的正义与不正义的伦理议题。从“数据源头”可以观察到的“大数据鸿沟”,主要是沿着以下几个维度展开:经济资源、技术设施、分析能力、行动能力、组织化程度(被对象化的个体和手握各种资源的公司或者机构)。那些“数字素养”更高的群体一般都是更加年轻、教育水平更高、中产阶级,一个人的“信息或者数据惯习”(Information or Data Habitus)是与其阶层、社会地位存在高度关联的。很多时候,人们会认为信息技术促进了民主参与,不过,对这些信息技术成果的享有和分配却仍然是不平等的,媒体平台其实还是复制了那些处于更高阶层和社会地位的人的观点。而且,这些拥有数字优势的群体,本身在现实生活中也处在优势的权力地位上,更加有可能对其他在数字上处于弱势地位的群体施加影响。即便我们现在所欢呼的“用户生产数据”(User-generated Data),本身也是嵌入在整个信息资本主义的框架之中。用户记录自己的身体健康数据、运动数据、网页浏览、社交媒体上的互动,这些都创造了大量的内容和数据,这些用户其实是参与了一定形式的无报酬数字劳动,公司管理、储存这些内容和数据,对其进行商业化处理,从中获利。在这个过程中,用户并不能对其生产的数据主张所有权和控制权。
在“大数据鸿沟”的背景下,考虑到在全球范围内不平等都是一个普遍的现象,有学者呼吁,要开展那些“促进平等的数据倡议”(Pro-equity Data Initiatives,PEDIs),这些倡议旨在为那些以前“无数据历史”(Historical Datalessness)的人群创造条件,让他们可以进入大数据的视野,在城市数据中获得代表性,并且可以获取和使用这些数据。这样的一些倡议包括在社区里面布置无线网络接入点,让数据能够从这些低收入、居住环境欠佳的区域进入自由流动,让原本被边缘化的人群获得自己的数据、信息权,创建数据集、数据库,进行社区画像,让这些被边缘化的社区同样能够进入决策者的视野。
而且,有些国家和地区还出现了一个自下而上的“量化自我”(Quantified Self)运动,参与者旨在主张自己对数据的所有权,通过这种方式,“软性地对抗”公司、企业和政府部门对大数据的垄断。这场运动里面的参与者旨在夺回自己对数据的所有权,并在数据收集和分析的过程中发挥积极主动的作用,这样参与者就不再被动地被各种建制从自己身上收集、分析和应用数据。反过来,他们可以主动参与针对自己的数据收集、分析和行为,在里面主动地构建与数据有关的意义和行为。也有学者讨论我们如何构建数据体系,从而促进社区参与和公民赋权。随着民众“数字素养”的提高,我们也可以通过数据收集方式的创新,赋权民众,这一过程被称为“数据制造”(Data Making),与传统数据收集方式相比,差异点主要在于个体不再只是被动、等待被收集数据的对象,而是在适当资源的支持下,成为积极主动的数据生产者和消费者,在大数据中发挥更多的主观能动性。
当然,从世界體系的角度来看,我们也应当注意到与数据收集、处理和应用相关的不正义议题,其不光会发生在一个国家、地区或者族群内部,也会在国家与国家、地区与地区、全球南部与北部之间发生。为此,有学者呼吁,我们需要对全球南部地区、发展中国家和地区的大数据应用有更多了解。在欧美国家被批判对待的数据收集和分析方式,有可能在发展中国家是作为赋权、发展目标的形式而存在,会有不少的发展中国家视大数据为发展目标和推动本国、本地区发展的有力助手。这些认识上和应用上的差异,也需要进行一个对比和分析,以防学者不自主地携带“殖民主义”或“后殖民主义”的眼光,把全部北部和南部地区一视同仁、无差别地进行对待和处理。如果不能从地方的语境中对大数据所可能产生的问题进行一个更为在地化的理解,那么,这就有可能复制这些议题从欧美传输到发展中国家时所产生的殖民主义困境。当然,这中间还有一个语言问题,以算法和大数据为基础的不平等其实还体现在网页内容上,因为这些内容是以不同的语言作为载体的。因此,在信息的获取上,不同国家和地区的用户存在语言上的差异以及由这种差异而产生的数据应用的“等级制”。我们在制定与大数据相应的发展政策时,必须要充分考虑到不同地区和国家之间的差异。总而言之,与大数据相关的不正义情形,需要学者进行更多的研究和探讨,唯有如此,我们才能在政策和实施层面推动“大数据的平权”。
(责任编辑:彤 弓)
Algorithmic Injustice and Big Data Ethics
Lin Xi Guo Sujian
Abstract: Big data has begun having broad and far-reaching impacts on paradigms, methodologies, approaches and future developments in social science research. However, the algorithms-based big data during data collection, processing and application may encounter certain ethical issues of injustice, wherefrom the term “Algorithmic Injustice” is coined, referring to the scenario of inequity and inequality in possessing, using and distributing big data resources by individuals or social groups to such an extent that injustice will manifest itself along the dimensions of representativeness, user profile, policy support or social intervention. When data is being collected, processed or applied, the embedded algorithms may ignore or fail to detect the mechanism of exclusion/inclusion of certain groups in a population within a given region, resulting in a transfer of inequality from the society to big data. When such inequality-reproducing data is used as a basis for the making of public policies or decisions, it will further exacerbate the existing inequity in (re)distribution of big data resources among social groups. To solve these problems, there has emerged a proposition by scholars who argue for “pro-equity data initiatives”, alongside a bottom-up movement of “quantified self” in several states or regions. All these can be classified as conscious efforts to counteract the possible pitfalls of injustice as brought along by the algorithms in big data.
Keywords: Algorithmic Injustice; “The Big Data Divide”; “User Profile”; Algorithmic Analysis