APP下载

算法治理、数据鸿沟与数据基础设施建设

2022-03-25梁玉成张咏雪

关键词:鸿沟基础设施决策

梁玉成,张咏雪

中山大学 社会学与人类学学院,广东 广州 510275

得益于多元传感器技术、云储存技术以及大数据处理算法的发展,大量人类行为被数据化,形成大数据集合。大数据一般具有海量样本、高速生产和高维特征的特点,它改变着人们对生活、组织和社会的理解。要对海量数据进行分析和建模,发现隐含其中的模式、关系,从而揭示规律,进行预测和干预,不得不依托于算法。算法越来越多地代替人们进行决策,对信息、劳动力和各种资源的分配进行管理,而这个过程涉及多方利益。算法提供了一种更加高效的决策可能性。

但是,发挥这种决策优势的前提是算法作为一个独立于各个利益群体的主体而存在。事实上,算法参与决策过程,不能完全独立于各个利益群体。对于不同的利益群体,算法需要满足不同的目的需要。广义上,算法是算法、模型、目标、数据、训练数据、应用程序、硬件这一系列要素组成的概念网络[1]15;狭义上,算法将人类语言中的社会规范和法律规则转化为计算机代码[2]。从算法的工作逻辑来看,它只是一套需要遵循的指令,目标是最小化预测误差。从这个角度出发,算法作为工具而存在,服务于不同主体。

算法作为一种工具,长期以来就在不同领域辅助人类通过数字进行决策。如今,大量不同种类数据的使用增强了算法的能力,并且让某些自动化算法以超出人类理解的方式进行自我优化。算法决策迈向了一个更高的层次——算法治理。一般来说,算法治理有两个含义:一是对算法进行治理,算法是治理的对象;二是运用算法进行社会治理。本文中的算法治理指的是第二种。如何理解并且合理运用算法治理来增进人类福祉,是社会科学专家需要解决的问题。社会科学需要提前对其可能后果进行尽可能的预测和准备。

本文从算法治理的内在逻辑出发,基于目前社会经验现实,总结和提炼出算法治理面临的三个问题,即算法透明度低、数据所有权不明晰以及算法欠缺公平性的问题。这三个问题加剧了算法社会的数据鸿沟。数据鸿沟是这三个问题的集中体现,也是这三个问题的社会后果。为了解决算法治理中的数据鸿沟问题,本文提出将数据基础设施建设为一种公共资源的设想。

一、算法治理的内在逻辑

理解算法治理的内在逻辑,需要从“治理”“社会治理”和“数据治理”这三个概念开始,理解它们之间的区别和联系。治理,可以理解为政府制定和执行规则以及提供服务的能力[3]。算法治理也基于这个概念。算法治理是政府运用算法进行治理。算法治理的对象是社会,算法治理的过程就是政府依托算法技术对社会实施管理。这与目前所强调的数据治理很相似,但是又不一样。数据治理强调依靠数据,特别是大数据,辅助人类决策、提高人类决策水平;而算法治理是在数据治理的基础上,让算法参与到规则的制定和执行中,它强调决策直接依靠算法的结果[4]。可见,算法治理的基础是数据治理,是数据治理的进一步自动化。与数据治理相比,算法治理自动化水平的提高在某种程度上减少了人为干预的可能性。

具体而言,算法治理的自动化过程就是在社会治理中引入算法,运用社会仿真技术对现实社会进行仿真建模,建成数字化的人工社会,再由算法进行自动化推算和决策。社会仿真能最大限度地接近实际的社会系统,结合数学模型能够对社会情境进行沙盘推演,从而预测可能出现的治理行为和治理后果并采取相应的措施进行引导和优化,大大提高治理的效率和水平[5]。算法治理使得政府能够提高服务的精准度,合理化决策,将信息和干预目标精确对准,做出最佳选择。例如,美国各州使用预测算法来决定罪犯的量刑,计算囚犯构成的未来风险,决定公共服务的分配,识别弱势儿童等[6]34。政府机构逐渐依赖算法系统分析和预测人的行为,从而做出决策。由此可见,预测能力是算法治理的一个重要特点,也是最主要的特点。预测能力优异说明算法治理具有强大的优越性。

但是,进行算法治理并不能只关注其预测能力,也需要关注其可解释性。算法治理的底层逻辑是算法决策,可以分为解释和预测两种路径。解释路径通常有一个明确的结构,产生基于变量的解释,而预测路径的目的是得出准确度高的预测结果,并不重视解释[7]。解释路径倾向于简单的表达,其中多个变量之间的关系可以简单地理解和量化,然而如果所需要的只是准确预测未来,那么简单的表达就不必要了。在两种路径并行的算法决策过程中,简单可解与复杂准确之间产生了前所未有的张力。当算法只提供预测未来的机制,而不提供理解的方法时,运用算法替代人类决策是非常危险的。

算法的可解释性分为两种:以模型为中心和以主体为中心[8]。以模型为中心的解释,指对算法本身进行理解,包括其设定、训练数据组、性能等。以主体为中心的解释,指分析算法给主体带来的影响,重视其现实意义。以模型为中心的解释应该摒弃,其既可能涉及知识产权问题和商业秘密,也无法提供一种对主体而言有意义的解释,难以提供决策参考[9]。

自大数据分析出现以来,通过大数据学习并自主做出治理决策的人工智能系统渐渐成为一种趋势,不同类型的算法被用在各行各业以指导社会中的数据分析和治理结果。其中机器学习算法的发展和运用势头尤为迅猛,其通过快速排序、分析和模式识别应用于人类无法分析的大量数据来解决复杂问题,比如图像识别、语音识别、无人驾驶和人类行为预测等。

机器学习算法就属于遵循预测路径的典型算法决策,底层决策逻辑处在一个黑箱之中,可解释性很弱。机器学习指的是赋予计算机无需明确编程就能学习的能力[10],让机器像人类一样,从经验和数据中学习。无监督机器学习算法可以在数据集中找到与特定问题相关的模式和关系,无需经过训练。有了更加丰富的数据集,机器学习对人类编码算法的依赖大大减少。这又被称为人工智能辅助决策,即依赖机器学习能力,并使用深度学习、自然语言处理、神经网络和语音识别等技术来进行决策。

目前的算法决策在预测路径的方向上越走越远,而算法治理也依托这种算法决策路径,因此由预测路径的弱解释性所带来的一系列问题不可避免。这些问题涉及算法透明度、数据所有权(包括隐私问题等)以及算法公平性。总体而言,算法治理依赖两个核心要素,分别是算法和数据,因此算法透明度低、数据所有权不明晰的问题也是算法治理的基础问题和核心问题,而算法公平性关乎算法治理的社会后果,是检验算法治理合法性的标准。

二、算法治理的三个问题

(一)算法透明度问题

第一,数字技术人员和公众之间的认知不对称。公众很难理解代码的命令和逻辑链。MacCormick[11]5将算法称为“tricks”(一种把戏)、“tricks of the trade”(行业戏法)。外行人不能理解算法的运行逻辑,只能通过其输入与输出结果来猜测和理解算法的作用。Molnar①MOLNAR C.Interpretable machine learning-a guide for making black box models explainable[EB/OL].[2021-08-25].https://christophm.github.io/interpretable-ml-book/.试图用通俗易懂的方式让人们了解算法黑箱的运行逻辑,但他也只能阐明一般非复杂化的算法,至于像神经网络算法等的复杂算法却无能为力。

第二,算法和数据的复杂性。人们很难挑战算法的处理技术和它们所做出的决策。即使是专家,如果不能获得输入的数据,也很难解释到底发生了什么。简单地列出算法的步骤是不够的,这样的解释虽然在形式上是透明的,但是实际意义不大。换句话说,即使算法设计者自身企图解释算法的内在逻辑,他们也只能停留在数学表达和逻辑上的解释,很难解释不同场景中的具体决策结果。

第三,算法透明度还面临着知识产权保护的问题。企业必须维护行业机密,这当然包括其用于决策的算法。谷歌、亚马逊、Facebook 和微软等公司将他们的算法作为行业机密,不允许公开他们对用户做出的决定或提供的建议。保密只有在促进公共决策的优势时,同时在公众能够参与讨论的前提下才是正当的。建立公开机制的前提是确立保密机制。

Katzenbach 等[4]根据透明度和决策的自动化程度将算法治理系统划分为四个类型,如图1所示。“自治友好系统”提供了高透明度,并将决策权留给人类;“以信任为基础的系统”虽然透明度低,但是将决策权留给人类;“授权系统”具有高透明度,但是自动进行决策;“失控系统”透明度低,同时还完全代替人类决策。目前,大多数的人类决策系统都属于自治友好系统和以信任为基础的系统这两种,人类是决策的主体,但是不同系统之间有透明度的差异。而失控系统是算法治理的一个极端情形,人类彻底将决策权交由无法理解也无法控制的算法,这将会带来严重的社会后果。理想的算法治理系统应该是授权系统,一方面具有高透明度,另一方面通过代替人类决策减少人工徇私枉法的可能性。

图1 算法治理系统类型

算法透明度对于算法治理的实现非常重要,这是社会的要求。提高透明度能够减少不同主体之间的信息差距,并为问责提供条件。在公众的强烈要求下,很多企业提高透明度,但收效有限。例如,Facebook公开了总体审核流程的设计以及潜在的决策标准,但对流程的细节和删除的详细数据仍保密。政府在这个过程中需要肩负起向公众提供信息的责任,也需要带头建立起相应的问责制度,监督企业的信息公开,这对建设廉洁政府和打击腐败也有重要意义。

(二)数据所有权问题

数据资本化已经是一个公认的事实,数据所有权归属以及隐私保护问题不可避免地存在争议。数据作为一种无形物,其产生于个人,同时也受到代码和技术规则的控制,依赖各种储存介质而存在。数据的产生主体是个人(用户),但是其记录者却是企业(平台)。数据所有权问题不仅涉及自然人的民事权益保护,也涉及企业的数据活动自由[12]。

原始的底层数据属于个人,但是经过加工、处理、合成、隐去个人属性的数据则属于企业[13]。个人数据与非个人数据的区别在于其“可识别性”(identifiable),但是个人数据的匿名化是相对的,随着数据源的丰富,原本无法识别出个人信息的数据也可能被识别[12]。虽然单个的数据隐含在海量的数据之中,但是通过合并数据源或者通过组合分析,私人信息就能被推断出来。因此,数据所有权实际上牵涉到个人隐私保护的问题。

在个性化推荐和精准服务盛行的今天,隐私问题面临巨大挑战,政府和企业必须在尊重隐私的情况下存储和共享数据。欧盟的《通用数据保护条例》(GDPR)就是一个例子。为了将数据所有权从隐私问题中解放出来,申卫星[14]提出数据用益权的概念,“数据用益权包括控制、开发、许可、转让四项积极权能和相应的消极防御权能”。数据用益权与数据所有权是分开的,数据用益权只涉及数据的采集和处理,数据所有权属于用户等数据原发者。

虽然数据用益权的概念既能保护数据生产主体的权益又不损害数据使用者的实际利益,但是数据主体在现实中往往非常被动。这一方面源于隐私利益的琐细性、模糊性和双重性,数据来源主体往往要么全部拒绝要么全部同意,处在一种两难境地之中[12]。另一方面,用户如果不提供自身的数据就无法享受服务,因此大多数人只能同意有关的用户隐私条款。需要建立更细致的条例以及更加多元的选择,比如用户有权决定只提供哪一部分的数据,以及享受这部分数据所涉及的服务。

(三)算法公平性问题

算法将患者与医生、司机和乘客、应聘者和用人单位连接起来,它可以用于评估客服的绩效,用于估算员工的辞职风险,甚至决定哪些人可以被保释。算法并非理想中完全客观中立的存在,算法决策中的公平性是一个关键问题。算法决策可能再现种族和性别差异[15]。

算法决策依赖用于训练的数据集。算法产生偏差至少有两个原因。第一个是抽样原因,数据样本本身产生了偏差①CRAWFORD K.The hidden biases in big data[EB/OL].(2013-04-01)[2021-10-07].https://hbr.org/2013/04/the-hidden-biases-in-bigdata.;第二个是数据集中反映了现有的社会偏见[16],例如逮捕率可能因种族而不同,当特定事件的发生率依赖群体从属关系时,需要非常仔细的分析。虽然人们将算法决策视为更理性、更少主观情感的决策主体,但是绝对的客观理性并不适用于一切情境。因此,运用算法进行决策并且进一步实现算法治理,需要考虑到算法公平性的问题。

通过技术手段可以实现算法去偏见化(debiasing)[17],比如开发出能够纠正歧视的算法。但是,并非所有的问题都能通过纯技术方法解决,算法设计者的个人偏好也可能影响算法本身的运行,比如外卖平台对骑手的任务分配和工资计算就会优先考虑平台的收益[18]。不同主体的权威嵌入技术本身而不是传统的治理形式中,治理算法就变成引导、挑拨、控制、操纵和约束人类行为的算法。在算法决策的规则制定中,除了需要技术手段对算法进行去偏见化处理,也需要一个规范来引导多方共同参与。

总体来说,算法决策的三个问题是相互联系的,算法透明度需要依托数据所有权的确立来制定相关的隐私保护条例和保密原则,而算法公平性又依托算法透明度来实现。这三个问题的悬而不决,加剧了算法治理中的数据鸿沟。

三、算法治理中的数据鸿沟

算法透明度问题体现了数字技术人员和普通公众对数字知识的认知不对称,数据所有权问题体现了企业和个人之间对数据掌控能力的差异,算法公平性问题体现了这种认知不对称和对数据掌控差异造成的现实社会问题。这三个问题的叠加,使得一条巨大的鸿沟横亘在数字技术人员和普通公众之间,也横亘在互联网平台企业和其他组织之间。本文将算法治理中的数据鸿沟作为一种社会后果的集中体现进行探讨,它体现了不同社会群体之间在数字知识认知、数据控制权上的差异和算法决策结果的不公。

21 世纪初,信息技术迅猛发展,有学者提出了数字鸿沟(digital divide)的问题。接触机会差异会导致数字鸿沟,使用互联网的差异会产生数字不平等,也导致数字红利(digital dividends)的出现。人们将这种接触机会差异转化为互联网资本,并且从中受益[19],“数字鸿沟”导致了“数字红利”鸿沟的出现。如今,与信息技术相关的新的鸿沟形式出现——“数据鸿沟”,而这次,鸿沟不仅存在于个体之间,也存在于组织之间以及个体和组织之间。

数据鸿沟,区别于数字鸿沟,更强调个人或组织对大数据掌控能力的差异。在算法治理的过程中,谁掌握了数据和算法的控制权,谁就能影响决策结果,并且处于这个权力结构的核心位置,因此在算法治理上的数据鸿沟实际上意味着权力分配的不对等。在算法社会中,数据鸿沟在宏观上体现为平台间的数字控制权差异,在微观上体现为个体间的数字控制权差异。

(一)宏观平台层面:平台数据资本化

在宏观平台层面上,不同平台、不同组织之间对数字资源的控制权存在巨大差异。这种差异的原因就是平台数据资本化。平台将数据变成资本,成为世界经济中很大一部分附加值的来源。各公司都专注于生产更多的数据。科技公司可以通过cookie 等生成大量的个人数据,基于平台协议与合同,合法地行使数据所有权,数据成为私人资本或资产[20]。

数字科技公司凭借其庞大的规模利用数据进行获利。例如,Facebook 在全球拥有超过26 亿用户,所有人都自愿制作平台的核心内容[20]。平台通过吸引用户,生产出更多数据,利用数据投放广告,是经营的核心。平台的用户越多,掌握的数据越多,越有价值。用户的每次搜索都在某种意义上促使平台对服务进行修补和改进。

这些私有技术平台,通过部署算法,有效控制了全球对信息、服务和产品的访问,它们通过自己的专有算法,影响进入市场的各种参数。比如,社交平台能够屏蔽或过滤言论、视频和照片,平台完全控制了用户所能接触到的信息。平台以及科技公司掌握着大量数据和算法的控制权,他们凭借这种资本盈利。

不同的平台掌握着不同类型和不同规模的数据,通过对数据的掌控实现获利,同时也造成了垄断问题。不同数据企业之间也存在数据竞争、数据壁垒、数据劫持、数据爬取等问题[14]。同时,互联网经济产业链中存在着明显的头部效应,位于高端的一家或几家企业易处于垄断地位[21]。不同平台企业之间,以及平台企业和其他企业之间存在着巨大的数据鸿沟。平台企业存在着数字规则不健全、垄断和不正当竞争等问题,这对国家治理体系和治理能力形成巨大的挑战。

(二)微观个体层面:数字精英与数字劳工的分化

在微观个体层面,数据鸿沟在数字技术精英和数字劳工之间具有显著体现。一方面,处于核心地位的是数字技术精英。其由软件开发人员、技术执行官、计算机科学和工科类的学者等组成(这些身份能够相互转化),拥有并且控制着关于数据和算法的知识和信息,能通过计算实现各种创造和突破,甚至影响政府行动的转变,解决众多社会问题。因此,Burris[22]认为,负责技术控制的专家具有一定的独立性,他们处在这个数字产业链的顶端,是大数据的实际控制者。

另一方面,处在数字产业链底端的是数字劳工。应用程序、搜索引擎、地图网站、社交媒体网站,甚至自动驾驶汽车和许多其他产品的顺利运行,都依赖进行所谓“幽灵工作”的大量底层员工,对人工智能的盲目崇拜掩盖了这些人类劳动。数据需要经过准备和处理,结果需要经过检查和纠正,目前的这些依托算法的工作都需要人类完成细节的工作。这些工作包括让司机在拼车应用程序上匹配搭车请求、为网页质量打分、修改数字地图、给视频加标签和注释、反复检查虚拟助手的回应、纠正偏见以及审核社交媒体帖子等[20]。

除了这些负责数据标记的新型职业劳动者以外,还有一些随着众包平台盛行,从传统行业进入到算法系统就业的劳动者,如外卖骑手、网约车司机、快递员等。这些人与数据标记员一样,并非企业的正式员工,工作不稳定,被算法系统所支配,他们的收入取决于他们完成的系统任务。这些数字劳工彼此孤立,由此产生了不稳定的工作体验、不确定的工作、不规则的时间表和不稳定的工资[20]。数字劳工虽然为数据的生产做出重要贡献,但他们在数据掌控权上完全无法与数字技术精英相比。更甚者,他们被数据控制,数据控制渗透在整个劳动过程中。

掌握了数字技术的精英们能够通过算法对数字劳工进行管理,以便根据市场条件、服务质量、物理距离或薪酬实时进行优化。比如,外卖平台对外卖骑手的路线规划和工资结算都依靠算法。他们基于效率原则,诸如公平性等社会性的原则起初并不在他们的考量范围内,这导致了算法偏见以及算法不公平等一系列问题。他们与平台以及科技公司的盈利目标是一致的,他们设计出效率最优的算法,最大化企业的盈利。

四、建设数据基础设施

(一)将数据作为一种公共资源

数字鸿沟是由人们在可及性和运用上的差异导致的,因此缩小数字鸿沟的办法是平衡人们对数字技术的接触机会。互联网基础设施、使用设施的改善大大缩小了人们对数字技术的接触机会差异,从而在一定程度上缓解了21 世纪初出现的数字鸿沟问题[19]。那么,数据基础设施建设或许是一种解决数据鸿沟的路径。

这里的数据基础设施并不单单指建设与数据收集、储存和处理相关的硬件或软件设施,数据基础设施的建设也意味着将数据作为一种公共资源向全社会开放,个人或者组织机构均可以依法合规地申请使用。算法治理一方面依赖数据,另一方面依赖算法,数据和算法的控制权在算法治理结构中处于核心位置。因此,数据和算法不能同时被少数的科技集团所控制,也不可以超越国家的管辖范围,只能由政府在算法治理的过程中主导和监督。

数据基础设施的建设需要打破平台和数字技术精英对数据使用的控制,发挥数据的公共性,让公众和其他组织机构能够共同使用大数据,维护社会共同利益,这也是实现算法治理的前提。现代社会的复杂性意味着公共事务问题需要具备专门知识技能的专家和精英来处理,因此数字技术精英在算法治理过程中仍然发挥着巨大作用。但同时,普通公众也需要参与到治理的过程中,以避免精英政治、官僚政治,通过精英和普通公众之间的良性互动形成有效决策[23]。

除了通过直接的方式打破数据鸿沟,数据基础设施建设也能减轻算法治理本身存在的问题,它可以打破平台间、社会不同部门间的数据壁垒,使得大数据真正做到互联互通。其一是提高了算法治理的透明度,至少从数据源上实现了透明;其二是将数据的公共性发挥出来,让大数据的生产主体也能使用大数据;其三是提高了算法决策的公平性,数据壁垒的打破意味着减少数据样本偏差带来的不公平,同时也能通过不同数据集的相互校正而减少数据中存在的社会偏见。

(二)数据基础设施建设中的数据主权

在数据基础设施建设的过程中,需要将数据主权问题放在首位,缩小数据鸿沟并不意味着打破数据的国家边界。一方面,国家主权在网络空间具有适用性,大数据的产生很大一部分依赖网络空间,因此大数据本身具有主权属性。另一方面,大数据作为基础性、结构性和功能性要素影响着国家实力[24],已经成为一种全新的国家实力要素——大数据实力(BDpower)。

算法权力长期以来被认为是一种横向的“非国家力量”,可以影响甚至代替公权力进行决策[25],但这很可能导致失控,从而产生不良后果。付伟等[26]提出数据主权的问题,即数据资源作为一种关乎国家安全的战略性资源,如果流出国境,很可能对国家安全造成影响,因此,数据在国家层面存在边界,需要从主权的高度形成算法治理模式。Couldry 等[27]认为数字世界的治理需要超越国家和市场的二分法,不能仅仅依靠国家权威。同时,数字世界也不可能完全被市场所控制,这会导致寡头垄断,强化市场失灵带来的风险,因此需要建立起超越国家边界的数字治理模式。全球化的背景下,国家间产生了新的关系和互动形式,使地方行为者之间的关系变得复杂。地方问题不仅是局部的,而且延伸到全球情景,需要寻求合作解决方案。

数据基础设施牵涉到的利益相关者包括政府、技术公司、用户、国际组织(如联合国在国际安全背景下促进各国的合作)。以数据为基础的算法治理必须以国家为边界,不同国家采取的数字治理模式不同,国际间的合作存在一定的困难;同时,国家间的数据所有权以及算法相关知识并不互通,如Twitter、Facebook、WhatsApp 和Instagram 等社交媒体平台的影响是全球性的,但背后的掌控者是区域性的。基于数据主权和国家安全的考量,需要形成以国家为主导的算法治理模式。

当然,以国家为边界的算法治理并不意味着封闭发展,中国作为世界第二大经济体,也需要对人类命运共同体建设做出贡献。要形成以主权国家为核心的共同合作,通过正式和非正式的制度和安排,协调各方的利益和政策,共同应对全球化背景下人类社会的各种跨国和国际挑战,共同打造“以人为中心、基于事实的政策导向,鼓励创新,建立互信,支持联合国就此发挥领导作用,携手打造开放、公平、公正、非歧视的数字发展环境”①习近平.中方愿同各方探讨并制定全球数字治理规则[EB/OL].(2020-11-21)[2021-10-15].http://politics.people.com.cn/n1/2020/1121/c1024-31939476.html.。

(三)由政府主导进行数据基础设施建设

将数据基础设施建设为一种公共资源,隐私问题泛滥是首要关切,而对数据基础设施的建设、应用、监督和问责只能依靠政府和司法系统。但是,Filgueiras等[6]认为在国家控制数据和信息的情况下,国家对数据和信息的全面控制扩大了现有的监视形式,产生了不良的后果,因此反对由国家主导的数字治理。目前,大数据已经形成并且被某些利益集团所控制,在数据鸿沟的现实下,其他组织和个体都无法触碰到大数据本身。这种现实迫切需要一道构筑于各方的桥梁,以彼此联通。

这里涉及两种社会对治理概念的理解差异问题。西方治理的概念是控制、引导和操纵的意思,之后演变为主张政府放权,实现多主体、多中心,弱化政治权力的多元共治、自治。西方治理理论本质上是以理性经济人为基础的社会自治理论[28]。因此,西方对数据资源采取的处理方式是私有化,对资源强制实行私有财产权,将资源的使用和管理交给个人,以增强他们的参与度。比如,美国将社会的数据和信息系统交由科技公司,让企业自身参与服务和创新系统[29]。很显然,美国模式并不能解决目前多主体互不联通的困境,只会加剧以资本和技术精英联合的新权力阶层的力量。

中国的情况与西方完全不同。中国的国家治理遵循马克思主义国家理论的逻辑,主张国家职能由政治统治与政治管理有机结合,社会治理是“在执政党领导下,由政府组织主导、吸纳社会组织等多方面治理主体参与,对社会公共事务进行的治理活动”[4]。中国采取的模式是让政府集中控制公共资源,中央权力机构决定资源的使用和管理。如中国目前的互联网服务就遵循这种模式,以国家为边界建立规则、系统和协议,这在新冠肺炎疫情防控中起到了重要作用。一个有公信力的政府是数据基础设施建设的依靠,也是对各数据运用监督有效性的前提。

西方的政党制度强调各个党派代表不同的利益并且相互竞争从而实现利益平衡,企图实现权力和利益分配的公共性;而中国政党制度强调中国共产党作为唯一执政党是全民族、全社会利益的代表和整合,中国共产党以“立党为公,执政为民”的执政理念保证了公共性[30]。因此,在中国,国家力量可以起到主导和带头作用,也是保证数据使用公共性的基础。随着算法越来越强大,数据收集也越来越广泛,政府必须考虑数据管理的伦理框架,并且确保这些技术不会损害公共利益。

对数据的统合和使用涉及多方利益相关者。数据生产依托不同的主体,其直接产生于个人(用户),又由企业等组织(平台)进行记录。治理本身就是面向社会问题与公共事务的一个行动过程,参与者包括公共部门、私人部门和个人在内的多个主体,通过正式制度或非正式制度进行协调和持续互动。“国家治理体系是由政治权力系统、社会组织系统、市场经济系统、宪法法律系统、思想文化系统等系统构成的一个有机整体。”[31]在这种多元治理主体并存在条件下,必然要求一种“合作治理”的模式[32]。因此,在数据基础设施建设中,需要协调多方参与者,秉承共享、共建、共治的原则。

协调各方利益需要中央权威有效地调配各方数据资源,需要由国家力量进行主导。政府带头建立法规,企业和公众参与到数据基础设施的建设中,通过促进各个利益群体的参与和合作,协调各参与者并形成政策一致性,以创造公共产品和价值。

对政府来说,社会治理的出发点是保证人民群众的根本利益。政府作为协调者,一方面与市场部门合作,最大限度地发挥数字技术对社会的潜在益处,比如在中国,政府与私营部门机构合作,以发展社会信用体系,改善个人和组织的金融行为[20]。另一方面,政府需要确保数字公共服务能够满足民众的需要,最大限度地减少因数字技术带来的新风险,如虚假信息的扩散、对社会弱势群体的歧视等,同时要保护公众的个人数据和隐私。Duff[29]提出政府平台化,特别是在公共服务和政策方面,能够促进多方的沟通,提升解决利益协调问题的能力。

政府虽然扮演着监督者和协调者的角色,但是政府所使用的算法工具在某种程度上也会依赖由市场部门和公众所产生的数据,比如对公众行为、偏好和意见进行评级,以及国家和企业行为者的分类[4]。总体而言,在算法治理的参与框架中,政府起主导作用,既是参与者也是协调者,把握着方向和底线,确保算法治理符合人民群众的根本利益。

2021年,全国信息安全标准化技术委员会发布《信息安全技术 机器学习算法安全评估规范》征求意见稿。该规范全面覆盖了机器学习算法从设计开发、验证测试、部署运行、维护升级到退役下线等阶段的安全评估。这是一个由政府主导,多方共同参与治理的典型案例,也是建立数据基础设施的参考。

(四)数据基础设施的内容

数据基础设施的建设原则是多方共享、共建。数据基础设施不仅包括数据收集、储存和数据调用,同时也意味着将数据资源作为一种公共资源由政府统一管理,合法、合规、有序地向社会全体开放。因此,数据基础设施的建设涉及两方面的内容:一是数据基础设施的架构形式问题,如何打破数据掌握主体之间的壁垒;二是数据基础设施的公共资源化问题,如何处理数据所有权、用益权的问题,这涉及隐私泄露。

1.数据基础设施的架构形式

数据基础设施的架构形式问题可以分为技术支持和参与主体结构两个方面。目前,针对数据基础设施的讨论主要集中在技术支持方面,即建设何种设施以及如何收集、储存和利用数据。刘婷婷等[34]提出要实现纵向贯通化、横向平台化、跨界网络化和供给数据化。纵向贯通化强调数据收集更加全面和细化,横向平台化强调依托平台化的管理,跨界网络化强调不同类型数据的整合,供给数据化强调数据形式反馈的及时性。

建设数据基础设施需要依靠物联网、区块链、平台化等技术的支持。物联网将社会各个部分贯通起来,使得数据的互通成为可能。比如地理测绘系统、物理传感器的架设等实时感应和微观感知设备,贯通智慧城市、智慧建筑、智慧家庭等各个层次,也涵盖交通、工业、生产、生活等各个方面。身份认证、数据加密技术等的发展保障了设备的接入安全和数据安全。平台化的管理维持数据基础设施的运营。各层级的传感器将数据返回到各终端,通过终端将数据传输到平台,与平台进行交互。

参与主体结构方面,由国家力量为主导,政府牵头,实践其作为监督者和协调者的角色。需要建立起一套与数据基础设施配套的法律法规、问责制度等软设施。同时,需要多方共同参与,宏观层面上需要各大型平台、科技公司的共同构建,微观层面上既需要技术人员也需要用户和普通公众参与。参与形式是多样的,包括资金支持、技术支持、建言献策等形式。目前,我国各级政府在推动“一网统管”,可以看作政府牵头,包含党建、经济、社会、文化、生态等政务治理的“横向到边”,从国家到省、市、县、镇、村、居民户的“纵向到底”的数据基础设施。

2.数据基础设施的公共资源化

将数据基础设施公共资源化最大的问题是数据所有权和数据用益权的界定问题。如果数据作为一种公共资源对社会全体开放,一方面会损害数据采集者,包括平台企业等的利益,另一方面也有可能造成隐私泄露问题,从而损害数据生产者本身的利益。解决此问题的一个最可能路径是将大数据知识化。

大数据知识化,是指通过创新过程将大数据转变为新知识[35]。知识可以被无限地重复利用,大数据知识化之后隐私问题会大大缓解。Cong 等[35]预测,随着大数据知识化程度的提高,对大数据的需求将会不断下降,这也将在一定程度上减轻数据鸿沟带来的权力关系不对等。作为公共资源被调用的数据不再是底层数据,而是经过创新过程形成的知识型数据。

大数据知识化的过程包括两个方面,首先是将大数据转变为知识,这需要技术人员对大数据进行加工和处理;其次是知识的有效性和合理性,这需要第三方对知识效用进行评估。社会科学专家需要评估知识数据的合理性和有效性,并负责向公众解释数据知识的逻辑。

五、结语

数字治理终将走向算法治理,运用算法工具进行自动化决策从而实现更好的社会治理是大势所趋。算法治理的核心是数据和算法的控制权。围绕着这两个核心要素,算法治理目前存在的问题可以归结为算法透明度、数据所有权以及算法公平性三个方面。而这三个问题会加剧数据鸿沟。数据鸿沟分别体现为宏观层面上平台、组织之间对数字资源的控制权差异,以及微观层面上个体之间对数字资源的控制权差异。不同的主体对数据有着不同程度的控制权,使得他们在数据资本化的时代也处在不同的权力结构位置。随着数据资本化程度的加深,数据鸿沟会加剧现实中的不平等。要实现良好的算法治理,必须打破数据鸿沟。

国家力量主导下的数据基础设施建设作为一个打破数据鸿沟的方案被提出,重点放在将数据作为一种公共资源向全体社会开放上。数据基础设施的建设理论上能够减轻算法治理潜在的三个问题,通过数据透明提高算法决策透明度;数据向公共资源的转化在某种程度上提高了公众对大数据的使用机会;打破数据壁垒,实现数据的互联互通也能减少由数据样本和社会偏见带来的算法公平性问题。在数据基础设施的架构中,应加强政府、企业和公众、用户之间的对话,增强公众、用户对算法和数据的理解,同时限制算法治理对社会产生的不良影响。在数据基础设施公共资源化的过程中,应强调大数据知识化的作用,避免公共资源化过程中的隐私泄露,同时逐步降低算法对数据的依赖性,进一步缩小数据鸿沟。

如何更好地发挥数据基础设施的公共性,在缩小数据鸿沟的同时缓解算法治理的透明度问题、数据所有权问题和算法公平性问题还需要更多深入的探讨,还有更多问题值得细化,比如如何确立此过程中社会科学承担的角色和责任,如何最优地实现大数据知识化,如何促进各个平台主动参与,如何设置配套的法律法规和问责制度等,这些时代的需求,都将为社会科学专家带来新的机遇和挑战。

猜你喜欢

鸿沟基础设施决策
农业基础设施建设有望加速
公募基础设施REITs与股票的比较
为可持续决策提供依据
婚姻不是用来填补鸿沟的
决策为什么失误了
鸿沟为界
振动搅拌,基础设施耐久性的保障
真实:作文难以逾越的鸿沟吗?
5G——“互联网+”的基础设施
让学生都跨过说话的“鸿沟”