自主算法隐私保护的规范与技术分析
2021-12-29张慧
张 慧
一、问题的提出
算法是Web、App等信息平台赖以进行自动化决策的技术基础,和数据结构共同组成计算机程序,并完成给定的计算处理任务。近年来,算法学习决策能力显著扩张,如基于多层神经网络大脑开发技术的Alphago首次战胜人类顶尖棋手,这也导致了购物、娱乐、金融、医疗等私人生活越来越多受到算法的控制和支配:在购物网站上优先呈现的商品、新闻页面上相似内容的重复推送、视频网站上“洞察人心”的广告……令人好奇的是,这些行为是如何发生的呢?隐藏在信息平台后面的“算法”究竟如何运行?算法对个人生活的“入侵”是否脱离了人们的掌控?算法的这种不可控制性,引发了国内外学者的一致担忧,如Frank Pasquale将算法世界称之为“黑箱社会”(1)[美]弗兰克·帕斯奎尔(Frank Pasquale):《黑箱社会:控制金钱和信息的数据法则》,赵亚男译,北京:中信出版社,2009年。,Lilian Edwards & Michael Veale 将算法称为“看不见的手”,把受算法影响的人称为“算法的奴隶”(2)Edwards, Lilian, and Michael Veale, “Slave to the Algorithm: Why a Right to an Explanation Is Probably Not the Remedy You Are Looking for,” Duke Law & Technology Review, vol.16, no.1, 2017-2018, p.19.。
这些担忧的关切点在于,算法的不可控制性,将产生不透明、歧视、权力失衡、程序不正当、责任缺失、监管空白等系列问题。可以看出,该批判的研究维度尚处于“法律价值”层面的人文担忧,研究视角是将算法作为全球性、无差别的问题进行分析,还尚未涉及到某个国际或地区现行法律条文的具体理解和适用。
该研究范式确实有利于不同国家的情感和理性共鸣,但随着抖音、今日头条等在国外频频遭受“其推荐算法侵害隐私权”的技术质疑(3)中国日报网:《弃微软,挑甲骨文:TikTok 能避开美国封杀一劫吗?》,http://www.myzaker.com/article/5f5f00c08e9f093de4715a94,最后访问时间:2020年9月14日。和政府抵制(4)See 166 CONG. REC. S1869 (2020).,中国应用软件在国外的日活跃用户量发生了巨大下滑,(5)腾讯网:《美国重压之下——TikTok抖音公布了推荐系统细节》,https://new.qq.com/omn/20200715/20200715A0PFY500.html,最后访问时间:2020年9月14日。因此,我国民法对算法的研究亟须从一个宽泛宏观的理论视角,转换到一个部门法的微观视角,思考我国民法对推荐算法隐私保护的具体适用问题。
我国学者虽然也开始注意到推荐算法所带来的隐私权保护变局,但目前的研究仍有进一步推进的空间:一是研究对象层面,仅构建了“算法”一个学术概念,将所有的算法混为一谈;甚至没有将“算法”和陷入“隐私困局中的算法”区分开来。二是法律规范层面,仅将隐私困境作为算法产生的问题之一,(6)陶莹:《机器学习的法律审视》,《法学杂志》2018年第9期;孙建丽:《算法自动化决策风险的法律规制研究》,《法治研究》2019年第4期。未具体分析算法的行为是否符合侵犯隐私权的构成要件。三是技术分析层面,已注意到了算法侵犯隐私权的行为模式,即通过大数据和云计算,算法对用户数据进行分析、处理,并推测描画用户的人格图像;(7)纪楠、李平:《算法时代用户隐私权的保护》,《青年记者》2019年第26期;刘士国、熊静文:《健康医疗大数据中隐私利益的群体维度》,《法学论坛》2019年第3期;吴梓源、游钟豪:《AI侵权的理论逻辑与解决路径——基于“技术中立”的廓清》,《福建师范大学学报(哲学社会科学版)》2018年第5期。但在认定算法隐私时,仍囿于“传统网络隐私”的分析路径,如知情同意、信息自决,(8)郑志峰:《人工智能时代的隐私权保护》,《法律科学》2019年第2期。没有给出一个符合算法行为特征的判断标准。四是对策建议层面,试图单纯通过法律制度,来解决算法引发的隐私危机,而经济成本和社会文化等因素的价值权衡,未引发学者足够的关切。
为了保证研究的问题具有针对性、研究的维度具有综合性、研究的结果具有可执行性,有必要将研究的重点集中在“具体的推荐算法”而非“一般的算法”上,并从法律规范、经济成本及社会文化等方面逐一探讨以下内容:我国《民法典》侵权责任编等法律规范对算法隐私权受侵害进行救济的请求权基础是什么?该请求权基础在算法隐私的技术场景中是否存在法律适用困难?应如何结合算法的技术特征,对相关法律构成要件的标准进行必要的调整,以避免我国的技术应用在国内外社会面临法律风险?
二、我国侵权行为规范对算法隐私的保护现状
算法包括初阶算法和高阶算法。初阶算法只是一系列的运算序列,(9)迪莉娅:《大数据算法决策的问责与对策研究》,《现代情报》2020年第6期,第122页。无论是计算过程、计算结果还是计算能力都是特定的、有限的和可以控制的。(10)郭林生、李小燕:《“算法伦理”的价值基础及其建构进路》,《自然辩证法通讯》2020年第4期,第10页。如自动售货机所运用的“输入—输出”指令,就是初阶算法的机械化表现。(11)Bambauer, Jane, and Tal Zarsky, “The Algorithm Game,”Notre Dame Law Review, vol. 94, no. 1, 2018, p.1.在初阶算法场景中,数据信息之间的联系,如交叉引用、重新组合等,较为薄弱;这些数据信息仍处于信息平台的控制之下。此时侵犯隐私权的行为常表现为“人为地”披露或泄露。
而高阶算法是自主算法,是涉及书面决策树的机器学习算法,不是简单的、计算机化的初阶算法。2020年8月,我国商务部和科技部发布了《中国禁止出口限制出口技术目录》,将抖音等软件所使用的算法,描述为“基于数据分析的个性化信息推送服务技术”。该推荐算法的实现需要两个核心的能力,即自我学习和自我决策能力,依靠自我学习能力对数据进行分析,依靠自我决策能力完成信息推送。推荐算法本质上为自主算法。因此,高阶自主算法对数据的利用,已不局限于静态的存储,而是进行动态的挖掘、分析和相似性组合。(12)李林容:《网络智能推荐算法的“伪中立性”解析》,《现代传播》2018年第8期,第83页。
(一)不受调整的高阶自主算法
根据人机交互程度的不同,在确定算法行为侵犯用户隐私权的请求权基础时,应区分初阶算法和高阶算法,分别检索。
情形一:某算法是受控制的初阶算法,算法的结果可控、一开始就是预知的。若开发设计人员或算法的使用人员利用、控制某算法,实施侵犯用户隐私权的行为。那么,此时的算法完全可被视为人所利用的工具,不需要再分析算法自身的行为,可直接适用《民法典》第1194条(13)《民法典》第1194条:“网络用户、网络服务提供者利用网络侵害他人民事权益的,应当承担侵权责任。法律另有规定的,依照其规定。”关于“网络侵权责任”之条文。这是因为,算法要收集利用个人的数据信息,基本都是通过网络完成。可对1194条的“网络”进行扩张解释或类推解释,将算法解释为网络技术中的组成部分,或者与网络相类似的技术,就可以将算法的行为纳入到侵权责任的规范体系中。
此外,由于数据仍处于相对静态的存储空间,数据与个人信息的属性相似,在判断是否构成隐私时,可依据《民法典》第1034条第3款,通过判断数据是否具有私密性;及第1035条,判断网络服务提供者收集、使用、处理用户的信息是否获得了个人的知情同意等具体内容,以确定某行为是否侵犯了隐私权。
因此,初阶算法模式下的隐私权保护问题未面临法律适用困境,以初阶算法为分析对象,讨论算法侵犯隐私权的法律保护模式问题,无论是实践意义抑或是理论意义,都不太大。
情形二:某算法是不受控制的高阶自主算法,现行民法规范如何确定自主算法的自主行为是否侵害到隐私权呢?此时,自主算法的行为完成虽然高度依赖现有数据,但却是“在未来的数据集中”实现结论。(14)Chagal-Feferkorn, Karni, “The Reasonable Algorithm”, University of Illinois Journal of Law, Technology & Policy, vol.2018, no. 1, 2018, p.117.其无限性、不可控制性已然超越了人对数据信息的掌握力,(15)Edwards, Lilian, and Michael Veale. “Slave to the Algorithm: Why a Right to an Explanation Is Probably Not the Remedy You Are Looking for”,Duke Law & Technology Review, vol.16, no.1, 2017-2018, p.19.正逐步突破私人的领域空间。
由于算法的自主行为不是网络用户和网络服务提供者的行为,1194条不能作为请求权基础。《民法典》侵权责任编第1165条可以作为请求权基础。依据该条规定,侵害隐私权责任的成立需逐一确定民事权益、加害行为、过错、因果关系及损害。
首先,确定是否存在隐私权的利益,即隐私。《民法典》明确并丰富了隐私的内涵,(16)王利明:《民法典人格权编的亮点与创新》,《中国法学》2020年第4期,第9页。规定隐私包括不愿为他人知晓的私密信息。我国最高人民法院在2014年,为解决信息网络技术的发展对个人隐私保护造成威胁的难题,(17)姚辉、焦清扬:《民法典时代司法解释的重新定位——以隐私权的规范为例证》,《现代法学》2018年第5期,第71页。借鉴德国的信息自主权原则,(18)参见杨芳:《个人信息自决权理论及其检讨——兼论个人信息保护法之保护客体》,《比较法研究》2015年第6期,第23页;王利明:《民法典人格权编的亮点与创新》,《中国法学》2020年第4期,第13页。出台了《关于审理利用信息网络侵害人身权益民事纠纷案件适用法律若干问题的规定》,从“5个方面+1项兜底条款”构建了网络隐私侵权认定的司法判断标准。(19)郑志峰:《人工智能时代的隐私保护》,《法律科学(西北政法大学学报)》2019年第2期,第54页。按照该标准,只要信息的获得及使用范围具有合法性或授权性,且单独的数据无法识别出自然人的身份,那么该数据信息本身便不受隐私权制度保护。在此标准下,信息隐私的判断标准和个人信息具有基本一致性;而算法自主行为所涉及的数据信息从直观上来看,由于不具有可识别性,因此很难被认定为隐私。
其次,判断该行为是否符合侵害隐私权的行为特征。《民法典》第1033条规定了5项侵害隐私权的行为和1项兜底条款,其中第1项、4项、6项与自主算法的行为无关,不予分析。而第2项与3项所规定的“窥视”行为,从技术角度上,可将算法的自主行为纳入到被行为方式的评价范畴之中。但要认定窥视行为的成立,就必须对算法的动态行为进行必要的法律评价。显然,我国目前的司法实践和规范文件尚未提及该动态行为是否需加以认定及如何认定。
此外,第5项行为“处理他人的私密信息”的成立关键在于,如何理解“私密信息”。私密信息实际上是隐私的一部分,依前述,自主算法处理的数据不能被认定为隐私,自然也不属于私密信息,那么自主算法处理数据的自主行为,便不能被认定为是处理“私密”信息,加害行为便无法成立。
再次,确定是否存在过错。从文义解释的角度,该1165条请求权基础仅以自然人为评价对象。但在自主算法自行学习、计算、分析的“自主行为”侵害用户隐私权的情形下,由于此时的不利后果不是由人的主动行为而产生,也无法被人所预见、注意和避免,若以“人”而非“自主算法”为评价对象,则不存在过错。
最后,判断因果关系和损害。我国理论和实践中就因果关系的判断,通说采相当因果关系,(20)王利明:《侵权责任法》,北京:中国人民大学出版社,2018年,第97页。包含加害行为与权利受侵害之间的责任成立因果关系,以及损害与权利受侵害之间的责任范围因果关系。(21)王泽鉴:《侵权行为》,北京:北京大学出版社,2016年,第231页。而损害是加害行为的不利后果,当加害行为尚未成立时,损害也无法存在。因此,相当因果关系无法成立。
(二)静态保守的裁判逻辑
显然,依据我国目前的法律判断标准,无法证成自主算法侵害了用户的隐私权。无法证成的根源在于,我国并未区分初阶算法与高阶的自主算法。而在司法实践中,仅用一套标准调整两种算法的规范模式,对当事人隐私权的保护不得不陷入僵硬困局。
截至2020年9月15日,以“算法 隐私”为关键词检索北大法宝司法案例库,共显示111件民事判决书。剔除与“算法”无关的案例后,与本文研究内容相关的案例共有5件,涉及的技术行为简要如下:
1.任甲玉诉北京市百度网讯科技公司侵犯名誉权、姓名权、一般人格权纠纷案。(22)北京市第一中级人民法院(2015)一中民终字第09558号判决书。任甲玉在百度网站上输入任甲玉,网站自动呈现的结果与本人现有情况不符。
2.赵庭邦诉北京百度网讯科技有限公司名誉权纠纷案。(23)广东省广州市白云区人民法院(2015)穗云法民一初字第1391号判决书。赵庭邦在百度网站上输入赵庭邦,网站会出现写有“赵庭邦诈骗”的图片。
3.凌某某诉北京微播视界科技有限公司隐私权、个人信息权益网络侵权责任纠纷案。(24)北京互联网法院(2019)京0491民初6694号民事判决书。凌某某注册登录抖音App,在其不知情也未授权的情况下,抖音获取了凌某某的微信好友、姓名、手机号等信息,并利用凌某某的社交关系,进行内容推荐。
4.朱烨与北京百度网讯科技公司隐私权纠纷上诉案。(25)江苏省南京市中级人民法院(2014)宁民终字第5028号判决书。朱烨利用百度搜索引擎搜索“减肥”“丰胸”“人工流产”等关键词,并浏览相关内容后,一些网站随之推送与这些关键词相关的广告。
5.淘宝(中国)软件有限公司诉安徽美景信息科技有限公司不正当竞争纠纷案。(26)浙江省杭州市中级人民法院(2018)浙01民终7312号判决书。淘宝公司在收集网络用户浏览、搜索、收藏、加购、交易等行为痕迹信息所产生的巨量原始数据基础上,通过特定算法深度分析过滤、提炼整合,形成指数型、统计型、预测型等衍生数据。
上述行为都属于算法行为。其中,案例1和案例2中,搜索引擎根据用户的输入产生相应的检索,这一行为主要为初阶算法。案例3、4、5中的行为都可纳入到自主算法的范畴中,其基本行为特征表现为自主算法“自行”推导结果。
而法官在判断“算法收集使用用户信息之行为是否侵害用户的隐私权”时,并没有区分初阶算法与高阶算法的行为差异,采用的法律适用逻辑均是先依据最高法《规定》第12条,判断个人信息是否属于隐私,若不属于隐私,便不再判断侵权行为的其他构成要件。通过认定用户信息不属于个人信息(隐私),及收集、使用数据的行为均在约定的使用范围之内,认为该算法行为具有正当性。如朱烨与北京百度网讯科技公司隐私权纠纷上诉案,法官认为由于该数据信息不属于隐私中的私密信息,算法对“数据”的处理行为,便不能被认定为是处理“私密”信息,所以不构成隐私权侵权。
具体到每一个构成要件中,判决在认定隐私时,采用的是“静态”的分析视角,即将用户的数据信息进行逐一的、独立的、割裂的性质判断。既没有将用户信息与算法行为联系起来,也没有将单一的信息与其他的信息组合起来。而一旦数据是基于个人同意而获得,自主算法无论对该数据执行多复杂的、动态的计算学习行为,用户的隐私权均无法在该静态的认定标准下得到保护。
判决在认定过错时,仍以“人”为评价对象,表示“网络用户对网络空间中的个人信息和私人领域的控制力更为减弱”(27)北京互联网法院(2019)京0491民初6694号民事判决书。,“关联词条自动生成,并非由于百度公司人为干预”(28)北京市第一中级人民法院(2015)一中民终字第09558号判决书。,“判断自动抓取信息是否具有真实性,已明显超出网站的审查能力范围”(29)广东省广州市白云区人民法院(2015)穗云法民一初字第1391号判决书。。不具有过错,便无法依过错原则进行归责。由于隐私和过错的无法成立,因果关系的判断更鲜少被法官重视。
综合所有判决,法官在认定算法行为时,虽然已认识到算法所产生的隐私风险,如指出“敏感信息容易和特定主体发生联系,从而暴露个人隐私……”(30)浙江省杭州市中级人民法院(2018)浙01民终7312号判决书。;但仍具有明显的“可控制性”的逻辑特征。该逻辑表现为,由于每一项数据信息都受平台控制,所以算法处理数据的行为是可控制的,没有风险。该逻辑与“静态隐私”的规范思维一脉相承,无法对动态的、不可控制的算法行为之法律风险,进行精准的判断。
基于上述分析,目前,我国自主算法隐私保护的法律标准不够灵活且不够中性。不够灵活在于,仅关注到静态的私密信息保护,侵权行为的法律框架无力调整自主算法的行为。不够中性在于,目前的法律标准都是针对人而确立,但是未针对自主算法确立。
三、自主算法隐私保护困局的四大威胁
我国《民法典》侵权责任编等民法规范之所以仅调整初阶算法行为,在于尚未适应算法技术的发展阶段。此法律保护的滞后性所造成的隐私权保护困境,不仅无法应对自主算法产生的新型技术风险,保守的司法裁判更将加剧法律上的不平等性,产生经济地位失衡、国际舆论压力等系列连锁反应。
(一)技术风险的不可控
自主算法的高阶性在于其深度的自我学习能力,因此经常被设计用来处理突破人类思维极限的运算,并得出超出人类理解的结论。该能力不仅使自主算法获得了广泛开发和使用的价值及知识产权的法律地位,也证明了自主学习算法能够模仿人类,做出自主决策,接管曾经只专属于人自身的判断力。(31)
为了更好地实现自主算法的深度学习能力,促使自主算法能够执行更多更复杂的工作,自主算法的模型就会被构建得更复杂,而一个庞大的自主算法模型也常常由不同的程序员分工合作完成。(32)Chagal-Feferkorn, Karni, “The Reasonable Algorithm”, University of Illinois Journal of Law, Technology & Policy, vol.2018, no. 1, 2018, pp.113, p.134.与之相应的是,越复杂的自主算法模型,算法模型所推导的结论,就越难以在开发设计阶段被开发设计人员理解和预见。
毕竟,每个开发设计人员所编写的代码,仅是这个庞大的算法模型中的一部分,甚至是极小的部分。要求这些开发设计人员就整个自主算法的决策结果,进行预测,并给出相对接近的意见,在实践中根本不具有可操作性。实际上,开发设计人员难以预测算法在所有潜在情况下所做的选择,只能通过测试场景的有限子集,以预测它们可能产生的选择。
因此,区别计算机化的初阶机械算法与具有深度学习能力的高阶自主算法,其意义在于,自主算法的计算推导结果具有不可预测性。初阶算法的运行结果尚可视为开发设计人员的选择,但自主算法的决策,不一定计入开发设计人员编写算法时所预见的结果。该不可预测性除了受模型的复杂性和开发人员的多元性影响,也由自主算法本身的技术特征决定。
一是,“随机性”工具的使用是许多自主算法的基本配置。(33)贺红、马绍汉:《随机算法的一般性原理》,《计算机科学》2002年第3期。即赋予算法自由选择的权利,允许算法随机做出选择。(34)Kroll, Joshua A., et al, “Accountable Algorithms”, University of Pennsylvania Law Review, vol.165, no. 3, 2017, pp.653-656.
二是,自主算法的参数是动态的、不断变化的。自主算法的完成常常是在线完成,而不只是依靠线下的人工数据输入,因此极有可能会在做出某个决策后,在线实时更新其预测模型。(35)夏红霞、宋华珠、钟珞:《算法设计与分析》,武汉:武汉大学出版社,2007年。它们与其他输入及不可预测的代码之间的交互,增加了复杂决策算法的不可预测性。
三是,自主算法远远超越人脑的计算能力,能够处理大量的数据。自主算法推荐行为的发生通常依赖大量的数据组合,同时,每种组合又包含天文数量的参数和潜在的算法。在这些数据和算法相互作用的过程中,自主算法从几乎无限的数据源中进行意外的交叉引用,也并非无可能。(36)Chagal-Feferkorn, Karni, “The Reasonable Algorithm”, University of Illinois Journal of Law, Technology & Policy, vol.2018, no. 1, 2018, p.128.虽然该能力确实强大,但自主算法确不具有人的感情或感知,因此其完全基于数据化的推导结果,对不同人的可接受性也具有差异,很难预测。
四是,自主算法在向无监督发展。(37)岳永鹏:《深度无监督学习算法研究》,西南石油大学2015年硕士学位论文,第3页。虽然,现在绝大部分的自主算法仍需要通过算法模型的监督完成,自主算法的完成需要经过一定的训练过程。比如,第一次遇到狗,算法的结论是选择跑;第二次遇到老虎,算法判断老虎比狗更凶猛,所以算法仍然选择跑,这就是算法的训练过程。但一部分自主算法已进入无监督状态,即自主选择运行套路,不需训练,不受限制。总之,无论是无监督或者监督,自主算法的结果难以预测,是无法忽视的应用特征。
比如,抖音诸类软件实现内容推荐,所使用的个性化推荐算法,也是自主算法的一种。虽然该类软件所运用的自主算法也需受监督,但其所依赖的线上实时更新的数据组合起来,是否构成了人格图像,且该人格图像是否侵害到了该用户的私人空间,是该算法的开发设计人员起初所不能预知的。
(二)法律地位的不平等
我国目前对算法隐私的法律保护方式重在保护信息本身,通过规范信息的源头需符合合法性和授权性要求,进行风险控制,而信息获得之后,对个人隐私权的保护仅设置了“符合约定的使用范围”这一个约束条件。该种保护方式的薄弱及法律欠缺之处在于,没有重视“算法行为”对隐私的威胁,即1165条设置的请求权基础,无法有效地将“自主算法”作为分析对象,进而判定是否构成加害行为、过错、损害与因果关系。这实际上给算法的开发者、设计者和使用者提供了免于承担“隐私侵权责任”的法律漏洞。
因为在自主算法对隐私的威胁中,更值得担忧的,不是可控制信息带来的威胁,即不是“人”产生的威胁,而是不可控制的“行为”带来的威胁,即自主算法通过深度学习功能,将用户个人的数据信息进行“自主地”排列组合,以达到“窥视”的实际效果。(38)李飞翔:《“大数据杀熟”背后的伦理审思、治理与启示》,《东北大学学报(社会科学版)》2020年第1期,第9页。换言之,在自主算法的场景中,隐私权保护的焦点不再是存储于某个空间的信息本身,而是产生推荐内容的描画、分析与推荐等系列行为。此时要判断算法推荐出来的内容是否侵害隐私权,除了要认定数据信息是否构成隐私,也需研判算法的推荐行为。这是对算法本身行为的研判,与行为的结果无关。显然,我国目前的隐私规范尚未及时回应该变化。
此外,相较于线上仅针对信息这一单一焦点进行保护,在线下的物理空间中,隐私的保护范围却更广泛,除了私密信息本身受保护,行为的正当性也受法律约束。譬如,一个偷窥者所偷窥到的某明星的信息,仅仅是一张公开发表的照片,虽然照片本身因主动公开不再属于隐私,但偷窥行为仍应受到法律的否定性评价。
而目前将自主算法场景中的隐私保护与网络空间中的信息保护混为一谈的单一认定方式,势必会造成法律上的不平等。其不平等之处有二。一是线上和线下的保护不平等。同样的行为(跟踪、记录、描绘等监视)在线下真实空间中发生,行为人需承担民事责任。而算法的自主行为,特别是当开发人员按照技术要求开发的算法,虽然在实际运行中,远超出了人的预期及控制,并确实符合监视、窥看的行为特征时,但该线上虚拟空间中的行为所造成的隐私权损害,在法律上却无法找到救济手段。
二是算法和人的法律约束不平等。按照我国目前的认定标准,侵权责任的行为对象只能是自然人等民事主体。此认定方式下,民事主体利用网络技术收集、处理用户隐私,用户可以依据1194条主张该主体的侵权责任;但自主算法的行为对用户的侵害行为,用户却不能直接适用1194条和1165条之请求权基础,维护个人隐私权益。
(三)经济地位的失衡
上述规范层面上的不平等,反映了法律未及时、有效地处理技术发展所产生的经济地位失衡问题。软件等信息平台与用户之间本来是互惠互利、合作共赢的局面,一方提供技术、获得流量,一方使用服务、节省人力。
但自主算法行为,不受我国侵权框架的法律约束。这意味着,“人”不可以侵犯“人”的隐私,而“算法”却可以侵犯“人”的隐私。算法开发者可充分发挥技术优势,只需要证明算法的行为,不是被人操纵,就可以利用算法为所欲为,无需负责。这不得不使数据收集、分析所带来的技术体验,与隐私保护的法律价值之间无法维持平衡。(39)Warner, Richard, and Robert H. Sloans, “The Ethics of the Algorithm: Autonomous Systems and the Wrapper of Human Control”,Cumberland Law Review, vol.48, no.1, 2017, p.38.
随之而来的隐患,就是网络用户的数据信息拥有巨大的商业价值,且该价值可以被算法或者说使用算法的平台加以利用。从经济的成本来看,用户即使隐私权受到损害,也无法获得损害赔偿,还需承担诉讼成本;而被利用的数据信息具有专属的人格性却不能带来经济收益。这种经济失衡,会随着自主算法的无监督化,逐渐扩大。甚至可以怀疑,当一个在算法面前“赤裸”的人,是否还具有被算法利用的价值?(40)[法]马尔克·杜甘、克里斯托夫·拉贝:《赤裸裸的人》,杜燕译,上海:上海科学技术出版社,2017年,序。
算法利用大数据杀生或杀熟的事例已有发生,(41)李飞翔:《“大数据杀熟”背后的伦理审思、治理与启示》,《东北大学学报(社会科学版)》2018年第8期,第7页。用户个人在对抗算法的过程中,已出现经济损失。若未有配套的法律框架加以适用,这种技术优势造成的双方经济地位差距将逐渐拉大。此时,在人为可控制的算法中,尚且可以将之归结为信息平台的责任,而在不可控制、不可预测的自主算法中,是否可归结为平台责任?
若仅单一的归结为平台责任,不可避免的,算法开发者的研发及诉讼成本将提高,在追求快速、效率及资本利益套现最大化的互联网环境中,这种成本负担是否还能发挥促进技术创新的驱动力?是否将进一步导致经济不平等地位的反转?值得疑问。
(四)域外法律文化的压力
在新一轮信息革命进程中,我国的软硬件技术均在积蓄力量,试图走向国外,为中国智造、中国创造发声。但算法技术背后始终蕴含着一个国家、社会或者个人的文化思想,(42)Kitchin R, “Thinking Critically About and Researching Algorithms”, Information Communication & Society, vol.20, no.1, 2017, pp.14-19.国际社会平衡这些文化思想冲突的手段通常为法律。若忽视技术背后的文化、伦理等“隐性价值”,(43)Kraemer F, Van Overveld K, Peterson M, “ Is There an Ethics of Algorithms? ” Ethics and Information Technology, vol.13, no.3, 2011, pp.251-256.容易造成我国先进的技术、制度因缺少隐性价值的支撑,无法获得国际上的认同,反而在走出国门时显得异常艰难。
这种隐性价值在自主算法场景中的基本内涵在于,在重视高阶自主算法开发应用的同时,应时刻保有“人为主体”(44)王利明:《民法典人格权编的亮点与创新》,《中国法学》2020年第4期,第14页。的法律警惕。而这种警惕对我国社会文化具有重大现实意义,一方面,自主算法在逐渐接管人对信息的控制力和判断力,而另一方面,中国传统文化中并无对抗该威胁的“思想基因”。
首先,从“内心秩序”与“外在世界”的关系中,“和”的相处观念仍为主流,如安土重迁、安居乐业、顺时而耕。常常居于这种稳定的环境中,人们很少思考威胁、挑战及其产生的不安感,(45)Kathleen Gough, “Francis L. K. Hsu’s Americans and Chinese”, Royal Anthropological Institute of Great Britain and Ireland, vol.57, 1957, pp.26-27 (book review).如杞人忧天,就是劝告人们不要作无谓的担忧。与之相适应的,集体主义感明显,不愿意在未知中突出自己,如枪打出头鸟。同时存在跟从现象,体现出的不对抗特征就是厌讼,尤其是不愿意对抗更强大的力量,在乎周遭世界对自己的评价。(46)Leonard D. Borman, “Francis L. K. Hsu’s The Challenge of the American Dream: The Chinese in the United States”, American Anthropologist, vol.75, no.4, 1973, pp.1007-1008 (book review).
其次,在“人”与“技术”的关系中,技术甚至是科技技术仍处于“器具”的认知阶段,只是将技术当作人的工具,缺少积极行动、改造环境的主动性。(47)赵敦华:《实用主义与中国文化精神》,《哲学研究》2014年第1期,第68页。美国社会所盛行的实用主义之所以在我国缺失,一方面是源于我国家天下的伦理观念中,就技术的哲学思考劣于人与人、人与社会、人与国家的价值排序。(48)陈亚军:《实用主义硬核及其中国回映》,《社会科学》2016年第4期,第112页。另一方面在于我国的信息技术发展时间较短,社会存在尚未对社会意识产生颠覆性的影响。无论是社会层面的讨论还是立法层面的构造,都远远未赶上自主算法的发展进度。因此,导致我国对算法发展给人类所带来的难以预测的威胁,尚未有充分的认识,而这最终导致法律观念的保守及立法设计的滞后。
反观欧美,已经产生:(1)突破性的法律文件,如欧盟2018年生效的《一般数据保护法》(General Data Protection Regulation,简称GDPR)、美国2020年生效的《2018加利福尼亚消费者隐私法案》(California Consumer Privacy Act of 2018,简称CCPA);(2)典型的司法案例,如Carpenter v. United States、Heagerty v. Equifax Information Services LLC;(3)大量学术文章。这当然可归结于海洋文明下的不安感(49)Kathleen Gough, “Francis L. K. Hsu’s Americans and Chinese”, Royal Anthropological Institute of Great Britain and Ireland, vol.57, 1957, pp.26-27 (book review).所带来的对抗文化,亦可解释为欧美的个人主义色彩,(50)William E. Hogan, S. V. D., “Francis L. K. Hsu’s Americans and Chinese”, The American Catholic Sociological Review, vol.14, no.3, 1953, pp.182-183 (book review).使其关注个人自身的自由、安全和发展。其背后的主旨是思考外界对自己的威胁和挑战,该外界既包括其他国家和个人,也包括算法等不可控的技术。这种文化的优劣暂且不论,但其发展成果将会一直给中国的算法技术造成法律及文化层面的“软压力”。此挑战不容忽视。
四、自主算法隐私保护的标准构建
在技术、法律、经济及文化的多重压力下,值得中国学习和反思的是,如何更注重逻辑性在我国目前的侵权行为法律规则内,拿捏准自主算法隐私保护的范围和尺度。
既然,依据我国目前确立或普遍适用的判断标准,无法证成自主算法行为侵犯了用户的隐私权,那么要以《民法典》侵权责任编第1165条作为自主算法隐私保护的请求权基础,就必须调整隐私、过错及因果关系三个方面的判断标准。
(一)判断标准的内在要求
显然,不能简单、也无法按照人的标准约束自主算法。因为,自主算法的计算能力、判断能力和控制能力都将远超于人,若直接按照“人”的过错责任标准,主张损害赔偿责任,对自主算法的约束作用有限。若按照人的“严格”无过错责任标准,要求任何情况下,自主算法都应承担损害赔偿责任。这会导致算法开发及使用过程中的谨慎心理,甚至在自主算法的使用过程,采取相对保守的模型,以避免开发者或信息平台承担巨大的诉讼风险,不利于技术成果的快速转化。既然是以自主算法及其行为为评价对象,那么显然,最吻合的标准是按照“技术”的标准,对自主算法的自主行为进行评判。
1.动态性
在技术的评价标准中,不是所有的自主算法都会侵害隐私权,也不是所有的自主算法都不侵权。即法律上应确定的标准不应是一个绝对的、固定的、一成不变的标准,而应该是一个动态的标准。
该标准需贯穿于法律实施的整个过程,力图从两个方面实现经济效益。一个是抽象性和普遍性,该标准应该和目前的《民法典》所确立的法律框架相互吻合,且能够对所有的自主算法起到提纲挈领的作用,减少立法成本。二是具体性和特殊性。法官可以依据该标准,就特定的自主算法行为进行裁判,具体问题具体分析,不需花费过多的司法成本。且该标准能够尊重不同的自主算法的特征,减少信息平台方的诉讼成本,降低守法的难度。
2.客观性
其次,应满足客观性。客观性强调的是,在评价主体上将自主算法与开发者、使用者等人区分开来。若用户主张自主算法侵害个人的隐私权,应首先围绕算法的自主行为进行判断。尽管算法的构建,与开发设计人员有直接的联系,但自主算法的决策结果,并不一定与该开发设计人员的预想完全相符,自主算法的决策具有独立于人的特征。将二者进行区分,可以更好地解决前述所提及的算法动态行为不受法律监督的现状,以及自主算法的不可控制性将给信息平台带来的巨大诉讼风险之难题。
此外,该区分也符合自主算法走向“无监督化”的发展趋势。诚然,在我国未加以区分初阶算法和高阶算法的法律制度下,开发设计人员为保证自主算法的可控制性,并降低其威胁隐私权指数,可以通过一系列技术设置,将自主算法“控制”在“受监督”的边界内,但这并不符合技术开发者们的价值追求。
在编程时,训练算法直接忽视并抛弃某种类、某性质的数据信息,该种控制方式就破坏了算法推荐结果的完整性和可靠性,直接影响用户体验。或者要求自主算法描画人格图像的行为及结果,应获得信息平台人员的批准和同意,该种控制方式将会给该算法的运行,频繁的设置障碍。因为算法的处理速度和判断速度远快于人,且可以24小时运转,但一旦需获得批准和同意,就只能立刻停止运行,并等待程序员逐一检查、对照,最终做出停止或同意推荐某内容的决定。这不仅需要大量的人力资源,投入额外的人力成本,更直接造成了算法的资源浪费。
3.相当性
在客观性基础上,应确保该标准与算法能力相吻合,并且应尽可能不突破现行《民法典》确认的侵权行为之构成要件。即,应结合自主算法的技术能力,探讨如何调整加害行为、过错、因果关系和损害的认定规则。该标准的规范意义在于,维护法律规范调整和指引功能的确定性,防止因自主算法的更新换代,不断修改规则,从而损害立法及司法的公信力。
(二)具体化的法律标准
在把握好上述三大内在要求的基础上,应着力突破静态的隐私判断标准,及以人为主体的过错和因果关系之判断标准,以解决自主算法隐私保护的法律困境。由于我国在该问题层面尚未有深入的分析,因此借鉴其他国家或地区先进的法治经验,是可行的研究路径。
1.隐私认定的动态组合标准
有趣的是,2016年,美国发生了一起Mount V. PulsePoint, Inc.案,(51)See 13 Civ. 6592 (NRB).其案情同我国朱烨诉北京百度网讯科技公司案,具有极高的一致性。均涉及某网站使用cookie技术,定向投放广告的行为是否侵犯了用户的隐私权。但与朱烨案中,我国判决认为不构成隐私的观点不同;Mount案中,法官首先认可了,算法在理论上可以基于汇总足够的浏览量来识别浏览器用户的实际身份信息。其次,指出隐私作为受法律保护的利益,要满足两个条件:(1)具体的,不需要是有形的;(2)实际的或迫在眉睫的,而不是推测或假设的。因此,具体到该技术场景中,只要能证明算法技术组合的数据信息,能够链接到特定的人,那么该场景中,用户个人的隐私权受法律保护。
该动态组合的判断标准之优势在于,可以根据不同技术能力、不同技术场景,就算法入侵的数据信息是否构成隐私,做出灵活性的判断,适合不受控制、不可预见的自主算法行为的发展趋势。
2. 过错认定的合理人标准
德国和我国台湾地区的传统民法理论将归责原则作为决定“何人,对何种法律现象,承担责任”的法律价值判断因素的体现。(52)为了平衡算法技术发展的效率性、商业性与用户隐私权保护之间的利益关系,自主算法行为的侵权责任认定仍应遵循过错归责原则,这也是相当性标准的具体要求。
过错是“行为人”的“主观心理状态”。理论上,衡量过错的标准主要有二,一是主观标准,即分析行为人的主观层面是否存在故意或过失。该标准为我国的通说。二是客观标准,即认为行为人未尽到一般人所能尽到的注意义务,即具有过错。(53)杨立新:《侵权法论》,北京:人民法院出版社,2013年,第162页,259-262页。
依自主算法隐私保护的客观性要求,自主算法侵权认定时,是以“算法”为评价对象,因此很难采纳主观标准认定过错是否成立。那么,该如何将客观标准适用于自主算法中呢?美国基于长期司法判例经验,逐渐发展形成的“合理人”标准,应具有可借鉴性。
合理人标准强调的是,一个合理人不是完美的,他代表、但并不超过社会的通常水平,他并不是一个可以洞察所有危险的、超常谨慎的人。同时,为了兼顾公平,应依据当事人的不同特征,适用不同的合理人标准。如未成年人的过错认定,就要将年龄的因素考虑在内,通过与其年龄、智力、经验类似的理性未成年人在该情形下的行为进行比较,认定其行为是否存在过错。(54)冯恺:《美国侵权法:判例和解释》,北京:中国政法大学出版社,2016年,第75页。显然,该合理人标准若应用于自主算法的过错认定上,可以结合不同算法之间的横向对比,得出与其技术能力具有高度相当性的结论。
具体来说,就是将该算法与同时期、相类似的算法进行比较。若经过技术比对,在算法行为发生时,其他类似的算法通常都不会侵犯隐私权,那么说明该自主算法在当时也拥有“避免侵犯隐私权”的注意能力和注意义务,即具有可预见性,应可预见。此时若实施了加害行为,那么该算法的自主行为,显然应受到否定性评价,具有过错。反之,若其他类似的算法也无法避免对隐私权的潜在威胁,此时由于算法自身的不可预见性,即无法拥有规范意义上的注意能力,法律便不能再苛责自主算法的民事责任,而应通过召回、修改、禁令等其他命令性、管理性条文加以规范。
而其他类似算法究竟有多少比例会侵犯隐私权,才能与同时期自主算法进行参照,以及除了设定同时期外,是否还需设定同国家或同地区的额外条件,这些便涉及法律政策的调整范围,需要综合人与技术的因素具体确定。当然,也可借鉴美国判例衍生出来的“汉德公式”(Hand Formula)进行可视化的计算。(55)冯恺:《美国侵权法:判例和解释》,北京:中国政法大学出版社,2016年,第75页。除此之外,若要解释通常类似算法的行为结果,是要通过责任倒置,将责任归属于开发使用算法的一方当事人,还是要由中立第三方进行评估,成本由主张诉求的当事人承担,亦法律政策平衡隐私保护与算法发展的重要方式。
3.因果关系认定的可预见性标准
我国认定因果关系的通说为“相当因果关系说”,其适用的困难之处在于,“相当性”的标准依赖于法官的经验判断。(56)杨立新:《侵权法论》,北京:人民法院出版社,2013年,第236页。而自主算法是非常复杂的技术行为,难以依常识进行直观判断。因此,亟须新的标准填充,以帮助法官做出是否存在相当性的法律价值判断。
需特别明确的是,因果关系的判断是政策性考量。之所以通过“相当性”标准来衡量因果关系,在于将侵权责任限定于一定的范围,而不是任其无限扩大。(57)冯恺:《美国侵权法:判例和解释》,北京:中国政法大学出版社,2016年,第182页。因此,如何确立一个合适的法律价值标准,以控制民法对算法责任的苛刻程度,力图在人格权保护和技术责任两者之中取得平衡,尤为重要。
大陆法系认定相当性时,主要依靠法官的主观判断。英美国家将因果关系分为事实因果关系和法律因果关系两个层面,且其内容与大陆法系的责任成立和责任范围的因果关系,基本一致。为了进一步明确法律因果关系对责任承担的限制范围,美国又进一步提出了“可预见性标准”。即加害人仅就其行为可预见的损害结果承担责任。
该标准对自主算法行为的因果关系认定具有很强的适用性。首先,自主算法的行为依靠自身强大的学习能力,在其可预见的范围内,要求该行为不侵犯隐私,这是必须对算法技术设置的法律义务。其次,自主算法毕竟具有很强的不可控制性,为了保障技术的创新和突破,必须要通过必要的政策考虑手段,避免对其苛责过重的责任。再次,该可预见性的判断不仅应结合该算法技术自身的能力,也需考虑同时期其他类似算法的能力,防止因人为的原因,恶意造成算法漏洞,侵害用户的隐私权。最后,判断“可预见性”的时间节点,应为自主算法的加害行为“发生时”。以“行为发生时”为判断时间点,不仅符合民法在认定侵权责任时的时间点,还贴合自主算法技术特征——时时更新的数据和潜在算法。
虽然我国目前的信息平台与用户签订的隐私政策,可以作为平台收集使用个人信息的正当性依据,但却不能作为算法侵权的豁免。因为该隐私政策豁免的规范行为只是程序员所设想的、可预见性的信息处理行为,即所谓的“约定使用范围”,并未围绕算法本身的运行,豁免开发设计人员在起初不可预见的算法行为。换言之,该行为豁免的责任主体是“人”,却未豁免“算法的行为”,不影响可预见性标准在自主算法行为中的认定。
五、结论
通过明确隐私认定采动态组合标准,过错采合理人标准,因果关系采可预见性标准,《民法典》第1165条可作为认定自主算法行为侵权隐私权的请求权基础。但本文仅探讨了侵权行为的构成要件,并未涉及法律效果及责任承担主体之问题。至于在肯定算法行为侵犯隐私权的基础上,是否赋予自主算法独立的民事主体地位,以自行承担有限责任,或者仍由算法开发、设计、使用人员来承担责任的问题;以及其责任类型是否包括损害赔偿,或者增添技术层面的责任承担方式,亦十分复杂却重要,需另文继续探讨。此外,构建以上保护标准的初衷,并不试图为自主算法的开发设置法律的障碍,仅在努力平衡自主算法侵害行为发生时,用户个人和自主算法之间的公平、效率、平等等系列民法价值。因此,以上标准的建立亦充分尊重并认可侵权责任的损害填补功能。