算法治理视域下推论信息的界定
2024-01-03谢欣源徐汉明
谢欣源 徐汉明
[摘 要] 算法推论的普及与迭代,在推动高效生活方式的同时也衍生了涉及数据主体歧视与隐私侵犯的风险,对数据主体的基本权利产生不可忽视的影响。框架性立法的笼统、学界研究的模糊,在不同程度上造成了对算法推断下产生的信息与个人信息概念关系的认识混乱,蕴含技术进步与个体保护间的矛盾。为治理这一现象,应通过伦理风险和法律风险的角度厘清算法推论的风险图景,加强算法治理风险预防与矛盾化解能力。同时从个人信息的角度明确算法推论的概念与界限,通过权利保护的视角补强算法推论的定位与边界,揭示算法推论与个人隐私、数据保护之间的矛盾,提升数据主体个人权利保护以弱化数据控制者对推论的控制。
[关键词] 算法治理;算法推论;个人信息保护
[DOI编号] 10.14180/j.cnki.1004-0544.2023.12.015
[中图分类号] D035; TP18 [文献标识码] A [文章编号] 1004-0544(2023)12-0135-10
基金项目:教育部哲学人文社科重大项目“‘习近平法治思想——以‘习近平社会治理法治理论原创性贡献为视角”(21JZD002)。
作者简介:谢欣源(1994—),男,中南财经政法大学社会治理法学博士研究生;徐汉明(1951—),男,中南财经政法大学国家治理学院教授、博士生导师。
一、问题的提出
算法推断通过学习海量数据构建输入和输出关系模型[1](p235),从全新的输入中预测输出得出推论,这属于对个人信息的后续加工。经算法推断产生的推论如智能设备后台中那双“看不见的眼睛”,通过对用户过去经历和相似人群的行为进行总结分析进而预测未来,揭示数据主体私人生活的方方面面,这对个体和其所处的环境造成长期的影响,并为歧视和侵害隐私创造了可能。推论的形式种类繁多,并不是每种形式的推论都涉及个人信息的范畴,当且仅当某推论是基于数据主体的某些特性、习惯、喜好或行为等信息衍生并对个人产生实际影响,方为本文讨论的对象。
学界研究层面对推论的认识存在争议,这包括以下两个方面:一是,学界未就推论的定义达成统一的共识[2](p6)。为了更好地讨论该问题,笔者把推论定义为:数据控制者通过算法推理、预测、评估等推断方式对其所收集的信息进行进一步处理所得出的与已识别或可识别的人有关的结论。二是,推论与隐私权、数据保护、个人信息之间的矛盾一直未得到有效解决。围绕推论是否应当纳入个人信息的概念范畴,一方面,有学者持否定说,理由是数据的收集和利用依赖于人工的干预和资本的运作[3](p28)。大数据行业的发展需要促进和保障,利用个人数据的汇聚获得财产权益的新兴的商业模式在实践中已被大型互联网厂商奉为习惯,民众对“交出个人信息—获得服务”已经习以为常,这些习惯先于法律产生,会达到预期效果[4](p9)。普通个人的数据信息财富转换效率不显著,政府和数据企业海量收集的个人信息才具有巨大价值。根据劳动创造财产理论,伴随劳动的投入,数据控制者在处理数据使其成为可反复利用的资源后可取得个人信息数据的财产权益[5](p1160)。另一方面,有学者持肯定说,理由是个人信息属于有关人身财产、人格尊严和个人隐私的权益。数字时代具有平台化特征[6](p67),在数据主体与数据控制者的博弈中,数据主体处于弱势地位[7](p21),现有技术无法消除算法推断带来的歧视,所谓算法中立和技术无罪的观点无法消除推断侵害的可能性[8](p24);而《中华人民共和国个人信息保护法》(以下简称“《个人信息保护法》”)的立法目的不仅是为促进网絡行业的发展,更赋予了个人不受不法侵害的权益。为回应以上问题,本研究聚焦于如何解决算法推论与个人隐私、数据保护之间的矛盾,完善相关法律法规体系。
二、算法推论的风险图景
数据控制者利用大数据工具收集和分析个人信息已经有数十年的历史[9](p64-72)。近年来,大数据技术的发展在更强大的内存和分析能力的支持下突飞猛进,与最初的数据收集与分析不同,现在的自动化算法推断工具有更强大的收集和识别能力,准确评估算法的作用和相关风险是政策分析和决策的基础[10](p2)。
(一)厘定算法推论应用引发的伦理风险
从感知获取角度看,数据记录呈现悄然性和实时性,数据主体对自动化记录工具的感知能力下降,隐私侵犯展现难以被察觉的特征。一方面,随着法律法规的完善,多数数据控制者在数据主体第一次使用设备或应用程序时都会告知隐私条款并向其索取访问权限。在得到数据主体第一次授权许可后,数据记录在后台运行,数据记录设备对数据主体的记录往往被数据主体忽略,即无论这些记录是否被感知,记录时刻都在发生。以某款智能手表为例,在用户第一次使用时会征求用户意见,允许其跟踪、储存位置信息,监测睡眠习惯及质量,并生成相应的健康质量、睡眠质量的报告,由此可见记录的产生并不以用户的感知为前提。另一方面,个性化分析工具的工作模式依赖于大量信息的获取,该过程往往与数据主体的隐私相关联。随着存储、传输、计算的工具多样化,数据感知无处不在,对数据主体的信息的记录几乎是全天候的。比如,智能手表可实时检测记录心率,捕捉过快、过慢或者不规律的心跳,并向用户发出警告,这展现出敏感信息的记录往往与隐私获取相关联。
从敏感信息解读角度看,敏感信息收集能力的增强与数据主体隐私保护呈此升彼降的关系。个性化算法数据的收集并不仅仅来源于传统意义上的数据集,而是依靠系统性的数据挖掘,对已收集数据进行进一步分析,找到之前未建立关联的两组或多组数据,以新的模型构建数据分类和关联,从而扩展现有数据集的信息量,达到充分利用的目的。数据挖掘的发展使得原有数据集的细节被进一步放大的同时,一个新的数据的引入也会和之前的数据建立新的联系,个性化算法对于一件事或一个人的认识也会更深入。第一种情况是,数据主体提供给算法的数据往往不是敏感数据,但是与其他数据结合后可能上升为敏感数据。比如个人的位置信息通常是无害的,但若与其他若干个体的位置信息叠加比较,通过算法叠加推断出二者的关系不仅仅潜在地或显现地对个人人格权及其人格权利益造成侵害,甚至会产生延伸而造成危害公共安全的情形。第二种情况是,算法推断对个体的定性分析的敏感性倾向。量化分析通常危害性不高①,因为它不涉及生物识别、宗教信仰、特定身份等敏感信息。而定性分析经常与个人的性质属性相关联,因为定性分析往往依赖算法根据过往数据的信息对数据主体进行“画像”和推断,描绘出有关数据主体的性取向、性格特征、智力水平、政治观点、行为模式乃至行动轨迹等特点,这些被推断出的特征与信息往往不是数据主体自愿共享的,从而违背自主决定主义。
(二)厘定算法推论应用隐藏的法律风险
相对于规范数据控制者利用已收集到的数据作出推论,立法更关注如何保护数据主体输入数据和数据控制者如何收集和处理个人数据的过程。但是个性化算法带来的危害往往集中于对数据主体的推论上,而不是大数据信息的收集行为。对于数据主体来说,具有个性化推断属性的数据集出现判断失误或产生歧视的情况是不可控的。同时,算法推断不仅是数据输入后对数据的处理,基于推断产生的推论将再次被当作数据输入数据集以校准数据集结果,这是算法自我更新、自我强化的过程。尤其在自我更新的过程中,微小的数据偏差都可能导致指数级的错误,当错误数据链接到数据主体,将对数据主体产生更广泛的危害。
1.匿名形式化条件下隐含的侵权可能
匿名数据存在形式上匿名的幻化趋势。即使数据主体在网络上以匿名方式进行网络活动,算法仍可根据匿名数据蕴含的信息与已有数据关联比照,推出匿名数据背后的用户个人信息。个人信息虽经匿名化处理,但是为了避免算法推论产生不可控的危害,数据主体可能进入“寒蝉效应”的怪圈,减少网络活动或不发表个人真实意见,以防范潜在风险[11](p18)。比如,评论区关于热点事件的看法往往会天马行空、热闹非凡,但也会因为“言行正确”而鸦雀无声;网络投票会因为投票者标准不同而产生不同的倾向,但却会因为存在投票结果暴露的风险而投出不符合个人意愿的一票;个体可以在网络上分享自己的抑郁情绪,但会被系统贴上“存在风险”的标签。
2.不可预测性条件下隐含的侵权可能
首先,个体心理和行为活动具有渐变特征。算法推断不仅仅以单独的个人行为作为基础,更是基于由数据主体群体行为组成的大数据池为分析基础,在了解一群相似人的特征后推断出某个具体人的下一步行动。其本质是通过以往的实证经验预测未来行为发生的可能性,但是过去的表现并不一定能准确预测未来的结果。算法根据过往推论给数据主体贴上不同标签以强化数据主体对自身的认识,社会与个体的未来是发展变化的,这表现在基于对过去的认知对未来的判断往往会产生先入为主的偏见。尊重个体的自决权是现代法治尤为关键的内涵,是充分相信并尊重个体自由意志的表现,从某种意义上讲,刻板的印象与先入为主的偏见为侵权埋下了隐患。
其次,推论运行机制脱离因果关系。一方面,算法的运行并不仅仅遵循因果关系,有时甚至是违反直觉的以至于在推论决定被作出时甚至不受监督制约、无法被验证。受专业知识和商业机密双重限制,数据主体无法访问关于自身的推论以及产生推论的过程,虽然《个人信息保护法》第13条规定数据控制者处理个人信息前应当取得数据主体的同意,但是数据主体即便“知情—同意”也无法预见算法对已有证据的推断,即使是算法的创造者和运行者也无法全面预测算法的推断,更不用说预见推论对现实造成的影响。另一方面,算法蕴含的价值判断并不总是中立的,其设计中隐藏着歧视与不公,甚至隐藏着利益集团的控制[12](p1622),数据主体的正当利益可能受到破坏,算法秩序的安定性不被信赖,这会导致推论造成的损害成本由使用者承担[13](p1083)。在这种情况下,不存在充分的理由期待算法具有法律视角规范下的因果关系合理性。
3.推论隐含的社会治理风险
算法推论造成个人自治秩序紊乱风险。一方面,算法可时刻感知、收集数据主体个人信息,并分析其个人喜好,数据主体被迫出讓个人信息和隐私以获得数据控制者提供的服务。数据主体如置身于圆形监狱,狱卒可以观察到囚犯的一举一动,而囚犯却看不到狱卒,数据主体无奈被困于牢狱中而不知算法根据其行为偏好来为其定制推送内容[14](p15)。另一方面,推断导致两种可能性,一种是过度强调个人喜好的正确推论,一种是推断错误的推论。这种推论导向在应用程序持续吸引数据主体的兴趣,增加用户黏性的同时,也会使数据主体沉迷于当前的、短暂的需求刺激中,而忽略了未来的、其他的需求,导致数据主体追求的局限性与获得信息知识的单一化,不利于数据主体按照正常需求发展模式发展个人兴趣。
算法推论加剧对司法公平的侵扰。依据被告身份、种族、爱好、收入等情况对其作出再犯可能性的评估正逐渐进入一些国家的司法系统,但是这种风险评分可能会给法庭判断注入偏见。美国前司法部部长埃里克·霍尔德认为风险评估系统会加剧本已存在于司法中的无根据和不公平的倾向。对犯罪的评估应当满足正当程序和证据规则,而不是基于某种不可控制和改变的因素,如过往的爱好、种族和言论,但这恰恰是风险评估系统决策的依据之一。推论公正性、歧视可能性、黑箱效应及结构性立法差异都会严重影响再犯风险预测系统的证据资格与效力,这使其面临包括准确性难以判断、无法进行有效辩护以及说服力不足等问题,同时加剧司法不稳定。
三、个人信息保护法中推论的认定
《个人信息保护法》第4条①明确了个人信息的概念具有“以电子或其他方式记录的”“已识别或可识别的”“自然人相关联”“各种信息”“非匿名信息”的特征。实践中,推论数据往往被数据控制者掌握并成为其私人财产,但是从语义学的角度对个人信息特点进行分析,与可识别的个人相关联的算法推论具有个人信息应当具有的所有特点。
(一)推论是以电子或其他方式记录的
推论符合以电子或其他方式记录的特征。以往个人信息保护中,关注点更多地集中在个人信息构建的整体性和完整性上,但是目前为了确保“个人信息”概念划定不会导致对数据主体的歧视,对其的保护逐渐由静态走向动态,即不只关注“个人信息”概念的整体性和完整性,也要关注个人信息构建过程,对个人身份构建过程投入更多关注是人格权在算法时代新的转变与发展[15](p5)。“以电子或者其他方式记录”属于个人信息记录方式之一,是个人信息构建的基础过程。《个人信息保护法》中“以电子或者其他方式记录”的表述沿用了之前的立法规定,从中可得出以下认识:第一,个人信息须被记录,不被记录的或不能被记录的不算个人信息。第二,个人信息的表现形式不拘泥于以代码、图形为代表的电子文档,也包括以文字为代表的传统信息记录模式,信息与数据是一体两面,是内容与形式的关系[16](p6)。
推论的迭代记录表现出被记录的特点。在实际应用时,也存在数据控制者变相记录储存个人信息的现象,比如通过“下载—打印”的方式实录储存数据主体输入的相关信息以及算法对数据主体的判断。在算法推断的过程中,只有不断地对基于数据主体产生的推论进行记录,才能将本次推论作为下一次推断的依据,即算法的运行不仅会记录数据主体的输入数据,也会记录对数据主体的推论。即使数据控制者对记录推论的文档进行封装保存,采取了必要的保护措施,履行了必要的注意义务,这整个过程仍算是对推论进行的记录。
(二)推论是已识别或可识别的
已识别是指如果已利用某一要素将某人从某一群体中单独挑选出来,则可以称这个自然人因某种特征已经被识别出来。已识别的个人信息是指包含姓名、性别、年龄、住址、电话等具体直接连接某人特征要素的个人信息。例如,某购物平台可以根据某女性用户购买了母婴产品这一已识别的个人信息推断出该女性用户可能有生育经历,这一推论仍应属于该女性用户隐私方面的个人信息。
可识别是指当具备可识别的条件或存在被识别的可能,即使因为某种原因,系统没有主动将自然人识别,但由于该自然人对于系统来说是可识别的,因此仍认为该信息具有可识别性。可识别的信息包括个人习惯、兴趣爱好、位置信息、IP地址等,需要运用附加手段方可推理识别出某人的要素的个人信息。比如当某人提供的住址不够详细到可以锁定他时,住址则变成了算法推断用于锁定区域的间接要素。
辩证看待已识别、可识别与个人信息的关系。如前所述,对于利用已识别或可识别的个人信息进行推断所得到的推论,应当属于个人信息这一结论是显而易见的。但是对于利用不涉及个人信息的基础信息进行推断得出的涉及个人信息的推论是否属于个人信息的范畴,还有待研究。算法可以利用对于常人而言不具有可识别性的信息推断出涉及个人信息的推论,虽然该信息本身不涉及个人信息,但是这些信息经过算法推断后产生的推论是能够定位到个人的。如在国内某短视频平台上,某位用户上传了一段关于某位艺人行为的文字论述,虽然该用户在论述过程中并没有直接标明艺人的姓名等资料,但是短视频平台基于大数据技术通过算法对这一信息进行推断产生了推论,并在平台的搜索栏中展示了这一推论,导致其他用户可以在搜索栏中知晓涉事艺人姓名。因此对于可识别与已识别,须根据具体的情况作动态的判断,但如果最终的结果都导向某用户的具体信息、概括特征或建立某种连接,可认定该推论具有已识别或可识别特征,并进一步探究该推论是否属于个人信息范畴。如前所述,通过推论可以识别到可识别的个人,推论则具有可识别性。因此如果将推论排除在个人信息保护范围外,则与可识别标准相违背。
(三)推论与自然人相关
基于推论识别自然人。有关个人信息的概念,《个人信息保护法》用到了“自然人”的表述。自然人的范畴内,无论性别、年龄,在个人信息的意涵上每个人都享有平等的权利,与此相近的是,有学者指出可以把个人信息理解为与个人相关的信息[15](p5)。即能识别出自然人的信息是个人信息。个人信息的概念中之所以强调自然人,是因为在该信息与某人产生联系并识别该人的情况下,该信息方可纳入个人信息概念,防止个人信息保护权过度扩张。
值得延伸讨论的是对法人、动植物、死者的推论往往不属于个人信息的范畴。这包括两种含义:一是,根据《民法典》的规定,自然人死亡后不具有权利主体资格。已逝者的个人信息在《个人信息保护法》个人信息的框架下不受其保护。但是也存在例外,当算法基于已逝者的信息推断出另一自然人的特征或信息,基础信息即使隶属于前者,也不能简单地归属于个人信息的范畴,理由是该基础信息只有在连接到可识别或已识别的自然人时可被归纳为该自然人的个人信息。二是,法人、动植物不属于自然人的范畴。与上述理论类似的是,算法可依据法人、动植物等内涵的信息推断出其他自然人的特征,此时上述事物蕴含的部分信息属于个人信息的范畴,这表明对于每一个推论都应当独立评判从而得出该推论是否属于个人信息的判断。
(四)推论属于各种信息的范畴
各种信息的外延。在数据主体与数据控制者的博弈中,数据主体始终处于弱势地位,为防止对各种信息的误读,应明晰各种信息的概念范畴。信息可分为主观信息和客观信息。客观信息指数据主体自我输入的数据,既包括姓名、地址、电话等真实的、具体的描述,也包括其对自己或者他人的带有主观性色彩的描述。对自己的或者他人的带有主观性色彩的描述之所以是客观信息,是基于数据主体对自我情况的说明也是相對于推论的主观性而言的。
主客观信息外延的高度模糊性。一方面,主观信息具有相对性,算法推断的信息本质上是主观信息,它既可以是有依据的,也可以是没有依据的假设、意见、评估,属于基于学习和概念分析的结果,类似于经验分析的结果,所以当这种结果对个体产生影响的时候又具有客观性。另一方面,信息载体形式存在差异。信息既可以编码形式存在,也可以图形、照片、画像、文字等形式存在。例如统计学上根据统计数据形成概率研究或者个性测试,将该结果输入算法后对数据主体作出推断,推断结果既可应用在性格测试、种族测试、就业测试等敏感领域,又可应用在广告推动、音乐推送、视频推送等日常领域,且都与个体息息相关,并可以连接到可识别的个人,该结果自然属于个人信息意涵的各种信息。
有待探讨的问题是若数据主体输入的有关个人的数据是虚假的,该数据是否属于数据主体的个人信息,算法基于该虚假信息进行推断产生的推论是否还属于该数据主体的个人信息。首先,从个人信息的概念来看其完全符合个人信息定义,但从立法者的角度来看应该是排除在外的,否则会对个人信息的概念作出不必要的拓展。其次,从语义学的角度出发,各种信息强调的是信息的形式和数量而不是真伪的区别。对于个人信息而言,它不一定要求是真实或者经过证明的,也就是说即使是错误的推断,或者是数据主体故意提供的错误信息,也属于个人数据。最后,从保护的必要性来看,一种情况是他人输入的有关个人的信息真实准确时,值得保护;另一种情况是他人输入的有关个人的信息是捏造的或不准确时,如果被传播或以电子形式记载下来,后以某种不特定的方式侵害到个人,这种仍值得保护。因此,根据客观信息进行算法推断得出的各种主观信息仍旧应当纳入《个人信息保护法》中个人信息的概念范围。
(五)推论是非匿名化的
首先,匿名化是对个人信息的进一步处理。但它却超越了个人信息的保护范围,《个人信息保护法》第73条第4款规定:“匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。”《民法典》第1038 条规定:“信息处理者不得泄露或者篡改其收集、存储的个人信息;未经自然人同意,不得向他人非法提供其个人信息,但是经过加工无法识别特定个人且不能复原的除外。”虽然二者对匿名化的规定略有差异,比如前者使用“处理”,而后者使用“加工”;前者使用“自然人”,而后者使用“人”的表述。但是不难看出两者仅在用词上有区别,但都旨在阐述匿名化信息与可识别信息之间的关系。
其次,匿名化与去标识化相关。《个人信息保护法》中的去标识化是指,个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。而匿名化是通过相关技术手段的处理,使信息不具有个人属性,并无法逆转这种不可识别的状态。匿名化信息和去标识化信息的区别在于匿名化信息即使结合其他信息也无法识别到个人,并且是不可逆的过程,二者具有高度相关性。
再次,匿名化信息不是个人信息的范畴。立法对匿名化信息的规定应是严格不可逆的,但也有观点认为互联网的匿名是“可追溯的匿名”,比如在线评论匿名的,但是总会留下痕迹,严格的匿名化是不存在的[17](p54)。
最后,推论基于分析匿名数据得出信息。掩码虽然可以隐藏个人信息,但是不能隐藏数据原本的字符数目,即使留意了每种风险可能性的存在,算法推断的风险也不限于在某单一属性中出现,也可能跨属性出现。《欧盟一般数据保护条例》序言第26条规定:为判断自然人身份是否可被识别,需要考虑所有可能使用的手段,例如利用控制者或其他人直接或间接地确认自然人身份。为判断所使用的手段是否可能用于识别自然人,需要穷尽考虑所有客观因素,包括对身份进行确认需要花费的金钱和时间、现有处理技术以及科技发展。欧盟29条工作组在第05/2014号意见书中指出匿名化处理在于杜绝识别当事人的身份,且处理结果是不可逆的。因此,对匿名化数据的理解不应追求绝对的匿名化,而应是在现有技术手段和有限的时间精力下仍无法破解的有限匿名。
四、推论信息规制的逻辑与进路
个人信息的保护是当代社会的共识,保护商业公司的利益也不容忽视。推论的产生与发展不仅仅是为了服务客户,也是为了获取利润,就目前的情形和未来的发展趋势研判,算法对数据主体的推论是不可避免的。因此,为推动算法技术协调稳步发展,需要重视数据控制者开发完善算法的积极性,对推论的规制应当平衡双方利益,遵循一定的比例原则。基于平衡比例理论,数据主体向数据控制者出让部分基础信息的控制权,数据控制者基于个性化分析推送合理、公平、公正的推论并提供推论产生的理由和基础,建立数据控制者与数据主体之间的对话机制。
(一)推论规制的逻辑路径
数据控制者的公信力取决于其道德能力,须把握社会理性的公约数。所谓社会理性,是社会主流道德观念对某件事的认知和判断,符合社会上多数人的期待,与最低的道德标准相比,具有更高的社会道德期待可能性。即数据控制者在算法推论等问题上有多大空间支持社会理性,社会理性就会在多大程度上反哺数据控制者。反映在用户的依赖和选择上,这种关系在商业上是一种投入与回馈的过程,在法律上是一种权利与义务的规制。所以,算法推论在致力于追求公平、公正的同时,也致力于理性与合理的达成。这也表明一个合理、公平、公正的推论结果反映的是社会理性对某一行为的期待和要求,有助于引导人们选择正义,发展个人自治的期待。一项有悖于社会理性期待的推论,不管其是否严格遵循算法因果关系,其结果都是负面的。对推论理性的规制仅停留在公平、公正的基础上是远远不够的,平均式公平公正的价值选择只能解决歧视问题,无法满足算法时代对个人主体保护的其他要求,因此应当引入社会理性的概念对推论进行约束和引导。
1.社会理性对推论机制的约束能力
数据控制者所遵循的社会理性是社会主流道德价值的内在要求,也是立法理念的永恒追求。在现实世界的交往中,人们根据行为是否遵循社会理性而赋予其道德的正面或负面评价,如果推断结果符合社会理性的基本内涵,那么它就是社会主流道德可接受的;反之,如果推论结果违反社会理性的期待,那么它就無法被社会主流道德接纳。因此,社会理性的最大公约数是算法推论是否符合社会主流道德价值的评判标准。
2.社会理性对推论机制的引导能力
一方面,数据控制者设计推论机制时应具有对社会主流价值体系整体性认识的能力。推论机制对社会成员的社交喜好、未来发展等基本认知与判断应符合常理。这决定了立法在规制推论时的进路。算法推断产生发展的意义在于方便社会成员生活、推动人类社会发展,因此其追求的基本价值建立在满足社会成员原有生活方式的基础上,力求发展一种更便捷地获取信息的方式,而不是造成一种新的歧视和约束。为规避这一倾向,立法对推论的引导过程中须加入社会理性的价值认同。
另一方面,数据控制者设计推论机制时应具有对道德要素体系全方位把握的能力。之于推论的说服力,本质上是道德要素。推论能否被社会大众接受,反映的是其是否满足道德要素,它是一种潜移默化、约定俗成的社会共识,反映了全体社会成员的心理认同。在这个层面上,推论逻辑的设计不是考验算法遵循机械逻辑的能力,而是取决于算法秉承的道德要素体系。一项值得信服的推论,一定是合情合理、经得起审视的推论,如若推断过程是机械式的判断,很可能会偏离被推论行为本身的含义,造成不必要的曲解。
(二)个人信息范畴下对推论的法律规制
数据主体有权质疑并改变关于自身的推论。在数据保护和隐私领域,这通常意味着个人应有权质疑和更正给予他们个人数据的自动化决策与推论,特别是当这些推论对他们有重大影响时。而改变的前提是查阅,维权的前提是复制,上文谈到了在现有语境下推论被概括到个人信息的概念,纳入《个人信息保护法》规制的推论则有了更有力的保护。
首先,数据主体享有查阅推论的权利。数据主体对推断的结果享有决定权,决定的前提是查阅。虽然数据主体不具备剖析算法运行模式的专业知识,仅通过查阅算法推断的处理规则也无法保证不会产生错误的或不利的推断结果,但数据主体只有通过查阅推论才能发现不准确、不完整或者过时的推论。在个人信息权利保护视角下,查阅权是面对推断侵害时的首要的保护方式,有助于帮助数据主体判断该推论是否准确、必要,防范推论侵害继续扩大。如《欧盟一般数据保护条例》第15条规定了数据主体对数据画像和推论的逻辑意义访问的权利:数据主体有权从数据控制者处确认其个人数据是否正在被处理,以及有权在该种情况下访问个人数据和信息。即数据控制者利用已收集到的数据主体个人信息作出有关数据主体的推论,无论是否影响到数据主体的实际权利,数据主体都享有查阅推论的权利,当数据控制者妨碍数据主体行使查阅权时,数据主体有权要求排除妨害。
其次,数据主体对推论享有要求解释说明权。《个人信息保护法》第48条规定个人有权要求个人信息处理者对其个人信息处理规则进行解释说明。虽然本条规定了数据主体享有要求解释说明权,但是这只是针对处理规则而言的,对于推论的结果数据主体是否同样具有要求数据控制者解释说明的权利,《个人信息保护法》则未规定。算法属于数据控制者的商业秘密,牵扯到其市场竞争核心利益,如果要求数据控制者对全部推论的结果进行解释说明是不现实的。解决该问题可以参考张新宝提出的权利协调原则,从数据控制者和数据主体权利协调的角度切入,即当数据主体认为需要对涉及自身的推论要求解释说明时,且对该推论的解释说明在数据处理者的利益可承担范围内,可认定该解释说明的要求在合理范围内,数据控制者应作出解释说明。
再次,数据主体对数据控制者享有请求权。更正、补充和删除权本质上是一种请求权,即便推论是正确的,数据主体亦有权要求删除推论,数据控制者不能通过“推断过程是一种劳动,推论是收益”的观点拒绝履行该义务。个人信息概念涵盖推论后,一方面,数据主体可以选择行使更正、补充权,即对推论进行修改或调整,以避免个人自决权和个人隐私权受到侵犯而受到更大影响。数据主体发现其个人信息不準确或者不完整时,有权请求个人信息处理者更正、补充,数据主体请求更正、补充其个人信息的,个人信息处理者应当对其个人信息予以核实,并及时更正、补充。推论属于个人信息时,数据主体自然享有该权利。另一方面,当推论被排除出个人信息概念范围时,纵观《个人信息保护法》,没有规定数据主体是否有权要求删除经自动化决策后生成的推断信息,数据主体无权删除数据控制者对数据主体的推论会加剧数据控制者对数据主体个人信息权的侵犯;当推论被纳入个人信息概念范围时,删除权是推论被纳入个人信息概念后数据主体获得的又一重要权利。《民法典》第1037条第2款规定:自然人发现信息处理者违反法律、行政法规的规定或者双方的约定处理其个人信息的,有权请求信息处理者及时删除。与《个人信息保护法》第47条结合来看,数据主体行使查阅权后有权按规定要求数据控制者删除其信息。这背后体现的是立法者通过对数据主体自主决定权的保护,进而维护个人信息权的完整性与整体性。换言之,删除推论是防止侵害和要求停止侵害的自我救济方式,数据主体有权删除推论是个人实施个人信息权的途径,也是个人信息权发生效力的表现。当推断被删除并且不以电子或其他方式记录时,方能最大限度地保护个人信息的自主权,降低被数据控制者侵权的风险。
五、结语
个人信息框架亟须完善,推论信息概念和范围的确立作用在于补强个人信息保护力度。用户偏好在学理上是一种心理认同,取决于个体对价值的权衡与选择,受外界雕琢与篆刻的同时也秉持自由与热爱,不受数据控制者或其他团体干涉与控制是其基本内核。本文通过对算法推论概念和风险的系统性梳理和规范性阐释,基本观点是对个体的推论信息符合个人信息的概念范畴,应当纳入《个人信息保护法》的规范框架。数据控制者在处理和分析个人信息时,不仅要对直接收集的数据进行保护,通过推断得出的个人信息也应当得到适当的处理。规范算法推论信息概念范畴的价值在于消解推论信息与个人隐私之间的矛盾,厘定推论信息隐含的侵权可能与风险图景,从而缓解个体利益与数字平台利益之间的内部张力,以提高对个人自治系统紊乱的认知和把握能力,在维护用户合法权益的同时推动数字平台持续健康发展。
参考文献:
[1]Selbst A D, Powles J. Meaningful Information and the Right to Explanation[J]. International Data Privacy Law, 2017, 7(4).
[2]Hallinan D, Zuiderveen Borgesius F. Opinions can be Iincorrect (in our opinion)! On Data Protection Laws Accuracy Principle[J]. International Data Privacy Law, 2020, 10(1).
[3]许可.数据权属:经济学与法学的双重视角[J].电子知识产权,2018(11).
[4]苏力.法治及其本土资源[M]. 北京:北京大学出版社,2004.
[5]张新宝.论个人信息权益的构造[J].中外法学,2021(5).
[6]马长山.数智治理的法治悖论[J].东方法学,2022(4).
[7]张新宝.个人信息处理的基本原则[J].中国法律评论,2021(5).
[8]杨立新,赵鑫.利用个人信息自动化决策的知情同意规则及保障——以个性化广告为视角解读《个人信息保护法》第24条规定[J].法律适用, 2021(10).
[9]Davenport T H. Analytics 3.0[J]. Harvard Business Review, 2013, 91(12).
[10]Latzer M, Festic N. A Guideline for Understanding and Measuring Algorithmic Governance in Everyday Life[J]. Internet Policy Review, 2019, 8(2).
[11]匡文波.對个性化算法推荐技术的伦理反思[J].上海师范大学学报(哲学社会科学版), 2021(5).
[12]丁晓东.算法与歧视 从美国教育平权案看算法伦理与法律解释[J].中外法学,2017(6).
[13]Yadav Y. The Failure of Liability in Modern Markets[J]. Virginia Law Review, 2016(4).
[14]曹建峰.人工智能:机器歧视及应对之策[J].信息安全与通信保密,2016(12).
[15]陆青.数字时代的身份构建及其法律保障:以个人信息保护为中心的思考[J].法学研究, 2021(5).
[16]申卫星.论个人信息权的构建及其体系化[J].比较法研究, 2021(5).
[17]齐英程.我国个人信息匿名化规则的检视与替代选择[J].环球法律评论, 2021(3).
责任编辑 杨 幸
1量化分析的敏感性往往不高,但是并不能完全断定其是不敏感的。比如,某人的购买记录是一组量化分析的数据,但却可以根据这个数据推断出其宗教信仰、政治观点、特定身份、医疗健康、金融账户、行踪轨迹等敏感信息。
1个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。
The Definition of Inferential Information
in the Perspective of Algorithmic Governance
Xie Xinyuan Xu Hanming
[Abstract] The popularization and iteration of algorithmic inference, while promoting efficient lifestyles, also generate risks involving data subject discrimination and privacy invasion, which have a non-negligible impact on the basic rights of data subjects. To varying degrees, the generality of framework legislation and the ambiguity of academic research have caused confusion in the understanding of the conceptual relationship between information generated by algorithm inference and personal information, implying the contradiction between technological progress and individual protection. In order to change this phenomenon, the risk picture of algorithmic inference should be clarified from the perspectives of ethical risks and legal risks, and the risk prevention and conflict resolution capabilities of algorithmic governance should be strengthened. At the same time, it is necessary to clarify the concept and boundaries of algorithmic inference from the perspective of personal information, strengthen the positioning and boundaries of algorithmic inference from the perspective of rights protection, reveal the contradiction between algorithmic inference and personal privacy and data protection, and then enhance the personal rights of data subjects in order to weaken the data controllers control over inferences.
[Keywords] algorithmic governance; algorithmic inference; personal information protection law