大数据时代公民个人信息可识别性认定模式的转型
2021-12-06叶小琴王肃之赵忠东
叶小琴 王肃之 赵忠东
内容提要:数据是个人信息的载体,大数据、云计算与人工智能技术融合的叠加效应使两者界限日益模糊化。目前对各类法律中公民个人信息广义可识别性标准的理解,仍囿于信息分级清单的点对点匹配方式,强调静态可识别性认定模式。公民个人信息的可识别性虽应坚守,但是应明确其相对性。个人信息的性质不仅取决于数据类型,也与数据挖掘的应用场景高度相关,建议行政执法和司法层面对公民个人信息可识别性标准的适用引入场景化思维,实现从静态到动态可识别性认定模式的转型。动态可识别性认定模式以行为人控制的个人数据文件作为判断资料,并以行为人掌握的数据资源与利用能力作为数据场景,完成公民个人信息关联程度的认定,从而实现法律与技术规则的深度融合。
一、问题的提出
大数据、云计算与人工智能技术融合的叠加效应使信息与数据之间、个人权利与公共空间之间的边界日益模糊化。流动于光纤中的“0”与“1”不再仅具有描述事实的意义,更成为关于个人的具体信息表达。信息、数据、节点的交互在推动公民个人生活实现信息化、智能化的同时,也难以避免地导致了信息泄露的风险,个人信息权益的保护成为具有时代性和标志性的社会治理命题。
2016 年以来我国法律构建了以可识别性为中心的个人信息权益保护体系。2016 年 《中华人民共和国网络安全法》(以下简称 《网络安全法》)第七十六条第(五)项即基于可识别性规定:“个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等”。后续相关法律文件也延续了前述思路。如2017 年最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(以下简称 《侵犯个人信息解释》)第一条、2018 年全国信息安全标准化技术委员会《信息安全技术个人信息安全规范》(以下简称《个人信息安全规范》)第3.1 条也依据可识别性界定个人信息。2020 年《中华人民共和国民法典》(以下简称 《民法典》)第一千零三十四条规定自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码、电子邮箱、健康信息和行踪信息等属于个人信息,实际上仍然根据对信息主体的身份识别程度列举公民个人信息的保护范围。2021 年 《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)第四条也明确规定,个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。
但是,仅仅根据静态可识别性认定模式贯彻现行法律确立的公民个人信息可识别性标准,有时无法圆满解决理论和实践中的难题。静态可识别性认定模式是指根据法律、国家标准及司法解释分级列举的敏感信息及普通信息等各层次个人信息表现形式清单,对个人数据采取点对点匹配方式进行认定。然而静态可识别性认定模式“对号入座”式认定标准实施未久即遭遇理论和实践的困境。在理论层面,有观点认为,这一模式可能导致个人信息可识别性的虚无化和象征化。根据《侵犯个人信息解释》 第一条和第五条,对个人身份认证信息要求可识别性,但对“住宿信息、通信记录、健康生理信息、交易信息等”可能影响人身、财产安全的个人信息似乎只要求“反映特定自然人活动情况”,而没有直接规定可识别性的要求。所以,《侵犯个人信息解释》 可能被理解为对公民个人信息采取二元认定标准从而突破可识别性界限。在实践层面,某些特定类型个人信息的判断也面临难题。例如,部分关联信息如QQ 号等账号密码是否属于个人信息成为争议焦点。①参见王文韬、沈庆:《QQ 号是否属于公民个人信息之探讨》,载 《江苏法制报》 2018 年6 月7 日第C 版。再如,公开信息如企业登记信息中的自然人信息是否属于公民个人信息难以把握。在李某侵犯公民个人信息案中,被告人李某利用特定软件收集互联网中包含自然人姓名及联系方式的企业信息并出售给他人。一审判决李某构成侵犯公民个人信息罪并判处有期徒刑四年,二审以法律适用错误裁定发回重审。②参见吴心斌、温锦资:《公民个人信息刑法保护的例外》,载 《人民法院报》 2018 年6 月21 日第7 版。又如,个人的行动信息能否按照静态可识别性认定也不清晰。如吴某侵犯公民个人信息案中,被告人吴某通过雇佣私家侦探,采取安装GPS 定位器、驾车尾随、摄像偷拍等方式,非法获取多名审判人员的活动情况信息,法院对此判处吴某犯侵犯公民个人信息罪,被告人对此异议极大。③参见彭新林:《筑牢公民个人信息保护的司法防线》,载 《人民法院报》 2018 年7 月18 日第2 版。
前述理论与实务难题引出了公民个人信息可识别性认定的两个基础性问题。其一,可识别性是否为公民个人信息的唯一认定标准?其二,侵犯公民个人信息行为呈现网络化和智能化趋势,仅列举某种类型数据属于公民个人信息的静态可识别性认定模式是否需要调整?由此,基于智慧社会的信息流动属性,以及数据的筛选与比对不仅取决于数据类型,应用场景也日益成为关键因素,因此,从动态视角修正个人信息的静态可识别性认定模式,具有重要理论意义与现实需求。
二、公民个人信息可识别性的坚守与相对性
虽然可识别性的判断并非易事,但长久以来我国公民个人信息法律概念建构是以可识别性为前提的,可识别性作为信息个人化的实质要件仍然具有基础性意义。不能因为可识别性标准认定的具体适用难题,而在解释论层面“软化”或“虚化”可识别性标准。
(一)公民个人信息可识别性的法律地位
个人信息应当具有可识别性。与一般的信息不同,当“信息”的表述之前加以“个人”的限定,则形成了独特的信息类型,而这一过程的实现关键在于该信息对于个人而言具有可识别性。“所谓‘可识别性’,就是指个人数据信息与其主体存在某一客观确定的可能性。重要的是基于这些数据能够充分确定地识别个人。”④Philip Coppel,Information Rights:Law and Practice,New York:Bloomsbury Publishing,2014,p.144.个人信息的可识别性也为各国立法所普遍认可。虽然大陆法系国家和地区使用了“个人数据”“个人资料”“个人信息”等不同的概念,但是可识别性无一例外是其核心特征。
第一,“个人数据”是欧盟和德国立法采用的概念。欧盟 《基本数据保护条例》 第4 条将个人数据界定为识别或可识别自然人(数据主体)的任何有关信息。根据德国《联邦数据保护法》 第46条第1 款,个人数据是指已识别或可识别的自然人(数据主体)有关的任何信息。
第二,“个人资料”是我国台湾地区“个人资料保护法”使用的概念。根据“个人资料保护法”第二条,个人资料“指自然人之姓名、出生年月日、国民身份证统一编号、护照号码、特征、指纹、婚姻、家庭、教育、职业、病历、医疗、基因、性生活、健康检查、犯罪前科、联络方式、财务情况、社会活动及其他得以直接或间接方式识别该个人之数据。”
第三,“个人信息”是日本和我国大陆地区有关立法使用的概念。日本《个人信息保护法》 第2条规定:“个人信息是指有生命的自然人的相关信息,该信息包括姓名、生辰年月以及其他可以识别特定个人的记录信息(也包括可以和其他信息对照从而识别特定个人的信息)。”我国《人个信息保护法》 第四条也从识别自然人个人身份的角度界定个人信息。
综上,各国和地区个人信息立法形成了两种规制模式,即德国为代表的以数据为中心的模式和我国为代表的以信息为中心的模式。⑤参见王肃之:《我国网络犯罪规范模式的理论形塑——基于信息中心与数据中心的范式比较》,载 《政治与法律》 2019 年第11 期。不同法律规制模式及其理论范式影响了侵犯公民个人信息罪的行为类型,但是无论各国采取何种模式,立法中关于个人信息的定义均采取可识别性作为标准。这样的规定有其合理性,因为只有能够识别个人才能够和公民相关联,从而构成法律对其权益进行保护的基础和依据。否则,不具有可识别性的信息无法与个人产生关联,至多从财产层面进行评价,而无法从人身层面进行关联。可识别性作为公民个人信息最核心、最重要的特征与要件已经成为共识。
可识别性是公民个人信息与个人隐私的根本区别。个人信息与个人隐私是在不同范畴讨论的法律问题,二者的指称范围并不完全一致。“隐私与信息总体上应该是有区别的。”⑥李永军:《论 〈民法总则〉 中个人隐私与信息的“二元制”保护及请求权基础》,载 《浙江工商大学学报》 2017 年第3 期。“个人信息是对信息本身的识别性和指向性进行的判断,能够识别为具体个人或者指向具体个人的是个人信息;而隐私则是对私人领域侵入程度的判断。”⑦谢远扬:《个人信息的私法保护》,中国法制出版社2016 年版,第28 页。基于此,个人信息需要具备可识别性,个人隐私则无需具备可识别性,后者需要具备的是隐秘性(私密性)。“有的个人隐私属于个人信息,而有的个人隐私则不属于个人信息。”⑧张新宝:《从隐私到个人信息:利益再衡量的理论与制度安排》,载 《中国法学》 2015 年第3 期。隐私权是一项重要的人格权,主要通过私法保护,个人信息具有公法与私法的双重属性,需要通过行政介入的程度较高,属于特别的领域立法。⑨参见王利民:《和而不同:隐私权与个人信息的规则界分和适用》,载 《法学评论》 2021 年第2 期。所以,可识别性与私密性可能共存,也可能不共存,因此导致在范围上个人信息和个人隐私具有一定重合性,不具有可识别性的个人隐私不属于个人信息法律的保护范畴。
(二)公民个人信息可识别性的相对性
可识别性虽然成为公民个人信息的核心要件,但是也具有一定的相对性,并不具有绝对性,难以通过直接明确的概括或列举界定个人信息的具体范围。这种相对性表现在三个方面。
第一,可识别类型的相对性。大陆法系国家和地区的立法对于个人信息相关概念的界定无不基于可识别性作出直接和间接两个类型的划分。“识别包括直接识别和间接识别,直接识别是指通过直接确认本人身份的个人信息来识别,比如身份证号码、基因等;间接识别是指现有信息虽然不能直接确认当事人的身份,但借助其他信息或者对信息进行综合分析,仍可以确定当事人的身份。”⑩齐爱民:《信息法原论:信息法的产生与体系化》,武汉大学出版社2010 年版,第56 页。二元类型划分是信息法理论和各国立法所普遍认可的方式,“其划分的意义和目的在于,对可直接识别的个人数据信息的侵害后果一般而言比对可间接识别的个人数据信息的侵害后果更为严重”。11蒋坡:《个人数据信息的法律保护》,中国政法大学出版社2008 年版,第7 页。认可间接的可识别性,其实也就意味着承认可识别性的相对性。直接的可识别性强调单独识别,间接的可识别性强调结合识别。结合识别的情况下需要与其他信息结合方能完成识别,而无法凭借某一信息单独识别,从而在实质上放宽了对于可识别性的要求。
第二,可识别界限的相对性。对于个人而言,可识别信息与不可识别信息并没有绝对的界限。有国外学者将个人信息具体分为三类:“第一类,直接识别身份信息;第二类,间接可识别信息;第三类,不可识别的个人信息。”12Paul M.Schwartz &Daniel J.Solove,Reconciling Personal Information in the United States and European Union,California Law Review,102(2014),p.905.其中“第三类”信息不应作为类型划分之一,如果不具有可识别性则难以作为适格的个人信息,但是其启示在于延展个人信息的潜在范围。事实上,大量的信息也与公民个人潜在相关,从不可识别个人的信息到可识别个人的信息并没有不可逾越的鸿沟。“所谓的匿名的位置数据,在与其他类型的信息结合时可能导致‘再识别’ 或者‘去匿名化’ 的情形并被用来唯一地识别个人。”13S.Bu-Pasha,Anette Alén-Savikko &J.Mäkinen,et al,EU Law Perspectives on Location Data Privacy in Smartphones and Informed Consent for Transparency,European Data Protection Law Review,2(2016),p.318.由此,个人信息的可识别界限也不具有绝对性,而具有相对性。
第三,可识别种类的相对性。有学者直接列举个人信息的具体种类,如认为“与个人相关的信息其实范围很广,可以包括:(1)个人身份信息,包括姓名、性别、出生日期、居住地址、证件号码、电话号码、受教育程度、工作经历、宗教信仰、政治面貌、指纹、血型、遗传特征等,而指纹、血型、遗传特征等又可称为个人的生物属性;(2)个人金融信息,包括个人财产状况、个人信用状况等;(3)个人家庭基本情况,包括父母、配偶、子女的基本情况等;(4)个人动态行为,包括个人行踪、购物记录、通讯记录等;(5)个人观点以及他人对信息主体的相关评价”。14吴苌弘:《个人信息的刑法保护研究》,上海社会科学院出版社2014 年版,第9 页。也有观点认为,“公民个人信息不仅包括能识别公民个人身份的静态信息,还包括能够体现公民行踪的动态信息,如宾旅馆住宿信息和机场登机、到达信息等”。15侵犯公民人格权犯罪问题课题组:《论侵犯公民个人信息犯罪的司法认定》,载 《政治与法律》 2012 年第11 期。但是无论如何进行种类划分,无不带有“等”字的表述,意指列举的不完全,其原因在于难以通过静态识别性模式确定个人信息的完整种类。总之,个人信息的种类处于时刻变化发展的过程中,仅能作出同类意义上的有限归纳,而非完全归纳。
三、公民个人信息动态可识别性认定模式的提倡
由于公民个人信息的可识别性具有相对性,使得追求确定性、固定化的静态认定模式面临信息处理行为的动态性和多样性时,产生了一系列理论和实践问题。《个人信息保护法》 注意到公民个人信息处理的动态性,第四条规定“人个信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等”。这实际是采取广义的信息处理概念,除了加工、删除等狭义的信息处理行为外,还包括收集、存储这类信息收集行为,以及“使用、传输、提供、公开”这类侧重利用信息的行为。广义的信息处理概念有利于建立周延的保护公民个人信息法律体系,因为面对信息处理流程的动态性以及信息处理具体操作行为性质的模糊性,狭义的概念不足以充分保护公民个人信息。但是,当前的研究仍未能从实质上基于可识别性对侵犯公民个人信息行为进行全面的、动态的考察。现实中,仅仅采取静态可识别性模式不能适应大数据技术及产业的迅猛发展,应实现从静态到动态可识别性认定模式的转型。所谓动态可识别性认定模式,意味着放弃从社会平均人角度的事后判断方法,而从行为人角度结合事中的个人数据应用技术场景,从而实时判断个人数据是否具有广义可识别性。具体而言,应从以下四个维度理解动态可识别性认定模式。
第一,实现个人信息识别化与去识别化的动态转换。《侵犯个人信息解释》 第二条明确将“经过处理无法识别特定个人且不能复原的”数据排除在合法收集的公民个人信息之外,《个人信息保护法》 第二条也规定个人信息不包括匿名化处理后的信息。可见我国立法和司法实践已经关注大数据技术的发展,对去识别化进行严格限定并将其作为信息自由的前提条件。不过,认定可识别性标准时应进一步全面贯彻价值结合技术的综合判断标准,因为个人数据处于识别化与去识别化的动态转换过程之中。有学者提出个人信息去识别化是去除个人信息数据中可识别性的过程,去识别信息仍然具有人格权及衍生的财产法益,属于侵犯公民个人信息保护范围,个人信息去识别行为中的中立业务性质行为与信息主体授权同意可作为出罪事由。16参见张勇:《个人信息去识别化的刑法应对》,载 《国家检察官学院学报》 2018 年第4 期。前述观点的单一价值判断标准可能造成具体案件裁量的难题,对于个人信息可识别性的判断应采纳价值与技术的综合标准,动态分析信息的可识别性。
第二,实现个人信息可复原性的动态判断。《个人信息安全规范》 从技术标准角度区分匿名化与去标识化两种情形,第3.13 条规定匿名化是通过对个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程,个人信息经匿名化处理后所得的信息不属于个人信息;第3.14 条规定去标识化是通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程;去标识化建立在个体基础之上,保留了个体颗粒度,采用假名、加密、哈希函数等技术手段替代对个人信息的标识。因此,从技术标准角度理解《侵犯个人信息解释》 第二条和《个人信息保护法》 第四条公民个人信息的例外规定,其具体指的是匿名化个人信息,这类信息不视为个人信息的标准是从技术层面“不能复原”。
但是,个人信息能否复原并非抽象性概念判断的结果,而应当结合个人信息控制者的技术资源以及数据利用能力具体分析。同时,去标识化信息是否属于个人信息,则取决于个人信息控制者是否已经掌握或者将掌握额外信息。因此,以可识别性为标准,与个人相关的信息分为(个人)数据与个人信息两部分,匿名化、去标识化与重新识别技术的出现,使(个人)数据与个人信息间的频繁转换成为可能。从认定可识别性的资料范围来看,行为人所掌握的个人相关信息呈现不断变化的过程,而判断资料的丰富程度是判断资料与特定自然人是否关联的核心要素。因此,在技术手段的催化下具备识别可能性的(个人)数据累积到一定程度则可能转化为个人信息,个人信息也能经过脱敏处理切断与个人的联系而成为(个人)数据。对于可识别性的认定应当从静态横截面式向动态场景式认定模式转变,关注认定可识别性的判断资料范围和行为人所掌握的技术手段。
第三,科学识别和阐释动态信息。动态信息的典型类型为个人行动信息,即与个人行动相关的信息。需要明确的是,个人的行动信息既包括现实空间中个人行动的信息,也包括网络空间中个人行动的信息。一方面,现实空间中个人行动的信息需要被正确认识。在大数据环境下,物联网的发展推动世界互联、万物互联,个人在现实空间中的行动也会被形成数字化的文字、图像、音频或视频,这些记录也成为个人信息的一部分。比如,基于手机GPS 定位所获取的个人行踪信息就是典型适例,其全面反映了个人的行动内容。另一方面,网络空间个人的行动信息也同样重要,其典型适例就是基于用户身份信息(cookies)记录的个人使用痕迹。这些信息很大程度上可以反映个人的习惯和癖好,一般被利用后很容易针对个人施加特定的影响,因而也成为侵犯公民个人信息犯罪所侵犯的重要信息类型。
总之,无论是物理空间还是网络空间中个人的行动信息,其都必须与个人相联系,纯粹机械的、非人为机器运动或者电脑操作的动作并不能成为个人行动信息。如果按照静态可识别性模式,将个人行动信息认定为公民个人信息存在实质障碍,因为其足迹、痕迹处于时刻变化中,难以固定成为个人信息。如果采取动态可识别性模式进行认定,则可当然地纳入公民个人信息范围,问题迎刃而解。
第四,推动个人信息与隐私权保护的动态协调。公民个人信息可以分为未公开以及公开的公民个人信息,而未公开的公民个人信息就包括隐私信息,因此公民个人信息在外延上包括一部分隐私信息。总之,个人信息与隐私权的交叉内容是隐私信息,隐私信息既是隐私权保护对象,又属于公民个人信息特殊类型,是公民个人信息的保护重点。公民个人隐私信息的特别保护与大数据时代隐私危机的时代背景相关。对于公民个人信息的法律保护,民法学者形成个人信息权与隐私权相界分,以及重构隐私侵权规则两种观点。前者主张法律上隐私权与个人信息保护对象之间的交叉并不妨碍确立个人信息权作为具体人格权,因为隐私权主要是一种精神性人格权利,个人信息权则是集人格利益与财产利益为一体的综合性权利,财产利益日益凸显。17参见王利明:《论个人信息权的法律保护——以个人信息权与隐私权的界分为中心》,载《现代法学》 2013 年第4 期。后者主张采取隐私权保护而非个人信息保护为基点的路线,采取形式性隐私权定义加实质判断标准相结合的方法判断隐私利益。目前有关个人信息民事侵权诉讼的案例极少,基本为消费者权益保护机构和律师推动的。其请求权的基础通常包括隐私权与一般人格权两类,一般人格权属于精神性权利,通常难以得到法官支持,而隐私权的权利边界具有模糊性,绝大部分案件当事人败诉,胜诉的当事人所获得的也只是侵权人的赔礼道歉。因此,民事立法方向是明确个人信息法律性质是法益还是权利,民事司法的方向则是扩大隐私权的边界。18参见徐明:《大数据时代的隐私危机及其侵权法应对》,载 《中国法学》 2017 年第1 期。虽然,2021 年施行的 《民法典》 第一千零三十四条对隐私个人信息确立了隐私权优先保护的原则,但是,《民法典》 隐私权法律概念中“私密空间、私密活动、私密信息”和个人信息概念中“住址、行踪信息”之间的关系,以及区分标准、保护方式,仍是悬而未决的法律难题。
综上,我国各类政府机关、企业和社会组织对公民个人信息的数据化和网络化管理日益加强,基于动态可识别性模式推动个人信息与隐私权保护的协调具有重要意义。一方面,隐私信息具有个人信息的可识别性,因而具有相当程度的确定性;另一方面,隐私信息具有个人隐私的私密性,一些内容又不具有完全的公开性。采取静态可识别性认定模式不仅由于可识别性的要求明确可能不利于隐私信息的周延保护,也可能由于个人隐私的非公开化导致请求权基础缺失。反之,通过动态可识别性模式则可进行适当的协调与兼容。
四、公民个人信息动态可识别性认定模式的适用
公民个人信息法律保护实务的难点在于,采取静态可识别性模式适用相关法律认定侵犯个人信息权益行为、个人信息相关违法行为或者侵犯公民个人信息罪时,简单的信息类型列举方法往往“挂一漏万”,因为特定类型数据是否具有可识别性其实仍然需要进一步的价值判断。2020 年5 月1日施行的最高人民法院 《关于民事诉讼证据的若干规定》 第九十三条规定,应结合电子数据生成、存储、传输时所依赖的计算机系统硬件、软件环境,以及提取方法等因素认定电子数据的真实性,这实质上是强调应结合数据形成时的应用场景判断数据的法律性质。因此,公民个人信息的认定中也应当转变思路,采取动态可识别性认定模式。适用该模式时仍采取与特定自然人身份或者实时活动轨迹相关的广义可识别性作为判断标准,只是不再简单根据事先基于社会平均人角度列举的公民个人信息类型运用“对号入座式”认定方法,而是从行为人角度结合数据的应用场景,将数据置于识别过程中具体判断其可识别性。
(一)核心标准:公民个人信息关联程度的认定
采取公民个人信息动态可识别性认定模式,最核心的是为基于信息关联程度确立动态标准。
第一,应基于个案区分获取的信息属于公开信息还是隐私信息,然后进一步认定行为性质。前述吴某侵犯公民个人信息案中,吴某通过偷拍、跟踪方式获取的信息属于与特定自然人实时行动轨迹具有相关性的隐私信息,满足广义可识别性的标准,而且获取信息的方式非法,符合侵犯公民个人信息罪的构成要件。不过并不能由此得出公民的任何行动轨迹都属于个人信息的裁判规则。一方面,非实时的公民行动轨迹信息不属于公民个人信息。例如公民已经离店的酒店住宿信息,公民已经结束行程的火车票、飞机票、汽车票、地铁票等信息,与住宿或乘坐交通工具的应用场景相分离时不能与特定自然人相联系,则不属于公民个人信息。另一方面,公民合法获取行动轨迹的不属于侵犯公民个人信息行为。例如,在公共场所、发生违法犯罪事件的现场等场合,除非法律明文禁止,否则公民有权通过拍照、录音或录像方式获取行动轨迹等资料,此时公民再结合可供查询的文字或音视频等资料,通过数据挖掘方式发现线索并锁定相关行为人身份,通过公开个人信息等方式行使监督权,则不构成侵犯公民个人信息的行为。
第二,对于处理网络公开数据的行为,则需要结合主观明知与信息处理程度进行动态综合分析。对于公众可查询的公开信息,普通公民都属于合法的个人信息控制者,此时法律价值判断的着眼点在于考察个人信息控制者的信息用途是否合法,单纯的收集、整理、持有信息行为并不违法。根据《侵犯个人信息解释》 第五条,提供行为是否合法的重要判断标准之一为行为人是否明知他人可能将个人信息用于犯罪,此时成立犯罪没有个人信息数量的要求。前述李某侵犯公民个人信息案中,二审法院认定企业根据法律法规的规定或为经营所需而公开的企业信息,即使包含了个人姓名、联系方式,亦不属于法律意义上的公民个人信息,原审认定该类信息属公民个人信息有误。我们赞同二审法院的结论,但不赞成理由。因为,企业登记信息的公开范围是全体公民,公民之间的中立提供行为并没有侵犯企业相关自然人的个人信息相关权益,不构成犯罪。同时个人信息兼具财产权性质,本身具有可交易性,李某本人从企业登记信息中收集及整理企业法人的个人信息,提供给他人获取酬劳也是合法的。但是,如果有确实充分的证据证明,行为人明知他人可能将个人信息用于犯罪而提供收集的公开个人信息时,应构成侵犯公民个人信息的行为。
因此,李某的行为实际与直接用户画像行为类似,属于数据挖掘行为,行为性质的认定不取决于数据类型而取决于数据的应用场景。数据挖掘是基于信息与数据的区分而形成的概念,这一区分也指示出数据挖掘的目的是获取信息。19参见裴炜:《个人信息大数据与刑事正当程序冲突及其调和》,载 《法学研究》 2018 年第2 期。根据《个人信息安全规范》 第3.7 条规定,用户画像是指通过收集、汇聚、分析个人信息,对某特定自然人个人特征,如其职业、经济、健康、教育、个人喜好、信用、行为等方面做出分析或预测,形成其个人特征模型的过程;根据画像的信息是源于特定自然人还是第三方,分为直接用户画像与间接用户画像。李某的行为属于间接用户画像,具有合法性。因为企业主动公开包括法人身份信息在内的各项信息,其本质是将全体公民作为企业潜在客户,公民可以任意查询,所以李某是合法的个人信息控制者。李某收集的信息本身已经具有身份指向性,此时判断行为性质应该从目的以及处理程度两方面分析。目的是分析李某是否明知他人可能将信息用于犯罪而仍然提供,处理程度是考察李某是否利用技术手段再收集整合相关自然人的其他信息,从而形成包括敏感信息的个人画像。如果对前述两个问题均能做肯定回答,则李某的行为超出了合法利用范畴,涉嫌公民个人信息侵权或者侵犯公民个人信息罪。至于其他案件中行为人非法提供的个人信息达到《侵犯个人信息解释》 第五条的数量标准时,则依照规定认定和处理即可。
(二)数据场景:行为人掌握的数据资源与利用能力
动态可识别性认定模式的适用不仅强调对于信息关联程度的动态认定,也需要强调结合数据场景进行动态判断。
第一,可识别性判断是一种结合识别成本和数据处理技术的动态合理性判断。大数据的关联分析以及算法的更新升级使得保持数据匿名化极为困难,因此理论上并不存在完全不具有识别可能的个人信息。故而,确定信息是否符合可识别标准时应当充分考虑技术场景,将行为人掌握的技术资源以及实现再识别所需的技术难度、经济及时间等成本等考虑在内。
第二,对于可复原的去标识化信息,应当充分考虑行为人掌握的技术资源与数据利用能力,以及复原可识别性的成本等,动态判断可识别性。匿名化处理的功能和价值已经极大消减,但依然是现今最有效的个人信息保护手段。从技术判断角度分析,广义的匿名化可以分为两类,一类是可复原的匿名化即去标识化,如使用双向加密等再识别化技术使得信息具有重新识别性;另一类是不可复原的匿名化,如使用单项加密技术后,该种匿名化不具备重新识别化的可能性。不可复原的匿名化不适用个人信息保护原则,但是对于可复原的匿名化,则应当充分考虑技术场景。因此,不能将《侵犯个人信息解释》 第三条规定的“不能复原的”简单等同于概念层面不可复原的匿名化,大数据、算法和云计算的发展使得完全不能再识别化的情况几乎不可能出现,不能复原只是相对性判断。司法裁量的过程不能单纯依据能否复原的简单化实体标准进行静态判断,而应当制定认定个人信息的程序判断机制,结合行为人所掌握的技术资源及数据利用能力,并根据再识别的难度、成本、时间等要素进行综合评估。
(三)判断资料:行为人控制的个人数据文件
动态可识别性认定模式的适用还应强调依据行为人控制的个人数据文件进行判断,而非进行信息的孤立认定。
第一,行为人控制的个人数据文件决定可识别性的判断资料。个人数据文件是存储于电脑、云端、纸张等媒介的个人资料集合,认定可识别性的资料必须是行为人控制或者具有控制可能性的公民个人数据,尤其是行为人即将占有的其他信息,避免其以拆分信息方式规避可识别性标准。因此,技术层面存在去识别化与重新识别的转化过程,可识别性不是静态横截面式的孤立认定。扩大或者缩小行为人掌握的个人数据文件范围都会导致可识别性认定的差错。
第二,确立个人信息可识别性认定时间节点的规则至关重要。信息技术的发展使得数据在系统内存储、更新的速率极为快捷,认定可识别性判断资料的过程本身也处于一种动态变化的状态。应参考2016 年最高人民法院、最高人民检察院、公安部 《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》 的取证规则,以案发后提取涉案系统数据的时间为基准,将系统内实时数据作为主要判断资料,同时将行为人依据系统运行规则获取的数据作为辅助判断资料。例如,对于QQ 号这类部分关联信息的可识别性判断是个别化判断,并不能采纳统一的价值判断标准,应结合行为人掌握的其他信息、QQ 号与特定自然人身份的关联程度综合判断。
第三,对间接识别或部分关联信息应限制解释。可识别性是指根据公民个人信息的内容,经过判断可以确定信息主体。20参见孙毅、郎庆斌、杨莉:《个人信息安全》,东北财经大学出版社2010 年版,第20 页。直接识别信息可以单独直接确认信息主体,间接识别信息因仅与自然人具备部分关联性而难以认定具体范围。有观点认为,间接识别个人信息是指不能单独识别本人,但与其他资料相结合才能识别本人的资料,例如性别、爱好。21参见齐爱民:《论个人资料》,载 《法学》 2003 年第8 期。还有观点则认为,部分关联信息可以从信息本身的重要程度、需要结合的其他信息的程度、行为人主观目的三个方面判断其是否属于“公民个人信息”的范围。22参见喻海松:《侵犯公民个人信息罪的司法适用态势与争议焦点探析》,载 《法律适用》 2018 年第7 期。第一种观点对间接识别个人信息性质的理解是妥当的,不过没有给出部分关联信息的可识别性认定标准。第二种观点主张的标准过于模糊而且仍然囿于静态模式,可能导致对间接识别个人信息的理解过于宽泛,将架空可识别性对于个人信息的限制功能。因此,可以在第一种观点的基础上,采取动态可识别性认定模式分析部分关联信息,综合“识别公民身份客观上需要结合的其他信息的程度”和“行为人可能结合的其他信息的程度”,合理限定间接识别个人信息的范围。
总之,从动态可识别性角度分析,应注重信息聚集的可识别性,由此整体具有可识别性的结构化或非结构化个人数据集合均属于个人信息范畴。直接识别与间接识别是在具备可识别性前提下的具体分类,二者的区别在于识别方式与认定可识别性的资料。直接识别是单独识别,间接识别属于集成式识别。认定直接识别依据信息本身,而认定间接识别信息则需对行为人控制或者可能控制的公民个人信息进行整体评价。因此,必须摒弃间接识别是一种识别可能性的观点,对部分关联信息整体判断数据集合的可识别性。普通的账号密码、消费记录、性别或者爱好等个人数据聚合并能够识别个人身份时,刑法才保护该数据集合。
结语
大数据时代个人信息保护应实现公民、个人信息控制者及社会公共利益的平衡,明确个人信息合理使用限度至关重要。然而,云计算及人工智能技术的飞速发展,使得为个人信息合理使用事先设定的静态的固定标准面临困境,因为个人信息使用行为的性质随信息控制者以及技术场景的不同而呈动态变化态势。采取公民个人信息的静态可识别性认定模式,进而使用广义可识别性标准很可能异化为“相关性”标准,也可能造成公民个人信息概念的泛化和司法犯罪化范围的扩张,最终动摇罪刑法定原则的根基,因此,应当推动公民个人信息认定模式的转型。
因此,应充分认识到可识别性的相对性,对公开信息及部分关联信息等引入场景理论,基于动态视角适用法律规定的广义可识别性标准。场景理论的突出特点是以动态视角界定个人信息的合理使用控制,以便将利益衡量细化到具体场景中。个人信息处理是否合理取决于引发的风险是否符合用户的合理预期,这种合理预期与信息主体的接受程度和敏感程度相关,而影响用户接受程度和敏感程度继而影响合理预期的因素即为技术场景。23参见项金桥:《个人信息权权益特征及其利益平衡》,载 《学习与实践》 2019 年第4 期。总之,建议采取动态可识别性认定模式,综合考虑行为人控制的个人数据文件以及数据利用能力条件,具体判断个人数据应用场景中是否存在需要法律保护的公民个人信息。