基于DataSecOps的个人信息遗忘
2021-08-23王文宇
王文宇
(北京数安行科技有限公司 北京 100036)(wwy@datasecops.com.cn)
数据信息可以分为个人信息、公众信息、商业信息、国家机密等.个人信息在各类数据中属于特殊的一类,其特殊性表现在:1)与每个个体息息相关,并且携带个人的隐私特性,对个体的影响深远;2)收集、使用个人信息的主体,可能是教育机构、政务机构、企业单位等等,个人信息一旦被违规使用,从受损害的主体来讲,个人承受的损害更严重.在互联网、大数据、5G万物互联的时代,个人信息相比历史时期被更加广泛地收集和使用.个人信息被收集和使用,对个人来讲期望掌握主动权.当个人发起个人信息遗忘的诉求时,个人信息的控制者或个人信息的处理者应当按照个人信息合规要求,对个人信息进行删除.在历史时期个人信息遗忘并没有真正的贯彻执行.一方面,在个人信息遗忘方面缺乏针对性的法律法规,法律监管力度不强,政策方面的驱动力较弱;另一方面,持有个人信息或使用个人信息的一方拥有大量杂乱无章的个人信息,对执行个人信息遗忘缺乏有效的技术手段.在上述背景下个人信息遗忘等同虚设.在数字化转型时期,数据运营是数字化转型的核心驱动,数字化转型时期数据运营的特性决定了数据安全需要从数据运营角度重新审视,个人信息作为数据运营中的一类特殊数据,在数字化转型中,个人信息一方面随着数据运营业务的多线条化变得无处不在,另一方面个人信息合规要求达到史无前例的严格程度,不管因何种缘由导致个人信息遗忘的不作为都将面临严重的法律制裁.针对上述问题,本文提出了基于DataSecOps(即数据运营安全)的个人信息遗忘的技术,达到个人信息遗忘的合规目标.
1 个人信息遗忘的立法要求
个人信息遗忘在法律法规中称为被遗忘权或删除权,国内外法律法规对此都有定义.2018年5月25日实施的GDPR指出:“当用户依法撤回同意或者控制者不再有合法理由继续处理数据等情形时,用户有权要求删除数据”.GDPR是由欧盟颁布实施,其管辖目标是欧盟成员国,但实际GDPR的管辖范围不止是欧盟国家,任何国家或者企业在一定条件下都会进入GDPR的管辖区域.
在我国,《关于加强网络信息保护的决定》[1]《中华人民共和国网络安全法》[2]《中华人民共和国民法总则》[3]都对个人信息删除作了定义.作为首部专门规定个人信息保护的法律,《中华人民共和国个人信息保护法(草案)》[4]规定:“在满足指定条件时,个人信息处理者应当主动或者根据个人的请求,删除个人信息”.《中华人民共和国个人信息保护法》目前仍在草案阶段,正式出台后将成为个人信息保护领域的基本法.随着立法的进一步完善,个人信息遗忘将成为政府机关、企事业单位等个人信息合规性的重要环节.
2 个人信息遗忘所面临的挑战
作为个人信息合规的重要一环,个人信息遗忘因个人信息本身的特性以及数字化转型中无处不在的个人信息流动,导致贯彻实施面临较大挑战,主要表现在:1)在过去的历史时期,个人信息虽有收集,但使用过程相比数字化转型时期简单化,流动性较小.在数字化转型中,个人信息渗透到数据运营的多个环节,诸如收集、存储、分析、共享合作等.与之相关的主体既包括个人信息的控制者,也包括个人信息的处理者.一旦需要对指定个人信息执行被遗忘权或删除权,不管是个人信息的控制者还是个人信息的处理者都无法掌控局面:比如不了解需要执行删除的个人信息在哪里,应赋予谁删除权限,从哪里着手删除,删除了指定信息后是否可能造成业务层面影响,即使执行了删除是否删除彻底并满足合规性要求.2)存储个人信息的数据源多,同一个人信息的不同属性在不同的数据源里表现为不同的形态,删除个人信息时无法全面找到这些信息,删除不彻底.3)个人信息删除,如何证明删除的信息与当前的个人完全对应,如何证明删除后个人信息真正不存在,这些证据链如何向监管部门提供合规性证明.
综上,个人信息的遗忘或者删除,从个人信息的特性上,与业务的深度耦合方面,落实实施是个人信息的控制者、个人信息的处理者以及个人信息合规监管部门需关注和亟需解决的难点.
3 现有技术的不足
在过去的历史时期,个人信息的存储比较固定,不同的业务之间交互较少,个人信息处于一种静态模式.当前我国已进入数字化转型时代[5],个人信息在数据运营的全流程中广泛地流动,个人信息所在的数据源多,个人信息的存在形态多样化,涉及个人信息的分析处理业务复杂化,个人信息分散、流动频繁.现有技术在解决上述问题时具有以下局限性:1)主要针对结构化数据,对个人信息以非结构化形态存储无能为力;2)个人信息的数据源多,传统技术需要单一处理各个源,一方面效率低,另一方面也会删除不全;3)个人信息频繁流动,与数据运营业务交织,由此可能在多个业务中留下多个副本,传统的技术无法定位到哪些业务中可能自行留存了副本,从而导致副本删除不全;4)借助传统的技术处理个人信息,达到同删除个人信息相同的效果,此类技术诸如匿名化、去标识化[6-8],相关的方案比如数据脱敏.此类手段因算法原因可能还原原始个人信息.比如通过同一原个人信息的脱敏数据经过多次组合,能够拼凑出原个人信息,抗逆性较弱.有些算法处理后的个人信息,借助第三方工具或技术仍能去匿名化或者识别到个人[9-10],这些处理结果最终不能满足个人信息删除的合规要求.一旦个人信息被还原或者被识别,实际个人信息的遗忘或删除义务就必须重新执行.
现有技术一方面主要面向个人信息静态模式的处理,难以解决数据运营全流程中个人信息的遗忘或删除问题;另一方面对个人信息的匿名化、去标识化因算法原因仍有还原或识别到个人的途径,导致无法满足个人信息遗忘或删除的合规性.数字化转型时代下,让个人信息遗忘或删除满足合规性是个人、政务、企业、国家关注的重点.
4 下一代个人信息遗忘技术
基于DataSecOps的个人信息遗忘方案,在深度把握个人信息特殊性、使用方式特殊性、享有被遗忘权(或删除权)的特殊性的基础上,将数据运营安全内嵌到数据运营中,通过人工智能自动映射个人信息与数据运营业务的全流程关联性,在需要执行个人信息遗忘时,通过DataSecOps一体化删除所有与当前个人相关的信息,达到个人信息遗忘的合规目标.基于DataSecOps的个人信息遗忘,主要包括以下核心技术:1)基于人工智能的全类型个人信息映射;2)基于数据沙盒无痕映射;3)内嵌于数据运营全业务流程的追踪;4)自关联检索删除个人信息映射是个人信息遗忘或删除的基础,是基于人工智能的全类型个人信息映射;5)建立删除-合规的证据链,如图1所示:
图1 基于DataSecOps的个人信息遗忘
4.1 基于人工智能的全类型个人信息映射
基于人工智能的全类型个人信息映射,通过行为智能分析识别当前行为主体,包括个人信息控制者、个人信息处理者等;通过对个人信息智能分类、智能识别,识别当前分类客体,包括个人信息的属性分类等;通过对个人信息的不同格式智能分析,获得结构化数据、半结构化数据、非结构化数据等不同格式的个人信息.采用人工智能技术建立个人信息的智能分析模型,分析模型仅以上述内容作为范畴,不涉及个人信息本身的具体属性值,持续对个人信息梳理,在不持有个人信息内容的前提下建立主体与客体的多维映射.
4.2 基于数据沙盒无痕映射
在对个人信息的映射、追踪过程中,不获得、不存储原始个人信息,而是通过个人信息关联特征进行映射、追踪,即数据沙盒.数据沙盒技术下的处理,借助基于人工智能的全类型个人信息映射中所建立的分析模型,对个人信息进行信息的提取、关联和映射,个人信息原内容或属性特征保留原状态,未因新的处理形成新的副本,处理结果以虚拟化数据的方式呈现,对个人信息本体来讲是无痕的.
4.3 内嵌于数据运营全业务流程的追踪
通过轻量化探针与数据运营业务融合,内嵌于数据运营中,涉及个人信息存储、分析、共享协作等各业务,追踪个人信息、个人信息的片段、不同个人信息属性组合随数据运营业务的流动,从数量、类型、位置、应用场景等方面建立个人信息的追踪视图,动态跟踪个人信息的实时状态.如图2所示:
图2 个人信息追踪
4.4 自关联检索删除个人信息
通过基于人工智能的分析模型、数据沙盒以及数据运营业务流程的映射、追踪,个人信息以一种虚拟化的数据方式,建立了涵盖全数据、全业务的个人信息视图,完整地了解并掌握哪些用户信息,在用户提出要求时能够准确、及时地提供或删除.当个人信息因合规需要执行遗忘或删除时,从虚拟化的数据集中,基于人工智能的特征模型,自动检索、删除所有与当前个人信息特征相关联的数据,包括但不限于作为个人信息控制者持有的个人信息相关数据、个人信息处理者持有的个人信息相关数据以及随业务流动与数据运营业务融合交错的个人信息.
4.5 删除-合规的证据链
经过自关联检索删除当前个人信息后,删除的彻底性、合规性,通过人工智能关联分析进行自证,并保留证据链.其中,自证形成的证据链不包含任何与已删除个人信息特征相关的信息,而是通过对个人信息控制者持有的个人信息相关数据、个人信息处理者持有的个人信息相关数据以及随业务流动与数据运营业务融合交错的个人信息等方面进行个人信息遗忘删除的合规验证,形成数据运营全业务的检查结果.
在过去的历史阶段,个人信息被遗忘权或删除权,因需要经历逐步的立法完善过程,可实施性较弱,而个人层面对个人信息能够妥善处理的主观意识相对来讲不强.近些年来,从个人角度来看,个人对个人信息的保护意识愈来愈强,未来个人对有效行使个人信息处置权利的要求也会相应地越来越高.《中华人民共和国个人信息保护法》(草案)已发布,落地实施也将逐步提上日程,国家有关部门的监管力度越来越强,在这些背景下,个人信息遗忘或删除也必须与国家、社会、个体的发展和诉求相符,才能有助于数字经济的持续健康发展.基于DataSecOps的个人信息遗忘,遵循个人信息保护的合规性要求,结合人工智能、数据沙盒,内嵌至数据运营全周期中对个人信息进行追踪,自关联检索删除个人信息,并动态反馈检查删除后的合规状态,形成删除-合规证据链,是当前数字化转型时代适应个人信息合规新诉求的技术手段.
5 结 语
基于DataSecOps的个人信息遗忘,是现阶段适应个人信息合规新诉求的技术手段.而随着社会大变革及新兴领域、新兴技术的发展,个人信息将继续以不同的形态参与到各个环节,比如,有些领域在建立人工智能模型时,是基于个人信息的具体属性值的数据学习而形成的,针对此场景下行使个人信息的被遗忘权或删除权,一旦删除个人信息的具体属性,有可能造成模型失效.因此,个人信息的遗忘、删除,需要结合新兴的技术特征进一步研究和探索,以兼顾新兴技术的持续发展与个人信息的合规.