APP下载

数据挖掘的正当性论述及法律规制路径*

2021-12-05崔淑洁

关键词:规制数据挖掘主体

崔淑洁

(西安交通大学 法学院,陕西 西安 710049)

依托大数据技术、云计算、物联网的迅猛发展,人类社会步入大数据时代。数据作为新型资源备受关注,数据应用日渐深入。我国作为数据大国,数据产业增长态势迅猛,数字经济规模巨大。2015年,《促进大数据发展行动纲要》首次将大数据提升到战略发展高度,数据治理成为新型治理模式,在国家治理中意义重大。随后,《“十三五”国家信息化规划》提出了建设“数字中国”,将充分释放数据红利及构建统一开放的数字市场体系作为重要的发展目标。2020年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据认定为生产要素,要求加快培育数据要素市场。当前,《数据安全法》已正式出台,其顺应国家发展战略和时代发展需求,提出了数据安全与数据利用并重的目标。

数据挖掘是数据利用和数据价值开发的关键环节,具有技术中立性和工具中立性。然而,随着数据量的激增和技术应用的推进,数据挖掘不再仅作为技术术语出现,其所带来的社会法律问题不容忽视,技术与法律能否实现良好的对接备受质疑。在此情形下,论证数据挖掘这一技术手段的正当性是技术能否合理应用的关键,也是对技术进行法律规制的前提。现有法律机制缺乏对数据挖掘技术的全面回应,本文试图分析数据挖掘技术的正当性,进而提出这一技术难题的法律规制路径,旨在实现技术与法律制度的良性互动,推进我国大数据发展战略的实施。

一、数据挖掘的正当性论证

现阶段,数据挖掘作为数据价值发现的重要技术存在法律规制的空白。明确数据挖掘的概念及内涵、关注数据挖掘的现实应用、实现数据挖掘技术术语与法律语意的统一是数据挖掘正当性论述的逻辑起点,也是探讨数据挖掘法律问题的前提[1]309。

(一)数据挖掘的概念及应用价值

数据挖掘(data mining)是指从大量、不完全、模糊的数据中提取隐含、未知及潜在有用信息和知识的数据处理技术[2]。2005年,美国政府问责局(U.S. Government Accountability Office)将其定义为应用数据库技术和统计分析、建模等算法技术发现数据中的隐藏关系,并能够预测未来结果的数据开发应用模式[3]。其综合运用数据库技术、统计学、人工智能、可视化等学科的技术和方法,通过挖掘算法对数据进行深层挖掘分析,实现了数据到知识的转换。具体而言,数据挖掘可分为基于数据主题(subjective)的描述分析和基于数据模式(mode)的预测分析。基于主题的描述分析又被称为连接分析,包括概念描述、关联分析、分类、聚类等,用于描述对象内涵和特征,发现数据联系和规律;基于模式的分析则是从数据统计和归纳中发现未知的可能,用于预测未来[4]。

数据挖掘源自实践的直接需求。依托强大的分析和预测能力,数据挖掘在数据分类、系统优化、智能识别和趋势预测等方面发挥着巨大功效,被广泛应用于商业、公共事务管理以及个人生活[5]。数据挖掘最早源于商业发展的需求,商业实体是数据挖掘的主力军,也是数据挖掘的重要应用主体。数据挖掘在商业领域的应用包括但不限于金融、零售、广告等领域,如银行机构应用数据挖掘进行客户信用的识别,电商通过数据挖掘分析顾客的购买行为、购买喜好进行精准营销,广告部门利用数据挖掘定向投放广告等。数据挖掘有助于商家在服务端控制物品及服务状况,在销售端精准把握消费者的购买需求、购买行为、信用情况和经济能力等,进而提高服务质量并进行商业趋势的预测,创造商业价值,推动经济发展。近年来,除商业应用之外,政府等公共事务部门对数据挖掘的应用不断深入,既包括政府部门通过数据挖掘致力于智能政府、智能城市的打造,也包括数据挖掘在科教文卫等社会公共事务中的应用,如医疗机构借助数据挖掘推进精准医疗、疾病防治以及新药研发,教育机构实现应用数据挖掘智能教育,科研机构通过数据挖掘进行深度调研等。当然,数据挖掘在反恐防控、刑事侦查及社会安全治理领域的应用也是其公共事务应用价值的重要体现。此外,数据挖掘在私人应用中作用显著,移动互联网的普及使人们的思想行为日渐数字化,智能交通记录日常出行,社交软件识别交际网络,电商平台采集购买所需,电子媒体引导思想动态。数据挖掘与私人应用之间相互影响和塑造,一方面,个人基本信息及行为数据是数据挖掘的基础;另一方面,数据挖掘能够分析和预测个人行为,影响私人决策,个体已然成为数据的创造者、数据挖掘的参与者和数据红利的享受者。

(二)数据挖掘的正当性

如上所述,数据挖掘广泛影响社会生活的各领域。探讨技术的正当性是技术合法化的前提,也是法律对技术进行规制的基础。

1.信息增值的必要条件

信息增值理论是信息经济学中的重要理论,主张信息在运动过程中出现了质上、量上和价值上的递增[6]。这种递增是一种具有目的性、非线性关联的,按照一定的方向和速度,高效更新的信息流通方式[7]。信息量的增值是指信息量度的增加,信息质的增值则是信息使用效益的增大,而信息价值的增值对应信息满足受众需求度的增强。信息增值源于信息在交流、加工以及交合等过程中的扩散和传播。其中,先进的信息化技术平台和畅通的信息挖掘系统是信息增值的重要保障。

数据作为重要的信息源泉,具有深度加工增值特性,海量数据集合形成大数据,实现了数据量上的增值。未经加工的数据又称原始数据,其本身的使用价值有限,但经数据挖掘后生成衍生数据和衍生数据关系,可用于现状描述和未来预测,如商业趋势推断、社会危险因素排查等,具有极大的经济价值和社会效益,形成数据质上与价值上的增值。数据挖掘技术实现了数据的深度开发,使其从普通的电子代码变成可识别、可分析、可深度利用的大数据,催生了数据收集、存储、加工、交易等系列数据产业,促进新型业态的发展并推动数据治理,成为信息增值的必要条件。

2.数字经济发展的技术引擎

以使用数字化的知识、信息、数据作为关键生产要素,以信息网络作为主要载体,以数据信息技术作为经济结构优化推动力的数字经济是大数据时代的新型经济业态[8],在促进经济发展、实现经济转型、提高经济效率、发掘新型经济增长点等方面发挥着重要作用。《中国数字经济发展白皮书(2020年)》显示,2019年,我国数字经济增加值规模达35.8万亿元,占GDP比重近四成,数字经济已成为国民经济核心增长极之一[9]。2017年,上海社科院应用经济研究所发布的《中国数字经济宏观影响力评估及中长期税收政策走向设计》报告预测,到2030年,中国数字经济规模有望超过150万亿元人民币,将占GDP比重80%左右[10]。

区别于传统工业经济,数字经济以数据作为驱动经济发展的关键生产要素,以数据技术进步作为发展动力。数据挖掘技术作为重要的数据信息技术之一,成为数字经济发展的重要技术引擎。以数字经济中电商平台经济为例,电商平台为消费者与卖家提供交互平台,实现便捷的网上购物服务,在此过程中,电商平台收集消费者的浏览痕迹、购买记录等个人行为数据并进行深度挖掘,发现用户喜好和潜在需求,向客户进行精准营销和定向广告投送,引导消费趋向,并不断推陈出新迎合市场需求,实现消费者、卖家和电商平台的多赢局面,推动数字经济的发展。数字经济的发展离不开数据挖掘技术的保障,其对数据挖掘的需求将随数据这一生产要素的应用不断深化。

3.政府数据开放的内在要求

政府数据作为重要的数据源,其开放使用可以更好地满足经济和社会发展需求,为世界各国所重视。2009年,美国总统奥巴马签署了《开放透明政府备忘录》,对政府数据进行公开,随后,美国数据门户data.gov上线,拉开了全球政府数据开放运动(Government Open Data)的序幕。作为数据大国,我国亦高度重视政府数据开放,2020年4月发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》将推进政府数据开放作为加快培育数据要素市场的重要举措,而《数据安全法》更是专章规定了政务数据的安全与开放,强调大力推进电子政务建设。

政府数据具有公共属性,在不违反国家安全、不侵害商业秘密和个人信息安全的前提下,最大限度地对社会开放,不仅有助于增加政府工作的透明度,提高政务工作效率、服务水平和社会治理能力,而且更能够为数字经济发展提供资源,激发数据创新。政府数据开放并不是最终目的,数据开放是为了促进数据资源的有效获取,实现数据资源的挖掘和利用,发掘数字价值进而推进数字经济发展和社会治理。因而,数据挖掘技术的推进是政府数据开放得以实现和发挥效能的保障,符合政府数据开放的内在要求。数据挖掘与政府数据开放相辅相成,成为推动数据产业发展、构建数字政府以及推进数据社会治理的重要手段。

二、数据挖掘的正当性困境:基于现存社会法律问题的分析

技术如同一把双刃剑,其在带来技术红利的同时,不可避免地会产生社会法律问题。数据挖掘亦不能幸免。通过上文分析可知,数据挖掘的正当性不容置疑,但正当性审视的背后,不能忽视数据挖掘产生的系列社会法律隐忧。

(一)数据挖掘挑战传统隐私保护,带来个人自治困扰等私人问题

收集存储的个人数据进入挖掘阶段,经数据预处理形成去个人身份信息的匿名数据,经统计分析、挖掘算法执行等深度加工处理,隐藏的数据关系和数据模式被发掘。挖掘算法不受个人控制,数据挖掘过程极有可能超出处理者的初始预测,更有甚者,反向识别技术可以对匿名化的数据进行再识别。美国在线(AOL)曾对用户搜索数据进行匿名处理,删除用户姓名、地址等个人标识,并采用随机ID的方式公布,但部分用户仍被记者识别出来[11]1765。而数据挖掘产生的隐藏数据结果很多时候被再次利用,由数据挖掘主体出售或分享给其他方,数据多次交易和使用过程中隐私暴露的风险不可忽视。

除个人隐私侵害之外,数据挖掘还在一定程度上对个人自治造成困扰。个人数据使用程度、使用目的和使用场所很难由个人所控制,数据挖掘通过对个人数据的挖掘分析,洞察个人行为动向、兴趣偏好,向个人推送个性化和定制化资料,干扰个人选择和决策,一定程度上影响了个人自治的能动性。如电商平台通过挖掘用户的搜索和购买记录,分析预测用户购买喜好和潜在需求,并进行定制化推动,增加用户黏性。数据挖掘的分析和预测功能提高了商业效率和个人生活的便捷度,但也在很大程度上影响和左右个人自我治理的动机和途径,使人们成为被动性数字驱动人。

(二)数据挖掘产生歧视等新型社会治理问题

除私人困扰外,数据挖掘亦带来了系列社会治理难题。其一是数据歧视,数据挖掘掌握个人数据,通过对个人数据的分析能够发现隐藏的信息资料,进而对群体进行划分并区别对待。最为明显的是购买歧视,商家依托数据挖掘掌握消费者的购买喜好、消费能力、消费需求紧迫度等相关信息,并据此设计不同的定价机制,导致不同用户在同平台同时段以不同价位购买相同产品的现象发生。此外,同一商家会针对不同购买力的群体提供不同等级的服务,如为具有强购买力的消费者提供优先服务而忽视低购买力群体。除价格歧视外,数据挖掘带来的另一典型歧视存在于求职过程中,用人单位利用数据挖掘分析个人数据,获得个人健康、个人性格、个人社会资源等资料信息影响招聘结果,产生职场歧视。这些由数据挖掘带来的社会歧视会破坏有序的市场秩序,影响社会治理的公平和正义,产生和激化社会矛盾。

除社会歧视外,数据挖掘还可能引发个人自治以及社会治理的冲突。数据挖掘很大程度上实现了私人定制化,是满足个人自我需求的有力推手[1]366-368。然而,个人过分追求自我会导致个人化和小团体化,从而割裂社会整体,激化独立个体与社会的矛盾。

(三)数据挖掘形成数据利益分割难题等社会分配纠纷

数据挖掘是数据价值开发的重要技术手段。原始数据虽然量大,但不能交易,不具有直接经济价值。原始数据经数据挖掘处理形成衍生数据及数据关系,可用于描述及预测未来需求及趋势,被广泛应用于经济发展和社会治理,具有极高的经济和社会价值。数据是多元利益集合体,挖掘后的数据更具有多重价值属性,涉及众多利益主体,包括原始数据拥有者、数据挖掘主体等,涵盖个人、政府等公共部门、商业主体等。挖掘产生的数据利益分割困难,引发社会分配难题。

以电商平台为例,消费者注册电商平台,提供自己的个人数据以获得平台提供的服务。电商平台作为数据挖掘主体收集并深度挖掘消费者的个人数据,预测消费需求和消费趋势,推出适应市场需求的产品而获得收益。此例中,对于因数据挖掘获得的数据利益该如何分配?是由商家全部获得还是应分割利益于提供原始数据的消费者?商家和消费者的利益为何?是否都为经济利益还是应有所区别?数据利益交易或提供给他方后的获益如何划分?类似问题不胜枚举,并会随数据挖掘技术的进步和应用的扩展而不断产生。如何平衡数据利益、合理分配社会财富和社会责任成为数据挖掘正当性背后不可忽视的社会法律问题。

三、数据挖掘的正当性归属:数据挖掘的法律规制路径

现代社会,法律成为社会控制和治理的主要手段,法律规制有助于实现社会公正,维护社会秩序[12]。对数据挖掘进行法律规制是数据挖掘正当性的归属,也是解决数据挖掘社会法律问题,实现技术与法律统一的有效手段。基于以上对数据挖掘正当性及其困境的分析,本部分聚焦数据挖掘法律规制路径的构建,包括规制目标的确立、规制依据的完善、规制方式的选择以及具体规制措施的实施。

(一)确立“鼓励挖掘-安全保护-平衡协调”相统一的规制目标

规制目标旨在解决规制什么,是规制架构中的基础性命题。数据挖掘的规制目标复杂而多元,针对数据挖掘发展的需求和其所带来的社会法律问题,应确立鼓励数据挖掘、确保个人数据安全、平衡协调数据利益的多元规制目标。

首先,鼓励数据挖掘是规制的根本目标。小数据时代的数据资源有限且集中,数据享有者倾向于将数据私有,数据由享有者集中私密使用。大数据时代,人们对数据的关注从静态的储存转向动态的使用,数据价值发现成为重点,数据成为新型战略资源和生产要素。数据挖掘能力将在很大程度上决定大数据时代经济社会的发展速度,成为国家竞争力的重要组成部分和数字经济发展的直接驱动力[13]。数据挖掘作为改变世界的大数据技术,是数据价值开发的技术支撑和数字经济的基础推手,对其采取鼓励和促进的态度是数据挖掘法律规制必须坚持的根本性目标。信息安全领域的著名学者Kim Taipale认为,给予新技术发展机会之前便将其扼杀在摇篮中是极不公平的,鼓励数据挖掘技术的应用并采取适当的规制措施可以较好地解决其带来的困扰[14]。无论是世界范围内的数据发展风潮还是我国数据发展的实践需求,否认数据挖掘的重要性无异于画地为牢,唯有持续鼓励数据挖掘,促进技术创新,才能够真正迎合我国数据发展战略。

同时,针对技术发展的争议性,我们在鼓励技术创新的同时需正视数据挖掘暗含的风险。数据挖掘带来的困扰以个人隐私侵害等个人数据安全保护问题最为突出。个人数据是数据挖掘的基本单元,确保个人数据安全是数据挖掘的前提,也是数据挖掘的防火线。小数据时代,数据量有限且联系并不紧密,数据安全问题易发现和解决,个人隐私相对隐秘不易侵犯。大数据时代,伴随着个人数据的持续获取和使用,确保海量多样的个人数据被合法地挖掘,防止恶意泄漏和隐私侵害,保障公民个人数据安全是数据挖掘规制的重要目标。

此外,数据挖掘的过程中所体现的多重利益冲突不容忽视,公共利益、个人利益和第三方利益是数据挖掘过程中最为突出的利益表现。数据挖掘所涉及的公共利益包括数据挖掘在推进社会治理、增加社会福利等方面的体现,应受到优先保护。数据挖掘的基础资料是个人数据,个人数据之上个人的人格尊严与自由、个人隐私私密及信息自决等人格利益具有天然的利己性和内向性[15]42,是公共利益的基础和最终落脚点[16],不可只强调公共利益而忽视个人数据中的个人利益。此外,以数据挖掘企业为代表的第三方利益亦是数据利益中的重要体现,对第三方利益的保护是数据市场有序运转的核心,也是数据创新和数据产业发展的动力。公共利益、个人利益、第三方利益的平衡成为数据挖掘规制目标中极为重要的一环,通过法律之器进行利益识别和划分,平衡利益冲突并解决社会矛盾成为必须。

(二)完善数据立法,明确数据挖掘规制的规则

个人数据保护以及数据权属分配是数据挖掘法律规制的核心命题,在“鼓励挖掘-安全保护-平衡协调”规制目标的指引下,通过完善立法明确规制规则,为数据挖掘法律规制提供依据。

其一,对个人数据进行分类立法保护。从内容上看,可将个人数据分为关联性个人数据和非关联性个人数据,关联性个人数据又可分为直接关联性和非直接关联性个人数据。直接关联性个人数据指可以直接识别个人身份的数据,如个人姓名、电话、证件号码、家庭住址等外在性身份标识数据,是个体最基本、表层的外向标志。非直接关联性个人数据是指无法直接关联到个人,但可通过与其他数据结合发现个人身份,包括个人的性别、邮编、医疗信息、性别取向、网购习惯、消费喜好等潜在表达。直接关联性个人数据带有直接标识符,无需通过与其他数据关联可直接定位识别个人[17],具有极强的私密性,这类数据的挖掘使用必须获得个人的同意,并给予严格的保护,这在世界范围内已经达成共识。非直接关联性个人数据无法单独用于识别,但可通过与其他数据的结合识别到个体,且伴随大数据技术的应用,此类数据数量骤增,是数据价值开发的重要元素。基于此,对该类数据的使用无需做到严苛的个人知情和同意,法律保护力度可相应降低,应根据使用主体、目的、途径等综合估量。非关联性个人数据是指数据处理后的衍生数据,该类数据为去个人身份化的匿名数据,由数据挖掘主体控制,严格意义上不属于个人数据范畴。但由于该类数据在使用过程中仍存在去识别化的可能,个人隐私再发现和侵害的风险仍然存在,需要给予一定程度的保护。

个人数据在数字化时代极易被收集和记录,很多时候已处于公开状态。因而依据个人数据是否已公开,可从形式上将其分为个人已公开数据和未公开数据。前者是已经通过合法渠道为公众所知的个人数据或个人已公开的数据,后者则仍处于未被获知状态。对于前者,再收集和利用无需个人同意,但应通知相关主体;对于后者,仍需按照个人数据的内容进行分类识别获取和应用[15]44。

其二,识别数据之上的利益并进行数据确权。如上所述,数据挖掘过程中涉及多种数据表现形态和数据主体,不同数据之上体现了不同的数据利益,区分数据利益并进行相应的赋权是解决现有数据利益分配难题的根本之策,也是数字经济持续发展的保障。学术界对此形成了数据权利说、数据利益说、数据非权益客体说等观点,但在《民法典》《数据安全法》等立法文件中均未见此类规定。2020年7月,深圳市发布《深圳经济特区数据条例(征求意见稿)》,开创性地提出了数据权这一概念,并区分主体设置了个人数据权、公共数据权和数据要素市场主体的数据权,但因对不同数据缺乏属性界定,不同权利重合交织,相关规定与既有法律规定矛盾等问题而备受争议[18]。日前,《深圳经济特区数据条例》通过,删除原稿中第4条“数据权”的提法,代之“数据权益”的称谓。

在数据挖掘过程中,根据数据主体的不同,可区分为个人数据主体、数据挖掘主体和公共数据主体,不同数据主体对应不同数据,分别享有数据人格权益、数据财产权益以及公共利益。在数据挖掘之前的数据收集、存储过程中,数据主要以可识别的个人数据和政府等公共事务组织持有的公共数据为主,收集存储的数据进入挖掘阶段,数据挖掘主体通过清洗、脱敏、算法等数据技术对数据进行深度挖掘,产生具有财产价值的衍生数据。个人数据又可称为个人信息,因具有可识别性特征被视作个人数据主体的组成部分,是自然人参与社会交往互动的载体,也是个体人格表现和发展的工具[19]。个人数据主体享有个人数据之上的人格权益,其以个人信息自决为核心,包括个人数据复制权、异议权、删除权等积极权益以及被侵害后的救济权益,这在我国《民法典》的个人信息保护相关章节进行了规定。数据挖掘主体对其付出时间、技术等成本挖掘形成的衍生数据享有财产权益,既可以占有、使用、交易(1)此处的交易为广义的交易,包括转让、商事交易、共享等交换性数据获取行为。并享有相关收益,又可以阻止其他数据处理机构未经其允许擅自获取衍生数据。除个人数据主体和数据挖掘主体外,政府等公共事务组织所掌握的公共数据具有公共价值,公共数据及挖掘后产生的数据之上的利益应归属全体社会成员所有,公共数据的使用权益则应由政府等公共事务组织及其所授权的机构代表社会成员行使。

(三)选择个人、数据挖掘主体、政府合作规制的规制方式并确立规制措施

合作规制是指通过多主体围绕多中心进行多层次的合作治理从而实现规制目标的治理方式,是世界法律规制的重要方式和趋势[20]。数据挖掘的规制是一项系统性工程,并非依靠单个个体可完成,需依赖于数据挖掘生态系统中的各主体进行合作[21]。数据挖掘规制涉及的主体主要包括个人数据主体、数据挖掘主体和政府。

1.赋予个人数据主体事后选择权

数据挖掘主体基于其所具有的信息优势、技术优势形成一定的数据权力,极易对个人数据主体的数据权利产生影响。对此,《民法典》《网络安全法》等法律在知情同意原则基础上赋予了个人数据主体复制查阅、异议更正、删除等数据权益,并对个人隐私数据给予隐私权保护,这些规定有利于保证个人对其数据的自主控制权能,保护个人数据安全和个人隐私不受侵害。

除此之外,应赋予个人是否接受数据挖掘及数据挖掘结果的选择权,这是知情同意原则在数据挖掘中的拓展。数据挖掘作为数据加工的重要环节,使用自动化决策及其他算法技术对个人数据深度挖掘,对个体及个体行为进行深入观察和刻画,形成有针对性的挖掘结果影响个人选择、决策等个人自治能力,基于数据挖掘的个性化推荐是典型体现。同时,因数据挖掘具有强技术依赖性,受其影响的个体很难参与到数据挖掘的过程中,个人成为数据挖掘结果的被动承担者,甚至为错误的挖掘结果买单,个人被动自治、个人受到数据歧视均可归为此类。挖掘前的知情同意固然能够在一定程度上保护个体权利,但因无法影响挖掘过程和挖掘结果而效果不甚理想。对此,应赋予个人事后选择权,即当数据挖掘结果可能对个体产生重大影响时,权利人可自主决定是否接受数据挖掘结果,并有权对错误的、片面的数据挖掘结果提出质疑、要求更正。欧盟第29 条工作组将重大影响限定为能够对个人的选择、行为或处境产生重大影响或具有重大影响的强潜在可能性,极端的情况下甚至会危害个人权利,如个人权利排除或歧视[22]184。我国《电子商务法》中数据平台向用户提供个性化推荐服务时应同时提供无个性化推荐选项的相关规定从侧面肯定了事后选择权。事后选择权是个人数据主体参与影响数据挖掘结果的体现,其实现有赖于数据挖掘主体所提供的保障,将在下文中详细阐述。

2.明确数据挖掘主体的保护义务

其一,采用数据脱敏及匿名化技术保护个人数据安全和隐私。数据脱敏是大数据安全及隐私保护的关键技术,其通过数据变形处理敏感数据,降低数据敏感程度,减少敏感数据暴露的可能和泄露的风险,以实现敏感数据的保护。数据脱敏针对不同场景、不同数据处理目的以及不同数据敏感程度,采取有差异的脱敏规则和算法,对数据给予不同程度的脱敏处理,实现数据安全、私密与数据可用性的统一。常用的脱敏算法包括数据加密、数据掩码、数据替换以及数据模糊[23]。此外,为实现更高程度的脱敏保护,满足高敏感度数据保护的需求,匿名化应运而生,成为保障个人数据安全和隐私保护的重要方式之一。个人数据匿名化又称为个人数据去身份化,该技术已为世界主要数据体所普遍应用。欧盟GDPR将匿名化界定为通过某种方式对个人数据处理后,没有额外数据则不能识别数据主体的数据处理方式[24]。我国《网络安全法》第42条采取“经过处理无法识别特定个人且不能复原”的规定侧面体现了匿名化这一理念(2)我国多项个人信息规范性文件中存在匿名化的相关规定:2014年发布的《中国互联网定向广告用户信息保护去身份化指引》将匿名化界定为“通过对某项信息或信息的集合(例如数据集)进行变更,以达到去除或模糊个人身份关联信息目的的过程,从而实现信息转移或公开时的保密和隐私目的”。2020年3月发布、2020年10月生效的GB/T 35273-2020《信息安全技术 个人信息安全规范》将匿名化规定为“通过对个人信息的技术处理,使得个人信息主体无法被识别或者关联,且处理后的信息不能被复原的过程”,并认为经匿名化处理后所得的信息不属于个人信息。日前发布的《网络安全标准实践指南——移动互联网应用程序(App)收集使用个人信息自评估指南》评估点五中规定向他人提供个人信息前须征得用户同意,经匿名化处理的除外。。匿名化的目的是通过技术手段将个人数据中的人格要素剥离,降低数据流通中的隐私风险,发挥数据的使用价值。

在数据挖掘的过程中,个人数据匿名化属于数据预处理阶段,是数据挖掘主体应采取的重要技术。个人数据匿名化的重点包括:第一,结合个人数据分类确立匿名化的标准。根据上文对个人数据的划分,关联性个人数据是匿名化的重点,直接关联性个人数据含有识别个体的直接标识符,如姓名、身份证号码、家庭住址等,属于个人隐私数据或与个人密切相关的数据,需将直接标识符去除或改变方可实现此类数据的匿名化。非直接关联性个人数据中包含的间接标识符可识别性相对较弱,无法直接关联到个体,但具有潜在识别性和关联识别性。伴随网络服务范围的不断扩展,网络行为骤增,购物潜能、出行喜好等新型间接标识符层出不穷,是数据价值开发的重要元素。基于此,针对非直接关联性个人数据中的间接标识符的处理不可一概而论,应结合具体的使用场景和隐私风险评估决定[25]。第二,个人数据匿名化必须高度重视再识别技术的规制。匿名化的个人数据在实践中屡次被再识别,引发专家学者的质疑,美国学者Paul Ohm 认为,匿名化这一技术手段在个人隐私保护中的作用甚微,其无法阻止恶意入侵和再识别,并指出匿名化这一理念已走向灭亡[11]1732。然而,匿名化追求的是风险最小化,而非绝对无风险。匿名化和再识别两项技术在发展中相互博弈,我们不能因此直接否认匿名化的作用,而是应对再识别进行限制。需从法律层面要求数据挖掘主体承诺不再重新进行个人数据的识别,且在向第三方提供数据时以协议等形式要求第三方不得再识别匿名化的个人数据。这在《中国互联网定向广告用户信息保护行业框架标准》中有所体现,但因标准效力不足,禁止再识别并未引起业界的重视。美国法对此做了详细规定,将数据处理机构承诺不进行数据再识别并通过协议禁止其下游接收方再识别作为匿名化的标准之一。我国相关立法应对此进行吸纳,并设置相应的处罚措施[26]。同时,从技术层面对数据挖掘过程中的安全和隐私风险进行持续监测,将安全和隐私风险监测镶嵌到数据挖掘过程中,做到实时持续监控识别风险。

其二,防止数据挖掘行为影响其他个人权益和社会公共秩序。通过对数据挖掘正当性困境的分析发现,除个人数据安全和隐私侵害外,数据挖掘易产生数据歧视、个人自治难题等,对个人权益及社会治理造成不利影响,究其根源是数据挖掘所依赖的算法的黑箱性所致。外部个体很难获知算法运行的过程,从而成为数据挖掘结果的被动承担者。对此,应明确数据挖掘主体对挖掘算法的评估义务以及对挖掘结果的解释义务,并为个人数据主体提供应对数据挖掘结果的选择、异议及更正的渠道。

首先,数据挖掘主体应在挖掘开始前对挖掘所依托的算法进行审查和评估,对其中可能存在危害个人权益及公共秩序的设计进行整改,即数据挖掘所依托的算法必须符合社会伦理准则[22]186。其既包括对算法所使用的数据准确性的审查,防止因基础数据错误而导致的算法偏差,又包括排除数据挖掘主体主观因素干预算法设计运转。此外,数据挖掘主体还应进行算法影响评估,通过落实审查和评估义务,数据挖掘主体能够在事前对挖掘所依赖的算法进行全面掌握和排查,降低算法设计层面的侵害可能。其次,数据挖掘对数据的加工是一个持续且未知的过程,这加剧了数据挖掘主体和受影响的个体之间的信息不对称以及力量失衡的状况,对数据行业长期健康发展极为不利。解决这一问题的关键便是使受挖掘结果影响的个体能够参与到数据挖掘中并有权反向影响挖掘结果,除上文提到的赋予个人数据主体事后选择权外,为数据挖掘主体配置相应的义务必不可少。选择权的前提是知情,这要求数据挖掘主体对影响个体权利和公共利益的结果作出解释并通知相应主体,解释内容并非挖掘使用的源代码、依托的算法模型及体现的运算逻辑,而应指影响挖掘结果的输入变量及变量影响权重。此外,数据挖掘主体还需明示对数据挖掘结果进行异议及更正的方式和渠道。如征信机构需解释影响个人信用的因素(信用历史、当前负债等),并提供异议和修复信用的方式和渠道。

3.落实政府的数据推进和监管职责

政府在数据挖掘规制中具有双重身份,其既是政府数据的管理者,肩负推进政府数据挖掘利用的职责,同时,作为监管方又需要承担数据挖掘监管责任。

政府部门掌握的政府数据是政府部门在履行行政职能、进行社会事务管理的过程中收集并积累的数据,其属于公共物品和社会公共资源。近年来,我国政府高度重视政府数据开放共享,出台相关法律和政策文件鼓励支持政府数据的利用,不断推出数据开放平台,并取得了较大成效。但现阶段我国政府数据的开放利用水平仍处于初级阶段,存在不同政府部门间数据割裂,部门关于数据利用的职能交叉、模糊,数据利用率低等问题。政府应着力解决现有数据开放中存在的问题,制定相应的法律法规及指导性文件,在保证国家秘密、商业秘密和个人隐私不受侵害的前提下,设置政府数据挖掘使用的脱敏规则、风险防控体系及数据溯源体系等,并可与数据挖掘主体合作,推进政府数据挖掘进程,促进政府数据价值发掘[27]。

此外,政府应承担数据挖掘监管职责。对于数据挖掘行为,一方面,政府应发挥引导规范作用,通过行政规章、办法、指南等规范数据挖掘行为,其既包括标准性规范引导数据挖掘行为,如GB/T 35273-2020《信息安全技术 个人信息安全规范》对匿名化的要求,又包括针对不法或不合理的数据挖掘行为的限制性规定,表现为不得、不能、不准等类型的规定。未来,有必要在现有标准基础上出台涵盖数据挖掘全周期的标准规范,并上升到立法层面。具体包括挖掘前的数据收集、分类标准,挖掘过程中的数据脱敏标准,挖掘结果的输出转化及交易等应用标准,以及整个挖掘过程中隐私保护和数据安全标准等。此外,政府应承担数据挖掘市场监管责任,对非法挖掘、数据寡头等危害市场秩序的行为进行干预,既可采用行政约谈、行政处罚等方式惩罚非法挖掘等行为,又可以通过技术支持和税收引导适当倾斜新技术企业或中小企业,防止数据垄断。此外,对于恶意损害个人权益、危害社会公共利益的数据挖掘主体,政府可给予吊销营业执照、取消市场准入资格等严厉的处罚。

四、结 语

数据挖掘作为数据价值实现的基本技术手段本身是中立的,但技术发展所带来的利益和问题使其具有了正当性探讨的必要和法律规制的需求。新技术的法律规制必须处理好技术发展和法律规则的关系,技术的进步和法律的规制不是零和博弈,抛开法律一味地发展技术必将引发社会危机,完全依靠法律解决技术问题亦不可行。应立足我国数据发展实践,实现技术信仰和法律信仰的平衡,鼓励数据挖掘技术应用,推进数据挖掘与个人数据保护的统一,做到数据价值开发与数据利益分配的协调,创新技术手段和法律规则的设计来实现二者的互动,通过个人数据主体、数据挖掘主体及政府的合作规制实现我国数据治理战略目标。数据挖掘所产生的规制需求归根结底是技术性问题向社会问题、法律问题的拓展,技术的进步先于法律,但又需与法律相统一,方可实现二者的良性互动。

猜你喜欢

规制数据挖掘主体
强化述职评议 落实主体责任
网约车平台责任条款的识别方法——基于解释进路的正当规制
改进支持向量机在特征数据挖掘中的智能应用
论碳审计主体
控制股东滥用权利规制的司法观察及漏洞填补
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
何谓“主体间性”
略论意象间的主体构架
完善地方政府行政作为法律规制的思考