大数据时代下个人信息面临的新风险与制度应对

2019-02-21王德夫

西安交通大学学报（社会科学版） 2019年6期

王德夫

(武汉大学法学院,湖北武汉430072)

早在1984年,美国学者阿尔温·托夫勒(Alvin Toffler)就在其所著的《第三次浪潮》中第一次提到“大数据(Big Data)”这一理念[1]6-7。时至今日,“大数据”仍是一个众说纷纭的“影子”:它似乎无处不在,既可以被应用于判断国计民生层面的“大事件”,又被用来预测或评判人们生活中最为细枝末节的“小角落”;然而它又显得如此模糊,既缺乏精确的定义或描述,大数据本身更随着信息技术进步而不断发展变化。

在这一背景之下,“数据”在现代社会发展中的重要性得以极大地凸显,甚至被视作战略性资源。而在具体操作流程中,数据信息的搜集、处理、分析和应用将会带来极大的利益增幅和分配变动,也不可避免地会与传统制度,尤其是与个人信息保护或隐私权保护制度产生冲突。为了应对“大数据”所引发的变革与挑战,我国在“十三五”规划中明确提出“国家大数据战略”,并于2015年9月由中央政府发布《促进大数据发展行动纲要》,明确指出要“研究推动网上个人信息保护立法工作,界定个人信息采集应用的范围和方式,明确相关主体的权利、责任和义务,加强对数据滥用、侵犯个人隐私等行为的管理和惩戒”(1)详见《促进大数据发展行动纲要》第四章第二节“加快法制法规建设”部分。。由此,大数据环境下的个人信息保护问题愈发凸显。

一、大数据中的个人信息以及新风险

(一)大数据语境下的个人信息

目前,我国对个人信息保护的立法比较碎片化,相关规定零星分布在公法和私法的不同门类,包括但不限于《全国人大常委会关于加强网络信息保护的决定》《民法总则》《网络安全法》《侵权责任法》《消费者权益保护法》《居民身份证法》等法律,《征信业管理条例》《社会救助暂行办法》等行政法规以及《电信和互联网用户个人信息保护规定》《网络预约出租汽车经营服务管理暂行办法》等部门规章之中[2]。综合而言,我国对“个人信息”的界定可以归纳为“能够单独或者与其他信息结合识别自然人个人身份的各种信息”(2)这一定义取自《中华人民共和国民法典(草案)》中的人格权编。该定义与散见于我国多部法律、法规中对“个人信息”的表述相一致,主要体现出我国立法中对能否直接或者间接“识别自然人”的关注。。从信息内容角度考察,这一定义所描述的“信息”实际包含了两种类别:一是可以单独识别个人的信息;二是必须和其他信息相配合才能识别出个人的信息。对于前者,可以认定为个人隐私与个人信息的重叠,直接指向“个人”的私人身份、私人空间以及私人活动,是隐私信息的核心范畴。对于此类信息,法律保护其私密性,限制他人未经明示授权的获取和使用,是现代法制的应有之义。但对于后者的态度,则面临着大数据时代的冲击:法制“既要注重发挥个人信息的经济效用,也要注重保护信息主体的个人信息权利,不能因为过度保护个人信息等权利而限制了数据产业发展,也不能为发展数据产业而不考虑个人信息等权利的保护”[3]。

正如我国修订中的《民法典人格权编(草案)》中将“隐私信息”与“个人信息”并列规定的那样,虽然它们彼此之间有着密切关联,但也有着不同内涵与基本范畴。从权利的角度看,隐私信息与个人信息相关的权利主体均是自然人,都体现了个人对其私人生活的自主决定。而且隐私信息与个人信息作为权利的客体,存在着客观上的交叉性[4]。这种交叉性,也为立法和法学研究活动带来障碍:权利客体之间的混淆、权利本身内容的混淆和立法模式的犹疑(3)代表性的立法模式有欧盟地区的统一立法模式和美国的分散立法模式,不同地区基于各自的考虑,在制度目标方面也存在着侧重于保障人格权利益或者保障经济利益的差异。。对于如何理解这种“交叉性”,可以有这样的判断:广泛意义上的个人信息里面包含全部的隐私信息,或者说,个人信息是由隐私信息和“除却隐私信息外,其他的与个人相关联的信息”所组成的。这种判断是基于隐私信息作为“具有私密性的私人空间、私人活动和私人信息”(4)参见《民法典人格权编(草案)》第八百一十一条相关规定。必然包含在“以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息”(5)参见《民法典人格权编(草案)》第八百一十三条相关规定。之中这一理性推导的结果。同时,它也是一种逻辑层面上对二者关系的简化:借用数学中“集合”的概念,隐私信息是个人信息的一个“真子集”(6)子集是一个数学概念:如果集合A的任意一个元素都是集合B的元素,那么集合A称为集合B的子集;如果集合A是B的子集,且A≠B,即B中至少有一个元素不属于A,那么A就是B的真子集。借用此概念,可以更清晰地表达这样一个事实:所有的“隐私信息”都是“个人信息”,但“个人信息”并不都是“隐私信息”,当中还包含其他信息内容。。这种逻辑简化,可以为相关立法和司法活动带来价值判断方面的便捷——直接与私人生活相关的信息被认定为是隐私信息,它直接与人格尊严相关,法律应当强烈排斥他人未经许可的获取和利用活动,更强调保密;而集合中的其他部分,那些不能直接与私人生活相关联的信息,虽然也在一定程度上体现当事人的人格尊严,但它们更多地与个人对自身相关信息的自决或者控制有关,法律更强调知情/同意。隐私信息与个人信息之间的这种界分,可以在一定程度上弥补它们之间的交叉性带来的问题,但是席卷而来的信息化浪潮和突飞猛进的大数据技术,带来了新的变化:虽然隐私信息仍然被包含于个人信息中,隐私的本质也仍然是“私人生活”,但是可以触及“私人生活”信息的路径却变得多样化了。这种多样化意味着可以导致“侵犯隐私”后果的行为对象(7)即被他人所获取、泄露的信息内容。不再是唯一和确定的。此时,从造成“隐私被侵犯”这一后果回溯,个人信息当中与人格尊严甚至人身安全直接相关、最应当保密信息的“种类名单”变得不再清晰。

这种新现象,是大数据技术以及相关应用自身的客观属性的外在表现,是现代信息社会发展所带来的“副产品”,对个人实现对自身相关信息的支配带来了挑战,甚至会导致对人格尊严乃至人身安全的不利影响:多种多样的具有间接识别功能的个人信息甚至一般观察中无法识别出个人身份的信息,在大数据系统海量的数据搜集和多元化的分析路径下,可以轻松还原出隐私信息。而在某些特殊情形下,相关信息的公开或披露所产生的负面影响可能超出信息主体的意料,也超出传统意义上隐私信息的泄露(8)如某人通过社交网络公开其曾经的部分言行(酗酒、极端言论或其他不至于触犯法律的行为),可能会为其多年后从事某些职业(教师或飞行员等)带来障碍。相比于求职失利造成的经济损失或其他负面影响,相关个人人格利益的损失可能是微不足道的(甚至可能并无损失,如处于炫耀目的公开)。在大数据技术广泛应用之前,这样的事例是极端且少见的,而在大数据面前,“个人信息”的种类与数量将空前地扩张,并会在具体的应用中,被快捷、准确地转化为决策。。从这个角度看,个人信息的范畴也被扩大了,它所覆盖的范围将包括一切被电子化记录下的个人行为。这些被电子化记录的个人行为,可能包含个人不愿意为他人知晓的狭义上的隐私信息或者广义上的电子信息,可能包含个人主动公开的与自己有关的信息,也可能包含个人在不知晓的情形下被记录下的一些来源于人的活动,以及与个人身份联系不是那么紧密的事件或者行为。理论上,大数据系统对多种多样的信息(包括但不限于立法层面上的个人信息)的组合或分析即有可能产生侵犯个人信息安全,甚至侵犯个人隐私的后果。

(二)大数据技术并不刻意区分或者追求个人信息

从大数据技术原理看,虽然也会受到应用领域或者行业特性的影响,导致大数据相关系统在搜集数据信息时体现出方向性或者偏好,但平等、无差别地获取尽可能多(种类、数量)的数据信息,是大数据的本质特征,也是其使用价值的独特渊源。大数据信息价值的扁平化是大数据追求完整数据信息的产物,体现的是对数据信息内容的不敏感以及对数据类型完整性的追求(9)从技术角度,这也是“大数据”作为新兴产物,与早已问世数十年的“数据库”的本质区别。这是一种技术理念上的差异,并不机械地限定于数据规模的“大”与“小”,或者应用环节的市场规模。。此时,大数据语境下的“数据信息”有十分具体的指向,即数字化的客观事实,并由其构成了大数据信息集合实现多元化应用的物质基础。在这一物质基础之上,方才承载数据清洗、数据脱敏以及衍生数据之类的行为和数据产品或者服务。

数字化的客观事实所包含的内容十分广泛,与个人有关的信息也毫无意外地被收入其中。而在这当中,个人的活动乃至一言一行都有可能成为大数据系统中数据信息的一部分,而无论其是否属于现行立法中的个人信息乃至隐私信息。因此,隐私信息或者其他与个人相关的信息(包括但不限于个人信息)在大数据中的地位和所发挥的作用与其他的、与个人行为或身份无关的信息并无本质上的差别——它们都是最基本的数据信息单元,视不同使用者和使用(数据挖掘)方式发挥作用,并且产生不同效果。

此时,相关经营者实施传统意义上的侵犯个人隐私或者侵犯个人信息行为不再具有经济上的合理性。一般而言,除了少数满足自身病态心理需求的因素之外,相关行为人甘愿冒着法律风险实施侵犯个人信息或者个人隐私行为的目的在于获取经济利益——更精准地推销产品或者服务。因此,虽然有着各类法律、法规对相关侵犯行为加以约束,但在利益驱使下,此类违法甚至犯罪行为往往难以杜绝。但是,在真正的大数据环境下,掌握大数据的主体对大数据中所包含的数据信息进行排列、整合或分析,相关使用者可以较为准确地获得他人的隐私信息,而不直接地违反法律规定,甚至不为相关对象所知悉。并且同样可以从中获取到精准指向个人的敏感信息,并以此获取经济利益。

这种全方面的信息搜集行为具有高度的细致性、长期性和隐蔽性:它每时每刻地发生于社会个体的公共活动中,无论人们主动或被动地接入信息网络;它可能与传统的信息搜集行为相类似,受到知情/同意规则的约束,也可能仅仅体现为现代社会信息化的某一方面,在自动化、便利化甚至公共管理/服务的掩盖下记录人们的行为;它所指向的信息内容也可能在表面上与个人身份毫无关联,仅仅体现一些统计方面的意义。但是一旦足够数量的多元化的信息被集合起来,在现代信息系统乃至人工智能系统的帮助下,将产生信息价值的“质变”。

因此,无论从物质基础还是价值获得的角度衡量,真正意义上的大数据并不刻意地区分或者追求个人信息。而此时,各种与个人相关或者无关的信息经由大数据技术应用广泛地参与到市场经济活动中,在展现出越来越强的经济性色彩的同时,也为现有的个人信息保护制度提出难题——与个人有关的信息范围不断扩大,而在大数据环境下真正可以获得法律保护的隐私信息却越来越少。

(三)“勾画一切”的新风险

《科学》(Science)杂志曾经出版的专刊中,大数据被定义为“代表着人类认知过程的进步”[5]。这种技术进步所展现的是一种特殊的信息处理模式,并伴随着显著的社会、经济价值:使用者可以通过大数据系统对种类繁多、数量庞大的数据信息进行排列或关联,实现预测与判断的功能,并由此展现出有别于传统数据分析的独特价值——它从纷繁的数据信息中归纳、抽象出潜在的规律或结果,且随着应用内容的变化而创造出迥异的使用价值。这种价值的实现,依赖于大数据系统在有限的软、硬件资源条件下,获取相关对象尽可能多种类、多方面的数据信息,通过灵活、多样化的数据分析方式,“猜测”或“勾画”出数据信息背后的真实,并从中挖掘出相比于传统信息产业而言具有突出进步意义的商业价值或社会价值。从这个意义上看,“勾画一切”是大数据系统的天然基因:“勾画”源于预测,而“一切”则源于对数据信息灵活多样的应用(或称“挖掘”)方式。因此,“勾画一切”本身并无负面的价值色彩,它是大数据技术以及相关应用进步性的内在体现,而其可能带来的风险,则产生于技术进步对于社会关系的影响和改变。大数据已经在客观上展现出了不容抹杀的进步性,其可能引发的风险和挑战,则需要法律制度的调整和完善予以应对。

(四)新风险与数据画像的关联

2018年5月,《一般数据保护条例》(General Data Protection Regulation,GDPR)正式在欧盟地区生效,并因其扩大化的适用范围,也对欧盟以外的国家、区域产生影响。GDPR的正式生效,意味着欧盟范围内个人信息保护立法的完备程度和保护水平达到新高度。尤其在欧盟地区一贯地对个人信息利用持保守态度以及欧盟地区并无具备全球性影响力的互联网企业的现实背景下,该条例的颁布实施,往往被解读为对个人信息利用的进一步限制和对欧盟域外互联网巨头的限制。而GDPR与欧盟地区1995年颁布实施的《保护个人享有的与个人数据处理有关的权利以及个人数据自由流动的指令》(on the protection of individuals with regard to the processing of personal data and on the free movement of such data,95/46/EC)相比,一处明显的改动(或者说“新增”)在于,其第4条第4款规定了“数据画像”:“任何(部分或全部)使用自动化方式处理个人信息的活动,以评估与自然人相关的个人方面的属性,特别是对自然人在工作、经济、健康、个人偏好、兴趣、可靠程度、行为、位置或行动方面的分析或预测”[6]37。而我国2018年5月颁布实施的推荐性国家标准中同样出现了“用户画像(user profiling)”的表述,并将其描述为:通过收集、汇聚、分析个人信息,对某特定自然人个人特征,如其职业、经济、健康、教育、个人喜好、信用、行为等方面做出分析或预测,形成其个人特征模型的过程(10)参见中华人民共和国《信息安全技术个人信息安全规范》(GB/T 35273—2017),第3.7条。《个人信息安全规范》为推荐性国家标准,属于国家鼓励采用的标准,并不具有强制执行效力,监管部门不能直接援引该文件作为直接的执法依据。。

从字面表述所传达的内容而言,“勾画一切”与GDPR中的“数据画像”或者我国标准中的“用户画像”均有相似之处。从数据处理行为角度而言,它们都属于试图从非敏感性、无序的信息中推测、组织出针对于具体个人的完整信息的过程;从数据处理行为结果角度而言,它们都会“挖掘”出具体个人不愿意为他人所知,或者并没有主动上传至开放网络的信息。但是GDPR对“数据画像”的限制,更多地体现在要求数据控制者也应当采取适当措施保障数据主体的权利、自由与正当利益,以及数据主体对数据控制者进行人工干涉,以便表达其观点和对用户画像进行异议的基本权利,或者强调对后台算法的公开,以保证自动化数据处理、决策系统不会基于“数据画像”的结论形成对网络用户的区别对待,带有更强的反“算法歧视”的意味。而我国标准对“用户画像”的规定除了定义相关概念之外,也没有超出GDPR中限制自动决策的范畴,再加上该标准本身作为推荐性标准在强制力方面的天然弱势,更难以面对复杂形态的个人信息滥用风险。相比而言,“勾画一切”所指向的风险形态或者受威胁的合法利益则要广泛得多,包括但不限于算法歧视方面,可能产生不良影响的领域也不仅限于网络广告投放或者针对不同用户的不同待遇问题。若以可能造成的不良影响的严重程度排序,将囊括下至个人不适、上至侵犯隐私,甚至到带来个人表达风险的程度,更应当引起重视和警惕。

二、大数据中个人信息新风险的本质

(一)个人信息的核心内容受到现代技术冲击

一般观点中,个人信息相关的权利以及更为具体的隐私权是一种消极的民事权利,它保障自然人的私生活免受他人打扰,并在受到侵害时可以通过行使该权利获得救济。因此,相关权利“应以个人生活安宁和私人秘密作为其基本内容”[7]。由此表明个人信息相关权利的主要功能在于对个人私生活提供必要的保障。在大数据技术及相关应用发展成熟前,生活安宁和私人秘密的定义和功能相对明确:前者以公共利益为边界,将私人生活和与之相关的信息隔离于纷繁复杂的社会公共场合之外;后者则多与人身自由或尊严相关,严格限制他人未经许可对相关信息的获取或利用。这一逻辑得以成立的基础在于,传统意义上的个人信息是可以被清晰剥离于其他信息内容之外的。在此情形下,个人生活安宁被破坏或私人秘密被泄露只可能出于两方面原因:个人自身对相关信息处置不当造成个人信息公开或他人对该信息的非法获取。

然而,在大数据背景下,该逻辑基础正面临被动摇的挑战。这是因为,大数据应用模式是一种对数据信息的深度加工,它并不需要刻意关注某些敏感或高价值信息。此时,社会需求会以新的标准来评判信息的性质和内容,而这会与传统意义上个人信息核心内容产生矛盾。

一方面,个人信息的核心功能被淡化。大数据本身追求的是搜集某一对象尽可能全面的信息,但不会对当中某些方面的信息表现出额外的兴趣,所追求的是“尽可能地利用所有的数据,而不再仅仅依靠一小部分数据”[8]29。对于大数据而言,信息的完整性是其实现预测功能的关键,而非某些特定信息的内容。因此,对于大数据的某种具体应用而言,相关对象的信息价值是扁平的:该信息与公共利益相关与否、是否属于私人秘密,并非其所关注的重点。在此语境下,数字化的生活安宁或私人秘密信息与其他数据信息无论在形式上还是内容上都缺乏显著区别。

另一方面,大数据信息“勾画一切”的基本功能,使得个人信息的外部边界日趋模糊。大数据应用过程中,结论与数据之间并非直接的线性关系,而是体现出“迂回”特征,即通过多方信息旁敲侧击地获得想要的结果,或者说,利用其所掌握的一切信息“勾画”出未知信息(即个人信息),而且这种“勾画”的准确性将随着大数据信息规模的扩大以及数据分析能力的提升而获得显著加强。虽然大数据信息应用中“勾画一切”的特殊能力并不是专门为了去刺探他人隐私,然而这种技术上的可能性,就足以使个人信息保护制度受到严峻的挑战:掌握大数据的主体可以在相关对象毫无知觉的情况下(与刺探、窃取等传统侵犯他人隐私的行为相比,“勾画”行为并不具有侵略性或违法性,也更难以被感知)获取其不愿为人所知的秘密;而在缺乏法律规制的情况下,大数据相关系统对数据的使用与挖掘,往往处于一种“黑盒”的状态,更加助长了相关经营者“推导”或“勾画”敏感信息并加以商业化利用的积极性。此时,传统的个人信息在大数据环境下的信息来源不再是唯一的:它往往可以通过其他公开或无关隐私的信息被完整地还原或总结出来,而行为人无须承担侵权风险。大数据的预测功能即体现为大数据所提供的服务,具有客观上的进步意义,但也淡化了传统意义上个人信息的独特性——它不再是人们独一无二的秘密,而只是某种对开放信息利用的结果。

(二)个人信息保留与利用的边界日益模糊

在大数据环境下,可以推演出个人信息的信息种类与数量空前扩张,并会在具体应用中,被快捷、准确地转化为大数据产品或服务。从这个角度看,个人信息的范畴也被扩大了,它所覆盖的范围将包括一切被电子化记录下的个人行为。这些电子化记录的个人行为,可能包含个人不愿意为他人知晓的传统意义上的隐私信息,可能包含个人主动公开的与自己有关的信息,也可能包含个人在不知晓的情形下被记录的行为。各种信息的应用方式具有高度灵活性,可能造成的影响也视不同应用方式而迥异。多种多样的信息组合或分析有可能产生隐私被侵犯的后果,甚至更为严重。

对此,也可以认为,大数据将广泛意义上的个人信息提升到了隐私的高度,并将更广泛的信息与个人相关联。此时,若过于强调对个人信息的保护,则会引发新问题:若排除对一切与个人有关信息的搜集和使用,大数据的应用将受到极大限制,大数据多维度、高度灵活的精准分析所体现出的效率优势将荡然无存,明显有违时代发展潮流和国际竞争趋势。大数据及相关应用作为一种独特的技术架构,天然地追求信息的自由获取和应用,也天然地会侵蚀隐私权的空间,正视二者的矛盾方为解决问题的科学态度。若出于保护个人信息的目的,盲目扩张禁止搜集或使用的信息范围,既无法实现“保护该保护的、共享可以共享的”的良好愿望,也会使法律本身陷入疲于应付的尴尬之中。

因此,虽然从表面上看,法律对个人信息的关注在加强,个人信息保护范围在扩张,但实际上相关权利的行使难度在增加,利益范围也在缩小。如此论断亦符合客观事实:进入互联网乃至于大数据时代后,虽然个人信息的范畴在扩大,但每个社会成员都面临着更严重的个人信息风险,而维权或消除损害的成本与难度也日渐提高。对此,有学者认为,大数据时代的公民个人信息隐私,已从传统隐私权的“私域”中溢出,并向“公域”延伸,成为横跨“公私两域”的复合性权利[9]。事实上,溢出的并不是权利,而是信息本身。不同信息之间边界的模糊化,则意味着信息利用和保留的边界同样模糊不清,带来利益分配上的矛盾,并产生严重的法律风险。

三、个人信息保护由理论风险向现实危险转化

(一)传统个人信息保护的失灵

在大数据语境之外,与个人信息或个人隐私相关的现实纠纷中并不存在理念上的问题:没有人会认为侵犯他人个人信息或隐私行为是合法或者在理论上毫无瑕疵,而风险则产生于现实行为中——互联网等数字技术使得侵权行为发生的难度和维权的成本不成比例。

事实上,以互联网为代表的现代信息技术,早已对传统个人信息保护提出严峻挑战:在网络环境下,个人隐私被获取、传输至网上的风险以及由此带来的维权困境、消除影响的困难,使得个人信息变得更容易被侵犯;而信息安全所面临的风险也有类似之处,信息载体的电子化和网络空间的虚拟化,使得信息安全所面临的侵害手段格外多变,损害结果更为严重。从本质上看,可以将互联网环境下个人信息保护和信息安全所面临的新挑战归纳为“信息载体和处理环节的虚拟化”,大数据技术依托于网络技术而产生,也同样具有这一特性。其所体现出来的,就是使个人信息保护与信息安全面临着全新的、“勾画一切”的风险与挑战。

这也意味着,与个人信息密切相关的隐私权作为一种“自然人享有的对其个人的、与公共利益无关的个人信息、私人活动和私有领域进行支配的一种人格权”[10]211,已经和大数据时代产生天然的不适应。或者说,大数据本身即代表对更大规模的数据信息、更丰富的信息种类的渴望,这与隐私保护制度所体现的对特定信息的独占(或者说,隐私权的发展体现为权利人可以将尽可能多的信息划入隐私信息的范畴而拒绝被大数据所使用)之间存在根本性对立。法律的态度将决定二者的边界,而这也是当今社会在信息利用方面迫切需要解决的问题。大数据及其应用作为现代信息技术的代表和重要发展趋势,其所蕴含的进步意义以及展现出来的应用前景具有显著客观性。因此,需要法律信息利用及个人信息保护的相关制度做出必要调整,以顺应大数据以及全社会发展的需要。

(二)个人表达自由受到不合理的限制

“勾画一切”体现为对个人的多方面描绘时,也会对人的行为产生深刻影响,甚至限制人的表达自由。当人类社会被互联网所广泛覆盖时,人们在网络空间上的表达就成为广泛意义上表达自由的最重要方面,并且享受着其所带来的利益。从技术原理上讲,这种自由是以人们的网络身份与现实自然人身份一定程度上的脱离为基础的。虽然互联网空间从来不是法外之地,但事实上,现代社会中人们所享有的在网络空间的表达自由相比于互联网普及之前而言要丰厚得多。但是,大数据技术以及相关应用的产生与发展,已经在相当大程度上颠覆了这一传统认识。

这是因为,大数据信息以及相关应用的基础对象是数据信息——“数字化的客观事实”,而在这当中,人的行为也属于客观事实的一种,并且不会因为客观事实中包含人的行为,使得其被数字化后具有任何特殊之处。换言之,在价值取向偏中立的大数据信息面前,无论相关信息中是否包含人的因素,一般情况下都不会引起大数据相关应用的特殊倾向或刻意回避。此时,人的表达行为在大数据环境下具有更强的影响力:既包括对社会整体的影响力,也包括对其自身生活的影响力(11)譬如说,某人的言行可能会对自身之外更广泛的人产生影响,影响的方式和内容也趋于不确定,与此同时,也可能会对他自己的生活产生当初意料不到的影响(如某些久远的言论会使其多年以后无法进入政治敏感的行业等)。反过来,这种影响力也会改变此人之后的言行。这种影响表现为“个人行为—影响—调整个人行为”的模式,不仅作用于具体的个人,也会对社会整体的行为乃至于气氛产生带来巨大的改变,值得引起重视。。更严重的情况是,这种不利影响甚至可能会对整个社会的表达自由带来严重的限制(12)这种限制不是来源于某些“恶法”的直接规定,而来源于相关技术不加限制发展所带来的客观环境变化。相比于“恶法”,后者更为隐蔽、自然,所造成的不利影响也更为深远且难以消除。。

现实中,除了未获授权地获取他人保密信息的行为,个人信息泄露往往或多或少地与相关主体未能妥善保护信息有关,如错误地将信息上传于互联网、随意处置载有信息的媒介等。然而,在大数据环境中,这种因个人过失或者自主安排个人生活而产生的信息披露还会被转化为一种表达的风险。它不以权利人的主观态度或行为的合理与否为要件,只依赖于数据信息使用者的态度,体现出一种失控于信息原主的趋势。此外,这种风险可能持续的时间也十分漫长,甚至只要相关数据信息仍然存在于大数据应用的存储单元中,这种风险就不会彻底消失。而在数据信息存储成本不断降低的情形下,检索并删除相关信息的成本可能更高,这也使得可能的不利影响愈发深远且难以消除。

这种表达的风险在事实上形成了对每一个人的负担:虽然从道理上讲,人们都要对自己的言行负责,但此时,人们不仅仅需要对可能侵犯他人权利的言行负责,还要对每一个可能被电子化记录下来的言行负责。否则,就可能会对自己的生活带来严重负面影响——因为谁也不知道自己的一个表达在何时会对不确定的人带来怎样的感受,并会对自己产生怎样的反馈。对此,有观点指出以“数字化节制”作为应对手段,即通过教育与宣传使人们尽可能地远离那些向他人透露个人信息的互动[11]164,如尽量谨慎地参与社交网络活动(如发布微博、更新社交网络中的个人状态)以及公开发表言论等。但这种带有反技术进步色彩的手段,只是大数据环境下个人信息保护所面临困境的一个侧面应证:个人信息形式上的权利扩张无法掩盖个人生活日益受到侵犯的事实。而放任的结果则会使每一个人的私生活受到严重且不合理的影响,并迫使人们出于恐惧而约束自己的行为以及表达自由。

四、个人信息保护法律制度的应对与完善

在大数据环境下,个人信息保护所面临的矛盾也十分明显:现有的制度无法应对大数据技术“勾画一切”所带来的挑战,而“一刀切”式的禁止既有可能对大数据技术以及相关应用的发展带来极大阻碍,也会迫使技术发展导向规避法律限制的方向,使相关权利人的利益面临更严重的侵害,也更加难以维权。对此,法律的态度就显得尤为重要,既要为技术的发展保留充足的空间,也为切实维护相关权利、合理分配利益做出清晰指引。

(一)承认大数据信息利用需求的正当性

法律应确认无法直接识别自然人身份的个人信息,以及更广泛的与个人相关的信息,具有合理的经济属性。这既是大数据时代的客观现实,也与个人信息的基本内涵在大数据环境下的转变有关。一般来说,与具体个人相关的诸多信息中,与隐私部分无关的,方会在一定程度上与经济利益产生关联。但在大数据环境下,二者的界限已然模糊不清。隐私信息、个人信息等不同的对象、概念之间本就相互交织,在大数据应用中,他们之间往往相互联系、互为应证并可以通过推导、归纳等诸多方式实现彼此转化。因此,原本相对明晰的界限也不再具有足够的现实意义:如果法律严格保护的秘密信息可以被大数据应用通过合理方式得到,那么对获取这些信息所施加的限制也就没有多少实际价值了。在此情形之下,这些概念在称谓、具体范畴上的差异也显得不再重要。而它们之间这种信息形式(13)主要指电子信息这种无形形式。以及信息内容上的混同,是个人信息保护制度回应大数据时代需求、参与到经济活动中的前提。

对此,可以参考美国联邦最高法院的判断,只要某一信息的取得方式不违法,那么法律就不应限制该信息的传播,即便该信息的披露或传播会造成相关对象尴尬或不适的结果[12]。这样便保障了数据信息使用者合法使用相关信息的利益,确保技术仍然可以获得充足的发展空间和市场回报。与此同时,在缺乏上述前提条件时,也可以据此作出负面的价值判断,确保与个人私生活相关的信息仍然会被隔绝于社会公共活动范围之外。

(二)确认自然人身份与数字身份的边界

能否通过某些信息间接“识别个人”是一个模糊判断。从个人信息保护制度的目的来看,其根本目的在于确保事关个人安全的信息受到法律的严格保护。虽然个人安全仍然是一个相对抽象的概念,但具体到信息领域则会明确得多,这也为相关制度的实施提供了条件。

大数据语境下,与自然人个人安全有关的信息主要是自然人与其“数字身份”相关联的门槛,而这部分信息内容是大数据应用无法推导、分析出来的。这是因为,大数据应用中的分析或推导的原理在于,相比人的社会性行为或信息(如工作、娱乐爱好、教育背景或消费记录等),人在有关身份方面的隐私行为或信息(如姓名、居住地址、外貌特征等)具有较高的随机性或不确定性,彼此之间离散且缺乏必要的逻辑关联,而且此类信息与开放的信息网络之间往往存在着“硬隔离”(14)即表示这些信息无法通过其他的公开信息以某些逻辑或者算法被“推导”出来,而必须以相关自然人自己或者具有公共管理职能的部门所披露。。换言之,大数据应用对与人们数字身份相关联的信息的获取会较少地受到个人信息保护制度的限制,而对于足以实现自然人身份与数字身份相关联信息的获取,则具有较高的侵权风险——相关信息要么来源于个人的授权,要么来源于相关系统非法的搜集行为。正因如此,大数据对于事关自然人身份与其数字身份连结的信息的获取和使用,应当受到法律的严格限制。

(三)法律治理的重心应着重于大数据应用体系的上游

从大数据系统的运营角度来看,可以对其进行上游和下游的界分:“上游”主要指对数据信息进行搜集的阶段;“下游”则与数据信息的交易、应用有关。而大数据应用的基本原理又带来下游行为的高度灵活性和复杂性。对此,法律制度可以予以区别对待:对于纷繁复杂的大数据下游应用,由于其往往与现有的应用领域或行为相结合,因此可以最大限度地利用现有制度——各种专门法对其加以规制;而大数据上游行为内容多集中于对数据信息的搜集和获取,相关行为在目的和手段上的共性也较为明显,更适合于进行专门规定。也就是说,在大数据技术以及相关应用仍处于发展过程的当下,法律制度更应关注数据信息的搜集问题,以便及时保护个人生活的安宁和人格利益,而在下游的应用层面为相关技术保留广泛发展空间。

具体而言,“上游”主要分为两个层次:其一,对保密信息的搜集和获取;其二,对不属于保密信息,但与具体的个人民事权利相关信息的搜集和获取。对于前者而言,违法性十分明显,甚至会构成犯罪。大数据技术以及相关应用的天然需求并不成为免责或支持其合理性的理由,应为法律所严厉禁止。而对于后者,则主要体现为对传统意义上的个人信息或隐私信息获取和利用——在大数据环境下,个人信息的范畴应有所限缩,并向数据信息的经济性偏移。因此,在社会经济或管理层面上,数据信息搜集行为的指导原则也应恪守个人信息或隐私信息保护的基本底线。

对此问题,我国乃至域外立法都在热切关注个人信息或隐私信息保护问题,也有具体制度和实践参考。如美国《消费者信息隐私权法案》对此确立了保护消费者个人信息的数个基本原则,包括个人控制原则、透明度原则、尊重消费者初衷原则等[13]。然而,这些原则都面临类似的问题:实际操作的难度太高。如个人控制原则或者目的限制原则等,虽然从理论上看并无问题,但在大数据应用中,个人对信息的掌控尚且面临着诸多挑战,又如何有能力控制数据信息千变万化的使用方式?对于个人信息的保护,甚至还有信息自决权(information self-determination)的提法,主张使个人对其个人信息每一阶段的用途都拥有控制权,却也不得不承认这样的保护机制难以获得广泛应用[8]172-173。因此,确立切合大数据发展与应用实际的基本原则,是实现灵活保护个人信息、指导相关制度建设的重要内容。

(四)明确大数据环境下的信息搜集行为准则

对于个人信息相关立法的原则性规定,我国乃至于域外其他国家和地区都有丰富的成果和实践经验参考。如世界经济合作与发展组织(Organization for Economic Cooperation and Development,OECD)理事会通过了《OECD个人资料保护指针》,规定对个人相关信息搜集的八个原则:限制收集原则、资料品质原则、目的明确原则、限制利用原则、安全保护原则、公开原则、个人参与原则和责任原则。《欧洲议会个人资料保护公约》确立五个原则:资料品质原则、特定种类原则、资料安全原则、额外保护原则、救济原则。此外,诸如《欧盟个人资料保护指令》、《联合国个人资料保护指南》、美国国家信息基础设施(National Information Infrastructure,NII)发布的《隐私权与NII》报告、《英国个人资料保护法》,乃至我国香港特别行政区的《香港个人资料(隐私)条例》中,都明确设计了诸多保护个人信息(或称个人资料、隐私权)的法律原则[14]197-211。综合这些法律原则,可以为个人相关信息的保护建立起完整框架,但对于大数据技术以及相关应用,仍有进一步完善的空间。这是因为,现有的制度建设主要解决的是信息载体和处理环节的虚拟化所引发的问题,仍然以个人对相关信息搜集行为的知情/同意为基础,也依赖于所规制的信息搜集、利用行为具有相对固定范围这一客观事实。而在大数据环境下,这一事实基础发生了显著变化,大数据信息应用“勾画一切”的能力,使得现有法律架构下原本明显的违法行为变得隐秘且难以被发现。在某种程度上,即便不考虑违法成本,相关主体以“勾画”方式获取个人相关信息甚至比通过侵权手段直接获取个人信息的成本更低、效率更高,所获得信息的质量和数量也更有价值。

在大数据信息应用“勾画一切”和信息自由的导向下,无论是个人信息也好、隐私信息也罢,当中真正能为相关个人所掌握、控制甚至获益的范围都已经越来越小。理念宣示式的权利保护并不能解决问题,新的利益分配机制以及大数据环境下个人信息保护的最低限度当属相关法律制度建设所关注的重点。有鉴于此,其中至少应包含以下两方面内容。

一方面,应确定个人相关信息直接搜集行为的严格必要性,以大数据应用行业为单独范畴,尝试建立信息搜集黑名单制度。在互联网相关产业中,人们时常为了使用某些服务而向相关经营者进行注册并填报特定个人信息(15)此处仅指用户应经营者要求主动的注册和上传信息行为,也就是说,用户对相关信息行为是知情且同意的。至于未经通知或许可即搜集相关个人信息的行为,其不合理性较为明显,故不再讨论。。虽然在形式上,这种“上传”体现了个人对相关行为的知情/同意,但并不意味着这种搜集行为就符合社会公平、秩序的要求。相比个人信息的被动搜集,人们主动提交信息则与个人私生活的联系要密切得多。与之对应地,网络信息与个人身份也更容易被关联起来,造成对个人隐私乃至安全的侵犯。对此,法律应当秉持这样的态度:规定提供服务的组织或个人在要求用户提供相关信息时,不得超出客观上所必要的范围,甚至应当针对不同的行业类型,依照行业惯例、消费者习惯乃至生活常识,建立信息搜集黑名单。超出合理范围的信息搜集行为往往意味着个人信息面临较高的被滥用的风险——无论是出卖于他人或投放广告,都可能对个人生活安宁产生干扰甚至侵害。而用户个人在表示知情/同意时,往往也只是同意相关经营者在有限的时间和范围内使用这些信息,或者说,只将其视作是对享受折扣或其他优惠的对价,而非主动放弃对相关信息的掌握,也无法准确预计相关信息被滥用的可能后果。此时的知情/同意实质上是相关经营者对用户个人的误导,不具有正当性,应当为法律所禁止。而该原则可以被灵活用于不同的大数据应用场合中,能够有效地规范相关信息搜集者的行为,有助于从源头上杜绝个人信息的泄露。

另一方面,法律应对信息搜集行为提出严格的匿名化要求,将“遗忘”的义务由自然人行使被遗忘权转变为经营者承担严格的“匿名义务”。人们对自身个人信息是否公开、公开的方式以及后续可能的应用方式进行控制,具有无可辩驳的合理性。但是,在大数据环境下,个人信息被搜集、使用的数量和方式都空前庞大,相关个人想要实现对信息的控制十分困难。对此,被遗忘权被视作是解决问题的出路:所谓的被遗忘权即是允许当事人删除自己或他人放置到互联网上的关于自己的令人尴尬的照片或者数据信息[15]。虽然表述各有不同,但基本内容却是一致的,即个人应当享有要求他人删除特定相关信息的权利。我国于2005年公开的《个人信息保护法草案(学者建议稿)》除了将“删除”上升为一项权利之外,甚至还明确了“删除”的含义,即“消除已储存的个人信息,使其不能重现”[16]。然而,数据信息应用的方式复杂多变,数据信息本身也往往被用作产品或服务的原材料而被掩盖,知情尚且困难,删除乃至控制更是无从谈起。而且互联网中数字化信息复制、存储和传输的成本极低,信息数量浩如烟海并处于加速增长的状态,个人想要通过删除的方式消除某些影响,还要做到不能重现,实在是强人所难。对此,笔者认为,将查询并通知删除相关隐私信息的负担施加给个人是不合理的,实质上是纵容了相关数据信息的掌握者或使用者。基本控制原则应被调整为匿名原则,并且将保证匿名的责任转移到掌握有相关信息的人身上:他们有义务确保自身掌握的数据信息最多与人们的数字身份相关,而不会与个人的自然人身份产生对应联系,如果要突破这层界限,则需提供明确的授权依据,否则应承担不利的法律后果。

五、结语

大数据技术以及相关应用正以前所未有的深度和广度改变着当今世界的生产、生活面貌,并且仍处于发展变化的过程中,尚未形成稳定的市场格局或者社会关系。在这样的背景下,个人信息面临的新危险成为技术进步所带来的福利与负面影响之间博弈的具体表现。无论时代如何发展,个人安全、生活安宁和人格受到尊重的价值追求都应成为技术进步的动力与目标,但也不意味着技术进步的积极意义应无条件地为之让步。法律制度如何明确二者合理的边界,既取决于社会发展变化的平稳状态,更应以客观、明确和合理的个人信息范畴或人格利益为基础。从更具体的层面而言,这取决于数据信息的来源(个人)、控制者(大数据系统)和使用者(大数据应用者)之间的利益分配。在这一利益分配格局中,大数据“勾画一切”对个人信息保护所带来的风险会影响到每个社会个体的人格利益,具有紧迫性——即便不能设计出完善的规则体系,至少也要从原则的层面构建出必要的框架,方能明确人权保护与技术发展之间的合理关系,为后续的社会变革和制度建设奠定良好基础。