APP下载

大数据的共享-隐私悖论探析

2020-12-04闫坤如

关键词:悖论个人信息主体

闫坤如

(华南理工大学 马克思主义学院,广东 广州 510640)

大数据(Big Data)指的是大量、多种类、复杂或者分散的数据集。大数据的价值主要体现在关联价值上,通过将海量数据进行聚合、加工产生价值。大数据具有非消耗性,数据的价值不会因使用次数的增多而减少,与其他消耗性资源具有独享性不同,大数据具有共享性,可以被不同主体共享。除此之外,大数据具有保真性、非消耗性以及还原性画像等特征,这些特点决定了数据具有可重复利用的价值。在大数据时代,为了发挥大数据资源的价值,提倡数据的共联、共享,但数据共享可能引发大数据共享-隐私悖论的出现。

一、大数据共享-隐私悖论及其表现

大数据共享-隐私悖论(Big Data Sharing Privacy Paradox,简称为“BDSPP”)指的是数据的共享和隐私之间隐含分离和对立因素,数据共享可能侵犯个人隐私,不开放个人数据则数据共享无从谈起,或者数据主体的隐私关注态度与暴露隐私行为共存,甚至共享意识和共享行动背离。开放和共享的数据涉及到隐私,推行数据共享可能侵犯数据主体的隐私;而保护隐私、禁止共享则有悖于数据开放和共享原则,这种数据的共享与隐私保护的背离导致了大数据共享-隐私悖论的产生。

1.社会数据共享与个人隐私悖论

按照大数据专家舍恩伯格(Viktor Mayer-Schonberger)的观点,“大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公众关系的方法”[1]9。大数据在社会发展中发挥越来越重要的作用,它改变着人类的生产方式、生活方式及思维方式。意大利信息学家弗洛里迪(Luciano Floridi)认为:“人类社会对信息与通讯技术以及信息本身越来越依赖,并将它们看成是人类社会繁荣的基础性资源。”[2]52015年,安德鲁 V.爱德华(Andrew V. Edwards)在《数字法则——机器人、大数据和算法如何重塑未来》[3]中指出,大数据改变人类生产、生活、社会交往和思维模式。在大数据时代,我们应该更加关注事物间的相关关系,而非简单揭示事物间的因果关系。

大数据因具有共享性质从而区别于其他的资源,具有自身的独特优势。社会数据主体提倡信息公开、数据共享,但数据开放、共享涉及到对个人隐私的侵犯;如果个人为了维护隐私权,不共享个人数据,社会数据共享则无从谈起,这就是社会数据共享与个人隐私悖论。

2.个人的隐私态度与隐私行为悖论

大数据的共享-隐私悖论除了表现在社会数据共享与个人隐私之间的悖论之外,还表现为个人隐私中的隐私态度与隐私行为悖论。学界最早关注的是社交领域的数据共享-隐私悖论。2006年,美国学者苏珊·博纳斯(Barnes S B)在《美国的社交网络的隐私悖论》[4]中,通过对美国社交网络中用户的隐私态度与隐私行为进行研究发现:人们对隐私的关注往往表现出相互矛盾的心理,即数据主体急切地向他人透漏个人隐私,但当这种信息传播时又担心泄露个人隐私。在此基础上,博纳斯提出隐私悖论,所谓隐私悖论指的是在社交媒体中的隐私态度与实际行为之间的断层。用户声称非常关心自己的隐私,但在保护自己的个人数据隐私方面却很少采取行动。隐私悖论现象引发大量学者的关注。例如,福格尔(J.Fogel)和内玛德(E.Nehmad)在Facebook和Myspace上对大学男女生行为进行对比研究,他们发现尽管Facebook比Myspace提供了更多的隐私设置,但人们仍然愿意通过分享个人资料与他人分享个人联系信息[5]。当人们分享这些信息时,即使知晓在互联网共享信息有风险,但大多数用户愿意去与他人共享个人信息。在社交网络中用户既关注隐私问题,又热衷于分享私密的个人信息,不关注或者忽视隐私的边界,这是数据隐私的第二个表现,即隐私态度与隐私行为的悖论。

3.数据的共享意向与共享行动悖论

数据在共享中主体的意向与共享行动之间是割裂的,这是基于大数据共享-隐私悖论的动态分析。2015年,典霖(Dienlin T)和特莱普特(Trepte S)将隐私意向作为隐私态度到实际隐私行为的一个环节[6],奥策尔(M.C.Oetzel)和贡贾(T.Gonja)把大数据的共享-隐私悖论概括为“人们表达出的隐私顾虑与实际披露行为之间的矛盾”[7]。用户意识到互联网上的隐私风险,但它们倾向于分享私人信息,以换取优惠或者个性化服务,隐私问题导致社交网络的信息受到控制,然而,相反的效果是用户毫不犹豫地提供个人信息。克里斯费德思(Christofides E)等人在探讨隐私感知中发现数据披露与隐私关注度并非严格的负相关[8]。用户意识到隐私问题,但鲜少采取行动避免隐私泄露。这也可以表述为隐私心理与隐私行动的背离。用户声称非常关心自己的隐私,但在保护自己的个人数据隐私方面却很少采取行动,表现为隐私意向与隐私行动之间的割裂。人们对隐私的关注表现出相互矛盾的心理,热衷于向他人透漏个人隐私,但当这种隐私信息传播时又感到困扰。用户态度与实际行动之间的差异也可以称之为隐私悖论。

大数据的共享-隐私悖论表现为支持数据共享的意向与不希望数据共享之间的行动之间的悖论。数据共享带来隐私泄露的风险,这种共享与隐私中的矛盾也是数据的共享-隐私悖论的表现。例如,政府和企业提倡数据共享,但其行动却表现为禁止数据共享。政府主体为了规避信息泄露风险、为了保障公共信息安全不愿意与其他数据主体共享数据。企业数据具有资产性质,可以被不同主体拥有和控制,能够用货币来衡量,能够带来经济价值。企业通过拥有海量数据居于市场支配地位,拥有数据霸权,可以通过授权、买卖数据获取利益,为了企业的竞争优势,他们往往采取措施禁止共享数据。企业不愿意共享自身数据,但为了获取更多的资源,提倡其他数据主体共享数据。既愿意共享其他数据主体数据,又禁止其他数据主体共享自身数据。支持数据共享心理且不希望自身数据被其他人共享的行为共存也是大数据的共享-隐私悖论的表现。

二、大数据共享-隐私悖论溯源

1.隐私界定模糊性

隐私具有文化差异性,其内涵也处于变动中,对其难以严格界定。1890年沃伦(Samuel Warren)和布兰迪斯(Louis Brandeis)撰写了《隐私权》(The Right to Privacy)一书,他们指出,隐私权是人的一项“免收外界干扰的、独处的”[9]权利。从词源意义上来讲,隐私指的是“独处权”。隐私权指的是个人免于干涉或者不受侵害的权利。美国学者阿丽塔·艾伦(Anita L Allen)首先把隐私与信息联系起来了,她提出“隐私就是我们对自己的所有的信息的控制”[10]13。数据隐私包括医疗信息、购买习惯、财产状况、家庭关系等个人信息,数据隐私不是单独一种隐私类型,数据隐私更应该被理解为“硬币的另一面”,数据隐私渗透在其他隐私类型中。例如,身体隐私除了对身体的物理访问,还包括对个人健康数据以及隐私信息的检索。因此,数据隐私是一个渗透性概念,数据隐私具有与身体隐私、知识产权隐私、空间隐私、财产隐私等隐私类型不同的性质,这些隐私具有独立属性,一般具有归某人或者某个机构所有的属性,而数据隐私不具有独立属性。数据隐私是变动不居的,对于数据隐私的界定也在发生改变,史密斯(Smith J)等人在《信息隐私研究:跨学科综述(Information Privacy Research:an Interdisciplinary Review)》中,通过借鉴威斯汀(Westin A F)在2003年发表的《社会与政治维度的隐私》(Social and Political Dimension of Privacy)[11]总结了隐私随着信息技术的演变而变化的过程。第一阶段:1945~1960年,隐私发展的基础阶段,特点是信息技术没有得到充分发展,公众对于政府和企业高度信任,公众对政府和企业的信息收集基本满意;第二阶段:1961~1979年,当代隐私发展的第一阶段,公众认识到了新技术可能带来的潜在的负面影响,将信息隐私提升到了一个社会、政治和立法的层面,提出了信息公平实务(FIP)框架,建立了政府层面的信息管理机制;第三阶段:1980~1989年,当代隐私发展的第二阶段,公众对于计算机和网络系统、数据库特性中的隐私信息持续关注,政府加强信息管理;第四阶段:1990年至今,当代隐私发展的第三阶段,社会对于隐私的关注达到了新的高度[12]。通过史密斯的总结,我们可以看出,随着信息科学的发展,隐私概念的内涵发生着改变,想要区分隐私和非隐私的界限也变得比较困难。我们应该重新审视隐私,“就像图灵革命被理解成人类自我认知的第四次革命一样,隐私同样需要一个彻底的重新解释”[2]116。隐私内涵的模糊性导致数据主体不知道哪些数据应该具有私人属性,哪些数据可以共享,这是导致大数据的共享-隐私悖论的原因之一。

2.隐私内容的变动性

隐私的内容不是一成不变的,而是不断嬗变的。索罗夫(Solove D.J)在《隐私分类》中把隐私作为一个复杂的概念,不能归结为一个单一的本质,索罗夫概括隐私的定义为“处于混乱之中,没有人能清楚地表达它的含义”[13]。学者对于隐私的本质与边界并未完全掌握。2017年,库布斯(Koops B J)等人没有对隐私内涵进行明确界定,而是采用类型学的描述方法,在《隐私类型学》(A Typology of Privacy)一文中,把隐私分为8类,分别是身体隐私(Bodily Privacy)、空间隐私(Spatial Privacy)、沟通隐私(Communicational Privacy)、财产隐私(Proprietary Privacy)、知识产权隐私(Intellectual Privacy)、决策隐私(Decisional privacy)、关联隐私(Associational Privacy)以及行为隐私(Behavioral Privacy)[14]。信息隐私不能作为一种独立的隐私类型。弗洛里迪反对库布斯对于隐私的划分,他把隐私分为4种类型:“身体隐私(physical privacy)、精神隐私(mental privacy)、决策隐私(decisonal privacy)和信息隐私(informational privacy)”[2]103。信息隐私具有独立的存在意义,隐私是免于信息干扰或者被侵犯的自由。随着社交网络的广泛应用,社交网络用户热衷于晒家庭住址、旅游地点、收入以及其他个人的隐私,空间隐私、身体隐私等传统隐私已经不再成为隐私的内容。目前,隐私不再与政治观念、收入、种族、性取向等特定信息紧密关联,而取决于个人是否能够控制了解何种信息。随着隐私内容的改变,人们对于隐私的态度已经发生改变。例如,德巴金(Debatin B)等人通过调研证明 Facebook的使用已经导致人们对隐私的态度更加宽松,即使人们有充分的理由担心隐私受到侵犯[15],随着人们隐私态度的改变,隐私行为也相应发生了改变。不仅仅隐私内容等隐私的客观属性发生着改变,隐私意识、隐私行为、隐私态度等隐私的主观属性也发生改变,人们对于隐私的关注度越来越高,现代技术的发展越来越触发人们对于隐私的关注。

3.数据共享壁垒的存在

大数据具有共享和非消耗性的性质决定大数据应该推行共享与开放,让人们可以平等地访问和使用数据。但数据挖掘、分析技术的复杂性让数据共享难以实现。不管是不公开访问的企业间、政府间的数据共享难以实现,可以公开访问的数据和共享更难以实现,经过授权的数据开放因为涉及到安全性和隐私不能实现。大数据挖掘往往采用聚类分析、关联分析、统计学习等方法,对多种形式的、多种来源的、多维度的海量数据进行分析,从而“模拟过去”和“预测未来”,这个过程可能涉及到个人隐私,但产生数据的人未必能够知晓。大数据挖掘中涉及到的隐私主要有以下几个方面:第一,使用者的个人信息,包括姓名、性别、联系方式、注册地址等个人信息;第二,使用过程中产生的隐私信息,有实例表明,即使是无害的信息,也会暴露个人的隐私,从个人的心情吐槽到文件的处理都可能通过数据处理造成个人信息泄露,而医学方面的数据甚至涉及使用者个人的身体健康信息等;第三,涉及使用者的空间信息,会暴露使用者的行动轨迹。第四,涉及使用者的社会关系网络,如使用者的家庭结构、朋友和社会关系等。大数据获取方法往往通过微博关键词云图应用,通过爬虫软件收集公开数据,通过电商的搜索引擎等公开收集方式,在这几种数据挖掘方式中数据生产者很难感知到,如果通过隐蔽式搜索或者通过破解网站漏洞、通过关联分析、机器学习等技术获取数据,数据生产者更难觉察。大数据的来源成为隐私研究的障碍,大数据往往由具有一定影响力和实力的跨国公司所掌握,对于生产者获得和研究数据是很困难的事情;最后是使用者如何管理个人隐私面临较大困难,比如面对需要输入健康信息的APP程序,如果不输入相关信息,则无法享受相应的服务,而一旦输入信息,则面临隐私泄露的风险。数据管理、数据导入、数据加工、数据选择等步骤,算法、算力、数据是支撑基于机器学习、深度学习的人工智能系统的基础,需要专业的技术挖掘数据,剔除干扰数据和无用数据,对数据进行聚合分析等,这些技术壁垒阻碍了大数据的共享。

三、大数据共享-隐私悖论引发的思考

既要推行数据共享,又要保护数据隐私,首先,区分开公共数据与个人数据之间的界限,区分个人数据与个人敏感数据的边界,保障个人敏感信息的安全性,提倡数据的被遗忘权;其次,保障个人数据权利,提高用户或者数据主体的隐私观念。只有在保障数据安全的情况下,才能有效推进数据开放共享,才能真正地解决大数据的共享-隐私悖论难题。

1.数据的共享—隐私边界界定

开放源数据与个人隐私保护并不矛盾。20世纪90年代兴起于美国的开放源代码运动,主张自由的复制、使用、传播和修改软件,可以获得源代码。开源指的是源码公开、源数据公开、软件、系统或平台架构等的公开。开源可以规避“数据孤岛”现象,随着开源运动的发展,出现了很多数据共享平台。例如,计算机视觉开源社区OpenCV、开源数据集ImageNet、开源智能终端操作系统Android 和其他大量开源工具及平台等。欧盟、我国都通过法律和共享协议的形式对共享边界进行了探讨。例如,2005 年,欧盟委员会提出《数字化单一市场战略》;2004年在英国剑桥成立的非营利性机构开放知识基金会(Open Knowledge Foundation)陆续颁布《开放数据共享署名许可协议》《开放数据库协议》《知识共享许可协议》(Creative Commons License)、《知识共享的豁免》(Creative Commons Zero License)等。2003 年我国科技部发布《关于成立科学数据共享工程领导小组等有关事宜的通知》;2017 年4 月11 日,贵州省首先制定和颁布《贵阳市政府数据共享开放条例》。2018 年10 月,第40 届数据保护与隐私专员国际大会(ICDPPC)通过了由法国国家信息与自由委员会、欧洲数据保护专员和意大利数据保护专员提出的《人工智能伦理与数据保护宣言》(Declaration on Ethics and Data Protection in Artifical Intelligence),该宣言也提出了包括保护隐私原则在内的6项原则,其他5项分别是保护传统的隐私和数据保护领域、维护人权、消除数据歧视、限制某些服务内容。只有在这些规定的范围内,符合数据共享协议,才能真正地推行数据共享。

明确个人信息与个人隐私信息的区分。除了明确数据的共享边界,还要明确个人信息与个人隐私信息的边界。首先,个人隐私的具体范围难以界定,或者说个人隐私是一个动态的过程,随着信息技术的发展,个人隐私也发生了相应的变化;其次,侵犯个人隐私的行为缺乏准确的认定标准,侵犯隐私的行为是多种多样的,同时被侵犯隐私者也面临举证困难的囧境。而且,并非所有的个人数据都是隐私,要注意区分个人数据与个人隐私数据的边界。2018 年,欧盟生效的《通用数据保护条例》(General Data Protection Regulation,简称“GDPR”)提出有些个人信息是敏感数据,一般个人数据与个人敏感数据处理应有差异。欧盟的《通用数据保护条例》指出涉及以下一种或一种以上类别的个人数据视为敏感数据:种族或民族出身;政治观点;宗教/哲学信仰;工会成员身份;涉及健康、性生活或性取向的数据;基因数据;经处理可识别特定个人的生物识别数据[16]。2018年5月1日,我国的《信息安全技术个人信息安全规范》发布,明确规定了“个人敏感信息”的定义,“一旦泄露、非法提供或滥用可能危害人身或者财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的信息”[17]。该《规范》提出个人敏感数据包括:个人财产信息、个人健康生理信息、个人生物识别信息、个人身份信息以及个人电话号码、婚史、宗教信仰、未公开的违法犯罪记录、通讯记录和内容、行踪轨迹、网页浏览记录、住宿信息以及精准定位信息等。这些信息都属于个人敏感信息,不属于共享的内容范畴。该《规范》从个人信息的收集、保存、使用、共享、转让、公开披露等个人信息处理活动进行了详细规定,保障个人信息安全。个人敏感信息属于隐私范畴,个人数据与个人身份紧密相连,一旦隐私泄露可能使得日常生活受到干扰。例如,频繁收到垃圾邮件、骚扰电话,甚至因为信息泄露危及人身安全和财产安全。如果想应用个人敏感数据,必须对这些隐私数据进行“去标识化”(De-Identification)处理,把个人敏感信息删除后才能共享,也就是对于个人信息进行“脱敏”处理。在数据共享、发布时应该关注隐私保护,如对共享的数据进行匿名处理或者人为干扰等,保障数据共享中数据主体的隐私。要想合理合法地对大数据进行共享,必须保障个人隐私信息在储存、挖掘、使用和分析过程中的安全性。

2.明确数据归属和主体权利

大数据所有权属性上存在模糊地带。数据生产者往往与数据拥有者、数据使用者是分离的。上网痕迹、浏览记录、日志文件、注册信息等数据生产者往往不能拥有和使用数据。例如,百度、谷歌拥有搜索数据;阿里巴巴、亚马逊掌握消费数据;腾讯、Facebook掌握社交行为数据;苹果、微软、雅虎等占有产业数据。这些企业拥有海量数据,可以通过对数据生产者产生的数据进行挖掘、采集、分析、聚类等数据处理,让数据创造财富,甚至可以通过与其他企业共享数据带来利润。企业主体通过数据生产者产生的数据创造价值。不明确数据的所有权归属,则可能使得数据共享中侵犯数据生产者的隐私。《通用数据保护条例》明确主体的权利包括数据主体的知情权、数据主体的访问权、更正权利和可携带权利、数据主体的删除权、限制处理权、反对权和自动化个人决策相关权利。数据主体可向数据控制者索要其数据,也可将其个人数据转移至另一个数据控制者。个人所产生的数据包括主动产生的数据和被动留下的数据,其删除权、存储权、使用权、知情权等本属于个人自主的权利,数据的存储、删除、使用、知情等权利应充分赋予数据生产者。数据生产者有权获得正在处理个人的数据的确认,以及访问个人信息。个人有权更正不准确的个人数据,有权要求限制或禁止个人数据被他人使用,有权获取和使用个人数据,以便在不同的服务中实现个人的目的等。数据生产者有权避免数据存留对自身造成伤害。“被遗忘权”(Right to Be Forgotten)也被称为“删除的权利”(The Right to Erasure),是隐私权在互联网时代延伸出来的一种新的权利类型。欧盟将“被遗忘权”定义为“数据主体有权要求数据控制者永久删除有关数据主体的个人数据,有权被互联网所遗忘,除非数据的保留有合法的理由”。《通用数据保护条例》要求公司合法地、透明地和公正地使用公民隐私信息。其中,公民有权利要求公司销毁涉及到数据主体的隐私数据,提倡数据生命周期的隐私保护和隐私数据的可销毁性。

数据生产者权利还表现在共享中的数据主体的“知情同意”权利。根据《个人数据保护法》(Personal Data Protection Act,简称“PDPA”),“同意”是处理个人数据的法律依据之一。数据主体的同意是指,数据主体依照其意愿自由作出的特定的、知情的指示。通过该指示,数据主体表明其同意处理与其相关的个人数据。在没有法律依据的情况下处理个人数据是不被允许的。《通用数据保护条例》也规定,“同意”是数据处理的法律基础。在其第4条第11款将“同意”定义为“数据主体的同意是指,数据主体依照其意愿自由作出的、特定的、知情的、明确的指示;数据主体表明其同意处理与其相关的个人数据”。只有在数据主体“知情同意”的前提下,才能使用、共享、开放个人数据;如果未征得数据生产者主体的同意,擅自运用其文字、图片、视频等则是侵犯隐私行为;擅自对其信息公开或者对其数据进行收集、整理、分析、运用也是不合规范、不被许可的行为。

3.对于数据主体隐私意识的思考

除了上述在明确数据主权归属、保证数据安全性措施之外,数据生产者更要意识到大数据时代隐私泄露的危害。隐私数据的关联性导致即使一个电话号码的泄露,也可能危害个人财产和人身安全。在现代社会,数据生产者为了避免成为数字时代的“透明人”,避免成为社会边缘人,往往热衷于分享个人的隐私信息,作为社交网络用户的个人应该提高保护隐私意识、改变隐私态度、实施隐私保护行为。避免暴露个人基因、指纹、虹膜等个人生物识别信息,避免暴露身份证、军官证、护照、驾驶证、社保卡等个人身份信息;保护好网络身份识别信息等。例如,系统账号、邮箱地址、密码、口令等信息,更要保护好个人电话、行动轨迹、网页浏览记录以及精准定位等个人敏感信息。数据生产者在网络上留下痕迹,享受网络带来的生活服务、社会交往和信息获取的便利,在社交媒体中更要保护好个人信息。除此之外,还要关注网站注册、下载、使用APP中隐私条款,很多情况下网站注册、APP下载、使用对个人信息的获取和使用有不对等的霸权,个人如果不通过授权,很多重要的功能就无法使用。在无形之中,出现了没有觉察或者未经允许被窃取信息并被利用的现象,潜藏隐私泄露的风险。

综上所述,大数据在社会中发挥越来越重要的作用,共享数据资源可以更好地促进人类进步,如果数据主体禁止共享数据,共享将成为空谈,但数据共享也可能侵犯到个人隐私。在数据共享过程中存在着社会数据共享与个人数据隐私之间的悖论关系,个人的隐私态度与隐私行为也不一致,共享意向与共享行动存在割裂现象,这与隐私内涵的界定模糊性、隐私内容的变迁以及数据共享壁垒的存在紧密相关。为了更好地发挥数据资源的作用,我们应该严格划分大数据共享-隐私的界限,禁止共享个人敏感信息,数据共享也应该明确数据主体的权利,避免数据滥用。在不侵犯数据主体权利、获得数据主体授权的情况下,促进数据的共享、自由使用。

猜你喜欢

悖论个人信息主体
强化述职评议 落实主体责任
视神经炎的悖论
个人信息保护进入“法时代”
论碳审计主体
敏感个人信息保护:我国《个人信息保护法》的重要内容
何谓“主体间性”
主题语境九:个人信息(1)
民法典应进一步完善侵害个人信息责任规定
“帽子悖论”
略论意象间的主体构架