大数据环境下个人数据隐私泄露溯源机制设计
2014-06-27王忠,殷建立
王 忠,殷 建 立
一、引言
大数据正在开启一次重大的时代变革,正在改变人们的生活、工作与思维。[1]此变革伊始,个人数据便成为一项重要的资源,为企业产品设计、营销等活动提供战略指导,为政府政策、制度制定提供价值参考,为科研活动提供证据支撑。正是因为个人数据蕴藏的巨大价值日益凸显,致使个人数据收集、处理、交易活动空前活跃,各种创新层出不穷,然而这些活动却将个人数据隐私置于随时泄露的危险境地。近年来,个人数据隐私泄露事件时常爆发,在对个人造成不同类型、程度损害的同时,也动摇着网络乃至整个社会的信用体系。为充分发挥大数据的创新功能,需要前瞻性地研究个人数据隐私保护问题,但目前尽管有关网络个人数据隐私保护的研究较多,却主要基于法律视角,[2]缺乏对大数据环境下的前瞻性研究,且关于溯源机制应用与理论的研究,主要集中于食品安全、[3]水污染、[4]重金属污染[5]等领域。本文从个人数据溯源性及其应用过程出发,提出在个人数据隐私保护领域引入溯源机制,并对其进行具体的机制设计。
二、溯源机制概述
1.基本概念
数据被定义为能够通过设备(如计算机)自动处理、记录的信息,既可以是数字、文字、图像,也可以是计算机代码。①对于个人数据,各国法律层面的定义存在较大分歧,但在内涵上被普遍认为能够辨识特定的行为个体的数据。[6-7]受篇幅所限,本文对此不再细究,主要关注大数据时代具有应用价值的在各类私人活动中产生的电子化数据,包括结构化与非结构化数据,不包括脱离信息物理设施的数据。隐私是一个发展的概念,不同的国家、民族,不同的历史发展阶段,甚至不同的个体,对其都有不同的认识,[8]并非所有的个人数据都是隐私。在大数据背景下,可被关联起来用以锁定某一特定个人,或将之确定在一个极小人群范围之内的与之相关的文字、图片、视频等数据,都被视为隐私。
2.个人数据隐私泄露可溯源性
大数据时代,个人数据具有产品与数据的双重属性。产品属性是指个人数据能被企业、政府等主体使用并满足其特定的需求,既包括未被加工的原始个人数据,也包括被挖掘加工后形成的数据产品;数据属性是个人数据的本来属性,指个人数据作为价值信息的载体,以数据的形式被收集、加工和销售。因此,个人数据的可追溯性具有产品可追溯性及数据可追溯性两层含义。
产品层面的可追溯性表现为对某一产品的运动或路径的追溯能力。1994年,国际标准化组织(ISO)将可追溯性(Traceability)定义为:“通过被记录的标志追溯一个实体的过去、用途与位置等信息的能力”。[9]通过记录个人数据在市场交易活动中的每一次运动及其运动路径信息,追踪个人数据所处的状态及用途,并在个人数据隐私泄露事件发生后,溯源个人数据运动路径,完全具备找出隐私泄露源头的能力。
数据层面的可追溯性有数据起源、数据世系、数据溯源等中文表示,它们意思基本相同,其英文均为“Data Provenance”,本文统一称之为数据溯源。数据由于具有易复制、易扩散等特性,其溯源存在一定的难度,但目前已有不少根据追踪路径重现数据历史状态与演变过程,实现数据历史档案追溯的技术。[10-11]
综上所述,大数据时代个人数据应用发生隐私泄露时具有可追溯性,可以根据个人数据运动产生的数据流信息,在产生个人数据隐私泄露溯源等需要时,重现个人数据的历史演变路径。
3.个人数据隐私泄露溯源机制作用
个人数据隐私泄露事件频发,其主要原因如下:一是数据控制方滥用个人数据,或将隐私信息非法出售以谋利;二是隐私保护投入少,信息安全防护等级低,以致黑客入侵、盗用个人数据;三是企业内部管制松怠,导致员工易于盗取数据。在行为不易被发现、处罚力度小的情况下,或出于非法交易目的,或因为保护措施缺失,数据控制方将个人数据隐私置于极高的泄露风险之下。
针对隐私泄露风险,溯源机制主要作用如下:一是规范行业发展。溯源机制可快速找到隐私泄露源,并对泄露责任方进行严厉惩罚,从制度上迫使各数据控制方提高对个人数据隐私保护的责任意识,有利于从源头上防止隐私泄露事件的发生。二是树立市场信用。溯源机制使个人能够了解其数据的来龙去脉,从而赢得个人对个人数据产业部门的信任,避免大数据可能诱发的信任危机,维护社会信用体系。三是推动技术创新。溯源机制迫使个人数据控制方采取更为妥善的隐私保护措施,对现有技术手段形成倒逼,促进技术革新,有利于充分挖掘个人数据蕴藏的巨大价值。
三、个人数据溯源路径分析
1.个人数据利用的主要环节
个人数据利用的流程如图1所示。由图1可知,个人数据利用主要包括以下几个环节:
(1)收集。收集方可通过网络、移动智能终端、各种监控设备等多种途径收集个人数据。大数据由于可以处理多元非结构化数据,其能够处理的个人数据类型远比网络个人数据的外延广泛。
(2)处理。收集的数据需进行专业处理方可挖掘其潜在价值。这种处理可以分为两种情况:收集者自己进行数据处理,或者将之外包给专业的数据处理机构。
(3)交易。被收集和处理过的数据,如果不作为自用,需要通过交易才能实现其价值。目前,美国、日本已有个人数据交易公司,如美国的Factual公司推出了数据超市,日本的富士通公司建立了数据交易市场“Data plaza”。目前在Data plaza市场上买卖的数据包括购物网站上的购物记录、出租车上安装的传感器获得的交通堵塞记录、智能手机的位置信息、社交网站(SNS)的帖子等,这些个人数据均经过了匿名处理。我国由于法律尚未明确,特别是刑法有“出售、非法提供公民个人信息罪”,个人数据目前主要以黑市交易的形式存在,并且日益猖獗。
图1 大数据环境下个人数据利用流程图
(4)应用。个人数据应用领域广泛,包括生活服务、商业应用、科学研究、公共服务等。个人数据应用环节有两种情况,一种是数据处理方直接应用,另一种是购买数据处理方产品后应用。
2.个人数据利用的利益相关者
利益相关者主要指“任何可以影响组织目标实现或受该目标影响的群体或个人”。[12]个人数据隐私泄露溯源的利益相关者如下:
(1)个人。指生成个人数据的自然人,是个人数据产生的源头,在法律层面上是个人数据的主体与所有者。但大数据时代背景下,由于个人数据蕴含的商业价值突然爆发,个人数据生成后其使用权大多掌握在个人数据利用者手中,个人对其隐私缺乏直接有效的控制与保护,时刻面临隐私泄露的风险。
(2)个人数据收集者。指为特定目的收集个人数据的组织或个体,包括数据收集企业、政府、非政府组织及个体等。数据收集企业主要依托自身的经营业务,通过被动、主动、自动三种方式收集个人数据,[13]如电信运营商、银行、医院、酒店等;政府作为重要的个人数据收集者,除可通过上述三种方式收集个人数据外,还可通过登记、许可、调查、听取意见、座谈、检查等多种方式收集个人数据信息;[14]非政府组织及个体收集个人数据一般不以营利为目的,主要是开展有意义的工作或研究,如为研究而向个人发放调查问卷等。
(3)个人数据处理者。指通过对个人数据进行集成、挖掘与分析而形成的数据库产品、信息系统或服务,既包括直接整理个人数据而形成的初级个人数据产品,也包括经过二次挖掘与开发生成的高级个人数据产品。
(4)个人数据应用者。指应用个人数据产品以实现特定利用目的的企业或机构。企业购买个人数据产品可极大化商业利益,如通过个人数据产品实现精准营销,既可降低营销宣传费用,又可增加产品销售量,而政府或非政府机构、组织等购买个人数据产品,则可更好地提供公共产品和服务。
(5)监督者。指对个人数据隐私保护进行监督的个人或组织,主要包括政府部门、第三方组织、媒体、个人等。政府是个人数据利用最为有效的监督和管理部门,是溯源机制的建立与执行者,在个人数据隐私泄露溯源过程中发挥着至关重要的作用,政府参与是个人数据隐私泄露后进行溯源与惩罚的有力保障。当然,其他监督者也具有十分重要的作用,能够发现并消灭潜在的隐私泄露风险,也能在溯源过程中提供有效帮助。
3.个人数据利用的数据流
根据图1,个人数据应用的数据流可分为以下四种:
(1)收集—处理—应用。
(2)收集—处理—交易—应用。
(3)收集—交易—处理—应用。
(4)收集—交易—处理—交易—应用。
数据流不仅要考虑数据利用环节,还要分析其涉及到的利益相关者。一个利益主体既可能只参与其中的一个环节,也可能参与多个环节,即某主体有可能既是数据的收集者,又是数据的处理者,还是数据的交易者和应用者。
4.溯源路径分析
溯源路径逆数据流而行。根据数据流的情况,溯源路径刚好也有四种,在此不再赘述。在这些溯源路径类型中,第一类涉及的利用环节与利益主体最少,发生隐私泄露事件易于溯源并进行管制,可确定为黑客入侵或内部人泄露;其他类型流经环节与涉及主体相对更多,溯源及管制难度更大,是溯源管理的重点与挑战。一方面,数据流经环节越多,隐私泄露环节越难确定;另一方面,所涉及主体越多,隐私泄露主体越难确定。同样,如果数据收集、数据处理存在外包的情况,也会增加溯源的难度。
四、溯源机制设计
在利用个人数据时,数据从个人流向最终应用者,如图2从左至右的实线箭头;而在进行隐私泄露溯源时,则从最终的数据应用者向个人数据的源头进行搜寻,如图2从右至左的虚线箭头。溯源机制应以图2中的个人数据流为基础,建立溯源技术标准体系、个人数据产品信息登记制度、溯源监管制度和溯源奖惩制度,通过溯源信息流,保证溯源活动顺利进行。
图2 基于利益相关者视角的个人数据隐私泄露溯源机制作用机理
1.溯源技术标准体系
该体系是为了实现个人数据隐私泄露溯源在技术上的可行性。个人数据产品与其他数字化产品一样,具有可复制、易扩散等特征,使其溯源难度较大,但并非不可能。很多知识产权保护技术完全可以应用于个人数据产品溯源标识体系。目前,有多种先进技术用于知识产权保护,如加密技术、认证技术、数字水印、电子签名等,[15]可在这些技术基础上开发一套溯源技术体系,并将之设为行业标准,加以推广和普及。
2.信息登记制度
该制度是为了对个人数据产品的每一次流转进行跟踪,让溯源有迹可循。目前,对个人数据保护较为严格的欧盟具有专门的个人数据登记制度(Notification),登记内容包括数据处理控制人的姓名和地址、数据处理目的、数据主体种类及其描述、数据接收者等。②借鉴欧盟经验,在个人数据产业链中,流转环节应记录、保存、传递、录入相关信息,提交溯源网络系统备案。对于数据采集企业,从个人数据产品收集环节开始就要强制记录信息,并在销售之前登记备案,没有按照规定程序登记备案的产品,禁止销售;对于数据加工企业,没有登记备案的产品,应禁止购买,否则买卖双方同时受罚;对于最终产品使用方,如果没有产业链前端企业的登记信息,应禁止使用。在个人数据产品信息登记基础上,规范个人数据产业链主要参与者提供信息的行为,确保个人数据产品信息登记的真实性、全面性、可靠性,一旦产品信息登记发现问题,首先要及时控制隐私泄露风险,然后再彻查原因,并追究责任。
3.溯源监管制度
溯源监管制度是溯源机制发挥实效的重要保障,包括个人数据利用过程监管与溯源过程监管。可借鉴欧盟经验,设立专门的个人数据保护监管机构。只有个人数据的利益相关者时刻面临监督检测时,才不会作出投机行为,从而确保个人数据产品信息泄露溯源机制发挥长效作用。一是监督企业。对产业链各环节所提供信息的真实性和全面性进行复检,如提供的信息不符合要求,补齐后方可流转;如弄虚作假,没收其产品并追究责任,严重者禁止流转。二是救济受害人。接受各类个人数据隐私泄露事件举报及投诉,及时终止隐私泄露,落实侵权赔偿等。
4.溯源信息奖惩制度
溯源信息奖惩制度旨在强化溯源机制的威慑与强制作用。政府作为重要的监管主体,可利用信誉威胁与奖励等多种手段来激励个人数据产品产业链参与者的溯源行为。针对填报虚假溯源信息造假等行为,在依法追究责任的同时,将之列入“黑名单”,并公开发布、曝光,使之丧失公众信用。同时,借助舆论力量,对提供全面、真实信息的个人数据收集、加工企业等予以表彰,增强其产品信誉度。这样,通过激励与约束并举来规范个人数据利用主体提供信息的行为。
五、结语
大数据环境下,个人数据应用的隐私保护是一个复杂的社会问题,不仅涉及道德、法律、行业、技术等诸多领域,也涉及大量的个人、群体、企业和机构。[16]要通过建立合理的激励机制吸引相关利益主体共同参与,平衡个人数据应用与隐私保护的两难选择,维护社会信用体系在大数据时代的正常运行。本文主要研究了隐私泄露的溯源机制,尚需对个人数据收集、处理、交易等进行全流程的机制设计,使之环环相扣、相得益彰。
*本文系国家自然科学基金资助项目“大数据商业模式、产业链治理及公共政策研究”(项目编号:71302020)、博士后科学基金资助项目“大数据环境下个人数据隐私规制研究”(项目编号:2013M540108)的部分研究成果。
注释:
①根据英国《1984年数据保护法》(Data Protection Act of 1984)的定义。
②参见1995年欧盟的数据保护指令“Directive 95/46/ECof the European Parliament and of the Council of 24 Octo⁃ber 1995 on the protection of individuals with regard tothe pro⁃cessingof personal dataand on thefreemovement of such data”第18条至第21条。
[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社:2013:1-3.
[2]凡菊,姜元春,张结魁.网络隐私问题研究综述[J].情报理论与实践,2008(1):153-157.
[3]、[9]K.M.Karlsen,B.Dreyer.Literature Review:Does a Common Theoretical Framework to Implement Food Traceabili⁃ty Exist?[J].Food Control,2013,32:409-417.
[4]杨海东,等.突发性水污染事件溯源方法研究[J].水科学进展,2014(1):14-20.
[5]王飞,等.华北地区畜禽粪便有机肥中重金属含量及溯源分析[J].农业工程学报,2013,19:202-208.
[6]Gordon Jenny,Wiseman Louise.Guidelines for the Use of Personal Data in System Testing[M].British Standards Institu⁃tion,2003:17-23.
[7]蒋骁,仲秋雁,季绍波.网络隐私的概念、研究进展及趋势[J].情报科学,2010(2):305-310.
[8]姚朝兵.个人信用信息隐私保护的制度构建——欧盟及美国立法对我国的启示[J].情报理论与实践,2013(3):20-24.
[10]C.Goble.Position Statement:Musings on Provenance,Workflow and(Semantic Web)Annotations for Bioinformatics[C].Proc of Workshop on Data Derivation and Provenance,2002:1-5.
[11]明华,张勇,符小辉.数据溯源技术综述[J].小型微型计算机系统,2012(9):1917-1923.
[12]Freeman RE..The Politics of Stakeholder Theory:Some Future Directions[J].Business Ethics Quarterly,1994:409-421.
[13]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[14]汪全胜,王庆武.网络空间个人数据的权利保护[J].情报理论与实践,2004(1):33-36.
[15]刘洪滨,杜玲,姬红利.面向网关版权保护的抗几何攻击视频水印方法[J].计算机应用,2013(12):3531-3535.
[16]袁文秀,余恒鑫.关于网络信息生态的若干思考[J].情报科学,2005,23(1):144-147.