大数据时代数据处理规范研究
2017-03-08万宝凤
万宝凤
(安徽大学 法学院,安徽 合肥 230601)
大数据时代数据处理规范研究
万宝凤
(安徽大学 法学院,安徽 合肥 230601)
大数据时代,每一个行为每一个事件都可以量化为数据信息,这些数据信息聚合在一起形成大数据,当前大数据已经应用于社会生活的方方面面,但是大数据在为人们的生活提供便利服务的同时也暴露出了诸多社会问题甚至是法律问题,如何对大数据进行规范成为当前的重点和难点。大数据的内涵和特征能够表明,大数据的生命力在于集中数据信息之后的数据分析,也正是在这一过程中容易滋生法律问题,在此基础上找出大数据时代在数据处理过程中容易发生的法律问题是什么,并分析背后的原因,以期找到规范数据处理过程的路径。
数据处理;法律问题;路径选择
随着IT和通讯技术的迅猛发展,信息社会已经进入到了大数据时代,上至国家政府下至公民个人,每时每刻的每一个举动都伴随着数据的产生。毫无疑问,海量的数据让国家政府和社会公民服务和生活更高效、更便利,然而,大数据时代的海量数据在采集和处理过程中也暴露出了一些社会问题,甚至有些社会问题已经逾越了法律的界限,成为法律问题,因此,如何确立大数据环境下数据采集处理规范应当成为当前急需解决的课题。
一、大数据概述
大数据是一个信息学上的概念,但是计算机学者们尚没有对大数据形成一个统一的定义,普遍的观点认为,大数据是指规模大且复杂、以至于很难用现有数据库管理工具或数据处理应用来处理的数据集。 计算机的普及应用、云计算技术的推广,让公民的生活、生产行为可以用数据来量化,每一个行为都能产生与之相对应的数据,这些数据汇集起来形成相关的大数据。大数据根据数据来源可以分为来源于人的数据、来源于机器的数据和来源于物的数据,顾名思义,来源于人的数据是指人们在网络中的活动产生的数据,来源于机器的数据是指各种计算机系统产生的数据,来源于物的数据是指各类设备所记录或者采集的数据。这些人、机器、物的数据交织在一起形成了大数据。
大数据的特征有人总结为“3V”、有人归纳为“4V”、也有人认为是“5V”。“3V”指规模性(volume)、多样性(variety)和高速性(velocity),对于“4V”有不同的认识,但是都是在“3V”的基础上形成的,国际数据公司认为大数据还用当具有低价值密度性(value),而IBM认为大数据必然具有真实性(veracity)的特点。关于“5V”特征由英国大数据研究者维克托·迈尔提出,分别是规模性(volume)、高速性(velocity)、多样性(variety)、低价值密度性(value)、真实性(veracity)。笔者比较赞同“5V”特征,大数据的形成过程不是虚拟的,而是人们基于互联网交互活动自然形成的真实的信息,这些信息数据如同刑事案件中的物证痕迹一样,是客观存在的,必然具有真实性。对于“低价值密度性”可以认为是“规模性”特征的进一步延伸,在海量的数据中并不代表每一条信息数据都具有价值,因为计算机的原理,每一步都有对应的算法,每一个算法都会产生数据,因此,这些数据的价值被稀释分散在数量庞杂的算法数据之后,造成了大数据价值的密度非常低,即低价值密度性。
根据英国大数据研究者维克托·迈尔的观点,大数据的核心就是预测,而且大数据改变了人们的思维方式,由传统的因果关系转换为相关关系,人们不再追求一个行为背后因为什么,更在意与该行为相关的是什么。因此,大数据的应用领域相当广泛,例如国家安全领域、社会治理领域、商业经营领域等等。针对大数据的分析结果既可以对相关行为进行量化评估得出客观的判断,又可以对相关行为的后续行为进行合理预测,这一点在商业领域已经得到了广泛的应用,比如淘宝网会根据消费者的浏览记录、购买记录等在淘宝网产生的相关数据,推送认为消费者较为关注和喜爱的商品,淘宝网的推送就是根据消费者在淘宝网的大数据分析预测出来的。大数据在商业领域的成功应用使得大数据在国家安全、社会治理领域应用成为可能,2013年3月,美国政府整合6个部门投资2亿美元启动“大数据研究和发展计划”,这个计划关系到了美国的国家安全、科学研究、教育等方面。中国也在2014年首次将大数据写入政府工作报告,将大数据提升到了国家战略的高度。正是因为大数据的广泛应用使得商业公司、政府机关以及社会团体都成为数据的持有者并进一步开发应用这些数据,然而这些数据持有者在数据处理的过程中的疏忽或者不规范造成了相关的法律问题。
二、大数据时代的法律问题
大数据时代数据持有者不规范的数据处理造成的法律问题可以分为两大类,分别是大数据数据处理与侵权行为和大数据数据处理与违法行为。
(一)大数据数据处理与侵权行为
大数据环境下,公民在互联网上的许多行为都可以提取出数据信息,例如公民在互联网上填写的个人信息,公民的消费记录,公民的身份信息等等。由于互联网公开性,导致只要具备相关技术即可得到相应的数据,当然黑客行为是被明确禁止的,但是合法拥有这些数据的公司或者个人的数据处理行为是否会造成公民的相关权益的损害呢?实践证明答案是肯定的,从目前的法律体系看,大数据的合法拥有者主要侵犯的是公民的隐私权,例如:2011 年 3 月,谷歌邮箱爆发大规模的用户数据泄漏事件,大约有 15 万 Gmail 用户受到影响;2011 年 4 月,由于 EC2 业务的漏洞和缺陷,亚马逊公司爆出了史前最大的云计算数据中心宕机事件。同一个月,黑客租用亚马逊 EC2 云计算服务,对索尼 PlayStation 网站进行了攻击,造成用户数据大规模泄露。除了大数据的合法持有者外,也存在公民个人利用大数据作出侵权行为,例如“人肉搜索”,即对他人在互联网上的数据信息进行整合分析,进行集中公布,对他人的隐私权、名誉权造成损害,早在2008年中国内地就出现了首例“人肉搜索”司法案例。
(二)大数据数据处理与其他违法行为
大数据数据处理过程产生的其他违法行为主要表现为商业领域内利用数据垄断的优势进行不正当竞争,高度敏感信息数据的发布危害国家安全。大数据时代,大数据的掌握和利用率在某些方面已经超过资金、市场占有率等传统的经营者的优势条件,成为新兴的经营者的优势条件之一,并且在某些环节甚至可能对经营者的决策有着决定性的作用,此时,就可能存在经营者利用自己所掌握的大量的独家的消费者的大数据进行数据分析,提取具有价值的数据,预测消费者的需求点进而开展经营活动,经营者在这一经营活动中利用了数据垄断进而取得的经营优势是其他经营者无法获得的,这一过程可能就形成了不正当竞争行为。在国家安全方面,当前从中央政府到基层政府部门都拥有信息公开网站,加上新闻媒体对国家政策、事件等国家问题的报道,互联网上聚集着大量的关于国家的信息数据,这些数据经过收集、分析等数据处理过程后,很有可能梳理出了散见于碎片化信息数据后相关的逻辑链,这些逻辑链所代表的信息可能就是国家秘密的一部分或者是属于高度敏感的信息,一旦这些信息数据被恐怖分子或者别国所掌握会造成国家安全的重大危机。
三、大数据时代产生法律问题的原因分析
(一)侵权行为:以隐私权为例
大数据时代数据的处理包括了数据的存储、收集、分析等一系列数据处理环节,侵犯公民个人隐私权可能发生在数据处理的每一个环节。在数据存储环节,公民登录的每一个网站都会保有公民从登录该网站开始的一切行为的数据,而且这些数据不仅在公民个人的计算机设备里留有数据还会在该网站留有数据,对于一般的网站公民多是浏览网站提供的信息,网站里存储的数据对于公民的个人隐私不会造成严重的侵犯,但是对于社交网站、邮箱等会发布公民个人信息的网站来说,他们存储的数据可以说90%都属于个人信息范畴,一旦这些网站因为技术原因发生用户数据泄露事件,公民的个人隐私将被公之于众,造成个人隐私侵权。数据收集环节的侵权行为最具隐蔽性,与存储会发生泄露不同,数据收集环节如果不发布信息或者出现bug,侵权行为很难被发现,例如美国的棱镜计划,如果不是斯诺登,美国公民不会知道他们的个人隐私权被侵犯。而数据分析环节,由于它需要对公民个人产生的数据信息进行分析得出结论,这些分析会因为分析师的需求的不同得出不同的结论,例如现在的app会在年终出具一份关于用户个人的年度总结,这份年度总结就是对该用户在该app上一年以来使用数据的分析结果,尤其是支付网站的年度总结涉及到公民的财产收支情况,公民的财产情况应当属于公民的隐私权范畴,不应当被刺探和记录,更何况将碎片化的数据信息进行收集分析。总之,对个人隐私的侵权行为产生的原因可以分为故意和过失两个方面,故意,即数据持有人主动对公民的个人隐私进行收集、分析,侵犯公民的隐私权;过失,即数据持有人因为技术原因等客观原因出现的侵权行为。然而不管是故意还是过失都造成的个人隐私权被侵犯。
(二)其他违法行为:以侵犯商业秘密和国家安全为例
在分析数据处理造成侵犯商业秘密的原因之前,必须先明确什么是商业秘密。根据我国法律的规定,商业秘密包含经营信息和技术信息。在大数据时代,经营信息完全可以用数据来量化表示,而且部分经营信息在互联网上是很容易被搜索查找到的,尤其是在当前电子商务空前发达的情况下,电子商务经营者拥有的大量的数据经过筛选和分析后极具经济价值,它可能决定着经营者接下来的经营发展方向等重大决策,此时,这些大数据就不能简单的称为数据信息,而是以数据信息表现出来的经营信息,即商业秘密,不能为公众知悉并为经营者带来收益。一旦这些具有价值的数据信息被滥用或者泄露就会侵犯到经营者的权利。
涉及到国家秘密的信息毫无疑问是不会公开发布的,但是由于互联网的交互相关性,看似没有联系的信息背后却有着内在的逻辑联系,数据与经过修饰的文字不同,数据更直白更客观,将文字信息量化为数据之后,文字信息之间无法直观的内在联系更容易被发现,这些数据也会成为分析的基础,通过对数据的整合会得出重要的信息。美国棱镜计划是利用大数据侵犯别国国家安全的典型案例,美国利用网络公司的服务器窃取了大量数据、收集了大量情报。
四、数据处理规范路径
近年来,我国全国人大代表提出对大数据立法的议案,但是,我国还没有一部针对大数据时代数据规范的法律法规,如何对大数据时代的数据处理进行规范还在摸索之中,对此,笔者将分享自己对于数据处理规范路径的想法。
(一)制定格式合同
不管是社交网站还是新闻视频网站,都朝着以会员制为基础在用户与网站之间建立联系,用户注册成为该网站的会员从而享受该网站提供的服务,用户在注册成为会员的过程中,必然经过的一个程序,即必须先同意网站的服务协议才能成为注册会员,用户如果想要享受网站提供的服务就必须同意网站的服务协议,服务协议里就涉及到用户对个人信息数据使用权的让渡,例如对网站公开你的个人信息资料,同意网站获取用户的通讯录、评论、关注等个人信息数据等等。这些服务协议详细列举了服务提供方的权利,淡化了服务提供方义务和用户的权利,尤其是在一些关键点上的模糊处理,让用户在权益受到侵害时难以维权。这种明显偏向服务提供方的“霸王条款”阻碍了数据处理规范化的实现。对此,应当制定网站服务提供方与用户之前的格式条款,避免服务提供方利用优势地位对用户数据信息的恣意采集和随意发布。在该格式合同中,需要明确服务提供者违约和侵权的责任。
(二)建立数据风险防控制度
数据处理过程中出现的法律问题归根究底是数据安全受到了威胁,为了避免出现数据安全威胁和将数据风险最小化,需要建立数据风险防控机制度。这一制度应当囊括当前已有的数据风险预防技术,具体有数据发布匿名保护技术、社交网络匿名保护技术、数据水印技术、数据溯源技术。匿名保护技术可以防止公民的个人隐私因为数据风险而直接暴露,降低因技术漏洞造成侵权行为的可能性。数据水印技术和溯源技术可以帮助界定相关主体的权利义务以及责任划分,尤其在发生数据风险的时候,水印技术和溯源技术能够第一时间帮助受害人查找到数据来源哪里以及数据是在哪一个环节出现问题才导致数据风险的产生,找到问题之所在才能及时作出应对,解决问题。
(三)出台数据处理规范法律法规
当前数据处理过程中出现的法律问题都是数据问题间接导致的,即数据问题导致公民的隐私权受到侵害,进而上升为法律问题中的侵权问题,出现这种间接性最主要的原因在于,我国法律并没有将数据信息确定为法律权益。那么当前的法律体系能否将数据处理过程中的问题所涵盖呢?答案是否定的。以商业秘密为例,尽管在大数据时代,经营者的核心技术信息、经营信息可以用数据量化表示,但是这并不意味着所有的数据信息都在商业秘密的保护范围内,商业秘密和数据信息是两个不同的概念,两者没法等同。因此,我国在对数据信息立法之前应当先确定数据信息是一种法定权益,应当受到法律的保护。然后再制定出台专门的数据处理规范,并且需要在刑法中添加严重侵犯数据信息法益的罪名,追究相关责任人的刑事责任,这样就可以形成一套完整的数据处理规范法律法规体系。
[1]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学院学报,2014(1):246.
[2]王元卓,靳小龙,程学旗.网络大数据[J].计算机学院学报,2013(6):1125.
[3]王全弟,赵丽梅.论网络空间个人隐私权的法律保护[J].法学论坛,2002(2):71.
[4]徐汉明,杨新元.经济全球化背景下国家网络安全立法模式[N].法制日报,2014-6-11(9).
[5]王璐,孟小峰.位置大数据隐私保护研究综述[J].软件学报,2014(4):693.
[责任编辑:罗幼平]
Research on Data Processing Standard in Big Data Age
Wan Baofeng
(AnhuiUniversity,Hefei230601Anhui)
In the era of large data, each event can be quantified into data information, which aggregates together to form large data.The current large data has been applied to all aspects of social life.However, when the large data is providing convenience for people's lives, it also exposes a lot of social problems and even legal issues.How to regulate large data has become the current focus and difficulty.The connotation and characteristics of large data can show that the vitality of large data is the data analysis after the centralized data information.It is in this process easy to breed legal issues.On this basis, the author would find what the legal problem occurs and analyze the reasons behind it in order to find the path to standardize the data processing process.
Data processing; Legal issues; Path selection
2017-05-10
万宝凤,女,安徽合肥人,硕士研究生。研究方向:行政法与行政诉讼法。
DF523
A
1672-1047(2017)03-0109-04
10.3969/j.issn.1672-1047.2017.03.29