图书馆大数据服务背景下用户隐私权危机的治理策略
2015-12-15任竞易红
任竞 易红
〔摘 要〕大数据在图书馆创新服务模式的同时也导致用户的隐私权危机。如何化解用户隐私权危机,保障用户隐私安全问题成为图书馆开展大数据服务的一个重要课题。本文通过梳理国内外用户隐私泄露案例和图书馆用户隐私权侵权状况,从大数据基础设施、管理方式和应用误区3个方面分析图书馆用户隐私泄露的原因。以此为基础,从构建国家立法监督、行业规范管理、技术研发保障和个人维权意识4个角度阐述图书馆用户隐私权危机的治理策略。
〔关键词〕大数据;图书馆;用户隐私;安全防护;治理策略
DOI:10.3969/j.issn.1008-0821.2015.09.007
〔中图分类号〕G25076 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0034-05
〔Abstract〕Big data innovates the service model of library,but also results in the users privacy crisis.How to solve the crisis and secure the users privacy is an important issue during the big data service of library.Through introducing the cases of the users privacy leak at home and abroad and the current situation of library users privacy infringement,this paper analyzed the causes of the library users privacy infringement from the three aspects of big data infrastructure,management mode and application errors,and accordingly elaborated the solution strategy of privacy crisis from the angles of national legislative supervision,professional standard management,technique support and individual legal awareness.
〔Key words〕big data;library;users privacy;security protection;solution strategy
随着信息技术的飞速发展,数据已经无孔不入地渗透到我们的生活。根据全球著名咨询机构IDC(国际文献资料中心)发布的2012年研究报告显示,2011年全球数据总量为18ZB(1ZB相当于1万亿GB),预计到2020年,全球数据总量将超过40ZB,估计是地球上所有沙滩上沙粒数量的57倍,相当于地球上每个人产生5 200GB的数据[1]。数据来源的极大丰富和数据体量的爆炸性增长促使大数据出现并得到广泛应用。大数据是继云计算、物联网之后IT行业又一次颠覆性的技术变革。对国家治理模式、公共服务效能、企业决策和业务流程乃至个人生活方式都将产生巨大影响。图书馆作为公共文化产品和服务的主要提供者,也正努力尝试开拓图书馆大数据服务,通过对图书馆海量数据的采集、撷取、整合、交换和分析,在正确解析用户需求基础上提供个性化服务、制定科学的文献资源配置制度、规划新型公共文化服务模式,最终实现从数字图书馆到智慧图书馆的变革,提升图书馆的社会影响力和核心竞争力。
图书馆开展大数据服务进程中,用户隐私安全问题也随之而来,不容忽视。正如“棱镜门”事件爆发后,美国政府面对公众的责难不得不解释为:“你不能在拥有100%安全的情况下,同时拥有100%隐私和100%便利。”借助各种信息捕获和监控技术,大量的用户数据都可以被收集和利用。此外,大数据的多源性特征使得来自各个渠道的数据可以用来进行交叉检验,过去一些拥有数据的企事业单位经常提供经过简单匿名化的数据作为公开的测试样本,但是在大数据环境下,多源交叉验证有可能发现匿名化数据后面的真实用户,同样导致用户的隐私权受到极大威胁。更为严重的是,大数据蕴藏的巨大经济利益和社会效益促使非法收集互联网用户资料、黑客侵入电脑终端等高级持续性威胁攻击逐渐增多并且造成的损失不断增大。因此,如何化解用户隐私权危机,保障用户隐私安全问题成为当前图书馆开展大数据服务的一个重要课题。
1 图书馆用户隐私权内涵和构成
11 内 涵
隐私权概念最早由美国学者布兰代斯和沃伦于1890年在《哈佛法律评论》上发表的《论隐私权》一文中提出的,后来被美国有关法律确认,以后在世界范围内得到广泛的应用。隐私权是自然人享有的私人生活安宁与私人信息秘密依法得到保护,不被他人非法侵扰、知悉、收集、利用和公开的一种人格权[2]。在图书馆大数据服务背景下,用户的隐私权主要体现在网络环境中。网络隐私权并不是一种新型权利,是传统隐私权在网络环境下的延伸,即自然人在网上享有私人生活安宁、私人信息、私人空间和私人活动依法受到保护,不被他人非法侵犯、知悉、搜集、复制、利用和公开的一种人格权,也指禁止在网上泄露某些个人相关的敏感信息,包括事实、图像以及诽谤的意见等[3]。
12 构 成
图书馆用户的网络隐私权主要由私人信息、私人空间和私人活动三部分构成。
121 私人信息
个体在接受图书馆信息服务前,必须进行注册,完成用户身份认证并存储在网络系统中,涉及诸多可识别的私人信息,反映个体特征,包括姓名、性别、年龄、身份证号码、职业、住址、联系电话等各方面信息资料。endprint
122 私人空间
传统的私人空间指有形的空间包括信件、包裹、私人住所、工作场所等。网络环境中的私人空间则从有形空间扩展到了无形空间,包括用户电子信箱、个人图书馆、社交网站个人主页、即时通讯软件账户、网络存储云空间等网络私人领域。
123 私人活动
随着数字图书馆的快速发展,图书馆用户可以越来越方便地通过互联网远程访问获取数字资源、接受虚拟参考咨询服务、完成网络教育和搭建高度个性化的知识社区。用户进行网络活动时都会留下浏览痕迹、IP地址、活动记录等个人活动数据。
2 大数据背景下图书馆用户隐私权侵权状况
21 “大数据”引发“大风险”
“大数据”成就了“大商机”,但也引发了“大风险”。《华尔街日报》调查发现,目前监视并分析互联网用户成为互联网公司增长最快的业务之一。全美最大的50家网站在访问者的电脑上平均安装了64种追踪技术,通常没有任何警告。此外,互联网后台对用户使用习惯的追踪和挖掘技术正变得越来越隐蔽,植入程度也越来越深。监控行为不仅局限于过去传统的记录用户访问网站情况的Cookies之中,完全可以实时扫描人们浏览网页的操作行为,然后即时对用户位置、职业收入、购物倾向、资讯关注内容等个人隐私信息进行评估。一部分工具甚至可以在用户试图删除它们的时候悄悄地进行自我复制。在大数据时代,人们的线上生活几乎都是可以被追踪的,甚至线下生活也可以被追踪。例如苹果手机和使用谷歌安卓操作系统的智能手机可以自动收集用户行踪信息。美国新兴弹性社交网络公司Color可以通过手机设备里的GPS定位功能,结合内置的陀螺仪和加速计解析手机用户所拍的照片流来据此定位用户位置,并通过分析照片内容配合手机麦克风搜集的环境声音,推测用户正和谁在一起。这些公司的做法说明了一个越来越突出的事实:随着互联网/移动互联网、数码设备、物联网、传感器、监控器等技术的发展,企业机构正在日渐掌握新的方法来捕获消费者信息,借助自然语言处理、语音识别、图像处理等技术,拥有了快速解析数量巨大的非结构化松散数据的技术能力,同时也不可避免扩大了用户隐私泄露的风险和渠道。
图书馆在大数据采集和存储过程中,为保证收集到的用户数据全面、真实、易控和可用,必须对读者在馆行为实施全天候、全方位的监控[4],即对读者的个人身份信息、阅读内容与偏好、检索浏览习惯、参考咨询行为、虚拟社区与微博微信交流互动、上网轨迹、地理位置甚至社会关系等信息进行监控。这些通过移动通讯设备、社交页面、微博微信、电子邮件、门户网站、监控设施、传感器装置等广泛来源获取的信息类型丰富,包含大量非结构化数据,可以是文档、图片、影像、音频、网页链接地址等,涉及大量的个体身份信息、属性信息、行为信息。然而,这些数据的使用是否应该得到用户的授权?这些信息是否会遭到滥用?用户是否会因为信息泄露而遭到骚扰?个人信息是否会遭到断章取义的理解?
22 “大数据”需要“大安全”
未经个人同意擅自侵扰私人网络空间、监视监听私人活动,利用各种技术手段恶意窃取私人数据、发送垃圾信息,通过植入电脑病毒破坏私人网络安全等等,都是典型的侵犯他人网络隐私权的具体表现。大数据时代带来信息存储和管理的集中化,一切皆可量化,一个大规模生产、分享和应用数据的时代应运而生,也使网络隐私权问题面临新的困境。在大数据中,单条数据价值很小,单个、分散的消费者通常不会有动力去维护这些隐私。然而,无数低价值的数据经过高密度聚合后将产生巨大的财富。目前,用户信息分析已经发展成为一项经济效益显著的产业,相关企业基本不受监管,在这种不对等的情况下,手中掌握着强大数据分析能力的机构都可以利用大数据侵犯隐私并从中收益。
这一现状反映出保护个人信息隐私安全的法律、互联网行业规则、信息安全防护技术与从业人员道德规范没有跟上大数据技术发展的步伐。在“前大数据”时代,用户可以签订SLA协议(SLA,Service-Level Agreement,服务等级协议),使用数据本地存储、加密、匿名等方式来保护隐私,但是在大数据时代,人们无法避免失去隐私。这就要求存储和管理海量用户信息的机构承担更大的责任和义务,创立一种新的隐私保护模式,消费者在使用相关机构的产品和服务时基于便利服务等原因主动透露了自己的隐私,并不意味着他们授权这些机构可以随意使用、扩散甚至销售这些隐私。“大数据”需要“大安全”,作为用户大数据的采集者、管理者和运营者,包括图书馆在内的相关机构应该主动担负起防止用户隐私权受到侵害的责任,构建合理有效的隐私保护机制,维护用户个人数据安全。
3 大数据背景下图书馆用户隐私权侵权原因
31 大数据基础设施引发了用户隐私泄露风险
图书馆大数据服务的基础设施包括存储设备、运算设备、一体机和其它基础软件。为了支持图书馆大数据的应用,需要创建支持大数据环境的基础设施。例如,需要高速的网络来收集各种数据源,需要大规模的存储设备对海量数据进行存储,还需要各种服务器和计算设备对数据进行挖掘与应用,并且这些基础设施采用虚拟化和分布式架构,需要比传统基础设施进行数量更大、频次更高的数据传输。大量数据在一个共享的系统里被集成和复制,当加密强度不够的数据在传输时,攻击者能通过非授权访问、利用电磁泄露或搭线窃听等方式窃取或篡改数据。攻击者还可以通过信息网络传播计算机病毒,针对虚拟化技术的安全漏洞,入侵宿主机或同个宿主机上的其它虚拟机进行违法操作,引发用户隐私泄露。
32 大数据管理方式加剧了用户隐私泄露风险
大数据时代,图书馆业务管理将以对数据的搜集、分析、挖掘为中心,数据管理将成为图书馆的主要业务活动[5]。传统数据安全是基于数据生命周期特点来开展防护,主要包括数据的产生、存储、使用和销毁环节。大数据环境下,从数据采集、数据整合、数据提炼、数据挖掘到数据发布已经形成新的完整链条,数据的使用者和管理者相分离,产生专门的数据存储和挖掘管理者,数据生命周期演变为数据的产生、传输、存储和使用环节,并且大数据系统将数据分散在不同地理位置、不同服务器中,以实现数据的优化查询处理及容灾备份。在这种数据管理模式下,以往常规的数据安全技术不能完全适应大数据存储的动态化、并行化特性,无法应对数据的分布式、协作式、开放式处理方式,难以定位数据并进行保护,这些都增加了用户隐私泄露的风险。endprint
33 大数据应用误区导致了用户隐私泄露风险
利用大数据技术为图书馆用户提供安全、高效和优质的个性化服务,是图书馆大数据服务的价值体现和最终目的。大数据时代,图书馆服务内容主要包括用户个性化定制与推送服务、虚拟参考咨询服务、馆际间联合服务、与第三方大数据商的联盟增值服务等[6]。但是,有时候图书馆为了获取最大服务效益和社会影响力,制定的大数据开发和交易范围、大数据管理和应用策略可能会无形中侵害读者的个人隐私,其最显著的大数据误用就是源于对图书馆用户个人数据的非法二次利用。所谓二次利用,是指开始可能只为某一目的或用途采集数据,由于各种不合法或者不可预见的因素,最终导致采集的数据被二次利用甚至多次利用,衍生出许多创新的、未知的新用途,违背了数据采集者的原始意愿,且无法获悉更无法授权这种未知的用途。图书馆用户的大数据信息如果由于无意或人为的原因导致数据泄露,被某些网络运营商或商业公司滥用,开展盈利性活动,从而对图书馆用户形成信息骚扰,甚至被某些不良黑客窃取和非法传播进而导致图书馆用户的精神和经济损失。
4 图书馆用户隐私权危机的治理策略
在大数据的快速发展进程中,学者专家对公众隐私安全的关注从未停止,一直呼吁出台有效的大数据隐私保护策略。当前国外网络隐私保护有两种基本模式:一是以美国为代表的行业自律为主导的模式;二是以欧盟为代表的法律规制为主导的模式[7]。两种模式各有特色,各有利弊。结合我国的实际情况,单一的模式不足以有效保护用户隐私。学者王树义提出保护用户隐私需要政府、行业协会、服务提供商以及用户自身等各方面的协同工作[8]。笔者也认为综合化的治理策略更加适合我国当前图书馆大数据服务中用户隐私权危机,应从国家法律、行业规范、技术研发和用户意识4个方面实现图书馆用户隐私保护。
41 国家立法监督策略
中国社会科学院2009年发布《法治蓝皮书》指出,我国信息处理和存储技术不断发展,但个人信息滥用问题日趋严重,社会对个人信息保护立法的需求越来越迫切。为了改变我国个人信息保护工作的社会意识淡薄、立法滞后和执法依据缺失的现状,我国政府也不断加快个人信息安全的立法进度,《刑法修正案(七)》、《侵权责任法》、《居民身份证法(修订)》等各项法律相继出台,致力于从刑事责任、民事责任和行政责任三方面全方位构建我国个人信息保护法律框架。除了立法工作,政府也加大了相关决定和标准的制定进程。2012年12月,全国人大常委会通过《关于加强网络信息保护的决定》进一步强化了保护公民个人信息安全,明确界定了网络服务供应商的责任和义务,并赋予政府相关的主管部门以必要的监管和督查权力。2013年2月,我国首个个人信息保护国家标准《信息安全技术公共及商用服务信息系统个人信息保护指南》正式实施。该标准最显著的特点是比较系统地规范了个人信息处理的全部流程,明确将个人信息分为个人一般信息和个人敏感信息,并澄清了默许同意和明示同意的概念,规定个人敏感信息在收集和利用之前必须首先获得个人信息主体明确授权。
纵观我国个人信息保护工作的法规进程,虽然取得很大进步,但仍存在法律漏洞,缺乏网络隐私权的专门法律规定,网络隐私权的保护基本还处于无法可依的状况。我国《侵权责任法》已于2010年7月1日起施行,对网络侵权进行了相关规定,但重视程度明显不足,网络侵权责任没有单列章节来加以详细规定,无法体现网络侵权责任与其它法律责任的对等地位,尤其对提供网络服务与内容的供应商之法律责任规定较少[9],这等于容忍并间接支持了网络服务提供商对用户隐私权的侵权行为。《信息安全技术公共及商用服务信息系统个人信息保护指南》仅仅作为一个推荐性标准,其实施取决于相关行业主体的自愿配合,如果缺乏相关的强制或激励措施,对于能从个人信息获益的网络服务提供者而言并没有太大的约束力和动力来贯彻执行。目前,我国国务院信息办正在推动《个人信息保护法》的研究和制定,何时颁布尚不得而知。如果这部法律出台,今后个人的手机号码、家庭住址、邮件、健康医疗信息、婚姻状况、职业情况等个人信息都将纳入法律保护的范围,这将是我国个人信息保护工作的里程碑。
42 行业规范管理策略
加强行业自律是规范图书馆服务管理、保护用户隐私的有效途径之一,它可以在一定程度上弥补国家立法的滞后性。各个国家图书馆行业都在自身的行业规范中对保护用户隐私权提出明确规定,要求图书馆员保护读者隐私权,不得泄露或默许他人泄露图书馆利用者的秘密,同时也不得超越用户最初使用授权范围,将个人信息运用于其它用途。我国于2003年颁布的《中国图书馆员职业道德准则》中也要求图书馆从业人员必须“维护读者权益,保守读者秘密”。但是,在大数据服务中,各国对于读者隐私的保护规定显得过于笼统,缺乏行业执行的具体操作标准,而且也无法适应大数据服务对图书馆用户海量交互数据采集、分析和挖掘的需求,因此如何在不侵犯用户个人隐私权的前提下开展大数据服务是图书馆制定大数据服务规范的基本原则。
图书馆在制定保护用户隐私策略的过程中,需要与用户和第三方服务商进行清楚的沟通,并达成符合个人信息保护法律法规的数据政策、隐私协议和员工服务保密细则,实现图书馆大数据服务与用户隐私保护之间的动态平衡。首先,图书馆应制定《个人数据保护准则》指导图书馆员处理用户个人数据的程序和标准,对用户个人数据的收集、记录、存储、修改、加密、运输、使用和销毁等各个环节加以详细规定,以此作为图书馆行业大数据服务对个人数据处理方式的基本依据。其次,图书馆应在用户使用图书馆产品和服务前和用户签署隐私协议,从做法公开、设置简单和设计隐私三管齐下保护用户个人隐私权。做法公开即收集数据时要让用户及时知道图书馆对于他们信息的掌握范围、利用程度和使用目的,避免对非授权追踪而造成问题;设置简单即图书馆应制定隐私协议,并使其简单易懂、一目了然,在用户注册前自动与其签署,有助于建立用户与图书馆之间的信任关系;设计隐私即倡导图书馆将用户隐私保护加入到图书馆提供的所有活动和产品之中,并与之融为一体,事前设计强于事后弥补,赋予用户隐私保护软件的设置权和监控权,防止数据泄露和图书馆品牌形象受损。最后,图书馆应防范图书馆员自身的有意或无意泄密行为。美国Verizon公司在其2008年数据泄露调查报告发现,数据安全的绝大多数威胁来自外部,只有18%的违反来自内部人士,但是其产生的破坏力明显大于外部破坏[10]。防范馆员泄密是降低图书馆用户隐私泄露危机的有效措施之一,为此,图书馆应定期开展图书馆员职业道德和法律意识教育,加强数据安全技能培训,制定员工服务保密细则并签署信息保密协议,从制度约束、道德感召、技能养成等方面防范员工泄密。endprint
43 技术研发保障策略
无论是“告知与许可”、“模糊化”还是“匿名化”,这三大传统隐私保护策略在大数据时代都面临失效。图书馆大数据服务对数据中心的安全保障提出了新的需求。首先,数据中心安全防护产品要有更快的反应速度和更高性能的处理能力,以抵御针对大数据的高级持续性威胁;其次,数据中心安全防护产品需要更快速的升级能力,以应对随时可能出现的新的攻击类型;最后,数据中心安全防护产品需要更敏感的感知能力,以满足对不同类型数据和不同数据应用的安全保障。为满足以上安全需求,图书馆应针对自身的大数据中心,加强技术研发,设计新的安全防护解决方案。
为此,图书馆可将大数据中心划分为对外连接区域和内部核心区域。对外连接区域作为用户业务中心,主要为用户提供网站访问接入服务,提供业务支持;内部核心区域作为图书馆内部业务中心,主要聚集数据处理、办公服务器,提供办公支持,安全系数更高。在外部连接区的出口、连接内外区域的核心交换机处应部署高性能的防火墙,通过配置USG统一网关设备和IPS入侵防御系统,实现对网络源地址的屏蔽策略,有效地为图书馆用户提供安全、高密度的网络接入服务,实现数据中心内外区域的流量安全防护,保障内部的安全域隔离。同时加强加密防护、权限设置、隐私信息检索技术、差分隐私保护和数据问责系统[11]的应用,全面保障图书馆用户的信息数据安全。
在大数据的整个处理流程中,图书馆应加强大数据采集、存储、挖掘和应用各个阶段的安全防范。在采集阶段,由于系统可能把采集到的用户关键隐私数据传输至非信任区域或高风险区域,从而失去对关键隐私数据的安全防护控制,导致隐私数据泄露,因此应在此阶段对数据进行分类分级管理,保密数据和非保密数据分开存储,从逻辑和物理上实现双重隔离;在存储阶段,由于存在用户隐私数据被盗用、滥用的风险,因此应对用户敏感或隐私数据进行特殊保护和脱敏处理,并对数据使用人员进行细粒度的访问授权管理,实现外部入侵进不来、非法外联出不去的双向数据安全防护;在挖掘和应用阶段,由于在数据挖掘分析中存在数据非授权访问,对用户数据分析结果使用的不可控性,因此应加强人员管理和行为监控,通过问责系统加大对数据分析使用行为的数据追踪、违规检测与数据溯源等安全防护措施。
44 个人维权意识策略
无论是法规监督、行业自律还是技术研发,这些都是依靠外部力量对个人隐私权开展的公众保护。在纷繁复杂的大数据环境下,关键还需依靠图书馆用户对个人隐私的自我保护。首先,用户应增强个人隐私的自我保护意识和技能。用户在利用图书馆的产品和服务时,应仔细阅读相关隐私协议,评估其中蕴含的潜在风险,在提供个人信息时,本着尽量精简的原则,尽可能不要暴露过于详细的个人隐私,如家庭住址、收入水平、财产信息、婚恋情况等;在视频网站、博客、社交论坛、微博微信等新媒体中要节制自己的数字化行为,不要轻易将个人信息授权分享给第三方;积极提升自身的信息素养,掌握计算机网络防护知识,熟悉杀毒软件并定期给自己的电脑或移动通讯设备查杀病毒。其次,用户应增强维权意识。一旦图书馆大数据服务中发生用户隐私泄露,对用户造成经济和精神损失,被侵权的用户可以依法提起诉讼并果断要求有关机构删除个人隐私信息,停止侵权行为。最后,除了保护好个人隐私信息外,图书馆用户还应以身作则,尊重他人隐私,不随意泄露他人隐私,营造健康的网络隐私保护氛围,参与文明网络信息共建活动。
大数据是一门数据处理技术,更是一种全新的思维方式,一种推动社会变革的重要力量。大数据为图书馆创新服务模式、提升服务质量、构建公共文化服务体系提供了科学的理论依据和数据支持,但也导致图书馆用户的隐私权危机,因此,图书馆有责任和义务立足用户权益,从国家法规、行业自律、技术研发和个人维权4个角度,构建四维一体的多层次全方位的用户隐私权危机治理机制,为公众提供创新、安全、高效、满意的图书馆大数据服务。
参考文献
[1]张尼,张云勇,胡坤,等.大数据安全技术与应用[M].北京:人民邮电出版社,2014.
[2]张新宝.隐私权的法律保护[M].北京:群众出版社,1997.
[3]李德成.网络隐私权保护制度初论[M].北京:中国方正出版社,2001.
[4]马晓亭.大数据时代图书馆个性化服务读者隐私保护研究[J].图书馆论坛,2014,(2):84-89.
[5]彭华杰.大数据时代图书馆读者的隐私危机与隐私保护[J].图书馆工作与研究,2014,(12):56-59.
[6]马晓亭,李凌.基于大数据的图书馆用户个性化隐私保护策略[J].现代情报,2014,(3):60-62.
[7]徐敬宏.网络隐私权保护:域外模式述评及我国模式探索[J].情报理论与实践,2010,(5):35-38.
[8]王树义,朱娜.移动社交媒体用户隐私保护对策研究[J].情报理论与实践,2013,(7):36-40.
[9]文维.我国网络隐私权保护的法律探讨[J].人民论坛,2010,(26):80-81.
[10]董杨慧,谢友宁.大数据视野下的数据泄露与安全管理——基于90个数据泄露事件的分析[J].情报杂志,2014,(11):154-158.
[11]孟小峰,张啸剑.大数据隐私管理[J].计算机研究与发展,2015,(2):265-281.
(本文责任编辑:郭沫含)endprint