大数据时代图书馆个性化信息服务中读者隐私保护研究
2016-05-03韩礼红韩翠峰
韩礼红,韩翠峰
(兰州财经大学 图书馆,兰州 730020)
大数据时代图书馆个性化信息服务中读者隐私保护研究
韩礼红,韩翠峰
(兰州财经大学 图书馆,兰州 730020)
摘 要:本文对大数据时代图书馆读者隐私数据的主要内容进行了界定,并展示了大数据时代图书馆个性化服务的过程;研究了大数据时代图书馆个性化服务中有关读者隐私侵犯的风险。最后,提出了大数据时代图书馆个性化服务中基于制度建设与技术保障的隐私保护策略,并给出了基于技术层面的读者隐私保护层次模型。
关键词:大数据;图书馆;个性化服务;隐私保护
世界已经进入了大数据时代,数据已成为人们生活、工作的重要组成部分。据统计,2009年数据信息量达到8000亿GB,而到2011年达到1.8ZB[1],2012年全球信息总量已经达到2.7ZB,而到2015年这一数值预计会达到8ZB[2]。随着信息化的发展,图书馆在储藏大量的纸质书籍的同时,还是现代社会大量数字资源的提供者。日益增长的电子资源,数字图书馆、移动图书馆的建设,云计算、RFID、语义网、社交网络、智能终端的发展为图书馆提供了广泛的数据来源,图书馆正在迎接大数据时代的到来[3]。在传统的学术交流中,图书馆具有独一无二的优势。而随着信息技术的发展,数字学术文献已经成为科研教育用户学习与创新的基本保障[4]。
大数据时代的到来促使传统图书馆向现代图书馆发展,现代图书馆的服务方式将由传统的读者找信息的被动式服务,转变为大数据时代的信息找人的主动服务方式,个性化信息服务方式将是这种服务方式转变的主要形式之一。在大数据时代,个性化服务既是一种交互式的服务,同时,又是一种主动式的服务。作为交互式服务,不可避免地涉及大量有关读者的个人信息,包括姓名、年龄、职业、个性、喜好、科研、关注的焦点等;作为主动式服务,是建立在对用户的深入分析与了解,以及对读者的一些深层次属性挖掘的基础之上。这种基于大数据挖掘与预测的个性化信息服务,难免会产生对读者隐私数据的侵犯。
1 大数据时代个性化服务与隐私权的主要内容
1.1大数据时代个性化服务的内涵与过程
以资源为核心的数字化图书馆建设到以读者为核心的大数据图书馆,最重要的就是针对不同读者全面解决用户个性化信息需求[5],即开展个性化信息服务。个性化信息服务就是以读者为中心,深入挖掘用户的诸如行为习惯、兴趣爱好、科研动态、活动范围,以及读者对信息的个性化定制要求及服务反馈的基础上,来最大程度地将满足用户需求,将相关数据信息精准的、主动的推送至读者面前的服务。个性化服务将是大数据时代图书馆的主要服务方式之一,其服务过程如图1所示。大数据环境下个性化服务是建立在广泛收集读者相关信息的基础之上,在信息收集、数据清洗、服务预测乃至提供个性化服务的整个过程中,读者始终处于被动状态,这就决定了读者对隐私数据没有知情权、控制权,这样在提供个性化信息服务的过程中,有关数据收集、存储、挖掘、传输及服务中的任一环节,都有可能侵犯读者的隐私权。
1.2大数据时代读者隐私权问题的主要内容
一般认为,隐私具有三种特征,即主体是人,客体是个人信息或事务,而隐私的内容是主体不愿泄露的事实或行为。大数据时代的隐私具有边界难以鉴定的特征[6]。摩根提出图书馆馆员既要为读者提供高质量的个性化服务,又要保护其隐私。读者的性别、年龄、健康、信仰及兴趣爱好等都属于个人隐私的范畴[7]。大数据时代,有关读者的隐私内容主要有,读者的个人基本信息,包括年龄、专业、性别、学历等,也包括读者的阅读过程,当前的兴趣、行踪,以及阅读的主要内容,进而经过大数据的分析与挖掘后,可推断出读者的兴趣,当前从事的专业,正在进行的科研动态,潜在的信息需求,以及所从事的科研内容等。可见在大数据时代,读者的隐私无处不在。
隐私涉及个人的私生活,在不影响他人及公共利益的前提下,一旦个人感觉到这种隐私权被侵犯,个人工作生活的安宁环境遭遇破坏时,便会产生对他人及环境的不信任感,就会对个人及社会产生不良的情绪,进而影响整个社会的发展。图书馆是精神与文化生活的公共场所,当读者在图书馆活动时,个人隐私遭遇侵犯,轻者会对图书馆总体环境及服务产生不信任感,甚至是恐惧感,重者则会影响个人及单位的科研成果权,甚至是泄密,这些都将是图书馆服务中的严重问题。对读者隐私权的保护,体现了对读者权益的保护,同时,尊重读者的隐私权,将赢得读者的信任,缩短与读者的距离,更有利于个性化服务的开展,有利于图书馆数据资源的共享与利用。
2 个性化服务中侵犯读者隐私的风险
大数据时代,从图书馆个性化信息服务的过程及技术实现角度来讲,读者隐私数据的泄露主要有以下三条途径。
2.1读者数据的非授权访问与收集
首先,图书馆在提供个性化信息服务之前,必将从读者的阅读行为监控、服务器日志、个人基本信息、科研状态、地理位置等信息中进行数据采集,不规范的非授权数据采集,就有可能侵犯读者的隐私权。大数据时代,读者都是透明人,这种大范围的数据收集,致使读者一旦进入图书馆,或者通过智能终端访问到图书馆资源时,都有可能被记录,就像读者的一切行动用摄像头拍摄一般,读者将毫无隐私而言。其次,大数据时代图书馆提供的个性化服务,打破了传统意义上的位置界限,读者可随时随地通过智能终端等接受相关服务,这就很容易通过各种非正常手段获取用户的访问权限,然后达到获取用户隐私信息或占用合法用户资源的目的。典型的案例比如苹果公司的“后门”事件。2014年7月8日,知名iOS黑客扎德尔斯基向大众展示了一些“后门程序”,攫取iPhone和iPad中的短信及通讯录等个人数据,震惊世界;7月23日苹果公司公开承认留有“后门”[8]。这种通过各种手段,窥探个人隐私,收集个人信息的活动,已不是读者隐私泄露的主要途径之一。
2.2信息载体的泄露
大数据时代图书馆数据存储系统结构复杂,导致图书馆数据存储安全漏洞增多和管理难度增大。首先,大数据环境下的数据量大,价值密度低,存储较分散,并且在提供个性化信息服务的过程中经过多次的数据清洗与提炼,经过的环节较复杂,管理难度加大,增加了隐私数据泄露的风险。其次,由于大数据时代海量数据的管理采用云技术与虚拟化方式,数据在逻辑上的集中是通过分布式的网络结构来实现,这就导致了在数据传输过程中,可能被第三方非法窃取,如通过网络管理及维护工具,可被用来非法利用来监视用户行为,截获用户口令,窃取用户隐私信息等。典型案例如2012年初,谷歌公司利用其技术手段,绕开苹果公司Safari隐私设置,追踪用户浏览习惯,就是利用信息传播载体来侵犯隐私。
图1 基于大数据的个性化信息服务过程
2.3基于隐私推理的攻击
大数据环境下的个性化信息服务主要通过对收集到的大数据进行深度挖掘与分析,在此基础上来推理与预测用户的需求。它的核心是推理与预测,通过挖掘原始数据对隐私数据进行推理来获取额外隐私信息,从而能够轻而易举地对用户的隐私造成威胁。数据挖掘技术的发展与应用,促使了这一隐私泄露方式的发生。大数据时代的数据挖掘存在着多面性,如果对挖掘的结果合理利用,不仅能促使图书馆服务的发展,为读者提供高质量的个性化服务;但时,一旦出现不合理的隐私推理,并加以攻击,会给读者的隐私信息带来侵犯。
3 个性化服务中隐私保护的技术策略
针对大数据时代读者隐私泄露的途径,本文参照OSI的特征,从实现个性化服务的技术角度提出了个性化信息服务中保护隐私的层次模型。该模型把大数据环境下图书馆个性化信息服务系统隐私保护这个复杂而庞大的问题划分为五个层次,采用分层的体系结构,来逐层地解决隐私泄露问题,使读者的隐私保护得到充分的技术保障。该层次模型框架如图2所示。
(1)数据搜集(资源汇聚层)
大数据时代图书馆资源具有分布面广、数据量大、动态性强等特点,只有在庞大的数据资源中搜集到具有典型特征的数据后,才能够提供与读者需求相匹配的服务信息。大数据环境下,这种搜集特征数据的过程是自动的、智能的,这使得用户无法知晓图书馆是如何搜集自己的相关信息以及搜集的详细程度,因此,个性化服务对用户相关信息的搜集成为读者最为担扰的隐私泄露威胁。因此,实现用户可控的自主搜集功能,建立信息开放的数据收集环节,是读者隐私保护的关键所在。
(2)数据存取(资源存储层)
大数据环境下的信息资源存储通常具有共享性,信息的汇集通过分布式网络系统以及虚拟化技术来实现,通过云存储来实现资源的存储,这样就无法确定隐私数据在云空间中的具体位置,从而难以对隐私数据在存储、访问过程中进行有效的控制。虚拟化技术具有基础结构较脆弱,访问控制较复杂等特点,可能会导致用户隐私数据泄露的风险。该层主要通过对云存储与虚拟资源池进行有效的访问控制,与云计算提供商进行有效的权责分担,个性化服务中制定出严格的数据存储访问机制,从而达到保护读者数据安全的目的。
(3)数据挖掘(数据建模层)
该层主要是针对在个人信息搜集的基础上,建立用户兴趣模型、生成用户描述文件的过程中,进行隐私推理可能造成对读者隐私侵犯的问题。建模的过程是指在深入挖掘用户相关信息的基础上,来进行判断、推理用户兴趣和喜好的过程;用户模型通常用以表示用户的行为模式、认知特点和兴趣偏好等方面的特点,不仅可以有针对性地过滤无关数据,也可清晰表示用户的潜在需求与偏好,这种预判若被用户不信任,就会变为窥探隐私行为。该层主要通过技术手段,实现个人信息模型的半开放程度的自主控制,将个人不想被掌掘或不想被匹配的信息进行剔除,并且读者有知道与变更自己的兴趣模型的权利。
(4)数据传输(网络通信层)
大数据环境下的信息源具有分布式特点,个性化服务的信息资源主要通过分布式网络系统进行传输。该层主要针对包含隐私数据的信息在网络传输过程中可能发生的泄露问题。网络传输的安全控制通常是通信领域研究的热点,而在大数据环境下的图书馆个性化信息服务系统中,数据通讯带来的隐私泄露不容忽视,防止非法窃取用户的隐私数据是该层实现隐私保护需要完成的主要任务。网络传输的信息公开性无法达到保护隐私数据的目的,可通过加密技术,把所传输的隐私信息加密成密文后再传输,可以达到有效的隐私保护目的。
(5)数据推送(个性化服务层)
图2 基于大数据的个性化服务隐私保护层次模型
个性化信息服务主要是实现精准数据信息的自主性智慧化推送服务。在实现主动化信息推送服务时,如何实现用户的访问控制,以及用户角色的有效控制,进而达到保护隐私数据的目的,是该层的主要功能。可通过多种技术相结合的方式,来实现相关信息的过滤、匹配与智能化推送;例如通过基于用户角色与用户密钥相结合的方式,来达到个性化服务的权限控制,进而达到保护用户隐私的目的。
4 结语
大数据时代,对读者的阅读需求、个性化信息需求等深入挖掘的基础上,为阅读市场的健康发展等进行有针对性的有效预测,为图书馆资源建设及服务方式改变等提供了丰富、可靠、有力的数据支持。同时,对大数据的应用,也造成了侵犯读者隐私权、泄露隐私数据的风险,使得读者隐私的保护与通过挖掘大数据来提升个性化服务的要求相冲突。因此,只有将读者隐私保护放在重要位置,才能保证大数据时代图书馆个性化服务的发展。在加强图书馆读者隐私保护制度建设的同时,不断加强技术手段的应用,将图书馆利益与读者权益相统一,才能在个性化服务中保护读者隐私,才能为读者提供安全、高效、经济和便捷的大数据阅读服务[9]。
参考文献:
[1]MANYIKA J,CHUI M,BROWN B,et al.Big data: The next frontier for innovation,competition,and productivity[EB/OL].http://www.mckinsey.com/Ins ight/MGI/Research/Technology_and_Innovation/Big _data_The_next_frontier_for_innovation,214-11-10.
[2]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(1):246-258.
[3]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013,33(5):9-13.
[4]初景利,杨志刚.物竞天择,适者生存:图书馆新消亡论论辩.图书情报工作[J].2012,56(11):5-11.
[5]蔡新红.大数据时代图书馆信息资源个性化服务模式研究[J].图书馆论坛,2014(17):195-196.
[6]孟小峰,张啸剑.大数据隐私管理[J].计算机研究与发展,2015,52(2):1-17.
[7]许维娜.中美图书馆用户隐私权保护比较研究[J].新世纪图书馆,2009(2):67-70.
[8]美老牌黑客甩证据,苹果被迫承认留有“后门”[EB/OL].http://www.vin9.cn/news/show-5103.html,2014-08-04/[2014-11-16].
[9]张晓林.颠覆数字图书馆的大趋势[J].中国图书馆学报,2011,37(195):4-12.
User Privacy Protection for Library Personalized Service Based on Big Data
HAN Li-hong,HAN Cui-feng
(Library,Lanzhou University of Finance and Economics,Lanzhou 730020,China)
AbstractThis paper defines the main content of readers privacy information of library in big data era,presents the process of library personalized service based on big data,and studies the risk of the infringement of the right to readers’ privacy in process of library personalized service.Finally,the paper puts forward the specific measures of privacy protection based on privacy preserving technologies,and presents the hierarchical model of reader’ privacy protection from the technology point of view.
Key words:big data; library; personalized service; privacy protection
作者简介:韩礼红(1981- ),男,硕士,工程师,研究方向:大数据,数字图书馆建设;韩翠峰(1977- ),女,副研究馆员,研究方向:大数据,图书馆个性化服务。
基金项目:2014年度甘肃省社科规划项目“大数据思维下现代图书馆个性化服务研究”(14YB064)。
收稿日期:2015-10-30
DOI:10.14096/j.cnki.cn34-1044/c.2016.01.032
中图分类号:G252
文献标志码:A
文章编号:1004-4310(2016)01-0153-04