图书馆大数据服务环境下用户隐私泄露容忍度的实证研究*
2016-06-18易红任竞
易红,任竞
图书馆大数据服务环境下用户隐私泄露容忍度的实证研究*
易红,任竞
摘要科学评估用户隐私泄露容忍度,合理量化可控范围,可为图书馆大数据服务的信息处理和隐私保护提供理论指导和测量工具。文章通过问卷调查,从信息类型敏感性、信息接收敏感性和信息使用敏感性三个维度调查用户隐私泄露容忍度的现状、特点以及影响因素。研究表明,图书馆用户隐私泄露容忍度总体水平偏低,存在显著个体差异,受到年龄、职业等人口统计学因素的显著影响。图书馆应提高大数据服务质量,保障用户合法权益。
关键词大数据图书馆隐私泄露容忍度
引用本文格式易红,任竞.图书馆大数据服务环境下用户隐私泄露容忍度的实证研究[J].图书馆论坛,
大数据时代给图书馆的运营模式、服务理念、用户需求和市场环境带来了巨大变革[1]。图书馆开展大数据服务从本质上要求信息开放,这就可能造成用户隐私泄露,引发用户不满,甚至导致用户法律投诉、图书馆形象受损、用户流失等一系列问题。因此,在大数据环境下,图书馆加强对用户隐私的保护,科学评估用户对于个人信息披露的容忍度,合理量化用户隐私泄露的可控范围,为图书馆大数据服务的信息处理和隐私保护实践提供理论指导和测量工具,是图书馆开展大数据服务亟待解决的重要问题。
1 文献回顾
隐私泄露容忍度是理想的隐私保护状态(隐私完全不被泄露)与个人能承受的隐私泄露状态之间的最大差值,是用户对隐私泄露的接受程度[2]。正如“棱镜门”事件爆发后,美国政府面对公众的责难不得不解释为:“你不能在拥有100%安全的情况下,同时拥有100%隐私和100%便利。”[3]面对服务收益或经济诱惑时,多数用户选择容忍隐私泄露的发生[4],同时企业对于用户隐私的保护声明或协议也促使用户忽视隐私泄露甚至主动提供隐私信息[5]。个体会在隐私泄露的后果与回报之间权衡,当个体对隐私泄露的感知风险小于感知收益时,便有可能发生主动的隐私泄露或忽视被动的隐私泄露。隐私泄露容忍度类似于风险容忍度,是一种个性特质,因人而异,与年龄、性别、受教育水平、收入情况等人口统计学因素相关[6]。大数据环境下的隐私泄露容忍行为贯穿于隐私数据从采集到使用整个流程,包括用户容忍泄露的内容、泄露形式、泄露对象和泄露目的四个方面。Adams等学者建构了基于信息敏感性、信息接收和信息使用三个维度的隐私问题理论框架,三个维度相对独立而又相互影响[7]。
2 研究对象与工具
2.1研究对象
本文采用随机抽样的方法,对2015年3- 7月到重庆图书馆的读者开展问卷调查,共发放问卷560份,回收有效问卷508份,有效率为90.7%。受访者平均年龄34.6岁,其中年龄最小的受访者12岁,最大者66岁,样本各项指标统计结果见表1。
表1 受访者人口统计学特征分布表
2.2研究工具
本研究在Adams隐私研究的理论框架基础之上自编了《图书馆用户隐私泄露容忍度问卷》。问卷包括两个部分:第一部分为调查对象的人口统计学信息,主要涉及受访者性别、年龄、职业、学历等描述性信息;第二部分调查图书馆大数据服务中用户对个人隐私泄露的容忍度,设计为二阶三因素一阶十二因素结构。二阶有三个测量维度,分别是信息类型敏感性(Information Style Sensitivity,ISS)、信息接收敏感性(Information Collection Sensitivity,ICS)和信息使用敏感性(Information Usage Sensitivity,IUS)。信息类型敏感性是指个体对不同类别信息的敏感性的感知和判断,用于界定用户自身可容许泄露的个人隐私的内容和种类;信息接收敏感性是指个体对信息采集渠道的敏感性的感知,用于界定用户对信息采集渠道和方式的可容忍程度;信息使用敏感性是指个体对隐私如何使用的敏感性的感知,用于界定用户对个人隐私信息的使用目的、范围和程度的可接受程度。每个二阶维度下包含四个一阶因素,共十二个一阶因素。信息类型敏感性维度包含身体隐私(Physical Privacy,PP)、位置隐私(Location Privacy,LP)、交流隐私(Communication Privacy,CP)、社会关系隐私(SocialPrivacy,SP);信息接收敏感性维度包含监控系统渠道(MonitoringSystem Channel,MSC)、用户注册渠道(UserRegistrationChannel,URC)、借阅记录渠道(BorrowingRecordChannel,BRC)、网络追踪渠道(NetworkTracking Channel,NTC);信息使用敏感性维度包含文献采访目的(Document Acquisition Purpose,DAP)、个性化服务目的(Personalized Service Purpose,PSP)、智慧化管理目的(Intelligent Management Purpose,IMP)、数据共享目的(Data Sharing Purpose,DSP)。为了提高一阶十二个变量的区分度,每个变量的测量都设置了3个测量项目,采用Likert七点尺度作为计分方式,最低分为1分,最高分为7分,递增排列分别从完全不同意(1分)到完全同意(7分)。
研究对原始问卷进行了预测和修订,作探索性因素分析,采用主成份分析提取共同因素,用正交旋转法求出旋转因素负荷矩阵,提取出12个因素特征值大于1的因素,对方差的累计贡献率为67.225%,同时修改部分鉴别力小于0.3的测量项目,结果见表2。在探索性因素分析结果的基础上,开展验证性因素分析,检验观测变量与潜在变量之间的假设关系,并估计整个模型与数据的拟合程度。从模型拟合度评价表(见表3)可知,模型整体拟合度较好,各评价指标均在可接受范围内,说明问卷的测量项目能有效地反映所对应的因子,问卷在结构上合理。在信度检验上,选用内部一致性系数(同质信度)和稳定性系数(重测系数)作为信度指标。结果显示,量表的内部一致性系数为0.8715,分半系数为0.8136,重测信度为0.7955;各因素的内部一致性系数为0.7015- 0.9132,分半系数为0.6120- 0.9022,重测信度为0.6032- 0.9054,说明量表的信度较高。研究结果表明《图书馆用户隐私泄露容忍度问卷》具有较好的信效度,共12个因子,包括36个测量项目,可作为正式量表,见表4。
表2 图书馆用户隐私泄露容忍度问卷的因素负荷
表3 问卷结构模型的拟合度评价
表4 量表测量因子及项目内容
3 调查结果与分析
3.1图书馆用户隐私泄露容忍度测量结果分析
3.1.1隐私泄露容忍度的测量均值与标准差
隐私泄露容忍度的平均分值越高,表示隐私泄露容忍度越低。从表5可知,隐私泄露容忍度均值普遍较高。一阶变量中均值最高的是交流隐私变量,均值最低的是个性化服务目的变量,说明图书馆用户对交流隐私泄露的容忍度最低,对因个性化服务目的引起的隐私泄露容忍度最高。二阶变量中均值最高的是信息类型敏感性维度,均值最低的是信息使用敏感性维度,说明用户对个人信息泄露的内容和类型的容忍度最低。
表5 图书馆用户信息泄露容忍度各变量均值与标准差
3.1.2隐私泄露容忍度的均值分布散点图
为直观了解用户隐私泄露容忍度的分布特点,笔者利用SPSS18.0 for Windows统计软件包绘制了三维立体散点图,分别用横轴(X轴)、纵轴(Y轴)和竖轴(Z轴)代表信息敏感性、接收敏感性和使用敏感性,建立三维立体坐标图,坐标图中的每个点代表各样本三个维度的分值组合,由此得到图书馆用户隐私泄露容忍度的分布趋势和三个维度之间的相关关系。X轴数值越大表示用户能够容忍泄露的隐私信息内容和类型越少,Y轴数值越大表示用户能够容忍隐私泄露的渠道和方式越少,Z轴数值越大表示用户能够容忍隐私信息被利用的范围和程度越小。从图1可知,各样本分值并不是均匀地分散在坐标图中,而是主要集中在坐标图的下端靠近原点的位置,说明用户隐私泄露容忍度存在个体差异,但总体上集中趋势显著且容忍度低。
图1 图书馆用户隐私泄露容忍度散点图
3.2图书馆用户隐私泄露容忍度影响因素测量结果分析
3.2.1相关分析
为了了解图书馆用户隐私泄露容忍度的影响因素,通过相关分析,采用系统默认的Pearson系数衡量二阶变量与性别等因素之间的相互关系。由表6可知,信息接收敏感性与性别之间相关不显著,信息使用敏感性与年龄、收入水平之间相关不显著,其余各二阶变量均与性别、年龄、职业、收入水平和受教育程度之间呈显著相关关系,其中信息类型敏感性与职业相关度最高。
表6 图书馆用户隐私泄露容忍度二阶变量与性别等因素的相关矩阵
3.2.2最优尺度回归分析
由于通过问卷调查收集到的性别、年龄等分类变量中包含有序而非数值型的数据,用线性回归得到的结果可能并不准确,因此本研究采用最优尺度回归分析,它是标准回归方法的扩展,允许因/自变量为各种类型的分类变量,按照比例换算名义变量、有序变量以及数值型变量,使用定量化的方法反映各种变量的属性,并利用非线性变换方法,求解最佳的回归方程[8]。
为进一步探讨性别、年龄、职业、收入水平和受教育程度因素对图书馆用户隐私泄露容忍度的影响程度,分别以图书馆用户隐私泄露容忍度为因变量,以个体变量(性别、年龄、职业、收入水平、受教育程度)为自变量进行最优尺度回归分析。从回归模型总体数据可知,整体样本的复相关系数(0.561)、确定系数(0.532)和调整的确定系数(0.514)较高,能解释50%以上的总变异,说明拟合效果比较理想。由表7数据可知,除性别无统计学意义外,其余变量都是影响图书馆用户信息泄露容忍度的重要因素。最优尺度回归分析中,自变量之间存在相关关系时会导致模型不稳定,容差系数可以反映自变量之间的线性相关程度,表示单个变量不能被其他变量解释的变异比例。回归模型中各变量的容差都很大(大于0.9),说明变量之间没有明显的线性关系。此外,重要性系数越大的变量对回归方程的贡献也越大,此回归模型中,对用户信息泄露容忍度发挥影响作用的自变量依次是:职业>受教育程度>收入水平>年龄。经过以上分析,最终模型为:用户信息泄露容忍度=0.373×职业+0.321×受教育程度+0.215×收入水平+0.170×年龄。
表7 标准回归系数、显著性和容差检验
4 讨论
4.1图书馆用户隐私泄露容忍度的现状及特点
有学者研究指出,大数据服务中图书馆用户面临的隐私安全问题主要表现为:云计算的共享特性、读者丧失对个人数据的知情权和控制权、图书馆对用户数据的过度挖掘以及数字阅读的服务难度都可能导致隐私数据泄露[9]。用户在一定条件下,愿意提供部分个人信息,牺牲适度的隐私防护以换取更好的服务或取得期望的其他回报,这也符合信息经济学理论观点。因此,明确用户隐私泄露的容忍内容和范围,并据此采取合理防护和规避措施,是图书馆大数据服务的前提保障和基本要求。本研究发现,图书馆用户隐私泄露容忍度总体偏低,说明公众对个人隐私信息持保守态度,隐私关注度高。在信息类型敏感性方面,图书馆用户对身体和位置隐私的关注度较低,而最关注交流隐私,即最不能容忍自己的通讯方式、聊天记录等隐私被披露或窃取。在信息接收敏感性方面,用户较能容忍图书馆通过监控摄像头、传感器装置、用户注册等渠道采集个人信息,但不能容忍图书馆随意采集并披露自己的借阅记录,尤其不能容忍图书馆通过网络远程追踪、服务器后台监控等互联网技术手段了解用户使用图书馆的情况。在信息使用敏感性方面,图书馆用户对此持比较容忍态度,尤其能够容忍图书馆出于个性化服务目的而采集和利用用户隐私信息的做法,而对与其他图书馆、书商、网络服务商、软件开发商等第三方的数据共享持比较谨慎和保守态度。
4.2图书馆用户隐私泄露容忍度的影响因素
用户隐私泄露容忍度在总体偏低的基础上,也表现出显著的个体差异,受到职业等人口统计学因素的显著影响。本研究发现,年龄因素对信息类型和接收敏感性维度影响显著,呈倒“U”型趋势,即18岁以下的未成年人和60岁以上的老年人对信息内容和接受敏感性维度的容忍程度相对较高,18- 45岁和46- 60岁年龄段的青年和中青年人群更为注重个人信息的保密性,尤其不能接受通过借阅记录渠道和网络追踪渠道采集个人隐私数据。这与其他学者的研究结论基本一致,即个体越成熟,对隐私的认识就越深入,隐私关注度越高,不想暴露自己隐私的概率越大[10]。本研究中60岁以上老年人隐私泄露容忍度高,分析其原因,笔者认为由于我国60岁以上老年人的过去成长经历中更多强调的是集体共性而非个性发展,没有形成高度的个人信息隐私观,并且在这个年龄段人群中互联网普及率相对较低,许多老年读者只是利用图书馆的纸质文献资源,数字图书馆资源利用率低,并不存在对通过网络追踪渠道采集个人信息的担忧,因此隐私泄露容忍度高于其他年龄段人群。在职业因素方面,职业对图书馆用户信息泄露容忍度的影响作用最大,不同职业类型的图书馆用户对信息泄露容忍度的三个维度均有显著相关,其中国家机关事业单位人员和医生、教师等专业技术人员对信息泄露容忍度最低,对信息接收敏感性等三个维度的关注度显著高于其他职业人群。同时,本研究还发现,图书馆用户信息泄露容忍度与收入水平、受教育程度呈显著负相关,即收入水平或者受教育程度越高的图书馆用户对信息泄露容忍度越低,对个人隐私泄露的内容和种类以及图书馆信息采集的渠道和方式越关注。受教育程度高的用户还更为关注图书馆如何使用用户个人信息以及使用程度。
4.3启示
图书馆在大数据采集和存储过程中,为保证收集到的用户数据全面、完整、系统和真实,必须对读者行为实施全天候、全方位的监控[11]。然而,本研究揭示,图书馆用户对隐私泄露容忍度并不高,因此,图书馆在开展大数据服务时,应注意在不侵犯用户隐私权益的情况下,合法、合理、有节制地获取并使用用户个人信息数据。
第一,加强行业自律,提高大数据服务的规范化。图书馆应制定《图书馆用户个人数据保护准则》,对用户个人数据的收集、记录、存储、修改、加密、运输、使用和销毁等各个环节加以详细规定,作为指导图书馆员处理用户个人数据的程序和标准。同时,应防范图书馆员自身的有意或无意泄密行为,定期开展图书馆员职业道德和法律意识教育,加强数据安全技能培训,制定员工服务保密细则并签署信息保密协议,从制度约束、道德感召、技能养成等方面防范员工泄密。
第二,实行做法公开,增强大数据服务的透明度。用户的隐私安全感知会显著影响用户的满意度和持续使用意愿[12],要提高用户对隐私泄露的满意度和容忍度,就需要提升用户对图书馆大数据服务的安全感和个人信息掌控感。因此,图书馆应在用户使用图书馆产品和服务前与用户签署隐私协议,让用户充分知晓图书馆对于个人信息的掌握范围、利用程度和使用目的,避免非授权追踪的道德瑕疵和法律风险。图书馆应赋予用户对网站隐私保护软件的设置权和监控权,简化网站隐私设置程序,实现用户对个人隐私的有效控制。
第三,开展技术防范,改善大数据服务的安全性。传统隐私保护策略在大数据时代都面临失效困境,图书馆大数据服务对数据中心的安全保障提出了新的需求,需要加强技术研发,优化数据中心安全防护产品的反应能力、处理能力、升级能力和兼容能力,以抵御针对大数据的高级持续性威胁,防范信息泄露和信息破坏,满足用户对不同类型数据和不同数据应用的安全保障。
第四,完善服务措施,保障大数据服务的人性化。面对用户的隐私泄露低容忍度,图书馆应重新审视面向用户的服务内容和手段,例如在开展大数据可视化服务时,未经用户允许擅自公布读者借阅排行榜,这无疑是挑战了读者的隐私泄露底线。因此,图书馆应通过对数据进行分类分级管理、对用户敏感或隐私数据采取特殊保护和脱敏处理等措施,确保开展大数据服务过程中不以侵犯用户隐私为代价。
第五,开展危机公关,提升大数据服务的应变力。用户隐私泄露事件一旦发生,不仅会对用户造成经济或精神损失,也会对图书馆造成不良影响。因此,图书馆应增强危机公关意识,提升危机应变能力,制定危机处置标准程序。在恶性隐私数据泄露事件发生时,通过积极引导、妥善处理,采取快速有效的措施防止事态恶化,恢复图书馆的正面形象,重塑用户与图书馆之间的信任关系。
参考文献
[1]马晓亭.大数据时代图书馆个性化服务读者隐私保护研究[J].图书馆论坛,2014(2):84- 89.
[2]李睿.移动互联网环境下隐私泄露容忍度的测量与实证研究[D].大连:大连理工大学,2014.
[3]郭晓科.大数据[M].北京:清华大学出版社,2013:97.
[4]ChellappaR K,Sin R G. Personalization versusprivacy:an empirical examination of the online consumer’s dilemma[J]. Information Technology and Management, 2005(2):181- 202.
[5]Hann I,Hui K,Lee ST,et al. Overcomingonlineinformation privacy concerns:an information- processing theory approach[J]. Journal of Management Information System,2007(2):13- 42.
[6]Hallahan T,Faff R,McKenzie M. An exploratory investigation ofthe relation between risk tolerance scores anddemographiccharacteristics[J].JournalofMultinational FinancialManagement,2003(4):483- 502.
[7]AdamsA,Sasse M A. Privacy in multimediacommunications:protecting users,not just data[M]. People and Computers XV—Interactions without Frontiers,Springer,2001.
[8]贾丽艳,杜强. SPSS统计分析标准教程[M].北京:人民邮电出版社,2010:210.
[9]马晓亭,李凌.基于大数据的图书馆用户个性化隐私保护策略[J].现代情报,2014(3):60- 62.
[10]魏红硕.移动互联网用户隐私关注与采纳行为研究[D].北京:北京邮电大学,2014.
[11]彭华杰.大数据时代图书馆读者的隐私危机与隐私保护[J].图书馆工作与研究,2014(12):56- 59.
[12]张冕,鲁耀斌.移动服务持续使用过程中促进因素和抑制因素的平衡研究[J].图书情报工作,2012(14):135- 140.
Empirical Study on Library Users’Privacy Leakage Tolerance under the Background of Library Big Data Service
YIHong,RENJing
AbstractLibrary should scientifically evaluate the users’privacy leakage tolerance and reasonably quantify the controllable range of the users’privacy leakage in order to provide theoretical guidance and a measurement tool for the information processing and privacy protection during library big data service. Through questionnaire survey,this paper investigates the users’privacy leakage tolerance from three dimensions,namely information style sensitivity,information collection sensitivity and information usage sensitivity,and studies empirically the current situation,characteristics and influential factors of privacy leakage tolerance. The result shows that library users’privacy leakage tolerance is overall at a moderately low level,existing significant individual difference and being influenced by demographic factors. Library should improve the quality of big data service and protect users’legitimate interest from five aspects.
Keywordsbig data;library;privacy leakage;tolerance
*本文系2015年度国家文化科技提升计划项目“公共文化服务类大数据分析试验系统与应用示范”研究成果之一2016(4):57- 64.
作者简介易红,女,硕士,重庆图书馆副研究馆员;任竞,男,研究馆员,重庆图书馆馆长。
收稿日期2015- 09- 11