APP下载

大数据环境下的图书馆数据隐私风险评估模型构建及实证研究

2019-08-30崔燚臧国全

河南图书馆学刊 2019年7期
关键词:实证研究大数据

崔燚 臧国全

关键词:大数据;数据隐私;模糊综合评估;实证研究

摘要:[背景/目的]大数据时代下,随着数据量的井喷式增长,图书馆的数据隐私风险不断加大,而目前的保护机制存在一定的局限性。针对这种情况,设计出一种图书馆数据隐私风险的模糊评估模型,可以对数据隐私提供有针对性的主动保护。[方法]在文献调查和专家访谈的基础上,定性分析大数据环境下图书馆数据信息的隐私风险因素,运用德尔菲法构建包含10个指标维度的隐私风险评估指标体系,采用层次分析法计算对各级指标的综合权重。通过问卷调查收集数据,对郑州大学图书馆数据信息的隐私风险进行模糊综合评估。[结果/意义]实证分析结果表明,郑州大学图书馆的隐私风险等级处于较低风险。综合来看,隐私风险的模糊评估方法具有较好的适用性,可以为提升大数据环境下的图书馆信息保护提供借鉴。

中图分类号:G250文献标识码:A文章编号:1003-1588(2019)07-0128-05

1背景

随着数字信息技术的演变,云计算、物联网、区块链等技术得到高速发展,大数据的共享、挖掘与分析的时代已经到来[1]。在大数据环境下,图书馆作为高校数据和文献的收集和储存单位,不但拥有巨量的学术资源,还存有大量的学生用户信息(如学号、姓名等),学生们在图书馆与同学教师交流互动,连接图书馆公共网络分享各种信息,包括個人喜爱的书籍、自己现在的方位、个人的研究方向和研究对象或者不经意间暴露其他人的信息等。这些行为为个人平时的活动添加了个性与色彩,但同时也潜藏有大量的隐私安全隐患。比如:2016年4月,土耳其首都爆发信息泄露事件,黑客入侵了信息机构,打包了近5,000万土耳其民众的个人信息,甚至包括现任总统埃尔多安的个人信息;同年6月,世界最大的反恐资料库WorldCheck资料外泄,超过200万个可疑恐怖分子和与犯罪组织有关的人员的个人资料在网上出现,并公开售卖[2]。因此,如何在大数据网络环境下构建一个相对保险的用户隐私保护机制,成为图书馆迫切需要解决的问题。

图书馆数据隐私保护研究在大数据环境下体现在以下问题上:在传统隐私加密技术方面,HongbingCheng[3]经过分析和仿真实验,通过散列算法设计了一套云计算加密技术,以保护数据用户在云端的隐私安全;StoianovA[4]等提出了生物识别加密技术(BE),考虑到生物识别加密在验证身份、保护隐私和确保安全性等方面的优势,实验中BE技术可以帮助克服流行的“零和”心态,这种心态认为增加识别和信息系统的隐私必然会削弱安全性和功能性;VishnoiM[5]等采用随机扰动和密码技术,提出了一种新型的隐私保护数据挖掘技术;ForceG[6]基于公钥加密技术设计的数据卡模式,保证执行复杂的加密操作和解密信息所需的私钥的安全;HuH[7]等提出了一种通过使用同态加密的隐私存储技术,保护客户端查询隐私和服务器数据隐私的查询。

从全新的隐私保护方法角度,DworkC[8]发现了数据查询的结果的变体也有可能引发信息泄露,提出差分隐私保护,基于大部分情况,关于数据库的极其准确的信息可以提供并同时确保非常高的隐私;KenekarTV[9]等提出了海量数据的分布式隐私保护算法,也就是采用Hadoop平台的MapReduce分布式计算与隐私保护机制进行融合;叶青青等[10]对本地化差分隐私的原理和特征做了较为全面的总结和归纳。从动态数据集的发布角度来看,静态数据集的发布问题是差分隐私数据发布的研究重点所在,从数据分析可知数据的动态发布需求是当下社会的主流[11]。张啸剑等[12]解决了流式直方图发布问题,采用了自适应滑动窗口机制方法,这是基于差分隐私的流式直方图发布的。此外还有对动态数据进行深入探索的DworkC[13-14]等。

由以上分析可知,对高校图书馆在大数据环境下所面临的数据隐私风险进行评估、分析与预测研究者寥寥无几,而对保障数据使用过程中隐私安全性的研究较多,在聚焦与传统数据加密技术的完善与改进方面成果集中。因此,笔者在构建高校图书馆隐私风险评价体系时采用了德尔菲法,用定性分析高校图书馆隐私风险在大数据环境下的各种因素为基础,结合层次分析法(AHP)和模糊综合评价法(FCE)预测高校图书馆数据隐私风险,并进行定量评估。

2针对隐私风险构建评估指标体系

2.1高校图书馆隐私风险因素分析

大数据时代,图书馆的功能愈加丰富,对文献的收集和保存、对学生信息的录入和数据处理与分析的任务量都在与日俱增。数据的使用越发频繁和深入,遭受威胁和侵害的用户个人隐私和图书馆数据隐私的比率在显著上升。公共图书馆、高校图书馆同样面临着隐私风险,二者的隐私风险因素在用户角度、网络安全、数据保护等方面重复较多,涉及范围类似,因此高校图书馆的隐私保护同样适用于公共图书馆。笔者以高校图书馆为例,分析和归纳了各种可能存在的风险元素。

笔者结合信息系统的安全模型[15],将高校图书馆隐私风险因素分为以下十个方面:软硬件缺陷是指设备老化、升级漏洞、人为破坏、电磁辐射、软件后门等安全风险隐患,指各类软硬件设施在社交网络平台运行的状况,如计算机、操作系统、网络管理软件、路由器、服务器等[16];基础设施安全强度不足是指基础设施外部强度不够,容易遭到破坏,或是网络设施防护不到位造成信息物理性遗失;大数据应用误区是指工作人员对大数据信息的不了解,导致冗余的信息流入或是必要的信息流出;网络通信协议漏洞是指通信协议的缺陷,如TCP/IP等,尤其是通过在线窃听、篡改和伪造网络中传输的数据;安全设置方式过于简单或烦琐是指图书馆内设置的各类安全保障,如设置重新搜索、图书采用“默认设置”,查看权限、浏览踪迹搜索等形同虚设,达不到保护隐私的效果;管理疏漏,也就是各类工作人员在社交网络方面的业务违反操作规定,或者业务不熟练,同样会造成用户的隐私数据泄露;隐私关联设置和第三方信息收集是指用户在使用图书馆信息服务时,通过微信,QQ等软件发布到网上,导致用户行为信息、关注信息以及服务涉及的相关信息被第三方数据收集者引用到其他网络平台上,从而导致隐私泄漏;空间位置共享是指用户无意中接触到物理安全保护的位置,并通过空间位置共享使目标暴露,导致空间位置安全出现重大漏洞,可能遭到物理破坏,造成隐私泄漏或损坏;密码设置简单是指用户使用一些有规律的字母或数字作为密码,虽方便记忆,但过于简单,易遭破解,造成用户个人隐私泄露,如生日、姓名、ID、成串的数字等;黑客攻击和网络崩溃指的是在用户不知情的情况下,黑客利用网络技术进行恶意攻击,造成系统瘫痪,无法提供服务,或者在用户不知情或有疏漏时利用技术漏洞窃取用户隐私,更有甚者会窃取或破坏用户服务器中的各类数据。

2.2建构指标体系方法

基于以上分析,笔者构建的初步指标体系有15个具体指标,并采用Delphi法,以便更加准确、简练、清晰地表述指标体系,充分发挥各类专家的经验和知识结构完成指标筛选[17]。同时,笔者充分发挥专家的影响和作用,一般分为两步用德尔菲法开展专家评价,每一步的做法是:第一,专家的遴选。从郑州大学、河南工业大学、郑州轻工业大学管理学院、信息管理学院和计算机系选择从事信息安全领域或图书情报学研究最少在五年以上的教授、专家,人数为十五人,并具备副高以上职称,最好具有博士学位。第二,首轮筛选指标。制订首轮专家调查表,用李克特五级量表,请专家按照“轻微、较弱、中等、较强、高危”五个等级对每一个指标进行打分,以确定其重要性,赋值依次为[1/2/3/4/5]。通常看法是,指标重要性变异系数小于0.25,均值大于3,指标才可被保留[18]。在首轮筛选指标时,要求达到符合要求十四个,否则就要删除指标。第三,再一轮筛选指标。在新一轮筛选中,要求各个指标均值大于3才能体现其重要性,如果“恶意程序”“用户信用”“操作失误”“网络延迟”的变异系数大于0.25,指标予以删除,说明专家协调程度不够。经过两轮筛选后,德尔菲法专家评价结束,说明专家意见达成基本一致。最终,隐私风险评估指标体系只包含十个指标,如图1所示。

2.3指标量化与标准化处理

在图书馆用户隐私风险评估体系中,指标多为定性指标,数据性不明显,直观性相对模糊。为了对隐私风险进行分析评估,使其更具有针对性,笔者对定性指标进行量化[19]采用了专家打分法。

其中,Ri是指标Xi归一化处理后的标准值,Xi是最小值,Ximin是指标,指标Xi的最大值是Xinax。

2.4计算指标权重

通常情况下也可能出现专家打分法随意主观的情况,无法保证赋权科学性与正确性,其准确性又无法进行核查、检验。图书馆在用户隐私风险评估过程中,应根据其重要性不同设置相应的权重,使风险指标造成损失和发生概率存在差异。笔者在科学、合理的基础上采用AHP(AnalyticalHierarchyProcess)赋权法进行指标权重的计算,由于评估指标方案不是多种方案,而是单一方案,只能进行一致性检验和层次单排序方式,具体步骤如下。

2.4.1构造判断矩阵C。设指标层有n个指标,分别以C1,C2,…Cn表示。依据AHP法构造判断矩阵的定义可知,矩阵元素Dij采用五分数值标度法,对指标层的各指标用两两对比分析方法进行,并以表1为标度准则构建n阶评估矩阵,如式(2)。

4实证分析

笔者以郑州大学图书馆为调研对象,实证分析该馆用户的隐私风险,调研时间为2018年10月10日至11月10日大约一个月时间。笔者综合采用网络问卷和纸卷问卷两种方法进行调查,发放问卷300份,回收问卷271份,其中有效问卷233份,问卷结果依靠调查范围的全面性和有效性,从而保障结论的准确性。依据调查结果,计算图书馆用户隐私风险的隶属度向量,如表3所示。

根据隐私风险隶属等级划分标准,判定该社交网络隐私风险的等级处于较低风险。

5结语

本文运用Delphi构建了评估指标体系,充分考虑图书馆用户隐私风险的各种因素,依据大数据环境进行条分缕析的梳理,同时,综合权重采用AHP分析法计算指标,从而使隐私风险模糊评估得以进行。经过实证分析,能够看出该次针对郑州大学图书馆的用户隐私风险调查的结果是比较理想的,从总体上处于较低风险等级层次。在大数据环境下,这种评估方法能够对图书馆用户的隐私风险进行比较客观、量化的评估和描述,找出问题,采取应对措施,从而主动控制和规避隐私风险的出现。相应地,社交网络隐私风险在大数据环境下也能够有效地加以防范。

推而广之,为了构建保护单位或个人隐私的长效机制,有关政府部门、相关单位需要制定健全、完善的法律法规,使隐私数据存储与获取体系得以建立和健全,进而促进数据利用的规范化、有序化,另外也需要监管机制对海量数据的运行进行宏观把握和掌控。在大数据环境下,充分运算的海量数据势必也会给用户隐私带来侵害,尤其是负面的伤害,这就要求特殊权限的实体在综合运作海量数据库时进行有效监控,相应地使数据流动透明度提升,便于多方监督。

本文也存在不足之处:第一,社交网络隐私风险评估指标体系是基于文献分析和专家打分,受主观因素的影响较大,指标覆盖的准确性和全面性会有所欠缺。第二,在AHP分析法中,指标体系中没有严格限制或要求总个数及总层次数。但是,有关心理学研究指出,当一组事物个数较多(如9个以上)时,人类对事物属性特征的辨别将出现模糊。因此,当同一层次指标数较多时,需要進行适当的分组归类,或在增加层次数的同时减少每组指标个数,以保证进行指标两两判断时有较好的一致性,而本文在对应性方面尚有欠缺。第三,实证分析的对象为单一对象,调查的覆盖面不够充分,尚需深入验证评估指标体系评估方法的有效性与合理性,分析方法的适用性、准确度还需进一步提高。

参考文献:

[1]Parise.Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink,byViktorMayer-SchonbergerandKennethCukier[J].JournalofInformationTechnologyCaseandApplicationResearch,2016(3).

[2]PriyankJain,ManasiGyanchandani,NilayKhare.Bigdataprivacy:atechnologicalperspectiveandreview[J].JournalofBigData,2016(1).

[3]ChengH,WangW,RongC.Privacyprotectionbeyondencryptionforcloudbigdata[C]//InternationalConferenceonInformationTechnology&ElectronicCommerce,2015.

[4]StoianovA,CavoukianA,CarterF.KeynotePaper:BiometricEncryption:TechnologyforStrongAuthentication,SecurityandPrivacy[J].IFIPAdvancesinInformation&CommunicationTechnology,2012(261):57-77.

[5]VishnoiM,SeejaKR.PrivacyPreservingDataMiningusingAttributeEncryptionandDataPerturbation[J].InternationalJournalofComputers&Technology,2013(3).

[6]ForceG.Portabledataencryptionapproaches[C]//Wescon/95ConferenceRecordMicroelectronicsCommunicationsTechnologyProducingQualityProductsMobile&PortablePowerEmergingTechnologies.IEEE,2002.

[7]HuH,XuJ,XuX.Privatesearchonkey-valuestoreswithhierarchicalindexes[C]//2014IEEE30thInternationalConferenceonDataEngineering(ICDE).IEEEComputerSociety,2014.

[8]DworkC.DifferentialPrivacy[C]//Proceedingsofthe33rdinternationalconferenceonAutomata,LanguagesandProgramming-VolumePartII.Springer,Berlin,Heidelberg,2006.

[9]KenekarTV,DaniAR.AnefficientprivateFIMonhadoopMapReduce[C]//InternationalConferenceonAutomaticControl&DynamicOptimizationTechniques.IEEE,2017.

[10]葉青青,孟小峰,朱敏杰.本地化差分隐私研究综述[J].软件学报,2018(7):159-183.

[11]DworkC,NaorM,PitassiT.Pan-PrivateStreamingAlgorithms[C]//SymposiumonInnovationsinComputerScience,2010.

[12]张啸剑,孟小峰.基于差分隐私的流式直方图发布方法[J].软件学报,2016(2):381-393.

[13]DworkC.Differentialprivacyinnewsettings[C]//Acm-siamSymposiumonDiscreteAlgorithms.DBLP,2010.

[14]DworkC.Differentialprivacyundercontinualobservation[C]//AcmSymposiumonTheoryofComputing.ACM,2010.

[15]Gameofinformationsecurityinvestment:Impactofattacktypesandnetworvulnerability[J].ExpertSystemswithApplications,2015(15-16):6132-6146.

[16]赵冬梅,马建峰,王跃生.信息系统的模糊风险评估模型[J].通信学报,2007(4):51-56,64.

[17]韩正彪,周鹏.基于德尔菲法的我国情报学哲学理论实证研究[J].图书情报工作,2014(11):89-96.

[18]王卫军.基于可用性的移动图书馆服务能力评价研究[J].情报理论与实践,2016(1):100-103.

[19]宋杰鲲,张丽波.基于三角模糊熵的信息安全风险评估研究[J].情报理论与实践,2013(8):99-104.

[20]GiangiacomoBravo,FlaminioSquazzoni,RiccardoBoero.Trustandpartnerselectioninsocialnetworks:Anexperi?mentallygroundedmodel[J].SocialNetworks,2012(4):481-492.

(编校:崔萌)

猜你喜欢

实证研究大数据
中国在新农村建设中金融支持的实证研究
简述翻译研究中实证研究法的应用
玉雕专业学生专业认同的实证研究
温州小微企业融资环境及能力分析
认知语言视角下英语词汇多义习得的实证研究
实证分析会计信息对股价的影响
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索