智慧服务背景下用户数据挖掘与保护策略研究
2021-06-28李慧
摘 要:随着信息技术应用的创新与发展,图书馆的服务模式逐渐从数字图书馆向智慧图书馆过渡。对图书馆业务数据、管理数据、用户数据等大数据的采集、组织和分析在图书馆服务创新中的作用日益凸显。明晰智慧图书馆用户智慧服务需求、数据挖掘、数据管理和用户隐私保护的逻辑关系,从用户数据服务价值、数据安全重要性和数据安全保护策略三个方面提出智慧服务背景下的数据安全与保护问题。
关键词:智慧图书馆;用户研究;隐私权保护;数据挖掘
中图分类号:TP391.3;TP311.1 文献标识码:A 文章编号:2096-4706(2021)01-0109-04
Research on User Data Mining and Protection Strategy in the Context of Smart Service
——Take Smart Library as an Example
LI Hui
(Xian Aeronautical University Library,Xian 710077,China)
Abstract:With the innovation and development of application of information technology,the service model of the library has gradually transitioned from a digital library to a smart library. The collection,organization and analysis of big data such as library business data,management data and user data play an increasingly important role in library service innovation. This paper clarifies the logical relationship among smart service needs,data mining,data management and user privacy protection of smart library users,and puts forward data security and protection issues under the background of smart service from three aspects of user data service value,data security importance and data security protection strategy.
Keywords:smart library;user research;privacy protection;data mining
0 引 言
隨着信息技术的创新与发展,大数据、人工智能、物联网、云计算等新技术被广泛应用于各行各业。技术的升级改造推动了服务品位的提升。智慧服务的理念不断深入人心,图书馆的智慧服务也从理论研究走向具体实践。
芬兰学者Aittola提出“智慧图书馆(Smart Library)”的概念,智慧图书馆是一个不受时空限制且可被感知的移动图书馆[1]。图书馆学者们从用户服务的角度出发,秉承文化传递和育人职责,遵从智慧服务的感知性、互联性、智能化特征,在物理空间、虚拟空间、资源空间等多维方向进行有机结合,不断满足用户的情景式需求,创新个性化服务,提高服务精准度,并对用户数据进行全面深入的挖掘与分析,在不断的创新中实现智慧图书馆的发展。
国内学者们也致力于从数据挖掘的不同实践领域,研究体现智慧服务中数据挖掘应用对于图书馆提高精准服务的有效性和必要性。陈丹[2]提出通过用户画像数据分析与利用提升高校图书馆的智慧服务能力。王卫霞[3]将用户借阅数据的分析应用于用户决策采购中。
智慧图书馆的用户数据在被挖掘利用的同时,数据管理的技术难度与责任也随之增加,数据安全保护已成为智慧服务中不可规避的重点。通常图书馆每年会对读者利用图书馆的轨迹、行为数据进行大数据分析,智慧图书馆迫切需要解决读者隐私数据安全的保护问题。
1 数据服务在智慧图书馆中的体现
1.1 图书馆的智慧服务
1.1.1 图书馆的智慧管理和服务需求
图书馆的智慧管理和服务是指图书馆利用机器学习、虚拟现实、射频识别等相关技术[4-6]为读者提供智能互通的个性化智慧服务体系。
近些年,各大院校纷纷将信息传递、情景感知、个性化推荐等技术应用于图书馆服务体系中,目的是为了建设空间布局人性化、设备智能化、馆藏资源丰富化、系统科学化、服务人性化的现代图书馆。通过对这些技术的运用,不仅在横向上打通和扩展了馆际间的系统技术屏障,而且在纵向上结合线上线下,实现馆内全方位、综合性的用户服务。
在智慧服务的过程中,用户数据的大规模产生与聚类,也促使图书馆进行数据挖掘与分析,一方面便于各合作图书馆之间相互借鉴使用,形成数据集合系统,建立庞大的共享型用户信息数据库。另一方面组建馆藏资源共享联盟,提高各馆的馆外文献资源保障。
1.1.2 智慧服务对用户数据服务意识的培养
智慧服务作为智慧图书馆服务体现的关键核心,其服务质量的好坏直接影响智慧图书馆的实践应用与长远发展。随着互联网系统化关联度的日益提高,图书馆的用户数据汇聚平台作用逐渐凸显,大量的数据生产与聚类分析,让用户获得了“便捷”的使用体验,用户可以依据自己的学习习惯和需求有导向性地使用图书馆资源,并通过一定的反馈机制来要求图书馆提高服务水平,以满足读者知识传输与利用的需求。用户在使用过程中逐步适应并享受图书馆所提供的各项智慧服务,这种形式打破了传统图书馆的区域限制,比如在参考资讯、资源访问、文献传递等方面实现了随时、随地传递模式,而不再仅仅局限于本地馆藏资源的供给。
1.2 智慧图书馆的用户应用数据挖掘
在智慧图书馆建设大潮的背景下,图书馆大数据的采集、加工以及二次应用,对于图书馆的服务业务管理和服务创新贡献了新的思路和方法。
1.2.1 数据挖掘
数据挖掘是为了从读者行为数据中找出所隐藏的服务需求,以此定制相应的服务、管理决策,而海量的用户数据具有复杂性与多样性,这既保障了用户数据的真实、可靠与安全,又对数据挖掘技术提出了更高要求。
图书馆数据挖掘算法主要有访问控制技术、数据加密技术、差分隐私模型等,其中联机分析处理(On-Line Analytical Process,OLAP)是最常用的图书馆大数据挖掘方法,即提前设定需要监测的数据维度,动态获取数据分析结果。图书馆管理系统通过时间轴来呈现借阅量、访问量和下载量等读者信息[7],如图1所示,通过对图书馆业务大数据的多维数据处理(包括验证假设、规律探索、发掘信息等),全面分析、挖掘及利用服务业务数据为智慧服务体系的构建提供数据支撑。
1.2.2 数据管理
由于图书馆数据的使用主要体现在资源、空间、服务三个方面,包括纸、电资源的结构化数据,用户进、出馆统计和图书馆智慧系统使用数据以及参考资讯、文献传递等读者服务模块数据等。从数据库中调取用户信息检索、浏览、借阅行为等记录,对用户的学习习惯、偏好以及行为进行聚类分析,形成清晰的用户画像[8],并参与和影响后续图书馆智慧服务的数据决策。
在程序与算法的作用下,在使用图书馆系统时不同的用户使用习惯会获得不同的检索结果。采用基于聚类分析的服务数据挖掘手段和智慧推荐服务,可有效解决由于信息数据量过大带来的信息过载问题。
聚类分析指的是将物理的或抽象的集合分组为相似对象组成的多个类的过程[9]。智慧服务大数据系统会根据用户浏览痕迹和阅读兴趣自动推送相对应的主题内容,近而提升用户体验。同理,对于用户学科的知识需求、图书借阅服务等,也可以达到精准数据聚类后的智能、智慧服务效果,如图2所示。
2 数据安全与保护
2.1 数据服务的价值
智慧服务环境下图书馆需要制定用户数据挖掘规则,对读者的行为利用信息数据进行感知、记录、挖掘、聚类与分析,从而把握用户信息需求倾向、用户信息利用行为规律,对用户利用数据的挖掘与分析可提升智慧服务的智能化和个性化程度。持续的数据应用挖掘,使这一行为被赋予了显性或隐性的价值,因此,大数据逐渐成为继云计算之后计算机信息学科领域一个新的技术增长点。而用户在享受智慧服务的同时,通常也愿意牺牲部分隐私来换取更多便捷的服务,这推进了图书馆向更深层次的个性化、主动化、智能化和智慧化的信息服务转型。动态、实时的数据价值提取也使得智慧服务在短时间内做到精准、有效,以增强用户的满意度与使用黏性,如图3所示。
2.2 数据安全的重要性
数据安全是智慧图书馆的基石。大数据赋能的智慧图书馆可以显著提高读者体验,但如果安全问题没解决好,或者遭遇恶意攻击,那将是十分危险的。对数据进行一定程度的加密,这样即使偷听者拦截到信息,其没有密钥也无法破解加密信息,无法了解信息的具体内容。
2.2.1 图书馆的智慧服务建设
图书馆以用户为中心的服务建设理念,通过综合运用大数据、物联网、人工智能、“互联网+”、RFID等诸多智能技术,把图书馆服务建设推向了全新的智能化发展方向,在实现图书馆智能化、智慧化管理和服务的过程中,需要大量的用户数据支撑作为数据应用科学性、有效性的保障。
图书馆在数据过滤、分析挖掘中对用户的画像集成、聚类分析,以及所参与的知识管理、数据决策、智慧推送、虚拟参考等服务更加精准智能。这样既可以提高用户的图书馆感知效率,又可以体现图书馆先进性、系统化、深内容的高层次服务。
2.2.2 用户数据安全和保护意识增强
智慧图书馆在智慧服务的过程中,所获取的用户隐私数据有可能会遭遇网络攻击被盗取,盗取者对所盗取的信息进行非法使用和售賣等。Facebook[10]等企业被卷入隐私泄露事件中,侵犯个人信息安全事件层出不穷,用户的隐私保护意识也在不断增强。加之“数据透明”所引发的用户对个人数据的披露恐慌,尤其是用户姓名、电话以及财务方面的敏感数据披露,用户在不确定数据利益是否可能成为行为发生导向时,都选择避而不谈。
随着智慧图书馆新技术的应用和普及,对用户数据挖掘的广度和深度不断加强,在涉及用户的一些敏感信息时,也会激发用户增强数据安全和保护意识。
2.3 数据安全的保护策略
关于用户数据使用的学术研究已经持续多年,在问题提出和体系构建方面也深入到了用户数据保护的技术实现和架构模型层面。
从图书馆行业的全局观出发,可以说保护用户数据安全是一种人道主义精神的体现,在用户使用图书馆并提供某些信息以换取便捷服务的同时,数据的价值体现不仅仅是践行图书馆以人为本的理念,更应该推动整个图书馆行业的发展并提高其社会认可度。因此,完善用户数据安全的保护机制是智慧图书馆发展路上的一块重要奠基石。
2.3.1 法律法规与图书馆制度相结合以保障数据安全
欧盟通过的《通用数据保护法案》将个人数据保护权利(数据修改和移动的权利等[11])范围进一步拓宽。而基于法律层面对智能技术应用过程中数据安全保护方面的探讨,姚万勤指出应明确智能设备使用者的责权,遵守伦理道德底线[12];陆康[13]等通过对比《中华人民共和国网络安全法》和《一般数据保护条例》,提出数据处理原则和完善技术处理制度。2020年,为加强个人信息安全保障,我国制定个人信息保护法和数据安全法[14]。在法律层面,我国的用户数据安全保障法规方面与欧美发达国家相比仍有差距,有待继续完善和提高。
ALA将图书馆用户隐私保护定义为通过技术手段对读者的想法、信仰、计划等个人信息予以保护[15],而图书馆作为数据使用的主体,应当主动在管理制度方面做出条例补充和行为约束,以保护用户的隐私及数据安全,避免不必要纠纷。相关的制度内容应从两方面入手。第一,明确用户数据保护制度,在网站上标明数据采集、存储、利用和清理的范围,数据采集的手段和目的以及图书馆保护用户数据的方式、方法,从而增加用户信任度。第二,图书馆内部的管理政策,包括对图书馆馆员队伍的规范化要求,对用户数据的采集、访问和调用、清理要进行实名认证、审核和授权,甚至可以设置岗位来进行专项业务的处理。
2.3.2 数据安全保护的手段应用
图书馆的智慧服务技术手段主要体现在对物联网、“互联网+”、大数据、云计算、人工智能、RFID等智能技术的综合运用,这些新技术通过对数据的采集、记录、存储与挖掘分析,输出满足用户需求的个性化、系统性服务规则,提升用户对图书馆使用的感知度与黏度;因此,用户数据保护和循环迭代的技术手段也成了用户密切关注的重要环节,如图4所示。
目前主流的用户数据保护和循环迭代的技术手段:
(1)区块链技术。区块链是分布式数据存储、点对点传输、共识机制及加密算法等计算机技术在互联网时代的创新应用模式,具有去中心化、可信任、开放性、自治性、信息不可篡改和匿名性等特点[16],为用户隐私数据保护提供了解决方案。
(2)统计分析中的算法运用。针对聚类分析的数据保护方法,采用DPk-medoids算法[17],它可以保证信息窃取者在获取某一段数据集之外无法利用其他数据记录;云计算中的运用是基于格的隐私保护聚类数据的挖掘方法[18],如PPk-means扩展并丰富了数据挖掘的应用场景,提升了图书馆用户数据挖掘维度;通过项集的布尔集合关系识别,在保护原始数据隐私的前提下挖掘出频繁序列模式任务[19]。
(3)数据感知系统。用户信息挖掘与量化的智能量化分析系统,通过感知系统的传输(如RFID技术设备等),处理、分析用户行为数据中的基本特征,在数据运算中生成哈希函数,针对用户的私钥对哈希函数进行签名,生成智慧链上的交易行为数据,再进行二次加密,针对用户的公钥对密钥加密,形成消息发送给读者[20]。
3 结 论
智慧服务已经成为图书馆发展的必由之路,通过不断引入新智能服务技术,图书馆力求在具体的管理和服务建设当中把相应的理论研究付诸实践,而关于用户数据的挖掘与保护问题业已成为图书馆所需面对和解决的问题。当下,图书馆的数据驱动停留在OLAP阶段,融合其他挖掘算法和主动采取措施来规避数据使用风险,如将数据中的敏感信息“匿名化”、“模糊化”等,是可以解决的。
作为智慧图书馆的建设者,在提高对用户数据挖掘与使用技能水平的前提下,以服务育人为本,有意识地保护用户的数据安全,提升用户体验,对用户负责,这对图书馆的智慧化发展具有深远的意义。
参考文献:
[1] AITTOLA M,RYH?NEN T,OJALA T. SmartLibrary-Location-Aware Mobile Library Service [C]//Human-Computer Interaction with Mobile Devices and Services.Udine:Springer,2003:411-416.
[2] 陈丹,罗烨,吴智勤.基于大数据挖掘和用户画像的高校图书馆个性化服务研究 [J].图书馆研究与工作,2019(4):50-53+ 59.
[3] 王卫霞.基于用户数据挖掘的图书馆图书采访决策模型研究 [J].图书馆学刊,2017,39(10):1-4.
[4] 张坤,王文韬,谢阳群.机器学习在图书情报领域的应用研究 [J].图书馆学研究,2018(1):47-52.
[5] 陆颖隽.我国图书馆虚拟现实应用及研究述评 [J].图书与情报,2017(5):120-127.
[6] 陈定权,王孟卓.我国图书馆RFID的十年实践探索(2006~2016) [J].图书馆论坛,2016,36(10):16-24.
[7] 陆康.高校图书馆数字资源统计系统建设研究 [J].现代情报,2015,35(9):140-145.
[8] CLAUDIO T,SOUSA P J,ARNALDO J. User Profiles in Organizational Environments [J].Campus-Wide Information Systems,2008,25(3):128-144.
[9] 百度百科.聚类分析 [EB/OL].[2020-11-19].https://baike.
baidu.com/item/%E8%81%9A%E7%B1%BB%E5%88%86%E6%9E%90.
[10] 董毅智律师.互联网泄密事件大盘点 [EB/OL].[2020-11-19].http://baijiahao.baidu.com/s?id=1568296966262267&wfr=spider&for=pc&qq-pf-to=pcqq.c2c.
[11] 桂暢旎.欧盟《通用数据保护法案》的影响与对策 [J].中国信息安全,2017(7):90-93.
[12] 姚万勤.防范人工智能法律风险应把握好三个重点 [N].人民法院报,2019-01-28(第2版).
[13] 陆康,刘慧,任贝贝,等.智慧图书馆用户数据隐私保护研究——基于《中华人民共和国网络安全法》和《一般数据保护条例》的文本启示 [J].图书馆理论与实践,2020(3):17-21.
[14] 梁晓辉.中国2020年将制定个人信息保护法、数据安全法 [EB/OL].(2019-12-21).http://news.cyol.com/content/2019- 12/21/content_18292661.htm.
[15] 赵天昀.数字图书馆个性化信息服务中用户隐私保护研究 [J].图书馆理论与实践,2018(2):101-103.
[16] AZARIA A,EKBLAW A,VIEIRA T,et al. MedRec:Using Blockchain for Medical Data Access and Permission Management [C]//2016 2nd International Conference on Open and Big Data (OBD). Vienna:IEEE,2016:25-30.
[17] 高瑜,田丰,吴振强.基于差分隐私保护的DPk-medoids聚类算法 [J].计算机技术与发展,2017,27(10):117-120+125.
[18] 崔一辉,宋伟,王占兵,等.一种基于格的隐私保护聚类数据挖掘方法 [J].软件学报,2017,28(9):2293-2308.
[19] 方炜炜,谢伟,黄宏博,等.基于隐私保护的序列模式挖掘 [J].计算机科学,2016,43(12):195-199.
[20] 梅振荣,裴丽.基于区块链的智慧图书馆用户隐私保护 [J].中华医学图书情报杂志,2019,28(2):55-59.
作者简介:李慧(1991—),女,汉族,助理工程师,硕士,研究方向:影视传媒。