基于读者个性化阅读相关大数据的智慧图书馆构建研究*
2018-10-19卫中亮
陈 臣 卫中亮
(兰州财经大学信息中心 兰州 730020)
1 引言
2008年11月,IBM公司提出了“智慧地球”的概念。2009年1月,美国总统奥巴马公开肯定了IBM“智慧地球”的思路。2009年8月,IBM又发布了《智慧地球赢在中国》计划书,正式揭开IBM“智慧地球”中国战略的序幕[1]。“智慧图书馆”作为“智慧城市”的重要组成部分,伴随着世界各国“智慧地球”与“智慧城市”发展战略的制定,受到了各国学者和专家的重视。特别是近年来随着互联网、云计算、大数据、移动宽带通信技术、物联网和空间地理信息等新一代信息技术在图书馆中的广泛应用,图书馆的智慧化管理与服务模式、大数据环境、服务资源的融合方式、智慧图书馆的构建理念等也跟着发生了深刻变革。智慧图书馆构建模式与方法的科学性、效率、经济性和可行性,已成为关系图书馆管理与服务过程智慧、绿色、低碳和可持续发展关键。
IBM定义的“智慧地球”由三个维度组成:第一,能够更透彻地感应和度量世界的本质与变化;第二,促进世界更全面地互联互通;第三,在上述基础上,所有事物、流程和运行方式都将实现更深入的智能化,企业因此会获得更智能的洞察[2]。因此,在“智慧图书馆”的构建中,也应当注重三个维度的建设。首先,智慧图书馆应能够全面感知读者的阅读需求和阅读模式变化;其次,能够实现图书馆所有设备与阅读终端的互联互通;第三,基于所有设备、服务流程和读者相关阅读大数据的支持,图书馆能够实现更智能的洞察与自主学习。在“智慧图书馆”三个维度的建设中,大数据具有海量(Volume)、高速(Velocity)、多样性(Variety)、低价值密度(Value)和Veracity(真实性)的5“V”特性,可为“智慧图书馆”建设提供科学的数据决策支持[3]。此外,最早提出大数据时代到来的麦肯锡公司也表明:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”[4]。在当今大数据时代下,图书馆可通过对大数据的采集、融合、分析和决策,精准和实时地发现大数据中蕴藏的价值属性和事物关系,实现对外部服务环境的智慧感知、读者阅读需求的智慧预测、个性化服务的智慧定制、系统资源和服务安全的智慧管理,完成图书馆管理与服务模式从馆员经验决策向大数据科学决策的转变。
2 智慧图书馆与大数据的智慧决策价值
2.1 智慧图书馆的定义
2010年,IBM公司提出了“智慧的城市”愿景,认为智慧城市是由关系到城市主要功能的多类型网络、基础设施和环境等6个核心系统组成,主要为组织(人)、业务/政务、交通、通讯、水和能源[5]。“智慧图书馆”作为“智慧城市”的重要组成部分,按照其组织与系统功能的划分,它就是传统的图书馆与物联网络、云计算和智能化设备等的结合,通过物联网来实现图书馆的智慧化管理和服务。“智慧图书馆”主要由图书馆员与读者、IT基础设施服务系统、物联网基础设施、大数据中心、云计算系统、高速数据传输网络等6部分核心系统组成,可有效实现对读者需求的全面感知、服务设备与阅读终端的泛在互联、基于大数据决策的智慧服务创新、图书馆发展的可持续创新等。欧盟对“智慧城市”的功能性从6个方面进行了总结,分别是智慧经济、智慧治理、智慧生活、智慧人民、智慧环境、智慧移动性。依据“智慧城市”的功能性划分原则,“智慧图书馆”可分为智慧环境、智慧管理、智慧服务、智慧阅读、智慧馆员与读者、智慧监测等6个方面。智慧图书馆以读者为中心,通过对知识、信息、服务资源和读者进行智慧化的感知与管理,完成图书馆智慧知识服务内容、服务内涵和服务能力的实时增值,实现读者的“绿色”阅读和图书馆的可持续发展。因此,在智慧图书馆的构建中,应利用高科技实现单一图书馆知识网格的互联互通和资源的最大化重复利用,使每一个图书馆都成为全球图书馆智慧化结构的组成部分。图书馆除为读者提供传统的信息搜索和知识传递外,还应通过语义技术对服务数据进行处理和知识提取,以及依靠传感器和各种终端设备实现与读者的互联、感知,为读者提供基于大数据决策支持的个性化智慧推送服务。
2.2 图书馆大数据的组成与智慧化决策的价值
2.2.1 图书馆大数据的组成与特点
按照大数据的来源和决策对象划分,图书馆的大数据资源可分为读者阅读行为相关数据、图书馆知识服务数据、业务流程数据、IT基础设施设备运行与管理数据、传感器网络与阅读终端数据、第三方服务商共享数据等。这些数据具有大数据的5“V”特性,是图书馆对服务环境智慧感知、所面临服务风险的智慧预测与防御、读者阅读需求的智慧分析、读者个性化服务内容的智慧化定制与推送、服务系统资源的动态与智慧优化、图书馆可持续科学发展的重要决策依据[6]。
麦肯锡发布的《大数据:创新、竞争和生产力的下一个前沿》报告指出,全球有将近 87.5%的数据并未得到真正的利用[7]。因此,如何提升图书馆大数据的可用性是关系大数据决策科学性的重要因素。首先,随着图书馆服务模式多样化和服务内容的快速增长,其大数据的数据总量与数据价值呈现几何级数增长,而大数据的价值密度和可用性则呈现快速下降趋势,大幅度增加了大数据价值提取和智慧决策的复杂度。其次,伴随云计算和计算机集成制造技术的快速发展,数据中心对大数据的处理速度与存储能力已不再是决定图书馆数据决策科学性的最关键问题,而大数据处理的方法及算法的科学性与正确性,才是关系图书馆智慧决策正确性、实时性和可用性的最关键因素。第三,图书馆大数据具有数据类型多样的特点,其非结构化与半结构化数据占据大数据总量的85%以上,且随着大数据复杂度的提升,非结构化与半结构化数据占据大数据总量的比例还将进一步提升,这对图书馆大数据系统的数据处理能力和处理方法提出更高的要求[8]。第四,如何通过有效的大数据噪声过滤、数据融合和数据相关性分析,来提高大数据的价值密度、完整性、精确性和可用性,也是关系图书馆大数据决策科学性、准确性和实时性的重要问题。
2.2.2 从读者相关大数据中可精准感知用户的阅读需求与行为
随着读者阅读需求的快速增长和图书馆服务模式多样化的变革,图书馆原有的服务生态系统和客户关系也发生了巨大的变化。如何通过对大数据价值的挖掘和科学分析,全面掌握读者的客户属性、行为特征、价值分层、阅读需求和服务标准,已成为智慧图书馆构建和读者阅读质量评估的重要因素。首先,图书馆可将大数据科学分析与决策结果运用到读者阅读活动生命周期管理的全程中,完全、动态、实时、准确地与读者进行智能化感知和交互,动态掌握读者阅读需求和兴趣的变化趋势,完成读者个性化阅读服务的智慧定制、优化与实时推送,实现图书馆服务从传统的馆员“经验”决策向大数据“科学”决策转变。其次,图书馆可通过大数据分析实现读者客户价值的定位与评估,按照读者价值评估结果进行客户分级、客户结构优化、个性化服务定制、服务风险预警、CRM系统决策、服务满意度评估、读者忠诚度保证等,并依据“二八定律”科学分配系统的服务资源和提升20%关键客户的阅读收益率,最终实现图书馆综合服务收益和读者阅读满意度的全面提升。第三,对读者阅读行为相关大数据的高速、即时采集与分析,可保证图书馆实时跟踪读者阅读兴趣、需求、方式和收益率的变化趋势,并对服务资源、服务策略和服务内容推送方式进行调整与完善,有效提升图书馆服务的智慧化和自动化水平。
2.2.3 实现图书馆个性化服务内容的精准推送与资源均等化分配
2004年10月,美国《连线》杂志主编克里斯·安德森提出长尾(Long Tail)理论,指出:商业和文化的未来不在热门产品,也不在传统需求曲线的头部,而在于需求曲线中那条无穷长的尾巴[9]。将长尾理论应用到图书馆的服务中,就会发现如果图书馆希望大幅度提升其服务收益,则必须转变其将读者划分为若干个特定用户群,并为每个特定用户群中的海量读者提供无差异化服务的传统做法,而是在服务中应强调读者阅读的“个性化”需求、“客户力量”和“小利润大市场”,通过为每个独立个体定制个性化服务来提升个体读者的服务收益,最终通过海量读者个体收益的叠加而实现综合收益的大幅提升。因此,图书馆可通过对读者相关阅读大数据的采集、分析与决策,以及阅读服务内容的个性化精准定制、推送与优化,来提升图书馆的综合服务收益。
2.2.4 应有效保护读者智慧阅读中的隐私数据
2013年6月,前中情局职员爱德华·斯诺登爆料美国国家安全局有一项代号为“棱镜”的秘密项目,要求电信巨头威瑞森公司必须每天上交数百万用户的通话记录。同时,在过去6年间,美国国家安全局和联邦调查局通过进入微软、谷歌、苹果、雅虎、Facebook、PalTalk、美国在线、Skype、YouTube等九大网络巨头的服务器,监控美国公民的电子邮件、聊天记录、视频及照片等秘密资料,此事件引发了人们对政府利用大数据分析侵犯公民隐私的担心[10]。因此,对图书馆服务有效性与读者阅读收益而言,服务的安全性与读者隐私保护的有效性,也是关系图书馆服务可靠性和读者阅读收益率、愉悦感的重要因素。
目前,我国民法还没有把隐私权确立为一项独立的人格权,只是借助司法解释并通过保护名誉权的方式来维护公民的隐私权,采取的是间接保护方法。大数据时代,非法用户可能会通过对读者的个体特征数据、阅读行为数据、移动位置数据、社会关系数据等海量强相关大数据进行不间断的采集、处理、分析和决策,而准确地预测和发现读者的思想、行为,并进一步威胁和侵犯读者隐私。因此,智慧图书馆应具备对自身服务过程与内容可靠性,以及对读者个体数据的隐私性与使用安全性评估的能力,并依据读者阅读活动和其它行为隐私保护的需求,智慧、动态地调整读者相关大数据采集、存储、处理、分析、决策应用的内容、方法和程度,才能保证图书馆服务安全、高效、可靠和可信。
3 基于用户相关大数据的智慧图书馆服务平台构建与管理
3.1 建设安全、高效的大数据价值发现与大数据融合系统
在海量、复杂、多样性、低价值密度的大数据环境下,提升图书馆大数据采集、融合、信息挖掘、知识发现和数据决策的能力,既是增强图书馆大数据的价值总量、可用性、经济性和可控性的前提,也是确保智慧图书馆构建科学、高效,以及智慧服务精确、个性化、实时和动态优化的必要保证。依据智慧图书馆构建对大数据价值、可用性和决策相关性的需求,本文构建的图书馆大数据采集与融合处理系统如图1所示:
图1 图书馆大数据采集与融合处理过程流程图
图书馆大数据具有海量、多样性、低价值密度和数据环境复杂的特点,且大数据总量呈现指数级增长。过多高噪声、低价值和不相关的大数据,会影响大数据分析与决策的科学性、精确度和可用性,进而降低大数据决策结果在智慧图书馆建设中的应用效率和可靠性。因此,图书馆首先应依据智慧图书馆建设的目标、功能和特点,以及大数据采集、处理、分析、决策和应用的内容,定义智慧图书馆建设中对大数据初始需求的对象、内容、范围与格式,并制定科学、高效的大数据管理方案。其次,在大数据的采集与获取流程中,图书馆应通过部署视频监控设备、传感器网络、服务器监控设备、阅读终端监控器、可穿戴设备和第三方服务商数据共享的方式,完成对智慧图书馆构建强相关大数据的完全采集。第三,在大数据的管理与深层加工环节,图书馆应通过数据的清洗与脱敏、数据的价值与可用性评估、数据融合、数据价值的二次发现与增值、数据的分析与处理等操作,大幅度提升大数据的价值密度、可用性和可控性,并通过数据的标准化处理有效规范图书馆大数据模式,为智慧图书馆的构建提供安全、准确、高价值、高可用和标准化的数据决策依据。
3.2 基于读者相关大数据决策的智慧图书馆服务平台构建
图书馆对服务环境与服务对象感知的完全性,以及决策大数据的数据价值总量、价值密度、相关性和可用性是关系图书馆大数据决策科学性的关键因素。此外,大数据分析系统的性能、效率和实时性,以及大数据决策支撑平台的运行效率和可用性,也是保证图书馆大数据智慧决策科学、高效、经济和可执行的重要因素。因此,本文在基于读者相关大数据决策的智慧图书馆服务平台构建中,重点加强了大数据感知层、数据管理层、数据分析层、系统平台层和智慧应用层等5个关键系统平台的建设,以此提升图书馆大数据智慧决策系统的科学性、实效性、经济性、相关性和可用性。本文设计的基于大数据决策的智慧图书馆服务平台系统架构如图2所示:
图2 基于大数据决策的智慧图书馆服务平台系统架构
感知层是智慧图书馆服务平台系统的最底层结构,由智能手机、阅读终端、RFID(射频识别)、传感器、互联网络、无线网关、视频监控设备等组成,主要负责对图书馆服务环境、设备运行、读者阅读行为与位置信息、数据中心服务器、网络数据等进行自动感知和数据采集。感知层对相关大数据采集的完全性、价值总量、数据源广泛性和决策相关性,直接关系到智慧图书馆建设和服务内容定制、推送的科学性与正确性[11]。
感知层采集的大数据经通信网、物联网和互联网络传输至数据层,数据层将感知层传输来的大数据按照结构化与非结构化类型存储。此外,数据层通过数据库的配置管理、存储管理、元数据管理、安全与审计管理等,过滤大数据中的噪声信号和实现数据的融合,以提高大数据存储、读取、管理和传输的效率与安全性。
分析层是面向图书馆建设、读者阅读需求和业务场景的,主要对由数据层传输来的实时流数据与历史批量数据进行价值挖掘与分析,并将所发现的数据价值转换成知识与智慧,为智慧图书馆建设和读者智慧阅读服务提供科学、即时的大数据决策支持。此外,为了保证分析层具有较高的系统资源利用率、安全性和分析结果可读性,系统管理员必须重点加强大数据分析模型的科学性、系统设置的合理性、系统资源分配的公平性和分析结果展示的可读性建设,以此确保分析结果准确、高效、实时和动态优化。
依据图书馆智慧决策系统的构造和智慧服务平台的功能划分,平台层主要由互联网技术应用中心、通信应用与管理中心、大数据中心等3部分组成,主要为智慧图书馆的构建、管理、服务推送、服务质量保证、智慧决策结果的动态优化,以及大数据的智慧决策结果的科学性、可用性、经济性和可控性等,提供互联网技术应用、数据传输与服务、数据的处理与分析等方面的技术支持与服务保障。
应用层是图书馆智慧服务平台系统的最顶层结构。它是智慧图书馆服务平台系统与管理员、读者,以及各种智慧应用程序、管理软件和网络之间的应用接口,其功能是直接向图书馆管理员、读者和应用系统提供智慧的管理与服务。基于平台层的大数据智慧分析与科学决策结果支持,应用层完成了图书馆的智慧决策与管理、服务资源智慧管理、智慧服务、智慧阅读环境管理、智慧阅读、智慧安全管理、智慧数字图书馆建设、智慧监控与报警等操作,不断提升着图书馆的综合智慧管理、智慧个性化服务与系统资源智慧优化能力。
3.3 图书馆大数据智慧决策平台构建与管理涉及的关键问题
3.3.1 必须将大数据的质量与安全管理贯穿于大数据生命周期管理全程
图书馆大数据采集的全面性与决策相关性,以及大数据的价值总量、可用性和安全性是关系大数据决策科学性、正确性的关键,因此,必须将大数据的质量与安全管理贯穿于图书馆大数据生命周期管理全程。
首先,大数据采集的范围应包括图书馆服务系统管理与运营、用户服务定制与推送、读者阅读活动、读者社会关系、图书馆服务环境感知、用户服务质量评估、服务系统运行效率与安全性管理等环节。同时,图书馆大数据的采集设备应坚持多样化和标准化的原则,采用IT设备与网络监控器、传感器、视频监控器、阅读终端数据采集器、个人智能数字终端和第三方数据共享等多模式相结合的原则,才能实现大数据的全面、无缝和不间断采集,才能有效扩展图书馆大数据的数据来源和价值总量。其次,要建立统一的大数据管理平台。将大数据的清洗、处理、脱敏、存储和可视化展示流程放在图书馆大数据平台中统一调配与管理,不断提升大数据管理的科学性、开放性和系统资源分配的合理性,才能确保大数据的价值总量、可用性、实时性和可控性能够满足图书馆大数据科学决策的要求[12]。第三,图书馆依据国家法规制定相应的大数据采集、传输和应用安全规范的同时,还应构建基于端对端的数据安全保障体系,特别加强对数据开放、交换访问接口、数据共享、用户隐私权保护、数据存储与读取等环节的安全管理,才能保证图书馆大数据资源安全、可用和不被侵犯。
3.3.2 大数据应用平台应实现统一系统架构和自动化部署
随着读者阅读需求的快速增长,图书馆的服务模式呈现多样化发展趋势,所采集的大数据具有海量、高速、多样性、低价值密度和真实性的特点。目前,图书馆每天产生的服务器日志、监控视频、读者阅读活动、用户推送服务、系统监控与配置等数据已达到2个P的体量,传统的数据存储、处理与应用平台已无法满足智慧图书馆对大数据应用的高效需求。因此,必须采用科学的方法来构建新型的大数据应用平台系统组织架构和应用部署方式[13]。
在大数据应用平台架构的设计与组织中,图书馆应坚持与下游的数据采集、数据传输平台系统,以及与上游的大数据决策、应用系统采用统一数据的接口和系统集成方案。大数据应用平台建设应坚持开放和独立的原则,才能保证平台的系统结构可依据图书馆大数据的分析、决策需求而动态扩展,并具备较强的软硬件系统兼容性和较低的系统运行故障率。其次,大数据应用平台为图书馆不同的部门、人员、业务和系统单元提供服务,这些服务对象与业务对大数据平台系统资源有不同的优先级别和时效性需求,如果将系统资源平均分配,将会导致系统资源利用率下降和使用成本上升。因此,管理员必须依据图书馆业务的优先级别、时效性、系统资源总量、现有业务处理实际情况等,通过系统任务的自动分配、部署和系统资源的动态分配,优先将系统资源分配在图书馆关键任务和对图书馆综合服务收益率影响较大的业务上,才能提升图书馆的整体服务效率与性能[14]。
3.3.3 图书馆智慧服务决策应以读者为核心
图书馆利用物联网、互联网、云计算和大数据等技术,对读者相关大数据进行采集、传输、处理、存储、分析和决策,不但完成了对读者个体行为、爱好、需求的完整自画像,而且实现了读者阅读需求、阅读方式、阅读环境的智慧感知和信息交互。为了提升服务效率和综合服务收益率,图书馆必须依据“二八”法则对读者的用户价值量进行分析与平台,依据读者的价值量进行个性化服务的智慧定制与推送,才能实现读者阅读满意度和图书馆服务总体收益的共同增长。图书馆可通过构建读者价值评估模型、用户阅读收益和满意度评估模型、客户流失评测模型、服务风险预警模型等,并将所采集的读者大数据传输至上述模型进行实时、关联分析,准确发现影响图书馆服务收益、读者阅读收益和用户满意度的关键问题与服务风险,通过对图书馆服务策略的动态优化与智慧防控,将服务风险管理由事后完善变为事前预防。
图书馆智慧服务的另一个重要指标是读者个性化服务的精准定制与推送。Amazon有句名言:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书”[15]。图书馆可通过构建读者行为大数据分析与需求预测模型,将读者的阅读历史数据、阅读社会关系数据、地理位置与移动路径数据、阅读行为数据等发送至模型,依靠模型对大数据的价值进行挖掘与实时分析,可准确发现读者的阅读需求及其动态发展规律,并依据大数据决策结果来定制、推送、评估和优化图书馆服务的内容和推送方式,最终实现传统IT环境下用户服务定制的“经验主义”模式向大数据时代的“数据科学决策”模式转变。此外,图书馆还应将数据深度挖掘、系统自主学习和人工智能等新技术运用到大数据应用中去,在提升图书馆构建、管理与服务智慧水平的前提下,不断降低大数据的决策成本和增强决策结果的科学性与可用性。
3.3.4 数据分析效率与数据正确性是大数据分析的核心问题
在智慧图书馆的构建中,如何提升多数据源采集数据的相关性,以及实现读者数据与传感器采集数据、多类型传感器采集数据之间的关联分析,是图书馆全面挖掘大数据隐匿价值和实现数据价值的二次增值,也是有效提升图书馆基础设施与用户服务智慧水平的核心问题。
图书馆大数据的价值与可用性具有较强的时效性,是随着时间的变化而动态变化的。依据大数据产生、价值发现、数据决策和价值总量递减的发展规律,大数据分析也可根据数据时效性划分为元数据的采集与加工、数据价值的发现与提取、大数据分析等三个过程。在这三个重要过程中,图书馆应重点关注两个方面的内容:一是如何确保分析系统对大数据的透明、无缝和实时访问,以及如何通过对大数据的动态决策来保证决策结果的智慧性与实时可用性;二是随着图书馆业务复杂度和服务质量标准的提升,图书馆大数据分析平台的系统模块总量、结构复杂度、数据管理难度、平台应用成本也将呈现快速增长态势,因此,为了提升大数据平台的可管控性和降低管理成本,图书馆应采取多平台和系统模块单点集中式管控的方式[16]。此外,还应增强图书馆的数据融合、数据知识发现、数据分析和数据决策结果的实践指导能力,全面提升大数据分析结果在智慧图书馆建设与服务推送中的科学指导水平。
4 结语
作为智慧城市的重要组成部分,智慧图书馆不受空间限制、同时又能够被读者切实感知。它是智能建筑与现代科技的完美结合和创新,使读者摆脱了传统图书馆在时间、地点、阅读模式和内容上对用户的束缚,可让读者在这个智慧体系中享受自由、快乐的阅读。在当前众多智慧图书馆的构建模式中,基于读者相关大数据决策的智慧图书馆构建模式通过多样性的感知与数据采集设备,实现了图书馆对外部服务环境、读者、管理和服务的不间断、完全感知;通过对感知大数据的处理、分析和决策,科学、准确地预测和分析了图书馆的外部服务环境、内部组织结构、读者阅读需求的动态变化趋势。并依据大数据分析结果制定科学、高效、经济和可控的图书馆管理与服务策略,实现了图书馆服务收益和读者阅读满意度的最大化。
在智慧图书馆的构建中,大数据的完全性、准确性、实时性、经济性和可控性既是保证图书馆大数据决策科学性的前提,也是保证图书馆智慧性的必要条件。因此,图书馆大数据决策应重点加强原始数据到元数据、元数据到信息、信息到知识、知识到智慧这4个重要数据生命周期环节的数据质量保证,坚持图书馆大数据决策以读者需求和图书馆业务驱动为中心的原则,统一大数据采集、传输、存储和应用的标准与格式。同时,在图书馆内部全面消除“信息孤岛”和“数据壁垒”现象,坚持大数据分析与决策开放、共享、公平和经济的原则,才能确保大数据决策结果在智慧图书馆建设与智慧服务推送中科学、高效、经济和可控[17]。此外,还应将大数据应用摆在关系图书馆智慧发展战略决策的层面,实现大数据价值在图书馆建设、服务中的二次增值与升华,并将大数据决策结果与当今高新技术相结合,才能提升图书馆的智慧管理与智慧服务水平,才能为读者提供高效、低碳、个性化和可控的智慧阅读服务。
(来稿时间:2017年10月)