基于大数据的图书馆异构数据整合机制研究
2015-12-14马晓亭
马晓亭
〔摘要〕数据整合对提高图书馆的数据处理与共享能力,进而提升数据有效性、可用性和优化决策等能力有重要意义。本文提出了一种基于大数据的图书馆异构数据整合机制,该机制可提高图书馆大数据的利用效率,并有助于实现图书馆的信息资源整合。
〔关键词〕大数据;图书馆;异构数据;整合机制
DOI:10.3969/j.issn.1008-0821.2015.08.010
〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2015)08-0047-04
大数据时代已经到来。图书馆通过对所采集的海量数据进行存储和分析,实现了对读者阅读行为、情绪、习惯和服务需求的精确测量,制定出符合读者服务需求、兴趣和阅读习惯的服务策略、产品,能够为读者提供基于大数据的个性化阅读服务。目前,图书馆数据环境已具备海量(Volume)、多样(Variety)、快速处理(Velocity)、高价值(Value)的大数据4V特征。随着数据总量和数据结构复杂度的快速增长,如何通过数据整合来消除图书馆大数据资源不同来源、不同结构和不同定义格式等异构性,提高数据的价值密度、可用性、可控性、共享性和使用经济性,已经成为图书馆应重点关注的问题。
1图书馆大数据整合的需求与挑战
11大数据整合可有效弱化图书馆IT系统的多样性
首先,随着物联网、云计算、移动互联网、传感器和多媒体阅读终端等技术的发展,图书馆数据中心的管理系统、服务系统和用户阅读终端设备,呈现出多平台架构、多接口类型、多数据模式和多标准规范的特点,导致信息系统之间相互独立和信息孤岛呈现多维度特性。同时,大数据资源存在过度冗余存储和数据不一致现象,使数据难以访问、查询、处理和分析,不能满足图书馆大数据阅读服务的分析和决策需求。其次,众多的图书馆用户服务系统分别构建于不同的时期,系统的结构模式、技术标准和管理方法差异性大。且不同系统之间存在集成度低、互联性差、运行平台不统一和信息管理分散的特点,严重影响了大数据的完整性、精确性、可用性和实时性。第三,图书馆复杂、多样的管理与服务系统,大幅增加了大数据资源的采集、存储、挖掘、整合、分析和决策应用难度。
12大数据整合是图书馆提高云服务效率的保证
通过自建私有云或租赁云服务商服务的方式,为读者提供安全、高效、经济、快捷的云阅读服务,已成为图书馆云服务平台构建的主要模式。
云计算环境下,图书馆通过和云服务商签署云服务租赁协议的方式,由云服务商借助网络以按需、易扩展的模式,为图书馆提供所需的云计算服务,图书馆根据服务的内容、质量和云资源使用量支付相应的费用。随着云计算技术在图书馆管理与服务应用中的深入,云服务成本在图书馆运营总成本占据的比例将不断上升。因此,如何通过数据整合有效降低大数据资源的数据总量和提高大数据价值密度,已成为关系如何降低图书馆云计算服务总成本和提升云服务收益率的关键。其次,在减少大数据存储冗余度和数据总量的前提下,图书馆还可通过数据整合来增强大数据的关联性和因果性,以此降低大数据分析过程对云计算平台性能、云资源和应用实时性的需求。第三,大数据整合也是将云计算技术与读者需求相整合,将图书馆大数据资源变成大服务资源的重要途径。
13数据整合是图书馆大数据分析与决策可靠的保证伴随大数据技术的发展,图书馆对读者阅读行为、阅读模式、社会关系和阅读活动反馈信息的采集将更加广泛与深入,将导致大数据的来源和类型复杂化,数据总量也呈现级数激增和价值密度大幅下降的趋势。同时,大数据的分析过程也会对图书馆技术人员的水平和数据处理平台性能提出更高要求。因此,如何通过对大数据资源的清洗、集成和整合,不断增强图书馆大数据资源的价值密度、可用性、可控性和应用经济性,已成为提升图书馆大数据平台运营效率和降低平台运行成本的关键。其次,对大数据资源的有效整合,也是关系图书馆完全挖掘、开发大数据价值,精确识别读者服务需求、个性化特征、阅读习惯,准确定位读者大数据服务场景,以及优化配置图书馆大数据服务系统资源的重要因素。第三,图书馆大数据资源具有海量、多源、异构和多类型的特点,而大数据整合过程是降低数据复杂度、消除数据异构性、提取数据价值和发现数据关联的有效途径。
14数据整合可消除大数据的分布异构性
为了分担用户服务负载和保证读者阅读活动的效率、质量、时效性,图书馆通常会根据读者群分布状况,在世界不同地域建设若干个子数据中心,依据地理位置就近的原则为读者提供大数据阅读服务。在读者大数据资源的采集中,位于不同地理位置的子数据中心在对大数据的采集、处理、分析和决策中,会由于数据具有较强的地域性面导致大数据的价值、应用效率下降。因此,如何实现位于世界不同地理位置的子数据中心数据资源的整合,是图书馆增强大数据应用整体效率和提升服务总体质量的关键。此外,图书馆大数据资源的分布异构性,也是导致数据多样性、非结构化、数据孤岛和数据采集质量等问题突出的根源,而数据整合正是有效解决这些问题的可靠方法和途径。第三,在长期的图书馆建设与用户服务过程中,图书馆自身积累、存储了海量的元数据资源。由于历史和现实等原因,不同的图书馆子数据中心在元数据的采集、处理、存储和应用过程中,通常会采用各自不同的元数据标准和软硬件平台,会导致元数据在大数据应用过程中存在语义上的异构和互操作性差等问题。
15数据整合是提高大数据阅读服务质量的保证
大数据时代,图书馆通过监控服务器、网关、嵌入式传感器、RFID(Radio Frequency Identification,射频识别)芯片、视频采集设备和阅读终端等设备,采集与读者阅读活动相关的信息和数据。这些大数据资源主要由文本、图片、视频等结构化和非结构化数据组成,并以每年40%的速度增长,是图书馆大数据决策和读者个性化服务的主要依据[3]。endprint
大数据时代,随着科技的发展和读者阅读需求的提高,图书馆之间的服务竞争已由传统IT环境下依赖数据中心基础设施性能、人力资源、数字与纸质图书资源消耗,转变为依靠大数据制定图书馆差异化服务战略,为读者提供个性化服务的综合能力竞争。因此,对大数据资源的有效整合,是图书馆减少服务业务质量波动、提升读者满意度和增强市场竞争力的保障。此外,服务即时性也是关系读者阅读愉悦感的一个重要因素。图书馆可通过对大数据的高效整合,提升大数据分析的实时性和决策即时性,为读者提供安全、实时、经济和交互的个性化推送服务。
2图书馆大数据资源整合方案与策略
21图书馆大数据资源整合方案
本文设计的图书馆大数据整合方案如图1所示。该方案主要由大数据资源层、数据过滤与解析层、数据整合层和数据整合系统反馈控制层等4个功能层组成。大数据资源层主要由图书馆在读者服务过程中采集的CRM(客户关系管理)数据、服务系统运营与配置数据、读者服务过程采集数据和主数据库组成。这些大数据资源依据数据的采集来源、数据的类型、数据使用途径和方法、数据访问频率等特点,分别存储在大数据存储平台的客户关系管理数据库、系统管理数据库、服务监控数据库和主数据库等逻辑数据库中,为图书馆大数据应用提供数据存储与管理服务。数据过滤与解析层位于大数据资源层的上层,负责完成对图书馆大数据库资源的提取、数据类型与正规性检查、数据的清洗、数据的解析和准备等工作,主要目的为过滤大数据资源层数据的噪音和规范数据类型,不断提高大数据资源的价值密度和可用性[4]。数据整合层是将临时数据库中已进行预清洗与过滤的数据,通过数据源的读取、数据转换规则的解析和系统加载,将已转换的数据写入主数据库的3个步骤,才能最终完成图书馆大数据资源的整合。大数据整合系统反馈控制层,通过对大数据分析与决策过程大数据应用有效性的评估,并借助数据整合系统的反馈控制,完成对数据整合层的反馈控制、资源调度和系统优图1图书馆大数据整合方案设计图
化,不断增强数据整合层的运行效率、数据整合可用性和整合过程的可控性。此外,图书馆还应对大数据整合全程实施监控和管理,及时发现、调整、修改和完善数据整合过程中存在的问题与突发事件,保证大数据整合过程安全、高效、经济、便捷。
22图书馆大数据资源的整合管理策略
221实现数据在采集终端的过滤与整合
图书馆对用户服务过程和读者阅读活动数据的采集,主要是由传感器、视频监控器、服务器监控系统、服务器日志采集系统和阅读终端设备数据采集器等完成,该类设备具有设备类型复杂、数量庞大、数据采集即时和海量、数据传输网络负载压力大的特点。因此,如何在大数据采集终端完成对所采集数据资源的过滤与整合,是图书馆减少终端采集数据传输数量,降低数据冲突和减轻网络拥塞,提高大数据分析与决策效率、可用性的关键。因此,图书馆可对所采集的海量原始数据进行终端过滤、处理和数据整合,去除其中的冗余信息并过滤数据噪音,仅将价值高、可控性强的数据传输至大数据库存储,实现降低数据源数据采集总量、提升数据价值密度、增强数据可用性和提高数据决策实时性的目标。
222实现图书馆不同业务平台数据的整合
图书馆管理与用户服务系统是由读者管理、用户服务与应用管理、服务系统配置与运营管理、CRM管理等多个具备独立功能的子系统组成,系统之间相互独立且关联性不强,易导致数据在系统之间流动性差和产生数据孤岛现象。因此,图书馆应加强对不同业务平台系统数据的整合和价值提取。
首先,图书馆在对不同业务平台数据的整合中,应坚持整合系统支持Oracle、DB2、SQLServer、MySQL、Informix等多数据源类型数据,并且整合系统的程序接口也应支持javaApi、Hibernate数据源和WebService、 SOA等标准的数据,不断提高数据整合系统对不同业务平台数据的兼容性[5]。其次,应提升数据整合系统对不同数据平台数据之间的关联性挖掘、发现能力,可通过异构系统之间数据的关联而发现、创造新的数据价值。第三,图书馆不同业务平台数据具有海量、多结构类型、数据库存储结构固定、不易于直接分析和决策的特点。因此,应将数据的ETL(Extract-Transform-Load,数据从来源端经过萃取、转置和加载至目的端的过程)过程融入不同业务平台数据的整合中去。应将从不同数据平台抽取出的数据经过ETL过程,最终按照预先定义好的数据仓库模型将数据加载到数据仓库中去,最终提高多平台数据整合后的可分析、使用和决策特性。
223重点关注与第三方大数据平台数据的整合
大数据时代,读者个性化服务由图书馆、云服务提供商、移动通信运营商和相关政府机构等多部门协作提供。图书馆只有实现对多部门数据的全面、高效整合,才能二次发现、提升图书馆大数据资源的价值,才能更加精准地发现读者需求,才能有效提高图书馆读者服务综合收益率。例如,图书馆通过对移动运营商数据的整合与分析,可准确预测出读者在未来时间的移动路径和阅读需求、模式,精确评估出图书馆在未来时段的服务负载和数据网络传输负荷,可有针对性地制定出服务资源调度和数据传输网络管理策略,确保在未来时段不会因为读者需求的快速增长,而导致系统服务资源、网络传输效率、用户QOS(服务质量)和读者阅读活动满意度等指标大幅下降[6]。其次,图书馆应在保证政府数据安全、可用的前提下,加强与政府公共大数据资源的开放、共享和整合力度,进一步提高图书馆大数据库资源的完整性、可用性和价值量,为图书馆建设和用户服务提供宏观层面上的大数据服务支持。第三,在图书馆大数据资源与第三方数据整合中,存在着各部门业务结构相对独立、数据所有权归属、数据接口复杂和数据交换频繁的问题。因此,图书馆与第三方的数据整合,不仅要满足当前各方数据库特性、数据端口标准、大数据应用与决策的需求,还应从长远发展考虑,重点加强多方大数据集成的系统架构、数据整合能力和所采用整合技术等方面的建设。endprint
224实现大数据的安全、高效整合
图书馆大数据整合过程的安全管理,是关系读者个人隐私保护、图书馆管理与服务数据安全、第三方共享大数据资源可用和政府公共数据可控的重要保证。首先,图书馆应依据国家相关法律制定安全的大数据存储与整合策略,在坚持数据完全整合和数据价值二次挖掘、发现的前提下,保护好读者隐私和读者大数据阅读服务安全。此外,不能因为多方大数据资源的完全整合,而影响第三方服务商、政府等部门大数据资源的开放性、可用性和可控性。其次,图书馆应加强对大数据整合IT基础架构系统的安全建设与管理。同时,应依据大数据整合生命周期发展规律,做好大数据平台设备的安全管理和数据存储工作,严格控制大数据整合风险,确保不会因数据整合而影响图书馆业务的连续性和可持续发展性[7]。第三,图书馆大数据整合应重点做好数据整合与数据集中存储、整合系统的可扩展与易维护、整合过程的安全与可靠性、整合过程的经济性与成本可控性管理等4个方面的工作,保证大数据整合过程安全、高效、经济和便捷。
3结语
对大数据资源的过滤和整合,是图书馆对大数据资源价值进行二次挖掘、发现和创造的重要方式,也是图书馆增强大数据资源价值密度、提高决策科学性和提升读者阅读满意度的重要途径。在大数据资源的整合中,图书馆应采取数据层面的整合、信息层面的整合、知识层面的整合三步走原则,坚持统一数据库、统一整合程序、统一IT基础设施资源、统一数据传输网络平台、统一技术管理人员的做法,努力降低大数据的整合成本、IT基础设施硬件管理与使用成本、数据整合过程复杂度,才能保证图书馆大数据整合过程安全、高效、实时和经济,才能提高大数据资源的价值总量、密度、可用性和可控性,才能为读者大数据阅读服务提供可靠的大数据决策支持。
参考文献
王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.
姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013,(4):52-54,79.
[3]康健,左宪章,唐力伟,等.无线传感器网络数据融合技术.计算机科学,2010,37(4):31-35.
[4]史久根,张加广.基于压缩感知的无线传感器网络数据融合算法[J].计算机系统应用,2014,23(10):178-182.
[5]张杰,胡一兵,李亮,等.多传感器数据融合技术应用研究[J].测试技术学报,2013,27(6):490-495.
[6]欧石燕,胡珊,张帅.本体与关联数据驱动的图书馆信息资源语义整合方法及其测评[J].图书情报工作,2014,58(2):5-13.
[7]吴,谢树泉,王春枝.基于语义的隧联网数据整合方法[J].智能系统学报,2014,9(6):209-213.
(本文责任编辑:马卓)endprint