大数据驱动时代新一代数字图书馆系统优化研究
2019-11-04赵强
赵强
关键词:大数据;数字图书馆;系统;优化
摘 要:文章从资源价值密度、数据检索难度两个方面介绍了大数据驱动时代数字图书馆面临的挑战,分析了数字图书馆系统涉及的数据获取、数据建模、数据分析等关键环节以及相应的系统优化技术,分析了基于静态优化、缓存优化、引擎优化技术的数字图书馆系统优化技术,并提出了新一代数字图书馆系统的优化策略,以期提升大数据时代背景下新一代数字图书馆系统的服务质量。
中图分类号:G250.76文献标识码:A文章编号:1003-1588(2019)09-0065-03
1 大数据驱动时代数字图书馆服务面临的挑战
1.1 提高数据资源价值密度的要求
大數据驱动时代数据的作用日益凸显,全球数据容量持续增加。大数据本身是异构分布的,海量数据资源的传播加大了用户获取有价值信息的难度,多样化的数据标准也容易产生“数据孤岛”,影响数字图书馆对可用信息的筛选和挖掘。同时,很多数字图书馆仅关注对静态资源的使用,缺乏开发动态数据流的有效方法,难以适应大数据驱动的智慧服务需求[1]。此外,大数据环境下用户需求激增,使数字图书馆的数据存储成本增大,面临能耗控制、质量保障等挑战。因此,数字图书馆要想满足用户需求,就必须对碎片化数据进行处理,从中挖掘更多可用的信息,提升数据的价值密度和可用性。
1.2 海量数据增加检索难度
大数据驱动时代数字化资源呈几何级增长,数字图书馆所采集的数据资源主要包括用户个人信息、阅读行为数据、物联网应用数据等,尤其是智能设备和社交媒体的应用更是产生了大量碎片化信息,对这些资源进行整合需借助可靠的技术工具。大数据纷繁复杂,大多存储在信息服务商的数据库中,数字图书馆未与这些机构建立数据共享机制,因此不能对这些数据进行价值挖掘、编目及维护。同时,由于数字图书馆缺乏对网络资源进行智能化处理的能力,也增加了大数据检索的时间与复杂程度。因此,海量数据处理要求数字图书馆改进存储设备和方式,在降低存储成本的基础上逐步提高数据存储和管理的有效性[2]。
1.3 数字图书馆系统优化升级的要求
数字图书馆是存储和传播信息的场所,也是开展社会教育、提升公众素养的平台。随着移动信息技术的发展,各种新型数据传播载体大量涌现,数字化资源逐渐占据主导地位,虚拟化空间成为社交的主要场所。人们获取知识的渠道日益增多,信息服务的智能化也成为大势所趋。作为存储和传播文献资源的数字图书馆,全新的信息服务环境对其服务的专业化要求越来越高。因此,数字图书馆优化服务系统、深化数据应用服务、促进信息共享成为必然[3]。数字图书馆要强化数据存储和处理意识,提高大数据处理能力,从整体上提高自身的服务水平和质量,为更多的用户提供优质的服务。
2 大数据驱动时代数字图书馆系统涉及的关键环节
2.1 数据获取
数字图书馆系统对数据资源进行处理,先要采集用户行为信息和馆内流通日志,然后从各大社交论坛或网页抓取用户访问数据,也可与企业、网络公司合作获取其内部数据,以保障数据的完整性。由于不同的数据库服务商和网络运营机构所提供的数据应用与访问程序存在差异,因此,为了避免系统不兼容的问题,数字图书馆应使用网络爬虫技术针对不同的网页与资源特点,自动从互联网进行数据搜索与攫取,并传输至本地服务器进行分析。对于涉密文件或重要资源,数字图书馆可以使用专用的系统接口,将其直接传输至本地服务器进行存储,避免多向传输引发数据丢失的风险。
2.2 数据建模
数字图书馆在获取大规模数据资源后,需对这些数据进行预处理,并根据数据特点建立合适的模型进行计算、分析与深入挖掘。由于采集的数据多是异构及碎片化的,因此数字图书馆只有通过预处理清洗不必要的数据,留下符合要求的数据,并将这些数据转化为系统可以理解的格式,才能进行分析。经过预处理后,数字图书馆需将非结构化数据转化为结构化数据,将其存储在关系型数据库中,并做好数据分类整理工作[4]。由于数据类型的差异,预处理方式也有所不同,部分数据需要进行解析与格式转化,而对于规模较大的非结构化数据资源,数字图书馆则需要采用非关系型数据库进行存储,避免出现数据的无序化。
2.3 数据分析
数字图书馆系统获取数据的方式主要是利用设备安装管理程序,针对不同数据库的管理权限实现对数据的自动采集分析。对于没有管理权限的数据库或网络系统,数字图书馆可采用模拟访问的方式掌握远程系统的访问状态;对于大规模异常数据的处理,如系统日志、硬件状态信息等,数字图书馆可借助预警监控、内部监控程序等对获取的数据资源进行实时跟踪,若发现不良情况就及时通过内部邮件和系统提示等方式告知图书馆管理者。根据不同类型数据的特点,数字图书馆系统可以通过批量处理、流处理和交叉分析等方式进行处理,并将处理结果以折线图、分析报告等形式发送至客户端,方便用户浏览与理解。
3 大数据驱动时代数字图书馆系统优化技术研究
3.1 静态优化技术
数字图书馆系统在大数据处理过程中通常需要读取大量的动态页面,并将其转化为静态数据加以处理。这样的操作方式有利于数字图书馆实现对静态数据的分类与索引,减少访问数据库的步骤,缩短采集时间,提高系统的数据处理效率[5]。为了更好地发挥系统的静态数据处理性能,数字图书馆需做好首页静态化处理,对不同的静态模块进行整合,并在后台进行分类配置。其中,Velocity技术具有较强的静态处理能力,数字图书馆可以利用该技术自动生成与数据对象相关的静态化页面,并以对应的ID进行命名,省去后台数据存储的步骤,实现对查询信息的实时定位。
3.2 缓存优化技术
数字图书馆系统中存在大量缓存数据,包括内存数据、文件类数据等,引入缓存优化技术可以实现对这些系统数据的直接读取,减少对数据库的访问频率,提高数据访问速度。数字图书馆系统访问动态网页时数据资源繁杂多变,涉及多种查询参数。这就需要数字图书馆依托文件缓存优化技术对原始数据进行复制,并赋予连续的内部文件存储空间,方便在数据查询时直接指向缓存数据,以减少中间处理环节,当缓存资源较多时可以先将其存储于硬盘,然后导入内部存储器,这样可以缩短应用程序访问内存的时间。
3.3 引擎优化技术
大数据驱动时代,数字图书馆本身拥有结构复杂、规模大、检索要求高的数据服务环境。为了更好地满足用户需求,数字图书馆可以引入引擎优化技术,提高服务系统检索模块的响应速度和分析能力,强化系统的兼容性和拓展性,支持不同的数据平台结构,更好地为大数据处理与服务奠定基础。数字图书馆可将搜索管理平台、网页爬虫技术与查询索引器等相结合,设计出能够满足读者个性化需求的大数据检索引擎。在该检索引擎中,网页爬虫技术对动态网页内容进行周期性自動获取,建立不同数据的导航索引,自动存储、调取和推送各类数据信息;搜索管理平台负责收集用户信息,分析他们的实际需求;查询索引器则用于检索用户查询关键词,自动调取用户所需资源。
4 大数据驱动时代新一代数字图书馆系统优化策略
4.1 建立大数据资源整合平台
大数据资源整合是将来自于不同网页、不同系统和不同机构的数据集成在统一的数据平台,创建具有多种服务功能的应用系统的过程。数字图书馆建立大数据资源整合平台,需采用多层次的系统架构,结合大数据服务需求设置对应的功能模块,使平台具有较强的耦合度和拓展能力,有助于为用户提供多元化服务。其中,数据管理层对大数据资源进行管理、维护与控制,并为用户提供数据获取接口[6];数据处理层依据数据清洗和过滤规则,保障大数据资源的完整可用性,进一步提升数据的价值密度;数据整合层对经过处理的数据进行规则解析、读取和整合,并将经过转换的数据存入数据库;数据资源层由多种数据存储设备、数据应用系统和数据库构成,是数字图书馆大数据的主要来源。
4.2 实现对数据资源的统一语义管理
数字图书馆存储的海量数据并非孤立存储于各个数据库,而是要实现语义融合,促进跨学科、跨系统的交流合作,提高数据的使用价值。数字图书馆可利用语义网技术对数据资源进行语义标注,通过语义链接和语义分析将其转化为系统可以理解的语义对象,揭示不同数据之间的关系,形成庞大的语义知识网络,这不仅可以消除“数据孤岛”,还可使大数据的价值倍增。例如,数字图书馆可将文献资源与读者、出版社、会议、研究项目等结合起来,利用语义技术发现不同数据间的关联,通过语义识别、描述、标注和分析,形成多种类型知识交叉融合的知识图谱,为数字图书馆的细粒度智能信息检索提供支持。
4.3 重视收集处理用户反馈信息
数字图书馆对系统进行优化升级,目的在于更好地满足用户需求。因此,数字图书馆只有重视用户对系统的反馈建议,及时与用户交流互动,掌握用户在系统应用过程中的体验,分析他们提出的问题,才能有针对性地进行改进。数字图书馆可在系统服务界面设置用户反馈专区,方便用户提出评价和建议,也可根据用户数据发现其不满意的地方,有针对性地对系统进行改进或再造。例如,华盛顿大学图书馆在服务系统运行过程中,对本校师生利用系统获取信息的情况进行综合评估,并根据用户反馈信息对发现的问题进行技术讨论,最终有效完成了系统的优化升级工作。
5 结语
综上所述,数字图书馆应分析现有不足,全方位整合用户行为数据,积极联合网络运营商等引入适宜的系统优化技术,逐步深化大数据挖掘工作,进一步拓展服务内容和服务范围,更好地满足广大用户的需求。大数据驱动时代数字图书馆面临机遇和挑战,应充分利用各类新技术优化服务系统,制定合理的系统优化策略,形成符合大数据环境的新一代数字图书馆服务体系,促使数字图书馆得到更好的发展。
参考文献:
[1] 夏立新,白阳,张心怡.融合与重构:智慧图书馆发展新形态[J].中国图书馆学报,2018(1):35-49.
[2] 柳益君,何胜,熊太纯,等.大数据挖掘视角下的图书馆智慧服务:模型、技术和服务[J].现代情报,2017(11):81-86.
[3] 马捷,赵天缘,王思.高校智慧图书馆功能结构模型构建[J].情报科学,2017(8):56-61.
[4] 马晓亭.基于大数据决策分析需求的图书馆大数据清洗系统设计[J].现代情报,2016(9):107-111.
[5] 刘桂锋,卢章平,化慧.图书馆大数据知识服务生态体系及其动力机制研究[J].国家图书馆学刊,2016(3):52-60.
[6] 刘成山,李玉,王洁良.大数据在图书情报领域的研究现状及趋势分析[J].情报理论与实践,2016(4):20-26.
(编校:徐黎娟)