大数据技术在图书馆数据中的应用研究
2020-03-04邓鸿飞周优军
邓鸿飞,周优军
(1.广西财经学院,广西 南宁 530003;2.广西科技师范学院,广西 来宾 546199)
0 引言
图书馆馆藏一般由图书、电子图书、在线期刊、研究论文、会议记录、研讨会论文、机构知识库等组成,包括专门为研究学者和其他用户提供信息需求的信息格式。数据在信息和知识领域的不断增长,使得大数据分析成为必要[1]。在这种情况下,图书馆从业人员迫切需要知道如何转换、评价,并以信息或知识的最终形式呈现给用户。传统的数据库管理系统难以处理复杂的图书馆数据,因此需要大数据技术进行分析和处理[2],然而作为图书馆从业人员,虽然在管理此类数据方面有许多有效的技术,但对于使用元数据来组织数字资源,如何使用大数据和云计算技术等工具的研究并不多。
1 大数据与图书馆
“大数据”是当今最流行的术语之一,医院、企业、高校、银行等都在收集所谓的“大数据”。研究人员收集的常规数据类型是严格结构化的,例如输入到具有特定行和列的电子表格中的数据。然而,大数据集可能包含非结构化数据和不同类型的数据。近年来,大数据研究的重要意义已经得到了充分的认识,大数据技术使人们能够从数据中获得更深入、更有价值的见解,并作出更及时的决策[3]。存储和分析大数据的硬件和软件成本较低、可用性强,这使得大数据技术引起了包括图书馆在内的许多用户的兴趣。
图书馆的大数据工作也非常重要,因为图书馆数据需要转化为信息或知识,然后供用户使用。因此,大量的研究工作都在探索图书馆大数据的问题和可能性,这样做的最终目的是利用这些数据提供新的有用服务或提高效率。如果只考虑库中的静态集合,可能很难将其与大数据关联起来。此外,数据库管理系统应该能够存储和处理图书馆数据,基于大数据的定义,不需要像分布式系统这样的大数据技术来分析图书馆中的数据。
1.1 数据组织复杂
一般来看,图书馆中的图书、期刊等数据组织得很好,因为用户可以使用类别来查找所需的内容。对于那些存储在图书馆中的研究数据,情况却不同。图书馆中的数据较为凌乱,研究人员习惯于通过自己的认识来组织数据。这些数据通常由项目管理,一旦项目完成并发表文章或报告,研究数据往往会封存起来。
1.2 无标准数据格式和数据
研究数据往往缺乏标准和格式,虽然一些学科可能已经创建了数据标准,但由于在大多数学科中,诸如政治和社会研究等强大的集中式数据仓库,常常不存在数据标准,特别是对于那些个性化的研究,即每个研究者定义了对项目重要的参数。数据格式是另一个问题,研究人员使用他们自己的格式来收集数据,即使对于同一个研究人员,不同的数据格式也可能用于不同的项目,这给集成这些数据带来了困难。
2 图书馆大数据存在的主要问题
数据库中存在的数据无疑是一个大数据,但它不同于其他数据领域。在数据处理、转换、分析和表示方面会存在问题。图书馆大数据应用的技术可能与其他领域不同,以下罗列出了一些图书馆数据和大数据共有需要解决的问题。
2.1 缺乏数据分析师
数据分析师不仅需要统计学和计算机科学的技能,还需要领域知识和协作能力的技能。因此,图书馆员面临的挑战是大数据信息的管理能力,当前看来,短期培训似乎不足以掌握所需的技能[4]。
2.2 采用大数据的能力
大数据来自各个领域,然而很多服务单位还没有做好准备。研究表明,目前有一半以上的机构由于缺乏人员和平台而无法处理大数据。图书馆大数据的研究发展甚至比其他学科要慢得多,其关键原因在于,数字图书馆往往是一个自成体系的组织单位。
2.3 成本问题
虽然越来越多的人理解使用大数据分析的巨大好处,但是需要像分析服务器、高性能计算服务器这样的较大投资。由于预算的缩减,大多数图书馆管理部门似乎还没有将大数据摆上桌面。由于人力成本较高,项目管理的研究数据较少受到重视。多年前产生的大量研究数据仍然是相似的,这些资源的数字化不是一项简单的任务,需要大量的时间。
2.4 技术挑战
大数据涉及捕获、存储、处理和呈现数据等技术,图书馆中的数据有不同的类型,可能有不同的表象,一些数据正在等待数字化;另一方面,大量数据往往包含一些无效数据或错误数据,正确地剔除这些数据需要一些工作。由于研究数据类型和格式的异构性,将其集成成为一项非常困难的工作。许多类型的研究数据在其原始状态下的可用性比在其执行了过滤器、算法或其他处理之后的可用性要低得多。此外,由于大量数据的可访问性,可能会出现新的系统入侵风险,丞待解决。
3 图书馆大数据的应用
图书馆除了存储数据、索引数据及运行查询这些传统功能外,还可以提供更多功能。例如利用图书馆的大数据,可帮助学生为一个项目进行统计,帮助研究人员有效地管理大数据集。在图书馆中,可以实现2个方面的数据挖掘:一是使用图书馆中存储的数据;二是使用用户使用图书馆服务过程中收集的数据。图书馆员面临的新概念和挑战是对大数据的强大分析,大数据是一种信息揭示工具,它以不同的方式呈现数据,并帮助用户挖掘他们真正想要的信息。
3.1 数据驱动决策
图书馆能够采用数据挖掘技术和文本分析来优化馆藏内容,实现更精准的搜索结果,定向推送资源与实施人性化服务,充分有效利用图书馆资源[5]。
3.2 新数据格式
资源共享是图书馆的重要目标之一。联机计算机图书馆中心一直致力于根据重新格式化的图书馆数据实现外部链接,可以在Web上实现交互,库数据可以成为链接数据。
3.3 数据标准化和数据建模
从单个作品中,可以很容易地提取出合作作者、引文、地理位置、日期、命名实体、主题分类、机构隶属关系、出版商和历史流通信息的关系。
3.4 用户行为研究
利用大数据技术可以记录和跟踪图书馆用户的活动,并将这些数据存储在大规模的数据存储中,然后进行数据分析,其结果可用于潜在地改善整体用户体验和用户对图书馆服务的满意度。
4 结语
新兴的大数据领域在所有学术领域都产生了巨大的影响,并有望在包括信息科学在内的各个学术领域,图书馆学和信息科学的其他潜在技能培养领域包括高强度性能计算、先进的统计和计算方法、虚拟现实系统、多样性格式数据管理、数字保存和管理等。图书馆可以使用大数据技术来填补服务空白,为研究人员创建值得信赖的数据库。此外,存储和处理的数量已经增加了图书馆数据的复杂性,这项工作只能由数据科学家来完成,而不是传统的图书馆员。研究数据的增长速度非常快,越来越多的研究者希望将收集的数据作为一个整体,以新颖的方式挖掘和组织信息。大数据为图书馆员提供了科学发展的另一个里程碑,使他们能够在快速变化的信息环境中进行自我提升和发展。