APP下载

学术大数据环境下高校图书馆馆藏资源的知识发现研究

2019-06-05

图书馆学刊 2019年3期
关键词:馆藏数据挖掘学术

杜 君

(齐齐哈尔大学图书馆,黑龙江 齐齐哈尔 161000)

大数据这一概念是继云计算之后覆盖社会各领域的又一热点,可以被看作是数字化时代的升级版本,意为融合移动互联网、物联网、云计算等多种科技信息技术的环境,具有智能化、泛在化的特点,进一步造就了全新意义的数据传播方式,使不同媒介之间的界限更加模糊,促进了资源的交流与互通。与此同时,伴随知识经济时代的到来,人们对知识的渴望越来越强烈,高校图书馆作为重要的知识服务机构,有义务承担起知识服务的社会职责。实际上,数据的发现和挖掘是知识发现的前提与基础,在大数据环境下,高校图书馆的知识发现主要基于本馆的馆藏资源,同时与网络上的学术资源进行互联,将价值较高的学术资源纳入知识发现系统中,丰富高校图书馆知识发现服务的资源基础。因此,大数据与高校图书馆知识发现服务之间存在着必然联系,数据处理技术的进步在一定程度上决定着高校图书馆馆藏资源知识发现服务的过程与效果。

1 学术大数据环境下高校图书馆的转型机遇

高校图书馆馆藏资源以学术资源为主,学术资源的建设趋向数字化和网络化,通过数据传播的方式推动高校师生学术研究进一步向社会延伸,逐步向公众提供学术数据支持。在这样的背景下,学术大数据环境为知识发现服务的创新提供了支撑,高校图书馆学术资源建设从过去单一领域向交叉领域深入融合,信息的构建也呈现全方位和多角度的特点。

1.1 实现以数据平台为纽带的学术科研交流

基于学术大数据平台,作者与高校图书馆学术数据库之间可以进行双向选择。一方面,大数据的编辑模式可以综合多种信息源,了解到学术领域的热点问题和前沿情况,进一步了发现作者的研究领域和已有的学术成果,对学术期刊的作者有一个前期的综合评价,进而聚焦其研究重点,进行有针对性的选题与组稿,对其学术研究数据进行深度挖掘[1]。另一方面,大数据的双向流通特点也给予了作者选择学术资源库的权利,社会化的学术资源编辑模式,使作者能够了解到更多类型和专业指向的资源库平台,可以选择与自己研究课题匹配度较高的学术资源库平台发布其科研成果,扩大其学术研究的流通范围,并进一步寻求协作研究目标,促进学术研究成果的有效转化。由此构成了以学术大数据为基础的作者与高校数据库之间的科研流通路径,进一步丰富高校图书馆学术馆藏资源的学科领域与数据类型,为其开展知识发现服务奠定良好基础。

1.2 加强高校图书馆学术资源建设与大数据技术的融合

高校图书馆学术馆藏资源需要结合大数据技术进行精细的数据挖掘与整合。高校图书馆依托大数据技术,以知识发现服务与读者阅读需求为指引,结合学术馆藏资源的内涵与特征,构建起集合大数据处理体系、数据分析系统、过程管理系统等技术在内的集成式知识发现服务平台,实现学术数据的广泛传播与面向读者用户的精准化嵌入式有效知识服务,从而提高高校图书馆学术馆藏资源知识发现工作的成效。

1.3 以学术期刊为纽带的大数据全产业链和发展路径

高校图书馆应用大数据的分析、组织、存储、获取等新技术,创新对馆藏资源的构建,加快了以学术期刊为主的全媒体出版进程。大数据环境的一个特点在于网络平台延伸服务的广泛性,尤其是媒体时代的来临,进一步推动了数据的交流与传播,高校图书馆学术期刊的知识发现服务可以与媒体环境相结合,推出云出版、网络出版、信息定制等知识发现和资源推送服务,丰富图书馆知识发现的内涵[2]。同时,高校图书馆可以此为契机,搭建以学术期刊为纽带的人才对接、产学研合作平台等,适应大数据时代对学术期刊的新要求,增强高校图书馆学术资源的附加价值。

2 高校图书馆知识发现服务的应用

高校图书馆馆藏资源的知识发现服务分为数据准备阶段、数据挖掘阶段和结果评估阶段。数据准备阶段是建设学术数据资源的过程;数据挖掘阶段结合读者的知识需求对数据进行整合与关联,是知识发现服务的核心环节;结果评估阶段则指将知识发现成果以可视化的直观方式展现给读者。

2.1 数据准备阶段

在学术大数据环境下,学术数据呈现出爆炸式增长,数据类型也越来越复杂。在数据准备阶段,高校图书馆主要是对馆藏数据进行全面的梳理和建设,解决知识服务中数据的有效识别问题。受高校图书馆馆藏资源学术数据密集研究范式的影响,知识发现研究成为对已有的数据进行处理,进而达到知识发现目的的一种过程性服务手段,而非为了实现一个研究目的而寻找实验数据的指向性服务方式[3],这就要求学术数据的构建要尽量覆盖全面和多样化,这在高校图书馆知识发现服务的数据准备阶段尤为重要。

2.2 数据挖掘阶段

数据挖掘阶段是高校图书馆进行知识发现服务的关键环节,主要解决数据的集合、关联、聚类等问题。在此过程中与大数据技术紧密结合,应用了大量的数据统计学和计算机自动化数据识别技术,充分保证馆藏资源中的学术数据是有效的、可理解的。同时,根据读者知识获取的实际需求,采取相应的技术方法(如遗传算法、神经网络等),优化知识发现产品的质量,最大程度符合学术数据与读者需求的匹配要求。总之,数据挖掘阶段实现的成效直接影响到高校图书馆学术数据知识发现服务的效率和精准度,将多学科理论进行交叉和数据挖掘,针对多源异构数据采取适合的数据处理技术,实现学术数据的纵深整合,是知识发现研究领域的研究重点。

2.3 结果评估与解释阶段

结果评估与解释阶段是指高校图书馆将知识发现服务成果展示给读者用户的过程,同时也是检验知识发现服务工作成效的反馈环节。数据准备阶段和数据挖掘阶段是高校图书馆针对学术期刊数据进行处理,并不与读者用户直接发生关系,而结果评估与解释阶段是将数据处理的结果以可视化的方式展示给读者,直接与读者产生联系,读者对高校图书馆知识服务的感受在很大程度上反映了前两个阶段的工作成效。因此,这一环节既可以看作是学术大数据环境下高校图书馆知识发现服务的应用终端,也与前两个阶段形成反馈机制,起到促进知识发现服务技术与数据处理方式创新完善的作用。

3 高校图书馆馆藏资源知识发现服务的总体设计

基于上述对学术大环境和高校图书馆馆藏资源知识发现服务的分析,笔者认为,高校图书馆要将其知识发现服务的重难点放在数据的整理方面,提高核心数据竞争力,深度挖掘学术数据间的内在关联性,打造内容全面的、丰富的学术资源数据库,服务于读者用户的知识发现需求。因此,笔者构建了如下高校图书馆知识发现服务模型。该模型自上而下分为界面展示层、知识发现处理层和数据资源层3个层次,根据每个层次的功能,结合学术大数据的环境特征,可从整体上提高图书馆基于大数据技术的知识发现服务效率。下文将对每一个层次的构建内容进行详细设计。

图1 学术大数据环境下高校图书馆馆藏资源知识发现服务的总体设计

3.1 数据资源层设计

数据资源开发利用是高校图书馆馆藏资源知识发现工作的基础,为数据的编码和计算提供条件。如图1 所示,数据资源层从各数据源中集成资源,收录到学术情报数据库中,形成结构化的查询语言系统(简称SQL)[4]。一般来说,高校图书馆学术数据库的建设会直接影响到知识发现服务的效率,从目前的高校图书馆数据库构建情况来看,比较成熟的学术资源数据库种类有关系型与非关系型两种。关系型的数据库更多地采用表型结构存储数据,更加符合读者用户的资源获取需求,从操作便捷性和知识发现结果匹配性来看,关系型的学术数据库更有利于强化数据关联、深化数据挖掘,其流程为“确定分析目的→确定研究范围→收集情报”,从而形成完整的知识发现服务链。然而,在学术大数据环境下,由于数据数量十分庞大,数据的结构也十分复杂,这使修改数据库表结构较为耗时,尚存在改善的空间。

3.2 知识发现处理层设计

知识发现处理层的功能是针对数据资源层的数据资源进行深度挖掘和关联,通过数据处理技术进行数据的整合与情报编码,使海量数据进行有规律的排列。如图1 所示,在高校图书馆馆藏资源知识发现服务的处理层中,主要分为3个功能的模块:第一,制定编码体系,通过文本预处理、专业述评词典、停止词词典和同义词词典将数据资源进行归类;第二,编码功能,通过中文分词、去停止词、合并同义词、特征选择与文本量表示,对学术资源进行规范性的编码处理,便于知识发现的内部数据关联与结果输出;第三,数据分析功能,通过相似度算法与聚类算法等数据处理方法,实现情报串联和自动聚类的学术资源知识发现成果。

3.3 界面展示层设计

学术大数据环境下高校图书馆馆藏资源知识发现服务的界面展示层包括两个部分:外观界面与可视化分析。外观界面是指读者用户获取知识的操作系统,有利于实现用户与图书馆之间的互动交流,是图书馆获取读者反馈的重要平台。可视化分析则指展现出学术资源知识发现的成果,属于知识发现服务成果输出的环节,可视化分析有利于准确地表达知识发现与资源匹配的具体信息,既有利于提高用户学术知识获取的效率,也有利于协助图书馆情报人员更好地处理情报[5]。

4 学术大数据环境下高校图书馆开展馆藏资源知识发现服务的有效策略

在学术大数据环境下,高校图书馆的学术资源知识发现服务要着力加大数据挖掘力度,发现知识资源内隐含的价值和数据间的关联,这是知识发现的内涵所在,也是实现资源价值重组的关键步骤。结合读者用户的个性化学术知识需求,笔者提出以下几点知识发现服务策略。

4.1 加强大数据技术在高校图书馆学术数据资源库中的应用

高校图书馆知识发现的目的是从馆藏资源数据中抽取出有意义的知识,不同的数据挖掘技术和算法的应用,导致同样参数条件的数据检索成果大不相同。因此,高校图书馆要通过反复调试,加强数据聚类、挖掘、分析等技术在高校图书馆学术数据资源库中的应用,充分挖掘学术数据内隐含的价值,对学术资源数据库进行深层次的探讨,保证读者在知识发现服务中能够得到相对满意的结果,提高高校图书馆知识发现服务的成效。

4.2 打造具有影响力的集成式知识发现平台

我国高校图书馆学术资源应用的最大困境在于缺乏有影响力的平台,导致学术资源的孤岛现象[6]。从宏观层面来说,大数据环境具有数据共享和交流的特点,旨在促进数据的广泛传播,而现实情况却是各高校图书馆“各自为营”,即便在本馆内加大学术数据资源开发力度,但其前提也仅局限在本馆的学术数据资源支持上,缺乏与其他图书馆或学术情报机构的合作交流,难以形成覆盖范围广、学科领域丰富的集成式学术数据资源库。因此,依托学术大数据的环境与理念,高校图书馆应该打造集数据处理、数据分析、数据交互等功能于一体的广泛的知识发现平台,促进学术数据资源的馆际互通。例如与学术机构进行项目合作,利用数据关联规则引入相关度等指标,开发出检索范围广泛、功能齐全的数据挖掘平台。

4.3 提高高校图书馆学术数据的知识发现效率

高校图书馆学术资源的知识发现服务平台建设,一方面要确保学术资源数量的充足,另一方面也要重视学术资源的质量,并对学术资源进行知识间的关联与挖掘,为读者提供可操作的知识发现服务平台。同时,高校图书馆要充分考虑到数据对象的多样化,在知识发现成果的呈现方式上也要有所创新,如非结构化的图像、视频、音频等,丰富高校图书馆学术数据知识发现形式,提高高校图书馆学术数据的知识发现效率。

5 结语

在学术大数据环境的影响下,高校图书馆知识发现服务的范围得到拓展,从学术数据的开发利用角度看,高校图书馆要主动更新数据处理方式,加大数据挖掘、整合与关联的力度,为读者用户提供个性化、多元化和智能化的知识发现服务,充分体现出数据时代的便捷性和高效性特点,为读者用户的知识获取提供强有力的保障。

猜你喜欢

馆藏数据挖掘学术
改进支持向量机在特征数据挖掘中的智能应用
学术是公器,不是公地
馆藏几件残损《佚目》书画琐记
云南省档案馆馆藏《东巴经》
学术动态
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
博物馆的生存之道:馆藏能否变卖?
对学术造假重拳出击
软件工程领域中的异常数据挖掘算法