大数据架构下的高校图书馆资源与服务建设研究*
2014-02-11秦嘉杭
秦嘉杭
(南京财经大学图书馆,江苏 南京 210046)
1 前言
大数据源于虚拟网络的迅速发展和现实世界的快速网络化。“大数据”具有规模性、多样性、高速性和有价值(value)等特点。大数据数量巨大、类型繁多,处理和传播速度呈倍数级提高。在大数据环境下,高校图书馆用户需求更加个性化与专业化,传统的电脑以及掌上电脑、手持阅读设备、高清电视、手机等都可以用于存取、定位、传递泛在图书馆提供的信息、服务。在大数据背景下,高校图书馆要以用户为中心,针对不同类型的资源,构建不同的资源建设及服务策略。
2 结构化资源服务建设
结构化资源是指存储在数据库,可以用二维表结构来逻辑表达实现的资源。典型的如图书馆图书录入数据与借还数据及电子资源利用数据等。在大数据环境下,传统的结构化资源服务发生了变化。随着文献类型和信息传递方式的多元化发展,图书馆为读者服务的方式向多元化延伸,最大限度地满足读者的个性化、专题化、特色化、社会化以及开放性、多样性、综合性服务需求。随着远程访问与数字资源的广泛利用,读者的学习与阅读习惯已发生很大改变,读者对传统纸质图书的依赖下降,对电子资源的需求量越来越大。图书馆应合理配置电子资源比重,加大资源共享共建力度,构建移动数字资源服务体系。
2.1 合理配置资源比例,满足读者日益增长的普适性与个性化需求
在大数据环境下,电子资源的利用率越来越高。高校图书馆应遵循整体规划、统筹安排、保证重点、兼顾一般的原则进行文献资源建设,既要保证高校各学科文献的系统发展,又要适当向重点学科和新专业的倾斜。提高电子资源比重,合理配置各类型电子资源比例。电子资源配置坚持高品质,内容覆盖重点学科、重点专业,兼顾其他专业。有机结合高校学科前沿的重点需求和面广量大的普遍需要采选电子资源,重点选购具有权威性、学术价值和利用价值较高的各类数据库。密切配合学校优势学科建设,按照学校学科建设和人才培养的需求,精心选择、合理配置中外文数据库,构建学科完整、内容权威、注重质量、彰显特色、细化层次、使用便捷的高校数字资源体系,以有效地满足读者日益增长的电子资源需求。
2.2 加大资源共建、共享、共知力度
在大数据环境下,馆际互借、文献传递、资源共享是馆藏资源的必要补充,也是现代图书馆的发展方向。各高校图书馆之间,需要在合作共建的基础上,采用现代网络通讯技术及时互通有无,根据用户需求,及时进行原文的互相传递,同时为来馆的各类读者服务。南京地区的南京航空航天大学、南京理工大学、南京农业大学、南京林业大学、南京体育学院五校图书馆以无缝馆际合作来促进资源共建、共知、共享[1]。以成员馆的共享资源作为馆藏资源的延伸和扩展,为读者的需求提供资源保障。
2.3 构建移动数字资源服务体系
大数据环境具备“可移动”的特征,这种“可移动”的特征表现在普通用户和读者可以不必依赖于PC机即可实现数字资源的浏览、下载和阅读。用户和读者可通过手机、MP3/MP4、PDA等手持阅读器以及笔记本电脑等移动阅读设备浏览、下载、阅读和欣赏数字资源。移动阅读作为数字阅读的深化应用阅读形式,克服了需要电脑、网络以及固定位置才能进行数字阅读的限制,极大地满足了读者数字阅读的需要。利用读者移动设备的短信、彩信等技术功能与图书馆OPAC系统对接,可实现点对点的信息服务。移动数字资源服务平台的开通,对有预约的图书,可实行图书催还,缩短图书的周转期,对于提高图书利用率具有重要作用。通过构建基于大数据与泛在知识环境的移动数字资源服务体系可实现四大功能:与OPAC系统的集成,实现纸质馆藏文献的移动检索与自助服务;与数字资源门户集成,实现电子资源的一站式检索与全文移动阅读;与共享云服务体系集成,实现馆外资源联合检索与文献传递服务;构建读者信息交流互动平台,实现公告信息发布与读者个性化服务定制。
3 半结构化与非结构化资源服务建设
伴随着社交网络、移动图书馆、物联网等兴起,诸多非结构化与半结构化知识与信息涌现出来[2]。无论在图书馆资源建设过程中,还是高校学科建设过程中,半结构化与非结构化数据大量产生。在资源建设过程中,高校图书馆要对读者的关注点进行分析,如关注用户查询书目产生的OPAC日志,用户借还书产生的流通日志,用户检索、浏览、下载电子资源产生的日志,用户访问产生的流量数据,读者的检索历史、检索时间段、检索关键词、借阅文献、借阅时间等信息,这些都表现为用户信息非结构化和半结构化的数据[3]。同时,高校在学科建设过程中也积累了大量的非结构化和半结构化的数据。针对用户和学科建设的内在需求,图书馆有必要构建半结构化与非结构化资源库。
3.1 建立基于用户需求的非结构化与半结构化知识库
读者非结构化与半结构化知识具有不易获得性、情景嵌入性、难言性、个性化等特点,使得读者非结构化与半结构化知识的获得与发现不同于结构化知识,需要充分利用读者的借阅历史记录,观察读者的借阅行为,并建立畅通的读者非结构化与半结构化知识获取与整理平台,包括网络互动平台和面对面交流的物理互动平台。其中,物理平台更有利于非结构化与半结构化知识的发现。同时可以通过知识生产源如网络博客或出版商与读者直接交流的互动平台获取读者非结构化与半结构化知识。开发利用读者非结构化与半结构化知识,建立读者信息与使用知识库。通过读者的自身参与非结构化与半结构化知识库的建设,不仅有利于读者自身的非结构化与半结构化知识转化为结构化知识,同时也体现了个性化知识库建立的特点,使图书馆非结构化与半结构化知识库更加满足读者的需求。
3.2 构建基于学科建设的非结构化与半结构化知识库
在大数据环境下,随着网络化的发展,高校图书馆在学科资源建设上要改变以前那种“大而全,小而全”的观念,了解和掌握高校学科与重点学科的学术队伍状况,通过对网络信息进行分析、筛选、编辑、整理,构建基于非结构化与半结构化知识的学科信息平台。通过学科信息平台,将学科网络导航、学科发展最新成果、国内外相关学科排名及研究动态信息、学科专题、学科专家创建的博客和国内外相关学科学术会议等学科资源进行整合,建立非结构化与半结构化的专业学科网络导航库和专题数据库。同时,可以按学科对资源进行组织,建立具有本馆特色的数据库及虚拟专业化馆藏。构建图书馆与一线用户的服务链,将众多分布和异构的文献信息资源与服务有机组成无缝的服务体系,形成统一的非结构化与半结构化学科信息资源整合服务平台。该平台主要涵盖以下两方面内容:其一是专业上的非结构化与半结构化知识。某个专业的专家掌握着某专业领域大量的知识内容,包括前沿知识的发展背景、文献综述、研究现状、最新成果、研究重点、研究难点等问题,在此基础上对专业上的非结构化与半结构化知识进行深入研究,提出创新的观点,在知识服务中完成有预测性、建设性的报告。其二是技能上的专业上的非结构化与半结构化知识,包括那些非正式的、难以表达、难以掌握的技能、技巧和诀窍等。Masters曾指出“专家技能的特征涉及具有自动的、不费力气的、隐性性质的功能”。同时,也可以对图书馆员在资源检索、查询与分析等非结构化与半结构化知识进行显性化,共同构建立学科非结构化与半结构化知识库。
3.3 非结构化与半结构化数据的组织与服务
在大数据环境下,由于数据的异质、异构、半结构化、非结构化等特征,大数据知识组织与服务需要解决大数据的获取、组织、分析与处理等几个关键问题。首先,需要从非结构化信息中获取不同主题内容的集成 (如用户支持和内容分析等)、异构数据的集成、异构格式(文本、图像、视频、音频等)、不同层次(原始数据、集成数据、整合数据),对大数据进行抽取与集成,经过关联与聚合之后采取一定的组织结构来存储这些数据。在大数据与泛在知识环境下,需要通过有机组织来构建一个以用户为中心,协作的、分布的、多层次、多语种、多媒体、语义关联的知识服务网[4]。应该充分利用现有条件,挖掘潜力,改善基础设施,提高对大数据的分析和处理能力。通过聚类分析技术、数据挖掘技术、网络分析、可视化分析、索引与查询技术、数据分析技术、数据融合与数据集成技术对图书馆大数据进行分析。需要清晰地看到,目前这研究技术更多的是针对结构化数据进行聚类分析、共现分析等[5]。而对于半结构化数据与非结构化数据来讲,还有待于进一步探索。在大数据处理上,目前,Hadoop是最为流行的大数据处理平台。大数据知识服务体现了智慧化、协作化、泛在化等特点,是一种基于网络的用以解决结构化、半结构化及非结构化数据多维度处理的知识服务新模式,嵌入了泛在化知识服务模式的新理念,是现代信息服务理念的具体体现[6]。在大数据与泛在知识环境下,大数据知识服务需要注意以下三个问题:大数据的异构性、大数据的质量控制、大数据的隐私问题。数据的异构性会出现变化,数据类型渐渐转为结构化、半结构化与非结构化三者的融合。另外,对大数据的质量控制也是一个值得注意的问题,需要清洗一些干扰数据,避免信息垃圾的泛滥。同时,也应高度关注和重视大数据的隐私问题,由于数据具有关联性与累积性,隐私数据的暴露需要有效控制[7]。
4 结束语
在大数据环境下,读者的学习与阅读习惯已发生较大改变,传统的资源服务构建策略已难以适应新环境,需要注重分析读者内在需求,扩大知识服务的覆盖范围。对大数据的分析、提炼与处理将成为新时代环境中高校图书馆的重要业务,应确立与大数据资源分析和处理相关的知识服务标准,注重用户的隐私。
[1]王宇宁.南京五高校建图书馆文献共享联合体[EB/OL].[2014 -05 -26] .http://ah.people.com.cn/n/2012/0423/c227156-16968313.html.
[2]张计龙.大数据驱动图书馆业务应用与服务创新[J].上海高校图书情报工作研究,2013(3):1-6.
[3]姜山.大数据对图书馆的启示[J].图书馆工作与研究,2013(2):52-54.
[4]欧阳剑.泛在信息环境下图书馆信息资源组织探讨[J].图书情报工作,2011(19):68-72.
[5]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.
[6]秦晓珠,李晨晖,麦范金.大数据知识服务的内涵、典型特征及概念模型[J].情报资料工作,2013(2):18-22.
[7]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):147-169.