以大数据传输角度探析我国图书馆服务系统的应用发展研究
2019-12-19黄葵
黄葵
[摘要]近年来,信息科技的快速发展使得图书馆逐渐开始面临被边缘化的威胁,传统的图书馆所面临的挑战也越来越多,互动缺失、价值质疑、吸引力危机以及技术困惑等都是其所面临危机的主要表现。然而,不可否认的是,新技术的应用也会使得大数据环境下图书馆服务更加丰富、更加多元化。大数据时代我国图书馆面临着一些主要问题,针对这些问题,借鉴国外图书馆关于大数据推进的实践,从人才、资源、技术、服务和管理这五个方面对我国图书馆大数据推进及应用的基本架构做了详细具体的分析,以期为相关研究提供一定的参考意见,进而促进我国图书馆服务系统在大数据时代下的应用和发展。
[关键词]大数据传输;图书馆服务系统;应用和发展
[中图分类号]G25 [文献标识码]A [文章编号]2095-3437(2019)12-0193-03
数据挖掘和云计算等信息技术随着社会经济的发展而不断发展,这使得大数据在社会经济和生活中所发挥的作用越来越不容小觑。2012年以来,大数据这一话题就再也没有离开过相关业界人员的眼球。大数据是IT行业中一种非常重要的核心技术,可以毫不夸张地说,大数据的存在和发展状况无时无刻不牵动着世界的神经,与之相关的数据人才也因此变得炙手可热。相关研究显示,在新形势下,国内的图书馆将遭遇又一次冲击,新技术困惑、吸引力危机、互动缺失、被边缘化等都是这次冲击的主要体现。而如何处理和利用这些海量增长的数据文献、怎样探索出新管理模式和新服务途径等都应当是大数据时代下我国图书馆服务系统的关键研究趋势。相关学者提出,在未来发展过程中大数据将给云图书馆的管理形势与服务模式等带来创造性和革命性的变化,哈佛大学图书馆服务系统对大数据的引进和应用也向世界各国证明了其巨大的应用价值。但是,就目前而言,大部分图书馆管理员对大数据这一概念还是比较模糊的。
一、我国图书馆在大数据时代所面临的主要问题
当前大数据尚未形成标准统一的概念。在图书馆里,被波及的第一战场就是读者的数据分析、用户行为的智能预测以及知识服务的技术等。然而,就当前的状况来看,我国绝大多数图书馆所应用的大数据技术尚未能满足相应的要求,其所产生的效果甚至还不如传统图书馆挖掘数据的水平。当大数据与图书馆结合时,很有可能带来如下几个困惑。
大数据的网络环境适应问题。在处理上亿、上万亿这样大量的非结构化数据时,传统数据处理技术往往难以满足数据应用的需求。海量、多变的数据使得原有IT结构与基础设备无法承受,影响了正常的工作运营,从而使得海量数据被毫无预兆地漏掉,这些数据本身具有的作用也没有得到相应发挥。因此,在大数据的网络环境下,图书馆不得不面临技术瓶颈、人才困境以及基础设施落后等问题。从当前我国图书馆运营的现状来看,绝大多数图书馆高级人才都十分匮乏。虽然数据在不断增长,但是图书馆管理员的数据分析能力却在不断降低,他们既不能清楚地认识那些可能是机会的数据,也不能高效地处理和转换数据。与此同时,其所配备的技术设备仅仅只能够满足图书馆结构化资源的需求,这对图书馆非结构化数据的存储与应用提出了新的挑战,尤其是在各种软硬件的基础设施方面,要求更高。
文献资源整合问题。2011年麦肯锡所发布的大数据研究调查报告提出,在全世界中有87.5%左右的数据尚未得到真正的开发使用。绝大多数的数据资源只是简单的聚集在一起,尚未形成真正意义上的知识源。在大数据时代下,图书馆不仅仅要面对图书馆馆藏资源的持续增加、信息资源被闲置等问题,还需要不断应对用户持续提升的检索需求。这些调整都使得图书馆需要正面重视图书馆管理与资源利用的挑战。如何才能在海量文献资源的基础前提下,让读者更为快速地获取有效信息,如何才能在不打破用户习惯的基础上研制出更为精准的检索方式,如何才能有效地将“拿进来”与“送出去”有机结合起来,真正打造出以用户为核心的“知识喷泉”等,这些都是图书馆在文献资源的整合过程中非常难解的课题。
传统图书馆异构数据集合问题。传统数字图书馆中涉及的数据结构与类型都十分单一,主要以结构化数据为主。而在大数据环境下图书馆的半结构数据得到明显的提升,非结构化数据也在明显增长。同时,非结构化数据所占据的比例也在不断提升。持续增加的非结构数据会对图书馆的数据处理技术、存储技术与服务模式产生影响。但是,传统图书馆数据集合与服务模式都难以适应这一环境变化。相关专家学者提出,到2020年在全世界范围内将有30%左右的数据会无处归属。
二、国外图书馆关于大数据推进的实践
1.建立知识服务社区实体行为智能分析引擎,以美国的HPP公司为代表。该企业充分运用大数据技术来挖掘读者的阅读习惯与偏好,以打造知识服务社区的智能分析软件,从而为不同的读者提供个性化的阅读服务,产生了良好的效果。
2.开放图书馆馆藏资源,以哈佛大学的图书馆为代表。该馆通过大数据的引入将73家图书馆所提供的1200多万种资料向读者公布,并且在美国的数字公共图书馆还提供了相应的下载服务。
3.大数据项目研究的积极开展,如美国所举办的Li-brary JournM以及Future of the Academic Library Sympo-sium等。
4.申請专项经费,对基础设施加以改善。2009年,JHU大学的图书馆从NSF申请到了一笔2000万美元的资金,用于对数据研究基础设施的构建。
5.组建数据咨询小组,并设立相应的信息专员。以JHU大学图书馆为代表,信息专员必须具备一定的学科背景,并且非常善于合作。
三、我国图书馆大数据推进及应用的基本架构
“新技术,让图书馆服务更精彩”这一理念在我国川渝高校情报工作研究会的第二十三次年会中由上海交大的图书馆馆长陈进提出,但是同时,陈馆长也担心边缘化危险的存在会使传统图书馆面临一定的吸引力和价值危机。从表面上看,陈馆长所说的话可能有些矛盾,但是仔细分析却可以发现,其实这些话是辩证统一的,问题的关键不在于危机的存在,而是在于如何在危机面前把握新技术。想要在我国普及应用大数据技术,图书馆管理人员需要在提供图书馆服务的同时注重服务创新、角色定位以及文化编织三个重要理念,让更多的人将对图书馆“空间场所”的关注转移到对其“服务职能”的关注上去。只有这样,才能够真正实现大数据的核心价值。图1为我国图书馆大数据推进及应用的基本架构图。
(一)人才方面
作为前沿技术的大数据技术操作难度较大,不是任何人都能驾驭的,需要那些具有跨学科背景并且懂技术的专业性人才来操作。但就目前而言,我国的大部分图书馆都缺乏这样的人才,既没有专业技术对非结构化数据进行归类与挖掘,也没有将非结构数据进行格式转化的模式。可见,培养应用大数据人才成为当前高素质人才培养的关键。培养应用大数据人才主要可以从以下几个方面人手。
首先,因材施教。针对不同人才的优势与长处进行针对性培养,使得人才的优势与长处得到充分发挥。可以按照学科背景与工作能力标准对馆内的所有工作人员进行分类和排队,再根据其实际情况,进行有针对性的培养。比如,从技术层面培养那些擅长物联网、云计算、大数据以及移动互联网等专业知识理论的人才,从专业服务员的层面培养那些对心理学、信息科学和管理学有一定了解的人才。
其次,交叉互补,实现“多能型”挖掘。对那些具备了一定业务技能的馆内工作人员加以培养,然后再让那些具备丰富实践经验的管理人员来完善研究模式。而掌握研究模式的管理人员能持续进行专业技能的提升,在经过长时间的发展后则可以培养挖掘出复合型人才。
最后,塑造形象,引进优秀人才。要不断重塑图书馆的形象,以用高质量的外部环境与优秀的福利待遇吸引更多的优秀人才,特别是要引进懂大数据、会用大数据的高素质人才。
(二)资源方面
第一,纸质书籍资源的整合。图书馆系统中往往都配设了传感器书、射频识别数据等,便于读者借阅数据与归还书籍。基于此,可以利用读者借阅数据的不同指标来对纸质书籍进行归类排列。也能够利用FRID技术跟踪分析文献资源,整合用户的各种个性化需求。当然,还可以采用传感器数据预测分析出读者的阅读环境取向,然后再加以整合等。不管使用何种方式,其最终目的都是要利用整合结果找出最受读者欢迎的文献,然后再将这些文献放置在位置和光线较好又便于取阅的楼层,将利用率次之的文献放置到密集书库当中,而那些无人问津的书籍就可以打包剔旧了。
第二,电子信息资源数据化。在互联网上海量的数据信息仅仅只是下一个网页的距离。图书馆实现信息资源数字化不单单要融合数字图书馆与传统图书馆,同时还要实现各类电子资源与纸质报刊图书的互补,并且在资源数字化处理的基础上实现数据流通。换言之,信息资源的数字化、信息利用的共享化、信息实体的虚拟化、信息传递的网络化以及信息提供的知识化就是图书馆电子资源数字化的精髓所在。
(三)服务和管理方面
人们的阅读方式随着生活质量的提高而逐渐发生转变,传统图书馆服务形式已经无法跟上读者对图书馆服务的多元化需求。知识服务已经转变成为图书馆服务的核心。所以,图书馆要进行自我审视与服务创新,明确自身在大数据时代中的准确定位。图书馆要树立“服务至上”的理念,积极利用大数据技术、云计算技术、虚拟现实技术等各类现代化技术来改善自身的服务质量。只有这样,才能够真正实现图书馆服务创新和管理创新,才能够展现出图书馆的存在价值。
在服务上,不仅要在“个人门户”的概念基础上实施个性信息推送服务,还要设立起专门的信息服务专员,以开展各种各样的知识服务。同时,还可以在图书馆服务中应用营销理论,提供文献传递和快递服务。另外,高校图书馆的教育职能也可以有效利用起来,嵌入式教学服务的开展也可以成为图书馆服务创新的一个有效方式。除上述方式外,图书馆也应当看到,电子阅读量的逐年增加也是其实现服务转型的切人点,图书馆可以通过“纸云”融合的方式提供阅读推广服务。
在管理上,图书馆不仅可以在采访数据中进行核心数目提取,以建立起完整的核心数目单,还能够通过协同合作的方式进行管理。这一合作不仅仅需要图书馆的努力,还需要相关学术研究者、出版界以及基金会等领域的共同关注和参与。
四、大数据在图书馆服务系统中的应用
图书馆应该如何利用自身条件更好地收集数据资源去形成大数据的一部分,利用公布的大数据结果如何分析出有价值的信息,提供给有关用户,从而找准图书馆自身收集信息、处理信息、使用信息的定位,具体可以从以下几个方面人手。
第一,利用NoSQL解决异构数据集成。NoSQL是指非关系型数据库,是近年来新兴的一种数据库形式,通常利用集群化和分布式的数据存储模式对大规模的非结构数据进行存储管理。以NoSQL作为中间技术的异构数据集成的应用流程如下图2所示。
第二,利用HNC进行文献知识元检索。HNC是指概念层次网络,是一种理论体系。其理论特点是对汉语特点的挖掘,通过语言理解与意义表达,建立起的一种能够模拟大脑语言感知过程的计算机处理和自然语言表述模式。图书馆的信息检索主要有语义检索、全文检索和数据检索三大类型,其中全文检索和数据检索均属传统检索方式,我国的大部分图书馆使用的也是这种方式,其无需对语义进行考虑便可进行简单匹配。HNC文献知识元检索是指在知识的元检索过程中进行HNC理论引入,从本质上看,这一检索方式也被看作是语义检索。
第三,利用KPI技术对读者隐私进行保护。KPI即是指公钥基础设施,是一种新兴的安全技术,主要是通过数字签名和数据加密的方式实现对用户的身份认证。IBM、Verisign以及Enrtust等供应商都有提供此类安全服务产品。用户通过申请便能获取公钥,然后生成属于自己的密码对,需要之时,便可进行解密操作。当图书馆确认好用户的身份之后,用户便可获取相应服务,这样一来,读者用户的隐私也就得到了一定程度的保护。
第四,利用数据合并和数据清理解决相关的取舍问题。图书馆的数据资源随着时间的推移而增加了更多的冗余数据。然而,图书馆的数据中心并没有足够的用于备份PT级数据的空间,并且无论是数据的存储还是传输,其负荷都非常大,从而导致了一种“宽带不宽”的结果。需要对这些数据进行清理和合并,以节省出更多的可以利用的空间。具体操作如下,首先,对图书馆的图书进行合并之后,删除重复的记录。其次,删除那些中央书目库中没有馆藏条码号记录的图书。然后,删除那些作者与出版都相重复的图书。最后,重新对索书号加以排序,已解决图书异书同号的问题。
五、结束语
大数据最大的特点就是“四v”:Variety(样多)、Val-ue(价值)、Volume(量大)以及Velocity(快速)。其中,Value(价值)是被高度关注的重点。大数据时代下的重点并不是掌握数据规模与数量,而是在于对已有数据的挖掘,对海量数据进行专业的挖掘处理。在大数据时代背景下,我国图书馆的服務管理体系必须在人才、资源、技术以及服务和管理方面积极做出改革和创新,以满足读者的多样化需求。