“互联网+ ”下图书馆的数字化建设
2016-05-14郭德成
2015年4月18日,中国新闻出版研究院发布了“第十三次全国国民阅读调查”。报告数据显示,2015年我国数字化阅读方式的接触率为64.0%,同比上升了5.9个百分点。数字阅读首次明显超过纸质阅读。其中成年国民网络在线阅读率首次过半,达到51.3%,同比增长1.9%;成年国民手机阅读率最高,达到60.0%,同比上升高达8.2个百分点,电子阅读器阅读、Pad阅读及光盘阅读等都呈增长态势。
这些说明,随着移动互联网的迅猛发展、移动智能终端的普及和移动应用系统的逐步完善,数字图书逐渐深入到人们生活、工作、学习的方方面面。近些年,“互联网+”广泛应用在数字图书馆创新管理与知识服务方面,这些应用的推广促使数字阅读成为一种时尚。
“互联网+”是互联网发展的新业态,是以云计算、大数据、物联网等新业务、新技术和新生态的发展为基础。数字图书馆的发展也必然受到这些技术的影响。这些思想、理念和技术的应用都会使图书馆管理与服务水平有更大的提升。但中小型图书馆由于资金不足、人才缺乏、管理理念和对数字图书馆认识落后等问题制约了图书馆的数字化建设。本文单从技术角度谈一下我国图书馆的数字化存在的一些问题和对策建议。
一、图书馆数字化建设中存在的主要问题
我国图书馆文献资源数字化加工已有10多年的历史,其加工和保存的技术方法有很多。早期文献资源数字化加工以图像转化为主,在此基础上我国探索了数字图书馆资源建设标准,如中国数字图书馆标准建设项目、大学数字图书馆国际合作计划。在商业机构中,以同方知网、重庆维普和北京超星等为代表,他们在这方面进行了卓有成效的实践,各公司又自行研制数据加工规范。文献资源数字化加工的局限性随着文献资源数字化应用需求的不断增长,文献资源类型和数量发展迅速。与此同时,图书馆文献资源数字化加工存在的问题也就凸现出来。
1、对数字化的认识不全面。数字化已在图书、档案工作中应用了很多年了,中小型图书馆的数字化多是将纸质图书、报刊扫描产生图像文档,这是种以不可编辑的二进制形式存在的文件。从用户查阅体验和应用角度上看,这种图像文档文字既不清晰,也无法编辑,用起来很不方便。从数字图书内容发展来看,在学术出版中图表、音视频和需要编辑处理的内容明显增多,这种初级的数字化对图书馆的数字化建设已形成严重掣肘。
2、数字资源的存储处理方式落后。随着网络技术的发展,特别是网格技术和大数据技术的飞快发展,使得非结构化数据的数量日趋增大。关系型数据库是针对结构化数据的处理而产生的,无法很好地满足现在网络环境下对于非结构化数据的处理要求。中小型图书馆现存的全文文本、图像、声音、影视、超媒体等多种格式的资源,这些非结构化资源的存储,使得原有的资源无法得到有效的管理。中小型图书馆目前大多数应用系统中的非结构化数据都是以二进制的格式存储在关系型数据库的BLOB或CLOB字段中或者数据库中取文件目录而文件保存到一个专门的路径的方式,而这几种存储使得数据无法全文检索,并且随着处理数据量的迅速扩大致使读者在查阅数字资源时等待时间变长,极大地降低了用户体验。
3、数字资源分散独立。不同地区有不同的地域文化,这是独一无二的,有些是不可复制的,几乎所有的图书馆都有自己的特有文化和特色文献资源,比如“地方文献数据库”、“地方文化数据库”、“专题特色数据库”等。各种文献资源以各种载体形式分散于各个不同的图书馆中,这种不可共享的人无我有的垄断性信息资源库造成读者使用困难。
4、数字资源同质化严重。在图书馆对文献资源建设经费、专款不足等难题和在文献资源共建共享的过程中权威图书情报机构资源霸权日益扩张的双重作用下,特别是基层中小图书馆的话语权在相当程度上被剥夺,其数字资源的建设往往盲从或不得不追随权威机构的指向,造成图书馆对数字资源的依赖性正日益加大。而各数据库出版商单纯地考虑自身利益,采取捆绑订购和打包订购的方法,将海量的文献资源以“库”为单位推向图书馆,这些资源流于一般化,趋于同质化且良莠不齐,甚者有错误。
5、数字资源利用率低。图书馆由于馆藏书目数据库、网络数字资源、全文的电子版书、期刊数据库、自建的特色数据库等因其类型多样、结构复杂、缺少链接关系,致使用户难以“一站式”检索获取,导致读者查找信息时,极大地浪费了检索时间。与此同时,读者害怕在检索时漏检,将扩大检索范围,但相关信息太多,需要一一阅读后取舍。
二、“互联网+”下图书馆的数字化建设
所谓“互联网+”,除了表示数据量大、范围广、开放、可以跨界融合,更关键的是强调一种新的数据处理和应用。图书馆学本身就是一门综合性的应用型学科,图书馆更是学科、专业、行业和领域交叉现象最频繁的环境之一。因此,图书馆理应走在“互联网+”的理论和应用研究的前列。
理解数字图书馆“互联网+”,一定要掌握数字图书馆、用户及二者之间的“连接”关系,数字图书馆若要想进行长远的发展,就必须获得用户的支持和使用。只有将彻底的数字化资源“云计算”、知识化,提高图书馆自身的被使用价值,证明自己的价值,创造更大的价值。
1、数据化文件建设。数据化的单位是字节(byte)、字(word)。数据化文件是以字符、符号、词、短语、段落、句子、表格或其他字符或图形排列形成的有序数据,用于表达意义,其解释基本上取决于读者对于某种自然语言或者人工语言的认识。数据化文件是数字图书馆资源建设中最主要、基础的资源类型,也是搭建“互联网+”数字图书馆基础,对数字图书二次开发很大的利用具有很大的利用价值。下面两种技术可以将图书馆的资源由纸质文献资源、视音频等资源进行数字化。
光学字符识别(OCR 即Optical Character Recognition),也可简称作文字识别,实际上是让计算机认字,是一种将纸质印刷文字转换成文本文字的方法。文字识别技术就是利用计算机自动获得电子扫描表格或图像中的数据区域后进行OCR处理,然后快速准确地完成批量数据的录入和数据化,为后续查询、存储和发布等提供条件。
自动语音识别(ASR 即Auto Speech Recognize),就是让计算机通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,可以将音视频文献资源中包含的文字信息“提取”出来。自动语音识别可以将音视频的采集、编码转换、自动数字化、音视频抽帧、自动标引、语音识别、音视频索引等,全部实现自动化流程。
2、非结构化存储大步推进。非结构化是数字图书馆资源的数据基础。数字图书馆中存在多种信息类型,数据格式的特殊性带来了数据存取处理的很大差别。非结构化数据文件的属性则采用数据库中的数据表字段进行表述,方便数据的检索、分类、查找,有序地存储了数据文件。非结构型数据库继承了传统关系数据库的优点,其作为一种全新的数据系统,可有效实现多媒体数据的存储检索,是基于网络应用的新型数据库,可以表达复杂的嵌套,支持更多的数据类型,支持重复字段,变长记录可由若干重复的字段组成,每个字段又可由若干可重复的子字段组成。它在处理非结构化信息方面有着传统关系型数据库无法与之相比的优势。比如便于数据的浏览、传递和更改。而存放在文件系统中,便于数据的浏览、传递和更改。其内容管理系统便是数据库与文件系统相结合模式的典型应用。内容的含义比数据更为广泛,“内容”强调对象,可以是任何结构的数据类型,不仅包含了结构化数据、非结构化信息,还涉及到知识。可以说,内容是一个比数据、文档和信息更加全面的概念,是对所有结构化数据、非结构化数据及信息的聚合。内容管理侧重于管理半结构化和非结构化数据。在研究数据存储方式的基础上,内容管理还致力于对象的处理过程,例如收集、存储、检索、分析、更新、传递等,以便将内容能够及时准确的传递到正确的地点和用户。内容管理是数据管理新的发展方向。非结构化数据存储技术与数据库的发展密切相关,更与文件系统及其存储技术的发展密不可分。设计无限大的存储空间、无限制的I/O带宽和更高的性价比的理想存储系统是缓解存储压力的总体目标。
3、网络化资源有效管理。网络化是数字图书馆资源的共享基础。数字图书馆的建设是以不断改善用户服务,为用户在知识发现与利用上提供方便,使得用户可方便地透过数字图书馆的多个资源库无缝获取所需的更多的开放存取资源为建设的初衷。互联网打通各机构的连接通道,打破了地域的界限,让区域间各图书馆之间自由借阅,联机编目,避免了重复劳动,缩短了文献资源的加工,共享了馆藏的特色资源,促进了国民的阅读和资源的分享。
4、净化数据。数据清洗就是把“不干净”的数据“清理掉”。清洗数据是提高数字图书馆资源利用的重要前提。因为资源数据库中的数据是面向某一方面或某一主题的数据的集合,这些数据是由不同的人员,在不同的时间、地点,从多个业务系统中提交进去的,再加上原有的历史数据,难免不会出现重复、不完整、错误、甚至相互之间有冲突的数据。这些“不干净”的数据显然是我们不想要的,我们称之为“脏数据”。我们要按照一定的程序规则把“脏数据”校正,这就是数据清洗。清洗数据的一个很直观、很自然的想法便是将云计算技术和分布式计算应用到其中,并将计算任务分布式地分发给多个节点以提高并行度。一般采用Map—Reduce框架,能够更为高效地处理大数据的清洗任务实体识别、不一致性检测和修复、缺值填充和真值发现,并组合成更复杂的数据清洗任务。同时还为用户提供了一个简洁而友好的Web功能接口,从而交互式地实现了大数据的清洗功能。
5、知识化资源。知识化是数字图书馆发展的最终方向。利用云计算整合多结构、各类型、各厂商的数字资源,建成统一检索的窗口,并为科技工作者、学术机构和读者提供精准的个性化推荐,及每周或每日科技要闻简报、科技要闻专报定制等这种具有个性的知识化服务。资源的知识化可以重构资源,提升资源的利用,提升图书馆的服务能力,最终激活数字图书馆。
传统图书馆的根本约束是我们对“知识”的固化与静态化认识,从而将信息服务“图书馆化”,简单地把等同载体、把需求等同阅读、把服务等同于检索与获取。其实,“知识”既是一种对象、又是一种过程、同时一种体验。信息服务系统从本质上讲是一种知识服务,是帮助一定的用户群体根据一定的应用目的利用一定的信息内容的过程。
参考文献:
[1]孙炜,郭永新.我国区域文献资源共建共享若干问题与对策[J].河北大学成人教育学院学报,2009,11(1):118-119.
[2]杨小云.普通高校图书馆数字资源利用情况分析——以渭南师范学院图书馆为例[J].渭南师范学院学报,2012(02):107-109.
[3]张南平,程鸣.基于模式识别视频搜索技术的研究[J].福建电脑,2007(08):35-36.
[4]于成龙,王梓涵.面向云存储的非结构化数据存储研究[J].计算机光盘软件与应用,2014(19):39-41.
[5]黄沈滨,王海洁,朱振华.大数据云清洗系统的设计与实现[J].智能计算机与应用,2015(03):88-90.
[6]张晓林.颠覆数字图书馆的大趋势[J].中国图书馆学报,2011(05):4-12.
[7]包小村.大数据时代的图书馆的知识服务创新[EB/OL].[2016-5-25]. http://www.xzbu.com/5/view-6886865.htm.
(作者简介:郭德成(1983.4-)男,计算机本科专业,青海省委党校图书馆技术保障部。)