网络地方文献资源采集工作研究
2018-07-09丁小蕾
丁小蕾
目前图书馆对网络地方文献认识、实践的出发点还是在于如何建设,如何借助已有的馆藏文献进行专题资源库建设,而对于网络上已经存在的地方文献资源如何采集关注度不高。尽管网络地方文献资源采集工作的开展将困难重重,但是身处网络时代的地方文献工作者却不能回避它,应顺应信息发展的趋势,尽快开展网络地方文献资源采集的研究和实践。
长期以来,地方文献工作者受图书馆文献资源采集的传统思维定势影响,重视静态纸质文献的采集,地方文献的各项工作,如读者服务、参考咨询等也是紧密围绕纸质文献而开展起来。但是我们也清楚的看到,随着信息革命的到来,越来越多的地方文献信息以网络为载体呈现出来。这些信息资源有些来自于传统纸本文献的数字化,有些是傳统纸本文献深层次加工整理的成果,更有一些是以网络为载体的原生态文献信息。以网络为载体的地方文献资源正在快速生长,其不可阻挡的态势使其成为地方文献建设体系中不可忽视的组成部分。
1 网络地方文献资源
在传统地方文献工作中,把一切记录地方信息的载体称之为地方文献。这里所说的载体一般都具有物理属性,如一本书、一张照片、一幅舆图、一盘电子CD等,所有的地方信息都依附于某种实体而存在。但是随着20世纪末信息技术革命的到来,大量的信息脱离了有形实体,以网络的形式产生、发展和传播。本文将一切内容上拥有地方属性的网络资源称之为网络地方文献资源。
2 网络地方文献资源采集的必要性
2.1 丰富馆藏地方文献资源
网络地方文献采集实际上是图书馆地方文献采集工作的一个分支。网络采集得来的资源将与已有的馆藏纸质文献之间互为补充,这里不单指内容上的补充,同时也包括载体形态上的补充。因此,网络地方文献资源的采集将使地方文献专藏建设更加完整、丰富。
2.2 便于数据的挖掘与整理
网络资源本身即是数字资源,数字形态的文献资源通过结构化的处理,可以进行有效拆解和深层次的标注,这样为日后的资源整合和资源调取提供了极大便利。
2.3 加快数字地方文献的建设进程
在确定采集手段及采集策略后,短时间内即可捕获大量的网络地方文献资源,在很大程度上加快了数字地方文献的建设进程。
2.4 节约数字地方文献建设成本
相对于馆藏文献数字化建设,网络资源采集只做一次性的投入,后续资源获取不会产生费用支出,从而节约了数字地方文献建设的成本。
3 公共图书馆网络地方文献资源采集现状
图书馆作为文献资源搜集、整理、保存以及提供服务的机构,一向重视资源建设工作。近年,随着数字图书馆这一概念的兴起,各地公共图书馆纷纷建立以地方文献和地方文化为主体的特色资源库。如首都图书馆的“北京记忆”历史文化多媒体数据库,辽宁图书馆的“九一八专题数据库”,哈尔滨图书馆的“中东铁路画册数据库”以及武汉图书馆的“二七工人运动数据库”等。这些数据库已经在网络上为用户提供服务,成为名副其实的网络地方文献资源。可以说,图书馆在网络地方文献资源建设方面已经下大力度,并有一定的建设成果。
但是通过近年来国内地方文献研讨会的主题分析以及对CNKI上所发表的相关论文进行检索发现,图书馆对网络地方文献认识、实践的出发点还是在于如何建设,如何借助已有的馆藏文献进行专题资源库建设,而对于网络上已经存在的地方文献资源如何采集关注度不高。尽管调查方法有些片面,但也能说明一定问题。
造成网络地方文献资源采集工作未被重视的原因,主要一方面是图书馆的管理者往往受到传统采集观念的束缚,着眼点依然在于纸本文献的采购上;另一方面是网络资源采集确实存在一定的困难,需要解决和克服。如,资源的准确性如何判定?网络资源有时是大量的碎片性信息如何处理?人员应如何配备?对于重复性资源怎样甄选及排重?资源采集定位及网络信息处理系统建设等等。
尽管网络地方文献资源采集工作的开展将困难重重,但是身处网络时代的地方文献工作者却不能回避它,应顺应信息发展的趋势,尽快开展网络地方文献资源采集的研究和实践。
4 网络地方文献资源分布情况
网络地方文献资源同其他网络资源一样,具有信息源复杂,表现形式多样,存在状态无序,无稳定性,分布广泛等特点。但是通过简单分析,可以发现网络地方文献的分布主要有以下几方面:
4.1 地方政府及下属机构网站
该类网站的全部内容均具有地方属性,或全面或片面的反映了当地政治、经济、文化发展情况,其显著特点是内容权威性强。
4.2 地方专题性网站
指以围绕当地重大历史事件、地方民风民俗、地方文化保护等主题展开的地方专题性网站。这些网站一般隶属于政府下属的文化研究机构或非营利性的NGO组织,内容翔实可靠。
4.3 学术性博客
随着WEB2.0的兴起,每个人都可以借助网络发表自己对事物的观点、认知。博客在现代信息环境下提供了一种非正式的交流途径,人人参与的交流机制调动了学术研究的积极性和互动性。在对大量的博客观察发现,越来越多的地方文化爱好者都启用了博客平台用于发表自己的研究成果。
4.4 微博
微博中的网络地方文献资源多为引导型信息。微博不同于博客,博客是经过梳理的信息,而微博因有发布字数的限制,一般内容多为用户的瞬时感受。同时微博也更加强调优质资源的分享,因其分享机制,微博中一般给出的是资源地址,继而引导用户访问其所需的外部资源。
4.5 网盘
网盘是实现互联网资源共享的重要载体。目前已出现为数不少的网盘搜索引擎,网盘搜索引擎区别于普通搜索引擎,其搜索结果是纯粹的数字资源,不需要HTML页面的承托。而这些纯粹的资源正是地方文献工作者网络采集的目标,是去掉华丽外衣的核心内容。大量的数字地方文献资源存在于网盘之中,包括图书资料、影像资料等。
5 开展网络地方文献资源采集工作
网络地方文献资源采集工作不是临时性项目,图书馆在进行网络地方文献资源采集前需要同纸质文献采集一样做整体规划。首先挑选最适合从事该项工作的采集人员;其次明确采集目标,制定合理的采集策略并规范采集流程;最后在数据采集后一定要考虑如果将数据进行规范性处理,有利于日后使用。
5.1 人员选定及配置
网络资源采集与纸质文献采集在对采集工作人员要求方面最大的不同是,纸质文献采集需要采集人员必须具有良好的与人沟通的口头表达能力,而这种能力对于网络资源采集人员来说并不是首要具备的。网络地方文献采集工作人员将要面临的问题是如何在海量信息中检索出符合收录规范的有价值资源,因此要求从事该工作的人必须具有较强的信息检索能力和情报分析能力,同时还需要熟悉馆藏,能够及时、准确的判断信息资源的重复性。此外,还要求工作人员一定要具有强烈的责任感和认真负责的态度,这是长期稳定的采集高质量的网络地方文献资源的必要条件。
在人员配置上,以2~3人为宜。网络地方文献采集工作不是只有采集的动作,同时包括前期分析和后期处理,一个人很难完成所有的工作,需要多人辅助、协作。此外,多人之间可以利用自身业务专长相互配合。
5.2 制定采集目标及策略
网络地方文献资源涉及面广且多如牛毛,除地域范围的限定外,并无学科、专业的限制,因此图书馆需要结合自身需求有的放矢的进行资源采集。公共图书馆所收集的地方文献资源是对某一地区自然、人文诸般客观存在现象的一般性描述,遵照古旧文献优先采集的原则,网络采集也可以从史料型资源或者研究史料的网络资源入手。
(1)确定采集网址,并做采集清单的不定期更新
在进行大量网络资源调研基础上,针对来源稳定的网络地方文献资源应整理出一份采集清单。这份清单可以由某一名工作人员来起草,但是需要采集工作小组所有成员共同进行评估确定。
采集网址的清单确定后并非万事大吉,随着网络資源的不断增长和湮灭,需要对清单上的名单做不定期的增删。该清单除了做工作指导外,也将是网络地方文献资源采集的重要档案资源。
(2)明确采集方式
目前网络数据采集一般两种方式:自动采集和人工采集。
自动采集一般指利用垂直搜索引擎技术的网络蜘蛛(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成。即按照用户指定信息或主题关键词,调用各种搜索引擎进行网页搜集和数据挖掘,通过WEB页面之间的链接关系,从WEB上自动获取页面信息,并随着链接不断想所需要的WEB页面进行扩展的过程。软件除抽取出用户所需要的属性内容外,还将进行相应的初步数据清洗,如内容和格式上的处理,格式转换和加工等,使之变为结构化数据再将其存储下来,以供后用。
人工采集则主要是人来参与采集过程,需要人对资源的分布位置有一定的敏感性,通过浏览互联网进行信息搜集,最终依靠人对信息准确性的自我判断来完成采集工作。这种搜索方式缺点是效率较低,优点是链接内容经人工选择,相关度、准确度以及资源质量更高。
实际采集时,对于时效性强的地方政府网站、内容完整度高的地方专题性网站等可以采用整站自动采集;而对于博客、微博、网盘中所存在的文献资源,由于信息发布者并非长期发布网络地方文献资源,为了采集的准确性,则需要更多的人工干预。
在进行网络地方文献资源采集时,需注意检索词名称互见问题。以“北京”地名为例,北京在历史上曾被称为北平、顺天府、大都、中都、南京、析津府、燕山府、幽州、燕、蓟等名称,简称京、平,由其行政地位,又被成为首都、京师、京都,或被文人们修饰为长安、春明、日下,京师附近的州县呼为畿辅,1928年国都南迁后,又常被题为故都、旧京等字样。在进行自动采集时应对其所有别名进行检索,必要时可建立本地区人名、地名、事件名称互见表。
(3)制定采集数据的处理周期和处理方法
网络资源采集切忌采而不理。在进行网络地方文献资源采集伊始一定要考虑采集数据的后期处理问题。网络资源结构杂乱,如不及时对数据进行整理和规范性描述,将不利于采集数据的保存和利用。一般在选择网络资源采集工具时,需要建立配套的资源管理数据库,资源管理数据库为采集数据的管理和调用提供方便。网络资源描述也应采用成熟的元数据标准,比如为电子资源描述而生的“都柏林核心(Dublin Core)元数据”。另外,在进行采集资源的描述时应尽量充分完成地点、时间、人物、事件等内容信息的揭示。还应对版权问题做以标注。采集资源大部分涉及版权问题,因此使用要慎重,可做内部资源使用库,或在馆内提供服务。
6 结语
网络地方文献资源采集是一项复杂、长期、系统性的工程,需要同纸质文献采集一样全局筹划,并将其作为常规性工作长期进行下去。面对数字时代的今天,地方文献工作者应将网络地方文献资源作为文献采集研究新方向,并不断深入实践。
(作者单位:首都图书馆)