区域性数字文化微聚系统建设实践
2016-02-27徐欣禄��
徐欣禄��
[摘 要]
介绍了一个区域性数字文化微聚系统建设的项目发展背景、主要内容和特点及实践体会。探讨了以数字图书馆为框架,采用数字资源元数据自动收割技术和智能定位系统,建立元数据自动收割集中与对象数据分布管理模式的区域性文化信息资源共建共享平台,实现区域内文化信息发现和系统内数字资源管理等。
[关键词] 网络系统;OAI—PMH协议;标码技术;文化信息
[中图分类号]G253[文献标志码]B[文章编号]1005-6041(2015)04-0046-04
微聚,应该说是当前比较潮的词汇,意思是基于地理位置的陌生人约会交友应用,它每天可以帮助认识有趣的人和事,通过约会和聚会作为兴趣的切入点[1],基本理念就是对人对事的发现并参与。数字文化微聚系统就是试图以文教化,微聚成云,将分散在广西各地公共图书馆的文化信息通过文化资源发现与智能定位系统进行汇集,方便广大读者的利用。区域性数字文化微聚系统建设项目是基于广西壮族自治区图书馆和北京中数创新公司合作承担的国家文化科技提升项目——分布式异构文化资源智能定位与收割平台研究。2013年该项目被列为文化共享工程国家公共文化数字支撑平台地方特色应用项目,其中新增了对区域文化系统中文化馆、博物馆等非结构化数据的收割与发布、元数据和对象数据的异地互为收割与存储等内容。该系统主要采用元数据收割技术、网络资源抓取技术和标码技术,对公共文化服务机构不同信息发布系统、不同结构的数字资源进行自动收割、智能定位、关联整合、分布式云存储和备份以及统一检索,实现数字资源的共建与共享。目前已在广西的自治区、市两级共6家公共图书馆完成系统的部署,并已基本实现各馆数字资源的自动收割、整合与发布。
1 项目发展背景
区域性数字文化微聚系统建设项目起源可以追溯到“中国试验型数字式图书馆”[2],1996年由文化部组织申报,国家计委批准立项,是我国图书馆界在数字图书馆领域进行多馆合作研发的第一个项目,2001年5月完成鉴定验收。广西桂林图书馆于2000年12月,经国家图书馆提出,文化部同意,作为中国西部地区省级公共图书馆的代表参加该项目的工作。为做好此项工作,国家图书馆为该馆提供了数字图书馆应用系统软件(CDI),并进行系统安装和培训。广西桂林图书馆主要通过该系统进行数字资源加工,提交元数据参与项目工作。
“中国试验型数字式图书馆”成功之处在于:1)创建了分布式、可扩展、可互操作的数字图书馆总体建设框架,设计了通用型数字图书馆系统体系结构,开发了通用的数字图书馆应用系统,在国内率先建立了一套通用的数字资源加工系统。该加工系统基于XML,独立于具体的处理平台,使用方便,适用于文本、图片、音频和视频等四种类型多媒体对象数据的加工。2)创建了一个多馆合作网络资源建设体系,建成了符合数字图书馆要求,可互操作,分布于北京、上海、深圳、广州、沈阳、南京和桂林等七地的体系,其资源有文化旅游、法律法规、中国名人和中国军事等四类30个数字资源库,总容量超过900GB。3)初步形成了数字图书馆资源加工标准规范框架。
2002年基于“中国试验型数字式图书馆”研究成果,文化部在启动了文化共享工程时将该系统配送给试点参与馆进行资源加工和发布。2002年7月广西壮族自治区图书馆和广西桂林图书馆成为文化共享工程试点馆,获得文化共享工程配发的数字图书馆应用系统软件(CDI);在广西的争取下,之后又配给了南宁市图书馆、柳州市图书馆。2006年后北京中数创新公司又向北海市图书馆、玉林市图书馆提供了系统软件。广西两个省级馆和一些中心图书馆采用数字图书馆应用系统软件(CDI)进行数字资源的制作和发布,为全区数字资源分布存取创造了基础条件。
2003年基于该系统的元数据集中存储、对象数据分布存储的数字图书馆功能,广西桂林图书馆和柳州市图书馆联合向广西壮族自治区文化厅申报了建设“广西文化信息资源共享工程试验型元数据共享平台”项目,之后南宁市图书馆也加入其中。该项目由广西桂林图书馆牵头实施,南宁市图书馆、柳州市图书馆参与建设,基于数字图书馆和互联网通信平台,参与馆将元数据提交给广西桂林图书馆服务器,读者用户通过一个资源检索界面,可以检索到参与馆的信息,需要时通过资源调度系统提供相应的对象数据,实现了元数据集中存储,对象数据分布存储,无缝跨地区、跨库检索的功能。
2009年为提高广西公共图书馆自建数字资源的利用率,发挥文化共享工程的作用,针对“试验型元数据共享平台”中元数据集中和更新需人工干预,智能化程度低;对象数据存放位置变动时,数据调用出现链接障碍;资源使用统计系统欠缺,不能进行有效的资源查重和资源使用情况分析等问题,
广西壮族自治区图书馆和北京中数创新公司联合向广西壮族自治区文化厅申报了“建立基于OAI—PMH协议的互操作广西文化信息资源共享系统平台”科研项目。该平台采用数字图书馆技术框架,基于OAI—PMH协议,具有跨地区、跨库、智能化信息收割、资源整合等功能。项目内容包括建立基于OAI—PMH协议的广西文化信息服务平台,由省级馆CDI OAI收割服务器自动、定时对各级公共图书馆资源加工层的元数据进行收割;元数据系统收割过程不需人工干预,按照既定设置自动运行机制,实现广西文化资源利用元数据集中、对象数据分散管理的模式,掌握全区文化资源建设和利用情况,读者用户可通过一个界面查询全区文化共享工程的信息资源。
OAI—PMH的制定最初是[JP2]为了解决电子期刊预印本的互操作及检索的问题,但这与各类数字图书馆建设中所遇到的元数据互操作的问题类似[3]。在美国数字图书馆联盟(DLF)等组织的推动下,2000年上半年,OAI使用范围迅速扩展到数字图书馆领域,目的是实现分散的、不同系统平台之间的元数据交换和共享,提高系统的互操作能力。该协议采用互联网和元数据两种技术,以DC的15个核心元素,作为各系统不同元数据格式间互相映射的标准来实现系统间的互操作,平衡了增强功能与解决难度之间的矛盾。通过OAI—PMH元数据获取协议,用户可以方便快捷地获取自己所需要的数字资源。[JP]
2012年1月,广西壮族自治区文化厅主持召开了“基于OAI—PMH协议的互操作广西文化信息资源共享系统平台”项目结题专家评审会。项目承担单位作了项目工作总结汇报,进行了系统演示和答疑。专家组认为该项目达到了设定的目标要求和考核指标,经过一年多的运行调试,系统运行正常稳定。该项目在全国省级公共图书馆和全国文化共享工程中具有领先地位。[JP2]
2013年3月,为进一步提高广西文化信息资源的共享共建功能,广西壮族自治区图书馆与北京中数创新公司向文化部共同申报了国家文化科技提升计划项目“分布式异构文化资源智能定位与收割平台研究”,获得文化部批准立项实施。在该项目基础上向文化部全国公共文化发展中心申报了“分布式区域文化数字资源发现与智能定位系统”,并作为国家公共文化数字支撑平台广西地方特色应用项目,2013年12月被确定进行建设。[JP]
2 项目主要内容
区域性数字文化微聚系统建设项目随着研究和应用的不断深入,也不断注入新的内容。项目主要内容是:1)在对国内外相关标准及类似实践案例研究基础上,设计适合中国特色的区域性文化资源共享共建系统;2)采用数字资源元数据自动收割技术和智能定位系统,对区域内不[JP2]同系统的文化信息资源元数据和对象数据进行分布管理和统一检索查询;3)建立元数据自动集中与对象数据分布管理模式,建立区域性文化信息共享平台;4)实现系统内数字资源管理分析功能,对各地分布式存储的资源使用情况进行统计。在国家公共文化数字支撑平台地方特色应用中,还增加了一些新的内容,如文化系统中文化馆、博物馆等非结构化数据的收割与发布、元数据和对象数据的异地互为收割与存储等,以推进广西全区的文化资源整合,充分发挥现有技术和基础设施的潜力,避免资源重复建设和人力物力的重复投入,减少资源浪费,提高文化资源的使用效率。[JP]
系统建设主要目标是采用网络资源抓取技术和标码技术,对公共文化服务机构不同信息发布系统、不同结构的数字资源进行智能定位、自动收割、关联整合、分布式云存贮以及统一检索,实现数字资源的共建共享。
项目主要任务是:1)对国内外相关标准及类似实践案例研究,设计适合中国特色的文化资源共享系统。2)采用数字资源智能定位和元数据收割技术,对分布式异构文化信息资源元数据的统一查询检索。3)实现元数据集中与对象数据发布模式,各参与馆既可以分布式建设资源,也可以共享资源信息。4)实现分析管理功能,可对各地分布式存储的资源使用情况进行统计。5)申请相关软件著作权2项。6)在广西壮族自治区图书馆、广西桂林图书馆和南宁、柳州、北海、玉林等6家公共图书馆进行系统安装使用。7)完成收割及服务数据量8万条,对其进行国际通用的注册,并实现与全球注册管理系统的对接。8)网络资源抓取技术和标码技术,对公共文化服务机构不同信息发布系统、不同结构的数字资源进行智能定位、自动收割、关联整合、分布式云备份以及统一检索,实现数字资源的共建共享。
3 项目特点
区域性数字文化微聚系统建设项目随着信息技术的发展,不断完善提高,已有十多年的技术积累和实践经验的积淀。其主要特点如下。
3.1 数字资源自动收割
基于OAI—PMH国际协议对分布在各地的资源进行自动收集处理,由建立在广西壮族自治区图书馆数据中心服务器自动、定时对各级中心资源进行收割。收割任务自动运行,避免人为干预,提高效率,作为文化科技提升项目有在全国图书馆推广应用的意义。
3.2 分布式云备份
各级中心通过网络实现资源的云备份,云服务将区域内各类资源集合起来协同处理,共同对外提供数据存储备份和资源访问的服务功能。各参与馆可根据各自的设备情况和服务需要,进行元数据和对象数据的收割与收藏,形成网络资源公平的共建共享的合作机制,优化资源配置。
3.3 服务智能定位
采用了一套与国际接轨的,全球统一的标码(Handle)和标码系统(Handle System)[4]。对各类文化资源依据国际标准逐一进行注册,注册系统与全球注册系统建立对接,负责解析服务。智能定位所采用数字对象标码技术,对数字对象唯一、永久的标志,对网络环境下数字资源的长期保存、引用链接、产权保护等具有重要意义。标码很好地解决了URL(互联网上标准资源的地址)因为数字对象物理位置改变、IP更换、系统迁移、网站改版或文件目录调整导致资源无法访问,而造成的“死链”问题。[JP]
基于全球统一标码(Handle)的标码技术(HandleSystem)是起源于互联网、应用于物联网的一种标识符号,其发明人是互联网创造者罗伯特·卡恩博士。它是以一定的方式赋予互联网上的各种对象文档、图像、多媒体等一个唯一、合法、安全和永久的标志,通过这个标志可以实现对被标志对象的解读、定位、追踪、查询、应用等功能。其具有以下特性:1)成熟性。目前,标码已拥有全球范围的一个分布式系统,定义了一套分层服务的模型,20年来先后经历了7个版本,在近70个国家的部分行业局部应用。2)
兼容性。目前,各标准组织、各国家、各行业、各信息系统的物品编码与标志标准不一,标码可以通过恰当的标志和解析机制,在满足各种标志需求的基础上,兼容现有的标志方法和编码机制,实现真正意义上的广泛互联。3)唯一性。标码拥有一个全球解析系统平台和分段管理的运行维护机制,确保标码标志在全球范围内的唯一性。4)实用性。标码能够稳定地对标志对象进行标志,易于存储、读取和处理,具有较好的经济性。
[JP2]目前,负责管理标码的国际组织DONA(数字对象命名规范机构)已经在瑞士日内瓦设立,我国参与了DONA的创建并成为创始成员。对于我国而言,标码则更具有重要意义。特别值得一提的是,目前全球已设立了3个标码并联根系统,分别部署在美国、中国、国际电信联盟(ITU),他们之间有着平等、协商、共管的关系。其中,部署在中国的标码根系统由工业和信息化部电子科学技术情报研究所(ETIRI)、北京中数创新公司(CDI)和北京西恩多纳信息技术有限公司(CHC)共同运营管理。可以说在中国,标码具有与国际接轨、自主可控的优势。标码根系统的运营管理模式在很大程度上改变了美国在全球互联网管理方面的霸权地位,在提高我国互联网领域的国际话语权,推动我国互联网行业的进步,保障我国网络信息安全等方面产生了重大的积极影响,实现了中国互联网界从“游戏规则的追随者和接受者”向“游戏规则的制定者”的角色转变,给我国互联网管理带来了前所未有的历史性机遇。
3.4 资源就近选择
文化资源整合定位系统可以把内容复制到网络的最边缘,使内容请求点和响应点间的距离缩至最小,从而缩短了响应时间,并提高带宽利用率;系统还能智能地调度和分配资源,最好地利用资源。
3.5 内容统一检索
收割后的元数据内容采用统一XML格式,这些元数据可以快速、透明、经济地进行整合,读者和管理人员可以方便对各地分布式资源进行管理、检索与统计。各中心数据库之间可以自动产生横向关联,使各中心资源形成有机整体。实现跨地区、跨库查询。读者用户只要通过一个计算机信息检索查询界面,就可获得参与馆的文化共享工程的信息资源。[JP]
3.6 实时统计管理
数据统计针对各地分布式存储的资源使用情况进行统计,为分中心馆进行分析管理制定具体实施计划提供依据,成为文化信息传播反馈的主要渠道,是领导掌握情况的重要手段。
4 项目实施体会
在信息技术高速发展的时代背景下,深刻认识和把握信息技术发展的新变化、新特点,不断适应人民群众不断增长的精神文化需求,将信息技术、数字技术、网络技术等现代科学技术和传播手段应用于公共文化服务体系建设,是适应时代发展的必然要求和战略选择。在这样的时代背景下,图书馆服务模式要实现由阵地服务向为到馆读者与网络读者服务并重,由提供纸质文献为主向提供纸质文献与数字文献并重的转变,要努力打造图书馆服务新业态。[JP]
4.1 要在数字资源使用效益上下工夫
图书馆信息化的硬件建设都是为应用服务的,为读者用户提供方便快捷的数字资源服务是图书馆信息化建设的根本和核心。因此,要构建以互联网、移动通信网、数字电视网等为数据传输渠道,以数字资源为内容支撑,通过资源共建共享、智能调度、应用服务、管理监控等业务系统的建设,突破公共数字文化服务在“建”“传”“用”“管”等方面存在的“共享不足”“传输不畅”“使用不便”“管理不够”等瓶颈。这就需要一个高效智能的信息服务平台为支撑,来发挥图书馆在信息环境下的服务功能。
[HTK]4.2 文化信息资源的共建共享必须有良好的运行机制,以资源配置为基础
要以党的十八届三中全会提出的 “经济体制改革是全面深化改革的重点,核心问题是处理好政府和市场的关系,使市场在资源配置中起决定性作用和更好发挥政府作用”的精神为指导,在网络环境下的文化数字资源建设与服务中,应不分大馆小馆,让资源配置在服务中发挥最大效能,让各馆根据自身的优势,发挥各自应有的作用。
4.3 注重图书馆专业化
图书馆专业化的体现之一就是资源的整合有序化,图书馆涉及图书文献,但不生产图书文献,是收藏、组织、整理、加工,使之图书文献有序化,方便人们获取,对于数字资源也是如此。要达到这个目的,就必须选择一个合适的数字资源加工系统,按照数字资源加工的标准规范进行,建立适应网络环境的服务平台,为广大读者服务。
4.4 参与馆的通力合作是项目完成的保证
广西六个参与馆之间都没有行政管理关系,各馆都本着通过项目提升能力,发挥广西公共图书馆的整体实力的理念,克服资金不足、设备欠缺、技术力量不够等问题,按项目实施的要求,齐心合力,共同努力做好项目工作,取得了一定的成果。
[参考文献]
[1] 石海威.微聚:先约会后聊天[J].创业家,2014(9):50.
[2] 孙承鉴,刘 刚.中国试验型数字式图书馆的探索与实践[J].现代图书情报技术,2001(6):3—6.
[3] 齐华伟,王 军.元数据收割协议OAI—PMH[J].情报科学,2005(3):414—419.
[4] 毛伟等.一种互联网资源标志与寻址技术:Handle System[J].计算机应用研究,2004(5):252—254.