古籍数字化标准体系建设思考
2015-08-28邓蕾
摘 要:本文阐释了古籍数字化标准的概念,分析了古籍数字化标准体系中存在的问题,提出了古籍数字化标准体系建设的对策建议。
关键词:古籍;数字化;标准体系
为推动古籍数字化的科学化、规范化,2007年1月,国务院办公厅公布了《关于进一步加强古籍保护工作的意见》,明确提出要“制定古籍数字化标准,规范古籍数字化工作”。2011年8月,国家文化部发布《关于进一步加强古籍保护的通知》,要求“加强对古籍保护各项标准规范的研制,促进古籍保护各项工作的规范化”。由此可见,古籍数字化标准体系建设工作已经迫在眉睫,它是决定古籍数字资料库优劣的关键,是保证古籍数字化健康、持续发展的不竭动力。
1 古籍数字化标准体系建设目前存在的主要问题
由于古籍数字化缺乏一个主体进行规划统筹、标准不一,主要表现在以下七个方面:
1.1 版本上认识不一
为节省时间成本和经济成本,不少出版机构不愿在版本把控上花费精力,忽视了版本和校勘说明反而将重心放在了古籍原本的数字再现,将前人成果原封不动地进行数字出版, 导致了不少古籍数字化做平质量良莠不齐,缺乏准确性和权威性。
1.2 书目分类标准不一
古籍的书目分类对于古籍数字化的检索和利用有着直接影响。但是目前国内尚未形成统一的书目分类检索,不同的古籍数字化系统的分类方法也不相同。当前最常用的是四库分法、八分法、时间分类法、体裁分类法、国家图书馆分类法、科技图书馆分类法等六种分法。但以上六种分类方法各有利弊,无法同时满足学科研究、传统思维模式、时间连贯性等多方面的要求。
1.3 字符集无法统一
在数十万的汉字中,只有三四千的常用字,剩下的绝大多数都是生僻字、异体字、通假字等。目前使用的汉字集根本无法涵盖古籍中的汉字,只能以方框、黑块等进行替换,令后世研究者无法了解古籍的真实性和价值性,这也为学者引用电子版本的古籍作注释帶来了极大的难题,严重影响了古籍的利用率。
1.4 储存格式上种类繁多
数字化古籍的储存格式可谓是五花八门,不仅有常用的doc、txt、pdf,还有html、exe、wdl、ebk、edb、nlc、ifr等等。不同储存格式的古籍无法实现兼容,需使用不同的阅读器方能进行查阅。因此,造成了古籍数字化资源使用效率的低下。
1.5 影像处理上千差万别
随着古籍影像资料规模的不断扩大,古籍影像处理缺乏规范的问题也日益凸显,主要表现在影像输入系统、影像储存格式、影像制作压缩标准等不统一,难以实现各个影像数据库之间的资源共享。
1.6 检索上途径各异
古籍数字化的重要功能之一就是通过检索为学术研究提供便利。目前最常用的检索方式有全文检索、目录检索、分类检索、浏览检索、索引检索等五种方式,并未形成统一的检索途径。其中全文检索是利用率最高的方式,虽然速度最快、命中率最高,但是也存在着简繁体切换检索、主题词检索、自然语言检索等标准不一的问题。
1.7 元数据著录上各行其是
元数据是数字资源的重要组成部分,支持发现、识别、存储和对象数据的迁移,有利于数据的标准化处理,实现数据的交流和共享。而古籍数字化元数据则包括了版本信息、收藏信息、作者信息、作品信息等。虽早在2002年,我国就已经制定了不同类型的数字资源的加工标准和规范,但是由于缺乏监管,在具体的执行中效果却大打折扣,未能达到预期目标,各出版机构仍然是各行其是,按照自己的标准进行处理,造成了古籍数字化作品难以实现共享。
2 关于我国古籍数字化标准体系建设的对策建议
2.1 统一认识,明确古籍数字化标准体系的建设原则
古籍数字换将古籍文献的内容以电子数据的形式呈现,对保持古籍内容的原始性具有重要作用,担负着引领古籍整理、开发、利用的重要职责。古籍数字化与其他文献的数字化,既有相同之处,也有不同之处,必须立足于古籍的特点来进行整理和利用。因此,在古籍数字化标准体系建设中应当遵循四大原则:一是开放性,即首先采用被广泛使用和认可的标准,避免重复建设,确保高的水准;二是系统性,即注重古籍数字化标准体系各个标准之间内在联系、统一和协调,力求发挥标准的整体性能;三是实用性,即立足于实际情况,对标准的建设过程中采用灵活多变的方式,以适应实际应用的基础情况;四是拓展性,即标准体系要根据实施情况不断完善,推动古籍数字化的发展。
2.2 建立标准,健全古籍数字化通用规范标准
古籍标准体系建设是实现业务协作、信息共享、发挥效益的先决条件,因此需比照通用习惯,按照行业标准,建立健全通用的古籍数字化标准。主要包括以下七个方面:
一是统一古籍版本标准,选择山本进行古籍数字化出版。在版本选择上的首要条件就是好的版本,应以善本为蓝本,此外还要综合对比其他版本,以求尽善尽美。
二是统一古籍书目分类,建立合理的数字换古籍书目分类方法。面对种类繁多的图书分类法,如何探索出科学合理的分类方法是重点。笔者认为,可综合《中图法》的符合学科体系研究和《四部法》的符合传统思维方式的特点,探索出一条适合中国古籍数字化特点的分类方法,技能结合传统的思维模式,又能满足学科研究的需求。
三是统一字符集标准,完善汉字字符集功能。统一汉字字符集已逐渐成为业界共识。纵观现有的字符集,Unicode字符集最具有成为标准化字符集的可能性,它涵盖了超过7万个汉字,并还不断在扩充中,而且还与国际标准ISO10646实现了同步。刻在古籍数字化中尝试推行统一标准的Unicode字符集的使用,并且不断完善其功能解决异体字、冷僻字、通假字等问题。字符集的统一有利用不同的语言平台之间实现数据共享。
四是统一储存格式标准,提高古籍谁抓的利用效率。制定统一的储存格式标准,避免了不同格式需要不同阅览器的繁琐,极大地提高了古籍数字化的利用效率。不过基于巨大的经济成本考虑,统一储存格式标准尚难以实现。因此,不如转换思路,研发能够兼容各种格式的阅览器。
五是统一古籍影像的处理标准,提高影像资料的使用范围。统一的标准体系对于古籍数字化意义非凡,为影像资料的共享和利用提供了极大便利。因此,统一古籍影像,降低失真率、清晰在线原始图文风貌的基础上,实现不同影像库之间的交流和共享。
六是统一检索标准,建立科学的古籍库检系统。在检索标准的制定上,应综合专家学者的意见,对关键词检索、条件检索、逻辑检索、模糊检索等方面以及人名、地名、特定词汇等制定符合其学科特点的检索标准,兼顾检索速度、命中率、繁简体切换等多方面的要求。
七是统一元数据标准,实现不同数据库之间的资源共享。研究和制定统一的元数据标准,打破各行其是的困局。同时,加强对元数据标准使用的监管,消除数据传递的壁垒,实现资源的共建共享。
2.3 统筹规划,成立专门的古籍数字化领导小组
古籍数字化建设无章可循,各为其政、各行其是的问题已不容忽视。因此必须加强对古籍数字化的宏观管理,进行统筹管理、规范利用、整合规划。这就要求必须要有一个专门的古籍数字化领导小组来进行具体的操作。只有在领导小组的框架内,才能实现人力、物力、财力的有效整合,才能统一古籍数字化标准体系,才能提高古籍的使用效率,推动古籍的现代化和创新。
2.4 培养人才,为古籍数字化标准体系建设提供智力支撑
古籍数字化项目的开发人员大多缺乏有效的组织和安排,古籍整理方面的专业人员缺乏计算机知识,信息技术人员又对古籍保护一窍不通,能够同时掌握古籍整理和信息技术的专业人员少之又少,严重影响了古籍数字化标准建设工作的开展。因此,必须将传统的古籍研究方法与现代科学技术相结合,培养一批兼具古籍整理与信息技术的复合型人才,才能保证古籍数字化工作长期有效开展,才能为古籍数字化标准体系工作提供不竭的动力和核心智力支撑。
参考文献
[1] 贺科伟. 我国古籍数字化标准体系建设刍议[J].科技与出版,2011(08):76-78.
[2]姚俊元. 关于制定古籍数字化标准的思考[J]. 图书馆理论与实践,2010(02):50 -52.
作者简介
邓蕾(1989-),女,重庆人,大学本科,重庆市九龙坡区图书馆,主要从事古籍数字化工作。