古籍数字化的发展与存在问题
2017-09-14梁琳
梁琳
摘 要:文章阐述了古籍数字化的涵义、分类、发展现状,介绍了古籍书目数据库的建立,指出了古籍数字化工作的重要性和其面临的问题。
关键词:古籍数字化 发展 历程 现状 问题
中文古籍数字化起始于20世纪70年代末80年代初,至今已走过了30年的历程。古籍数字化将中国最古老的文献与世界最先进的数字化技术完美地结合在一起,蕴载着中华数千年之文明,彰显着现代信息技术之优势,成为互联网时代中华文化展现和传播的一道亮丽风景。
一、古籍的涵义
古籍是指辛亥革命(公元1911年)之前历朝的写本、刻本、稿本、活字本、石印本、铅印本、拓本等等。辛亥革命以后影印的线装古籍(如《四部备要》、《四部丛刊》)都属于古籍。古籍可以分为普通古籍和善本古籍,善本古籍更为珍贵。
二、古籍数字化的理论
(一)古籍数字化的涵义
古籍数字化,是指利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据形式,通过光盘、网络等一切虚拟介质保存和传播。数字化是古籍再生性保护的重要手段,代表着古籍整理的未来发展方向。
(二)古籍数字化的分类
我国古籍数字化经历了数据库版、光盘版、网络版三个建设阶段。数据库版古籍包括书目数据库和全文数据库两种形式。光盘版古籍一般有图像版、全文版和图文版三种类型。网络版古籍主要是将数字化的古籍资源在网络上有偿或无偿发布,供互联网用户使用,这是目前古籍数字化的主要目标。
古籍数字化是对古籍或古籍内容的再现和加工,属于古籍整理的范畴,是古籍整理的一部分。
三、古籍数字化的发展现状
随着数字图书馆的发展,网络的普及,越来越多的读者习惯于使用电子版的资料库以及网络上的信息资源。古籍的数字化最早是从计算机技术发达的美国开始的。我国古籍数字化始于20世纪80年代,但是研究和成果较少。直至进入90年代以后,随着我国计算机的普及网络技术的介入,才有了古籍数字化的雏形。90年代中期以后,国家图书馆制订了一个庞大的古籍特藏文献数字化计划,如碑砧菁华、西夏碎金、敦煌遗珍、数字方志、中华再造善本、永乐大典等。
古籍数字化是保护与传承珍贵古籍的重要手段之一,通过拍照扫描等现代技术将古籍以数字方式加以再现。可以真实、清晰的反映出古籍原貌,并借助互联网等媒介提供大众使用。江苏科学院的专家首次研制出的《红楼梦》检索系统翻开了我国古籍数字化的新一页。国家古籍整理出版规划领导小组制定了《中国古籍整理出版十年规划和“八五”计划》,其中确定的任务之一就是扩大整理典籍输入微机工作的试点工作,最好做出能够发型的古籍电子版。20世纪末,文渊阁《四库全书》电子版的出现标志着我国古籍数字化进入了一个新的阶段。经过几十年的探索与开发,古籍数字化的规模得以扩展,最具代表性的有《四部丛刊》电子版、《康熙字典》电子版、《古籍图书集成》电子版、《史记》全文检索系统、文渊阁的《四库全书》电子版等等不胜枚举。
四、古籍书目数据库建立
(一)古籍书目数据库。我国最早建立古籍书目数据库的有国家图书馆、辽宁图书馆、南京图书馆等。目前,拥有古籍馆藏的机构大部分都建立了古籍书目数据库,提供古籍的收藏信息和版本情况。至少有几十个公共图书馆网站能够提供古籍书目检索。如:南京图书馆的古籍书目数据库,收录范围古籍线装书,数据量有十几万条;大连图书馆的善本数据库,数据量一千余条等;这些数据库方便广大读者和研究学者对古籍典藏的应用。
(二)古籍联合目录数据库。联合目录(union catalogue)是指一种联合两所以上图书馆馆藏目录的数据库。使用者从单一窗口网站来检索国内多所图书馆的馆藏,其能提供给使用者知道哪个图书馆有收藏他所需要的馆藏资讯。古籍馆藏书目数据库只反映了某一图书馆的古籍特藏情况,无法全面系统地反映某一地区的古籍收藏状况。我国开始尝试着建立古籍联合目录数据库,解决古籍资源的共建共享问题。如:1989年东北三省近60家图书馆联合编撰的《东北地区古籍线装书联合目录》、1998年武汉华中理工大学出版社出版的《中南、西南地区省市图书馆馆藏古籍稿本提要(附抄本联合目录)》、1985年中华书局出版的《中国地方志联合目录》,著录中国各省、市、自治区的公共、科研单位、大专院校图书馆、博物馆、历史馆、档案馆等190个单位所收藏的自南朝宋至1949年的方志8200余种。1994年四川大学出版的《四川省高校图书馆古籍善本联合目录》。
现代信息技术的发展为联合编目的实现提供了强大的技术支持。我国及海外一些收藏机构为此做出了积极的努力,开始了实现联合编目的历程。现主要的古籍联合编目项目有:中国古籍善本书目联合导航系统(http://202.96.31.45)、全国高等教育文献保障系统(CALIS)的古籍联合目录数据库(http://opac.calis.edu.cn/)等等。
(三)古籍全文数据库。古籍全文数据库指对古籍的全文进行数字化处理,直接为用户提供古籍的全文阅读或全文检索等服务。由于全文檢索的实现,极大地提高了查全率。古籍全文检索数据库几乎涉及中国古籍的各种类型,包括史书系列、编年体史书系列、文学古籍系列、宗教等各个方面。
1998年上海人民出版社与香港迪志文化出版有限公司以及书同文公司共同合作开发了文渊阁《四库全书》电子版。北京大学刘俊文教授组织编纂的中国基本古籍库光盘系统,收集了上起先秦,下迄民国,共荟萃重要典籍1万余种,每种典籍有一个通行版本的全文信息,另附1—2个珍贵版本的图像资料,总计20亿字,版本图像2000万页。所收书籍涵盖全部中国历史与文化,其内容总量相当于3部《四库全书》。截止 2004 年底,网上可见的中文古籍数据库约70多个。北京大学主持的 CALIS 项目及南京大学图书馆 CANAL项目古籍子项目已取得阶段性成果。endprint
五、古籍数字化工作
古籍数字化工作是一项系统化工程,技术含量较高,涉及多学科知识。古籍数字化主要应用于古籍整理与学术研究、古籍保护与传承等方面。古籍数字化的两大关键要素是古籍和数字化。古籍是数字化的对象,是数字化工作的核心内容,而数字化是技术手段,是古籍内容的表现形式。在整个数字化过程中,古籍内容专家负责古籍的遴选、鉴定与整理,完成古籍数字化版本鉴别和古籍内容校勘。计算机和数字化技术专家通过信息处理技术,将古籍内容付诸实践,经过内容转化,开发数字产品。因此,在古籍数字化工作中,古籍内容专家和技术专家缺一不可,二者相互协调和配合,才能将古籍文献通过数字形式展现出来。
古籍数字化的另一个重点工作是古籍数字化标准和规范。由于古籍文献的复杂性,比如文献版本的选择,古籍的分类,古籍的用字等,数字化工作将用到统一的数字资源描述,数据格式编码等一系列标准规范。数字化建设者应立足于古籍保存、内容服务的长远规划,建设标准体系,有利于古籍数字化工作的可持续发展。从2008年开始,国家图书馆数字图书馆工程进行研制符合现实要求又具备前瞻性的标准规范,包括字符编码、古籍用字规范、生僻字与避讳字处理规范、专门元數据规范、对象数据加工标准、管理元数据规范、数字资源长期保存规范等20余个标准规范。标准规范项目的研制成果在实践中有效地指导古籍数字资源的建设和应用系统的研制开发,进一步提高古籍数字化建设水平,促进古籍数字资源建设与服务的共建共享。
六、古籍数字化建设面临的主要问题
古籍数字化工作从最初的摸索尝试、零星制作到当前的规模开发,己经取得令人瞩目的成就,一批基础性的古籍文献被开发为真正意义上的数字化产品,并成功走向市场。虽然如今古籍数字化正欣欣向荣发展,但是发展中遇到的新问题也需要我们重视并加以解决。
我国的古籍数字化虽然取得了一定的成绩,但问题仍然凸显,还存在着一些问题有待解决,主要表现在:
(一)缺乏统一规划,重复建设严重。古籍数字化尚处在发展的初级阶段,我国古籍数量庞大,且分散收藏各地。从全国古籍数字化工作来看,基本处于一种缺乏宏观管理和调控的状态。出版界和图书馆界各方缺乏合作,从而造成古籍数字化产品的重复建设和质量、内容格式等方面的标准不统一。一些机构会首选读者需求量高、社会影响巨大、经济效益明显的产品,造成了古籍数字化产品的杂乱无序、重复投入。如文渊阁《四库全书》就先后有3家制作单位对其进行过影像的数字化出版,电子版的《二十五史》也有不下4种。这造成资源的重复开发,浪费了巨大的人力、物力和财力。文渊阁《四库全书》至少已有三家进行过影像的数字化(上海人民出版社与迪志文化出版有限公司的光盘版,武汉大学出版社的光盘版,“中美百万册书数字图书馆”的网络版等)。
(二)缺乏统一标准,阻碍资源共享。由于信息技术的快速发展和商业机构发展利益的需要,古籍数字化对象数据格式在选择上也面临繁多和复杂的局面,这其中有国际标准、事实标准,也有商业标准。
古籍著录大部分采用繁体字著录,但也有采用简体字著录的。由于选择字库不同,使得数据的交换无法直接进行,而只能通过专门的软件作为中介,进行格式和文字的统一。由于著录标准上的差异,今后即便能将这些数据汇入统一的数据库进行检索或跨库检索,也会给读者的使用带来诸多不便,导致无法真正实现国家乃至世界范围内的资源共享。
(三)缺乏经费支撑,区域发展不均。近年来包括国家图书馆、上海图书馆、北京大学图书馆、浙江大学CADAL管理中心等在内的古籍收藏机构已启动了一批古籍数字化工程项目,凭借资金、资源、人才上的优势,各自取得了十分显著的成果。但大多数图书馆由于经费匮乏、技术力量薄弱,古籍数字化工作仍然比较落后,一般还停留在图书扫描、部分普通书目数据库建设等简单数字化阶段,还有一些公共图书馆这方面的工作至今尚未启动。
(四)无统一发布平台,不利用户查询。由于古籍数字化成果没有统一的发布平台,各单位、各系统按照自己的规则发布,存在光盘版、网络版、局域网发布等多种方式,其中局域网发布又占了很大比例,因此虽然已有大量古籍数字化产品,但读者能够看到的却不多。从国家古籍保护中心对全国图书馆进行的调研中发现,古籍书目数据库大部分对外开放,而绝大部分图书馆的全文影像数字化产品只提供在馆阅览,不提供互联网服务,用户利用非常不便。
上述问题的存在,严重阻碍和制约了古籍数字化工作的深入开展。古籍数字化工作迫切需要统一规划,统一标准,合作共建,资源共享。五千年的存世古籍,肩负着厚重的中华文明,凝聚着民族智慧,是祖先留给我们的一笔庞大的精神遗产,传承文明是时代赋予我们每一个古籍工作者义不容辞的责任,古籍数字化任道重远。
参考文献:
[1]王桂平.我国古籍数字化的现状及展望.图书情报知识,2000年第4期
[2]陈秉仁.古籍善本数字化的尝试.现代图书情报技术,1998年第1期
[3]潘德利.中文古籍数字化进程和展望. 图书情报工作,2002年第7期
[4]钱律进.我国古籍数字化发展策略探析. 中国科技信息.2012年第9期
[5]叶莉.对古籍数字化进程中若干问题的思考.图书馆界, 2010年4期
[6]单传花.浅谈古籍整理工作的意义及末来发展趋势.佳木斯教育学院学报.2012第12期
[7]王玲玲.利用计算机进行古籍整理的方法分析.大众文艺,2010年第5期
[8]梁斌. 关于古籍数字化建设的思考和建议. 重庆图情研究. 2014年第3期endprint