2008-2017 年我国典籍数字化研究综述
2019-12-16李林澳夏南强湖北中医药高等专科学校图书馆华中师范大学信息管理学院
李林澳,夏南强(.湖北中医药高等专科学校图书馆;.华中师范大学信息管理学院)
“典籍”指古代重要文献,常用泛指古代图书,也可称为“古籍”。中华文化源远流长,典籍文献在中华知识宝库中占据了相当重要的位置。中文典籍文献蕴含着丰富的文化内涵,但由于年代久远,加之自然、人为损耗因素,许多珍贵典籍已经失传,以纸张为载体的典籍文献不仅不便于使用,更不利于保存与传承。因此,利用现代信息技术对其进行加工,是提高典籍文献利用率的有效措施,也是典籍保护工作的重要内容之一。
所谓利用现代信息技术对典籍进行加工,就是利用计算机技术把纸质载体等上面的文字图像符号转化为计算机能识别的数字符号,并通过网络、光盘等介质进行传递、保存、利用的数字化过程。中国的古籍数字化工作始于20 世纪80 年代初,当时称为“计算机化”或“电子化”。古籍数字化在中国的真正发展是20 世纪90 年代中期以后的事情。[1]1997 年,刘炜首次正式提出了“古籍数字化”这一术语概念。[2]自此之后,关于古籍数字化的研究才日益增多。李运富将古籍数字化定义为:“利用现代信息技术,将历来以抄写本、刻铸本、雕版、活字版、套版及铅字印刷等方式所呈现的古代文献,转化为电子媒体的形式。”[3]在此基础上,乔红霞[4]、刘琳[5]、毛建军[6]等进行了补充论说。其中,毛建军认为,古籍数字化是以利用和保护古籍文献为目的的,其数字化过程应包括加工对象、加工工具、著录标准、实施者和协调管理者五个要素。[6]根据不同的标准,曹天晓对古籍数字化的成果进行了分类,按使用平台的不同分为电脑端和移动端;按网络的使用情况分为离线型与在线型;按呈现方式的不同分为古籍电子书和古籍数据库。[7]
虽然近年来对于典籍数字化的研究已引起学界的重视,但仍有许多有待深入探究的领域需要挖掘。本文对中国知网上2008-2017 年有关典籍数字化研究的文献进行了梳理,归纳介绍了典籍数字化的研究现状,以期为进一步的深入探究提供参考与借鉴。
1 研究数据的来源
为了解我国典籍数字化研究概况,本文选取了中国知网(CNKI)为数据来源,采取高级检索方式,发表时间限定于2008 年1 月1 日-2017 年12 月31 日,以“典籍* 数字化”“古籍* 数字化”“古籍* 数据库”为检索词进行初步检索,检索时间为2018 年3月30 日,共检索出1,122 条记录。按学科分布,图书情报方面共有论文864 篇,占比68.35%,其次是计算机软件及计算机应用(115 篇) 和中医学研究(90篇)方面的论文。此外,还有一些出版研究、中国语言文字研究等方面的相关论文。
2 研究数据的统计与分析
2.1 文献数量及分布
研究领域内文献数量的增长在一定程度上能反映该领域知识量的增长,因此科学文献的数量是衡量科学知识量的重要尺度之一。[8]分析近十年来有关典籍数字化的论文数量,可以大致了解该研究热点在我国学术界的研究发展进度与未来趋势。
图 文献年度分布趋势
上图是2008-2017 年关于典籍数字化研究文献的年度趋势分布图。从图中我们可以看出,2008-2012年文献数量呈上升趋势且年均增幅15 篇以上,发展迅速,可以看出典籍数字化的相关研究呈上升趋势。2012 年后研究整体趋于平稳。发文数量最多的年份是2012 年(131 篇),其次是2016 年(127 篇)。2010 年至今,发文数量均稳定在100 篇以上,年均量达112.2 篇。以上数据表明,我国学术界重视典籍数字化的研究,虽然其不是研究热点,但有较稳定的研究队伍和研究成果。
2.2 文献期刊分布
论文在期刊上的分布,也能一定程度上反应该领域的学术发展水平。通过分析文献的期刊来源,可以确定该领域内的重点期刊以及学术取向,也能为相关文献的搜集与管理提供可靠的依据。表1 为刊载论文大于等于8 篇的论文期刊分布。
从表1 可知,刊载典籍数字化方面的论文,档案学领域的核心期刊《兰台世界》发文量最多,高达31篇,占总数的6%。其次是《图书馆学研究》《图书馆理论与实践》《图书馆学刊》,分别为28 篇、27 篇和26 篇。这三种期刊是图书情报类的核心期刊,占发文总数的17%。在多种类型的期刊中,图书情报和档案类最多,约占发文总数的77%左右。
表1 论文期刊分布统计
需要注意的是,发文量并不能成为评判某领域内期刊是否重要的唯一标准。以本次分析中发文量最高的《兰台世界》 为例,它是档案期刊中唯一的半月刊,每期载文量50-80 篇不等,其年总载文量较多,因此在排名中位居第一,也在情理之中。因此在确定重点期刊时,载文量只能作为一个方面的参考因素。
2.3 文献被引频次
评判一篇论文的学术影响力,可结合其刊载期刊登记、获奖情况、转载引用频次等多重因素进行考虑。但一般情况下,我们可以通过被引频次的高低来对该论文的学术影响力进行评价。与此同时,我们需要注意被引频次的滞后性,即论文从刊载到被引,会经历一个较为漫长的时间跨度。表2 为2008-2017 年典籍数字化文献排名前五的被引频次。
表2 文献被引频次
从表2 可知,被引频次最高的为赵东于2014 年撰写的博士论文,在3 年时间内被引频次高达53 次。其次是刘家真和程万高的《古籍保护与开发的策略与建议》 一文,被引37 次。上述论文起到了一定的理论参考与指引作用,引起了学术界对典籍数字化资源保护与开发利用问题的探讨与研究。但纵观整体情况,仍有将近一半的文章从来未被引用,且被引文章中大部分仅被引一次,说明目前典籍数字化的研究相对属于“冷门”研究领域,重视程度不够,缺少影响力较强的学者群体。
3 我国典籍数字化主题热点分析
3.1 典籍数字化保护
结合国家古籍保护政策对古籍进行数字化保护与开发利用,近年来受到研究者越来越多的关注。张利认为,古籍数字化载体产品能延续古代文献典籍的保存。古代文献载体形式经历了从甲骨、青铜到最为普遍的纸质的变迁,虽然纸质易于获取,但难以长久保存,而数字化则正是有效保护古籍文献的手段。[9]郭春凤针对古籍数字化保护平台的构建提出了自己的思路。她认为在数字时代下,古籍的保护应遵循系统整体科学性、针对性、安全性、通用性和标准化的原则,在构建数字化保护平台时应注重检索平台和交互服务平台的建立,强调信息检索平台要提供全方位的检索服务,整合古籍网络资源;而交互服务平台则要体现个性化服务,主动推送信息,在古籍研究中使用交互工具来进行用户咨询与培训教育。[10]汤印华认为,古籍修复信息数字化建设不仅能更好地记录、管理、推广优秀修复技术与原则,更能规范化修复工作,使其向科学迈进,促进文献的保护与交流,进而实现古籍数字资源共建与共享。[11]
除此之外,红外线传感装置、交感技术等先进科技手段应用到各馆藏机构中,也更能保证珍贵古籍的安全。[12]上海图书馆的家谱数字化资源建设和服务是古籍资源保护的显著成效之一。从整理未编家谱到全文数字化家谱正式开放使用,上海图书馆经历了一段漫长的摸索过程,但自2006 年投入使用后,利用电脑阅读家谱呈增长趋势,家谱数字化对图书馆的服务方式和文献的利用方式均带来了一系列可喜的变化。由此可见,古籍数字化有利于古籍的保护和修复,降低纸质古籍的流通量,从而减少人为损坏。[13]
在少数民族古籍数字化保护方面,韩晶从古籍文献现状、古籍文献保护方式、数字化文献保护方式与进展、数字化资源的开放获取以及云端存储和保护等五个方面介绍了新疆古籍文献资源的数字化保护情况。[14]高建辉指出,彝文古籍数字化保护目前面临着对数字化的认识不足、资源分散、收集整理困难、数字化预处理难度大、专业型复合人才和知识产权保护手段匮乏等问题。[15]他针对彝文古籍的特点及保存现状,设计出了具体的彝文古籍数字化保护步骤。同时他还针对彝文古籍知识产权的保护提出了见解,建议利用水印、PKI 体系等先进技术追踪版权归属信息,同时推动相关法律法规的建立。[16]
3.2 典籍数字化标准体系建设
典籍数字化的标准指在数字化过程中以达到最佳有序化程度为目的,共同遵守的准则和依据。由于存储格式众多、检索平台各异、方式千差万别,制定切实可行的数字化标准非常必要。姚俊元从概念的认识、存储的格式、工作宗旨、数据形式、方式标准和汉字的编码等方面探讨建立标准化的体系。[17]张文亮认为,应当制定相应的合作标准,避免重复数字化现象的进一步恶化,要采用相互兼容的文件格式,统一字符处理标准,制定专门的数据加工标准和数据库检索标准,规范资源的分类与管理。他还提到,目前我国古籍数字化标准体系主要由技术标准、管理标准和工作标准构成,尚未涉及管理标准和工作标准方面,也没有与国际接轨的通用合作标准。因此,他结合生命化周期理论,对古籍数字化的全过程进行了分析探讨,构建出了适合我国国情的古籍数字化标准体系框架:项目规划标准、古籍版本选择标准、古籍数字资源生产标准、古籍数字资源保存标准、古籍数字资源发布标准,与古籍数字化生命周期的各个环节相对应。[18-21]
为了顺应数字化可持续发展的需要,葛怀东提出了典籍数字化标准体系的构建原则,即开放性、系统性、实用性和拓展性。[22]李小平等以此为基础,提出了适用于医药方面的医药古籍文献数字化标准体系。[23]基于西北地区的特色历史文化,王海花介绍了西北古籍文献的收集与利用现状,认为理想的数字化标准应当能提供文本与原版古籍对照功能,正常显示生僻字。[24]
3.3 典籍数据库建设
关于典籍数据库的研究,王雁行认为,应当以“中华古籍保护计划”为依托,统筹规划,在全国范围内组织建设国家古籍资源数据库,保障国家文化安全,促进中华优秀传统文化的继承与弘扬。[25]刘聪明认为,未来的古籍全文数据库应当至少能具备智能转换功能,能准确的定位检索结果,主动支持智能化研究。可以通过建立简、繁、异体字对照表,建立分类导航来达到这个目标。[26]为了更为直观地了解古籍数据库的标准,毛建军选取了上海图书馆古籍书目查询数据库、学苑汲古——高校古文献资源库、国家图书馆古籍善本查询数据库和(台湾)中文古籍书目数据库这四个大型数据库进行比较,提出机读目录格式、古籍著录规则、古籍分类法、主题标引、统一字库的5 个建设标准。他还调查和分析了国内外甲骨文全文数据库的建设情况,指出目前最迫切的任务是做好甲骨文资源整合工作。[27,28]林红状详细介绍了南开大学图书馆家谱数据库的构建流程,指出该举措不仅能发挥大学图书馆的教育职能,还能提高自身数字化服务能力,加强古籍特色数据库的联合共建。[29]王莉分析了湖北省方志数据库的建设模式和内容设置,并详细展示了数据库的建设流程,指出在方志数据库建设中应当注重使用页面的友好性。[30]
随着信息技术的高速发展,典籍数据库知识产权的问题日益突出。毛建军从自建数据库的著作权、购买数据库的著作权、数字资源导航的著作权和信息资源共建共享的角度对高校数据库进行了深入探讨。[31]杨思洛等对微信平台和手机客户端进行了调研,分析其运行模式和主要功能,指出当今古籍数据库的移动应用内容较为单一,无法吸引大量用户关注,还需从检索功能和阅读体验等方面进一步完善平台建设。[32]
3.4 中医药典籍数字化
中医药古籍是中华民族几千年来的珍贵智慧结晶,其养生保健知识、理法方药等都具有极高的使用价值,是现代中医学术创新与进步的根基。陈素美认为,出于保护中医古籍的需要,尤其是已经破损的孤本、善本,利用数字化技术尽快恢复和还原其本来面貌刻不容缓。中医古籍数字化也能进一步的传播中医信息,构建中医知识库。[33]程新论述了中医药古籍数字化过程中应遵循的9 个原则。除保真原则、整理原则、标准化原则、共建共享原则等较为常见的原则外,还需遵循保护与利用相结合原则、统一规划与分步实施原则、可持续发展原则、图文对照原则和技术服务于内容原则。[34]对中医药古籍进行校对也是一项基础性工作,关系到整个数字化成果的质量。陈晓迪提出,数字媒体形式的书目数据库或全文数据库能大幅度的提高点校效率,尤其是在对校法、本校法及他校法的使用中,中医古籍的数字化能比其他形式的古籍数字化更快捷深入。[35]刘毅则倡导利用现代计算机技术,深入挖掘中医药古籍中的知识,改变重藏轻用的传统观念,强化知识深层次开发,培养中医古籍管理复合人才。[36]
李小平等介绍了医药文献数字化的发展历程,提出要寻求技术突破、全面统筹规划、完善专业人才队伍建设、结合需求结构和用户信息行为分层次地开发的总体建设思路。[37]吴桂英则列举了书目著录、检索限制、版权保护等方面存在的障碍,认为要建立专业的医药文献数字化人才队伍,加强对数据库的检索功能建设。[38]
目前许多科研机构和高校图书馆已认识到了中医古籍数字化的重要性。蓝韶清等人则从基于信息构建的角度构建了中医药数字化系统,他认为信息构建的核心要素包括信息组织系统、标识系统、导航系统和搜索系统,而这也正是中医药数字系统需要研究的核心部分。[39]裴丽和曹霞指出中医古籍数字化多功能阅读环境必须具备个性化信息检索系统、基于超文本链接的阅读环境和辅助研究支持功能平台。她们认为,中医药古籍数字化平台不应当只是一个用户查找信息的平台,而更应是中医古籍整理、研究、交流的平台。[40]
3.5 民族典籍和地方志的数字化
少数民族的古籍文献是少数民族文明成果的重要表现成果之一,目前,在数字化过程中,藏文、蒙古文、彝文等少数民族文字的字符输入法技术、识别技术等已有初步进展,但仍不完善,不利于传统文化的传承。朱宗晓、何红一等人提出在少数民族古籍数字化传播中,利用载体还原、场景重现、文化传承这三个循序渐进的传播策略。[41]贵州省是一个少数民族世居的省市,各民族古籍文献载体的形式也丰富多彩。有文献类、文书类、口传类、金石铭刻类等。陈世莉提出对于有文字类的典籍文献,可以进行收集、修复、整理、编目、分类、扫描、影印、建库的步骤来扩大民族利用范围,而无文字类的古籍(如口传诗歌、民间故事等)则可以通过采访民族民间艺人、录音录像、田野调查等方法来全方位采集文献,建立音像资料数据库。[42]苏日娜介绍了蒙古文古籍文献的收藏情况,指出目前蒙古文古籍具有文献收藏地分散、损毁情况恶劣、利用困难等特点,强调了加快建设蒙古文古籍文献数字化共建共享系统的必要性和紧迫性。[43]
地方志是中国典籍的重要组成部分,但目前我国古旧方志存在底数不清的问题,管理与利用都不能达到需求。陈红彦认为,除了进一步展开地方志资源普查,为后续利用打下基础外,还应在共建共享基础上开展数字化建设,统一规划,统一平台发布,分步骤实现资源数字化。[44]胡以涛揭示了南京农业大学抄写本地方志古籍数字化的整理过程,摸索出了一套优化升级的改进版图文对照模式,以期获得更大的效益。[45]
3.6 典籍数字化特殊技术应用
杨贤林对古籍整理中常用的文本挖掘、GIS、文本可视化和语料库数字化技术作了介绍。[46]吴茗以北京大学数字图书馆古文献资源库的时空检索和复旦大学历史地理研究中心的CHGIS 为例,阐述了GIS 技术的应用。认为要想让技术日臻成熟,就得加深对元数据的研究,同时对时空信息进行采集,建立相关的时空数据库,组织统一的时空描述参考框架,这是在古籍资源建设中利用GIS 技术进行共享和分析的基础支撑。[47]熊静对古籍元数据的定义和范围进行了界定,比较了MARC 格式和基于DC 的元数据标准后,认为DC 元数据无论是在信息对象描述能力和完整性上,还是对数字化的适应性和格式可拓展性上,都更强于MARC 格式。[48]
黄鑫海列举了常用的均值滤波算法、中值滤波算法和小波变换算法的优缺点,并选用《本草纲目》第一页作为实验样本,得出在处理古籍图片时,可以使用APG 算法优化噪点图片这一结论。[49]肖禹概述了动态组字的发展过程,探讨了古籍数字化对汉字编码的需求,着重论述了动态组字在集外字描述、集外字管理和集外字显示上的应用。[50]另外,他结合中华珍贵古籍数字资源库建设和《古籍数字化工作手册》(试用本),从设备与环境、设备校正和图像校色三个出发点分析了色彩管理技术的应用。[51]
3.7 其他方面的研究
除了上述主题之外,在检索到的文献中还有一部分文章主题新颖,从不同方面对典籍数字化进行了研究。
文学经典是中文古籍中不可或缺的一部分。钱智勇以《楚辞》的数字化为例,将楚辞的数字化分为载体外观数字化、相关古籍背景资料数字化和相关古籍内容数字化三个层次,抽取主要概念对楚辞文献本体进行建模,根据本体建立对象属性并建立了28 个关联,最终实现了基于楚辞的可视化关联检索。[52]赵新以《儒藏》精华编的数字化为例,认为古籍数字化应以学术研究为优先取向,让技术系统设计转移到研究者本位上来。至于文化普及工作方面也需要数字技术的进步,让读者也能参与其中。[53]在佛教文献数字化研究方面,方广锠分析了佛教文献整理工作模式,认为应当在提供整理本的同时一并提供原始数据,这样才能降低对佛教文献整理成果评价的盲目性。他指出,汉文佛教文献数字化总库的建设应遵守起于最底层、信息全覆盖、过程可追溯、功能可扩展四项基本原则,以整理而非编纂全部汉文佛教文献为目标建设汉文佛教文献数字化总库。[54]
我国数字化主体类型的多元性决定了公益性的古籍数字化和商业性的古籍数字化应有不同的控制与管理模式。公益性古籍数字化的国家控制与管理模式可采用选题控制模式和成本效益评估模式;商业性的可以采用市场调节控制模式,通过市场这只“看不见的手”间接的进行管理与控制。[55]郜丽红认为制定典籍数字化国家宏观政策有利于国家对古籍信息资源进行宏观规划和管理,促进资源共享。数字化宏观政策体系的内容应该包括信息选择、采集、统一标准、资金及人才政策等方面。[56]
陈得媛分析了古籍数字化工作中的乱象,认为构建协调机制势在必行。成立古籍数字化业界联盟,统筹协调各方面的利益关系以解决版权之争。[57]
古籍文献数字化的人文意义在于它关系到敬畏图书馆制度、维护图书馆权利、对弱势群体关怀及坚持图书馆职业精神等诸多方面。涂湘波认为典籍数字化的过程体现了信息技术和人文精神的融合,人文精神需要信息技术的支撑,信息技术的发展更需要关注人文因素,要克服“重技术,轻人文”的思想弊端,时刻体现图书馆的人文精神。[58]
4 结语
近十年来我国典籍数字化在不断的摸索研究中获得了许多优秀成果,本文通过对近十年典籍数字化领域论文的梳理,发现研究中也存在一些不足之处。
(1)国外经验的参考借鉴较少。在检索到的文献中,只有寥寥几篇文章介绍了日本、英国以及美国的古籍数字化概况。虽然中文文本数字化有其特殊性与复杂性,外国文本抽取技术对我国参考意义不大,但外国的标准体系建设、数字化指导方针等方面值得我国借鉴学习。[59,60]我国的典籍数字化研究,可以大力开展国际间合作,参考国外的实践和理论方法,创建国际信息交流平台,建立全球性的古籍数字化合作模式,提升典籍数字化共享水平,共同促进中国典籍的数字化保护与利用。
(2)对典籍数字化进行研究的学者,超过一半以上来自于图书情报领域,而典籍数字化的工作涵盖了包括计算机学、中医药学、中国古典文学、中国历史、语言学、宗教学等不同学科方面的知识,需要综合运用不同学科知识进行研究,仅从单一学科出发进行研究很难实现新的突破。跨学科专家学者合作,融合不同学科知识,为典籍数字化的研究提供不同的知识养分,充分利用计算机技术等其他学科方法,可以推动典籍数字化研究和实践的发展。
(3) 我国典籍数字化迄今仍未建立统一的标准。虽然诸多学者都对此进行了探讨,强调了建立统一数字化标准的必要性,但关于标准的建立众说纷纭,没有形成共识。学术界可以以建立统一的数字化标准为重点,深入研究并达成共识,拟定准则并通过实践来验证其可行性,逐步向规范体系发展,进一步促进典籍数字化资源的共建共享研究。