从《儒藏》精华编看古籍数字化的价值理念与技术前景
2016-05-03赵新
赵新
摘要:古籍数字化是数字出版系统工程的重要组成部分,《儒藏》工程是中国与韩、日、越诸国进行古籍文献密切合作的成功范例。古籍自身的文本特性以及古籍整理出版的目的,决定古籍数字化宜采取优先服务学术研究的价值理念。该价值取向也决定古籍数字化技术系统的建构方向,必须改变过去单纯以“求全率”与“求准率”为标准的检索功能,转变为真正以研究者为取向的高端智能检索系统。古籍数字化从学术研究走向文化普及,必须充分发挥“1人机结合”的优势,推进学术研究和数字技术双方的合作。
关键词:古籍数字化;价值理念;文化普及
在十几年前的中国出版界,数字出版还是一个充满争议性的话题,历史悠久的印刷技术似乎造就了我们更倚重书本的传统。麦克卢汉说,今天的加速度趋向于全方位,经济的任何一部分感受到加速发展的时候,其余的部分必然群起效法。当前,电子技术变革的总体前景非常清晰,加速度仍将持续下去,这已不可阻挡。世界图书市场数字化依然在加速推进,而且随着习惯于“读屏时代”的消费群体的快速成长、盗版和免费资源的日益泛滥以及传统出版营销成本的逐年走高等多种因素的冲击,传统纸质出版正面临着艰难的转型。目前摆在人们眼前的已经是如何去做、如何做得更好的问题了。
古籍的数字化当然也无法置身事外。古籍数字化关注的首要问题是纸质图书,特别是古籍会消亡吗?美国达恩顿教授戏谑地说,我们制造的信息远远超过能够完成的数字化信息。他例举“谷歌图书搜索计划”有八个方面的技术难题很难被克服,其中最为主要的难题是尽管屏幕上显示的扫描图片正确无误,但是还是不能抓住该书的关键,比如纸张材质、印刷质量和装订风格的“感受”以及体验一本书所释放出来的特别“气味”,是任何电子书都无法提供的。所以,古籍的电子图片远比不上触摸原书来得兴奋。中国古籍文本的特定形式——字体、开本、版式、装帧、纸张材质、印刷质量、装订风格、边栏、天头、地脚、书耳、行款、版心、鱼尾甚至书的页边注等都是文本自身整体结构的一部分,这在文献研究及版本考证等方面呈现的知识信息尤为重要,成为一种表达古籍文本意义的独特结构。比如说,西方采用羊皮装订成册,是横向的阅读方式;中国削竹成册,编定成卷,左右展开,形成的是上下排列、从右到左的阅读习惯,进而形成了东方民族式的装帧风格。对于上述问题,治中国书史的名家钱存训、张秀民、潘吉星诸位先生都有过详尽的研究,此不赘述。纸质古籍具有独特的文化品位,某些物理形态是电子书无法提供或呈现出来的,比起电脑屏幕,许多人更喜欢纸上阅读。故此,可以说纸质古籍不会消失,它将会与数字出版共生。
2003年,杨牧之先生以文渊阁《四库全书》电子版具有信息容量巨大、检索快捷方便等优势为例,主张古籍数字化,认为这是古籍整理发展的趋势,顺应这种变化是时代向古籍整理工作提出的新要求。这充分说明出版界的有识之士已认识到古籍数字化是历史发展的趋势。从某种程度上说,中国古籍特别有利于建立大型的历史文献数据库,我们有积存数千年浩如烟海的文献典籍可以作为数字出版的内容,且东亚地区长时期通行汉语,我们的优势表现得特别突出。《儒藏》精华编以收录464种在中国学术思想上具有代表性的儒家典籍文献为主,选收韩国、日本、越南历史上以汉文著述的重要儒学著作100余种,共计339册,约2.5亿字。四国古籍文献均通用汉字,语种比较单一,更有利于联合建立大型的历史文献电子文本数据库和高效快捷的检索系统。
尤其需要说明的是,古籍数字化与传统纸质出版在文本内容以及目标人群上并无根本差异,只是在使用文本的工具层面发生了变化。古籍数字化以古籍整理出版的内容为基础和前提,其目的与任务应该与古籍整理出版的目的与任务协调一致,即主要还是服务于学术研究。目前甚至在未来很长一段时间内,这种状况仍然不会改变,这表明古籍数字化必须采取优先服务于学术研究的价值理念。
许逸民先生详细地说明“中国古籍”的定义,认为古籍的主体部分指的是1911年辛亥革命以前主要用汉文编撰出版的图书。古籍文献产生的历史文化语境,一言以蔽之,主要是产生于并服务于传统的知识精英群体。单说古籍呈现的文字内容形式,如沈望舒先生说中国古籍最大的缺陷是整体表现形式上同现代读者有隔膜,文字语言存在障碍。问题是历史造成的,中国语言和文字的形、音、义都有时代的特点,古今语言有—定差异。正如宋代朱熹所说:“当时百姓都晓得者,有今时老师宿儒之所不晓。”(《朱子语类》卷七十八)历代语言可能所指事物古今不同,语法古今不同,特别是五四新文化运动以来,白话文深入人心,读古籍者渐少。古籍的繁体竖排不加标点,古汉语语法、字词义表达方式和现代汉语不同,对各类典故的生疏,客观上缩小了读者范围。古代典籍自身的特点,决定了古籍整理出版与其他图书出版之间的差异,古籍整理出版工作,可以分为三个层次:第一层次,影印或数字化保存古籍;第二层次,供科研和教学人员使用;第三层次,给一般读者阅读。但是古籍整理主要是通过适当的方式,使传世的文献典籍为当代或未来的学术文化服务。金克木先生认为整理古籍的目的有二:一是为专家和半专家(非本行的专家),一是为一般人和青少年,后一项还得加一个必不可少的前提条件:教育内容和方法的改革能使将来的本国语文水平提高而不降低,不至于只会讲“拜拜”而不懂“告辞”。古籍数字化服务群体主要是学术研究者,今后古籍数字化优先解决的目标取向仍是学术研究群体,这种分清先后秩序的工作理念尤其重要,实际上关涉建立古籍数字化技术系统的方向性问题。
古籍数字化以学术研究为优先取向,就必须使其技术系统设计真正转移到研究者本位上来,建立以学术研究为取向的古籍数据库。二十多年来,中国古籍数字化的道路基本上是通过两条路线进行的:一条是利用计算机对古籍进行揭示,建立古籍的书目数据库,提供给读者检索使用;另一条是利用计算机对古籍的内容进行数字化并提供一些相关的知识工具,使读者不仅能通过计算机阅读古籍,而且能够通过磁盘、光盘和网络进行传播。显然,这种数字化系统的设计并没有考虑到使用者——尤其是研究者的需求,以致直到现在绝大多数研究者认为检索系统只能帮他们找资料,而不能帮忙整理或分析资料。故此,台湾学者提出的“数位人文”概念对我们具有启发意义,“数位人文”就是结合大量的数位材料,运用资讯科技来从事人文研究。以研究为取向的系统在数字资料运用上扮演了关键角色,只有建立起一个功能强大的系统,使用者才能更自由地以自己研究所需去观察史料,发掘史料间的脉络,展开自己的论述。台湾学者项洁、翁稷安以“拼图”和“积木”的思维说明传统数字出版和以研究为取向的数字出版的不同:一片片拼图虽然看似可以分开,但一定要合在一起才有意义,而其拼凑的方法只有一种,就是设计者给出的图像;积木则大不相同,它可以依照使用者各种不同的想法和需要,拼造出各式各样的组合。以研究为导向的系统,便是能让使用者可以更自由、更方便地去做出各种符合其研究需要的组合。试以《儒藏》精华编的数字化为例,随着图书电子版的逐渐推广,版权问题得到解决,《儒藏》精华编在版本上线后存在的问题也会逐渐减少。可以采用“文本带图式”,即图像版和文本版相结合,以提供精准的校点文本为主,兼具原始底本和各种校本图像。图像版可以尽量保存底本与校本的原貌,使纸本古籍的原貌(包括物理形态)尽量呈现出来。这样,文本版和图像版共存于同一环境之中,扩大了传统印刷版本的容量,使底本与不同校本在一个浓密的语境信息网络中相互链接,交叉相连,形成了所谓“超文本”网络,每种古籍的内容及价值都可以在多个层面上得到实现,可以在校书过程中实现善本与各本互校,解决校对质量问题和一些疑难问题,甚至发现许多新问题。这样的“超文本”系统也必然存在开放的、具有各种不同链接可能的多元脉络,检索系统也将会尽量开发出各版本之间的各种关联,并建立观察脉络的环境,让检索者或使用者可以自由地将检索成果制订成一个有意义或有问题意识的文件集,并提供各种方法让使用者进行文本间脉络的观察。
《儒藏》精华编最具特色之处是对于文本版的处理,计算机技术在此发挥了巨大作用。这其中有三大关键因素:首先,《儒藏》具有一套成熟规范的《儒藏》出版体例。文本版各个图书部件在字体、字号、层级、排列次序等细节上都有细致入微的规定。其次,《儒藏》精华编是专收儒家文献的典籍,种类单纯,比较利于建立细致的文本分析功能、关键词检索、超文本链接等信息单元。最后,《儒藏》精华编文本内容具有精准性。《儒藏》编纂与整理采用了简明校勘加现代标点的排印方式,这样做不仅避免了与已经出版的一系列大型影印丛书的重复,更重要的是迎合了人文与科技进一步融合互动的趋势。《儒藏》精华编数字化系统研究平台的杨心就是建立以研究为导向的智能检索系统。过去以“求准率”或“求全率”作为评判系统的指标可能仅仅是一个起点,《儒藏》精华编数字化检索系统不单是被动地提供查找功能,且具有主动开创新议题的能力。《儒藏》数字检索系统首先考虑到所收录的儒家经典的自身特性,量身定做出儒家经典所需要的检索系统,充分吸收学界研究儒家典籍文献的优秀成果,形成一个具有开放性、多重脉络的搜索系统,可以尝试将各种研究资源库如知网、万方等数据库资源链接起来,形成研究资料丰富的“超文本”链接,在数据与数据之间建立有机联系,进行数据的深度加工与开发,形成学术资源群,从而不断挖掘出新的研究脉络或方向,构建起学术研究的整体大环境,以充分实现学术研究与数字技术的互动,形成“人机结合”的对话过程。
下面谈古籍数字化的文化普及工作。达恩顿教授曾设想“电子书”可以设计成金字塔状的多层次结构,读者可以根据自身需要采用不同层次的阅读方式和研究方式。这种思路不失为一种好的设想。金良年先生认为古代知识精英文化如何将经典大书转化为通俗文化也值得我们深思。古籍数字化的文化普及工作,仍然需要学术研究不断推陈出新,并努力将经典通俗化。当然,这也非常需要数字技术的进步。纸质印刷品有天然的局限性,比如强迫读者接受它的形式、结构与空间,这些物质形态的局限性限制了读者自由地参与进去。而在数字环境下,物质形态的局限将会很快被克服,读者不仅可以对文本进行各种操作(如编索引、加注、拷贝、分解、重组、移位等),甚至还可能参与合写。退一步讲,读者随时随地都有可能介入文本,修改之,重写之,将它们变成自己的东西。未来古籍数字化的资源也可以非常“个性化和私人化”的方式让读者参与到文本建构或学习中去。这样或许可以实现数百人同时在线阅读—本古书或众口品评同一句古话,古籍数字化也可能由此成为满足大众兴趣爱好的“公共花园”。