书同文字与再造书契
——论古籍数字化时代的字符统一与文本规范
2023-10-30李飞跃
李飞跃
清华大学 人文学院,北京 100084
当前,古籍数字化的重心已由图像扫描向数码识别转变,古籍数据库也已从全文检索向关系型、结构化的智慧型数据库演变。古籍数字资源的生产、使用、转化等全过程首先离不开字符的规范,但字体字形多样、字际关系复杂和编码系统不一,以及各种文本库和数据平台的内码、格式不同,严重阻碍了古籍的整理、编辑、存储、呈现、检索、转换和深度利用。加上字符标准、数据结构和文本形态等方面存在的问题,造成目前的古籍电子文本和数据库,连最基础的字频统计都无法做到精确,极大限制了古籍数字化和智能化的发展。随着人工智能技术的应用,古籍识别效率和准确率大幅提升。不仅大量异体异形字顺势进入各种数据库,一些域外汉字随之流通,废弃汉字被激活。各家造字和认同标准不一,也给古籍数据库建设埋下了隐患。如果对字符集和文本库建设问题思虑不周或处置不当,大量噪音与“蚁穴”将使古籍数字化难以持续深入,数字文献和信息平台建设不得不反复回头解决字符认同和文本对齐问题,将对科学研究和文化教育事业造成不可估量的损失。2022年4月,中办国办印发了《关于推进新时代古籍工作的意见》,提出要统筹实施国家古籍数字化工程,加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享,“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级”(1)《中办国办印发意见 推进新时代古籍工作》,《人民日报》,2022年4月12日,第1版。。党的二十大报告强调要“实施国家文化数字化战略,健全现代公共文化服务体系,创新实施文化惠民工程”(2)习近平:《高举中国特色社会主义伟大旗帜 为全面建设社会主义现代化国家而团结奋斗——在中国共产党第二十次全国代表大会上的报告》,《人民日报》,2022年10月26日,第4版。。字符集和文本库作为古籍数字化和文化大数据的基础,不仅关系到中华历史文明的赓续,也影响着中华民族现代文明的创造。
一、古籍中常见的字符不规范问题
古文字不仅有篆、隶、楷、行、草等不同写法,更有繁、简、俗、古、外等各异书体。不同的时代、区域和行业,都会产生诸多异体字和异形字。繁简字、异体字、俗体字、避讳字、同形字、同源字、通假字等术语,反映了字际关系的复杂。古今字是影响汉字规范的最大因素,今字既可承担古字的某一义项(本义、引申义),也可承担古字的全部义项。多数情况下,今字只分担古字中的某一个意义,“今字产生以后,古字并未完全消失,而后人常常出于仿古的习惯还会使用古字来代替今字”(3)许嘉璐:《古代汉语(上)》,北京:高等教育出版社,1992年,第67页。。新旧字从笔形、笔画、笔顺、部件、结构等方面出现多重差异。繁体字系统内,仍有繁简差异。繁简转化时,部分汉字有了相对明确的转换标准,但有些需依据语境和功能来判断。历代基本用字不断递增,如古代收字最多的韵书《集韵》,无论一个字有多少种不同写法,有据则收,“凡古文,见经史诸书可辨识者取之”(4)曾枣庄、刘琳:《全宋文》卷395,上海:上海辞书出版社;合肥:安徽教育出版社,2006年,第171页。,故有一字二三体甚至八九体者。手写体更甚,如“寿”字在古代书法中就有5000多种写法。不同时代和地区的古籍使用了不同字体、字形和特殊字符,尤其一些专业古籍如地方文献、民族文献、宗教文献和域外汉籍等所用字符极为浩繁。其规范只能是依据现有通则,如《通用规范汉字表》收录规范汉字外,附录收繁体字2574个、简体字1023个。受汉字排印技术影响,新旧字形在印刷出版物中曾长期混用。随着这些文献的电子化,也大量进入了数据库,成为字符集的重要来源。CJK 20902编码字符集中,也有近6000字存在新旧字形问题。分别造字、不同字符集和数据库的码位和字形对应关系各异,不仅会造成无法显示和检索,也将造成数据结构错乱,合并成库之后再难对齐和统一替换。
简体字与规范字也存在大量“二简字”的问题。1977年发布的《二简(草案)》,后来虽被废止,但部分“二简字”已成为常用字,《汉语大字典》、《汉语大词典》、《现代汉语词典》和《通用规范汉字表》出现“二简字”273例,Unicode字符集收录“二简字”269例。有些甚至取代“原字”成为正体字,如咨(谘)、板(舢、舨)、炖(燉)、亮(喨)等。此外,民间还保留着一些其他的“二简字”书写形式。“既然统一码对这些字进行了编码,那么这些字就能够通过一些特殊输入法(如:田氏二简字输入法)编辑出来被电脑识别。也就是说,这批汉字目前暂时贮存在数字编码之中,一旦条件成熟,这些字形仍有可能从封存状态中挣脱出来重新被起用。统一码对这些汉字进行编码,事实上为‘二简字’脱离手写环境,在数码环境中传播创造了条件。”(5)李宝生:《遗存“二简字”研究》,湖南师范大学硕士学位论文,2021年,第7-8、76页。字体简化或归类合并,哪些汉字需要认同,如何认同,有时候并无统一标准。即便是在字体、字形、字码等层面实现了统一,在音、形、义等方面仍需界定。尤其在不同修辞和语境中,诸如简体字内部的“帖贴、分份、象像、他它、申伸、联连、画划”等,它们的认同与归并仍需得到学术研究的支撑。
同是繁体字,写法不尽相同,大陆的“顔”与台湾地区的“顏”、台湾地区的“峰”与香港的“峯”等书写方式和出版物样态不同。台湾地区也在推行标准字体,如1982年公布的《常用“国”字标准字体表》,此外还公布了《次常用“国”字标准字体表》、《异体字表》、《罕用字体表》等。将大陆的《现代汉语通用字表》(7000字)与台湾地区的《标准字体表》(4808字)对比,可见“在4786个常用字或通用字中,大陆和台湾地区的现行汉字字形存在或多或少差异的共有2839字,占比较总字数的59%”(6)费锦昌:《海峡两岸现行汉字字形的比较分析》,《语言文字应用》,1993年第1期,第41页。。大陆繁体字不等同于港台繁体字,两岸三地的简体字也存在差异:“香港《常用字》中的简体字与大陆简化字相同或相似的字形有2718个字,占总收字的50.3%;台湾地区《常用“国”标字》中简体字与大陆简化字相同或相似的有2623字,占总收字的54.5%。”(7)黄艳萍:《两岸三地现行汉字字形研究与书同文》,西南大学硕士学位论文,2012年,第18页。以往这些差异在印刷或电子文本层面影响不大,但会对字符编码造成较大影响。
古籍还杂有满、蒙、彝等民族文字,日、韩、拉丁文等外国文字。中文编码字符集简繁并存,含有越南喃字、韩文吏读字、日本和字及简化汉字等。这些汉字在古籍文本中,随着印本交流和电子文本汇聚,越来越多出现混用。从《四部丛刊》到今天的域外汉籍丛刊,或选为底本而影印、翻排(如《春秋正义》所选日本正宗寺手抄本),使得日、韩、越等国汉字也顺势进入出版系统。日本略字与中国简化字有的大同小异甚至完全相同,如“单”与日文略字“単”、“艺”与“芸”,前后两字的国际编码不同。而诸如“浅”等中日汉字简体,也存在字形不同而码点相同的问题。其他使用汉字的国家,有不同的标准源。中文正字“靑”,通行字是“青”,因而国标源早期只提交了“青”;日本源只有新字体“青”,韩国源则只提交了“靑”。国标源、日本源、越南源等都从“青”,只有韩国源从“靑”,于是CJK基本集据字源分离原则为“靑”和“青”分配了不同的码位,造成一系列同类字也被分离成两个字(8)尉迟治平:《再论中文汉字字符集》,《语言研究》,2020年第1期,第81页。。
一些专业典籍如宗教、术数、医学古籍的用字量大,异构和异写字多,常采用类推简化的方式。汉字认同,实质是大量消减异体字。国家图书馆“数字方志”项目第一期项目总字量逾2亿字,为控制造字量,“将14万多个提取出的异体字、刻写错字等都进行了认同处理,从而将造字量控制到4866个”(9)蓝德康:《关于完成国家图书馆古代“地方志”全文数字化一期工程的要点》,《第四届中国古籍数字化国际学术研讨会论文集》,北京:五洲传播出版社,2015年,第69-78页。。《瀚堂典籍》文字量超过20亿字,通过集外字认同,实现了“最大特色是文本精确无缺字”(10)《瀚堂典藏》资料库说明:https://www.hytung.cn/Introductions/Introduction.aspx,2022年10月1日。。汉字的差异是历史和文化造成的,如果用来表达或认同为已有字符,不仅会丢失文字和文化信息,也会割裂字际、符号、知识之间原有的关联,事实上改变了古籍面貌和文本性质。汉字的处理需要不同的层级标准,在“字种”范畴下处理繁简、形体差异问题。应基于符号系统而非单个字形来界定每个字,但对于同形异字,哪怕字形一致,也归为不同的字。古籍中有合文、重文现象,这些符号也应视为一字。每一个通假字、俗体甚至错别字都有其意义和价值,尤其在方言和民俗学中有表音、特指功能。是否保留异体字要考虑到版本和研究宗旨,在确立标准作出取舍的同时,也应避免所蕴含的文化信息随之遗失。
避讳字、草体字(手写)和对音字,极大增加了古今汉字转换的复杂性。避讳常用改字、空字、缺笔等方法,唐高宗《临文不讳诏》说:“比见钞写古典,至于朕名,或缺其点画,或随便改换,恐六籍雅言,会意多爽;九流通义,指事全违,诚非立书之本意。”(11)王钦若等编:《册府元龟·帝王部·名讳》,北京:中华书局,1960年,第36页。虽已经指出这种办法不利于文意的正确表达,但避讳字已成为文本和文化的一部分。不改回原字会影响文本的准确性,而改回原字的标准与边界也难以简单划定,有些改字可能已成为新的用字规范。正体也是不断发生变化的,如“婿”与“壻”,许慎《说文》所选正体是“壻”,今则用“婿”。繁简字、正异字、正俗字等字际关系因地域和时代而别,如秦文字以“環”为返还之“還”,楚文字以“缓”为宽厚之“寬”等(12)吴晓懿:《战国书法研究》,济南:山东教育出版社,2018年,第102页。。“洛阳”与“雒阳”,汉光武之后因为“汉水德,忌水,故去‘洛’‘水’而加‘隹’”,而曹魏因行次为土,“故除‘隹’加水,变‘雒’为‘洛’”(13)《二十五史》,上海:上海古籍出版社;上海:上海书店,1986年,第515、1077页。。这些异体字由历史累积形成,无法简单转换或统一。前后统一后,会将这些历史文化信息遮蔽。
20世纪50年代的汉字编码曾采用当时的电报码或四角号码,70年代出现了键盘编码、汉字的点阵描述和输出等。目前,无论向量造字还是曲线轮廓造字,并非将字库中所有文字直接描绘出来,而是将一定数量有代表性的字拆分,获取横、竖、撇、捺、折等字根和部件,然后组合成所需字符。异体字、异形字是基于印刷甚至手写层面的规范,在电子层面更细颗粒度上又需要重新规范。繁简、正俗之外,新旧问题最为突出。古文字部件及其数量、位置的差异的异体字,笔画相对位置、长度和粗细等差异的异形字,同时期的同一字呈现字形差异较为常见。古籍数据库中同字不同码现象尤为常见,如“文渊阁《四库全书》电子版”有“彝(5F5D)、彛(5F5B)、彜(5F5C)、彞(5F5E)”等四种,检一字而其他字失检。GBK字符集中也有同字多码现象,包括“吳呉、尙尚、捜搜、寜寧、宫宮、愼慎、恵惠、徴徵、徳德”等常用字(14)刘凌、刘志基:《中文字符集竟这样不完备——传统文化如何在数字化时代传播》,《文汇学人》,2019年6月14日。。王宁先生指出:“新字形是对旧有的宋体字书写属性的改造,如果把新字形与所谓的‘旧字形’对照起来,他们之间是异写字的关系;而且,这些新字形大多数也是从历史字形中选出的,也是符合真实存在的原则的。”(15)王宁:《论汉字规范的社会性与科学性——新形势下对汉字规范问题的反思》,《中国社会科学》,2004年第3期,第177页。异写关系是抄写内的认同,甚至也在印刷形态汉字标准的容错范围之内。“吕/呂”、“説/說”、“耕/畊”、“亘/亙”、“衆/眾”等,在手写和印刷文本中不难判定是同一字,但在字符集中就是完全不同的字。除非建立字际关联和文字认同,类似情况只能作为不同字处理。
二、数字化让古籍字符的统一成为突出问题
文字在计算机中是以编码而非图形来存储和表达的,数字化就是将传统的语言文字符号转化为数字编码符号,抽象字符被映射或被分配到编码空间中特定的码位,字符及其对应编码的集合就是字符集。字是信息处理的基本单元,计算机中的文字可用字体、字号、架构、颜色、变形、旋转等属性来描述,一般是用一两个或四个字节(Byte)来记录一个文字或符号,字符与编码表示之间一一对应。笔画不等高、不等宽,大小不一、姿态各异,部件的数量、位置、形状、组合不同,都会产生异体字和异码字。每种字符集都有一种或几种编码方案,如果没有按文件保存时的编码格式进行解码,就会显示为乱码。一些重要古籍数据库的早期电子文本正是建立在各自符码基础之上的,从字形、字体到编码并不完全统一。在电子文本和数据库系统中,一般是先将其与集内字进行认同,无法认同的分配Unicode私用区的码位。这就造成古文字在数据库中不完全是“一字一码”,还有“一字形一码”。
字形不同,属性描述不一,计算机对汉字的处理结果也不一样。在文献的口头与抄印传播时代,这种差异影响不大,但在数码时代,会基于不同码点而被赋予不同编码,变成事实上无关的两个字。字符集中的汉字在形、音、义三要素之外多出了编码要素,它在计算机屏幕上显示的是字形,在系统里储存的是数字。这也带来了新的出错几率,容易产生乱码和重码。大陆或台湾内部的汉字字形也缺乏一致性,仅“文渊阁《四库全书》电子版”就单独定义了一万多个特殊汉字。国家图书馆“数字方志”项目,“选取明至民国间刻印的方志100种(50000余页),文字总量超过2000万字,完全按字形比对,集内字只占38%,除了少量模糊字外(低于0.5%),其余都是集外字”(16)肖禹:《古籍数字化中的集外字处理问题研究》,《图书馆研究》,2013年第5期,第28页。。加上操作人员不能识别古籍中的异形字,视为不同的汉字录入,或依样摹画而生造出大量集外字,又滋生了新的不规范问题。
计算机上同一字符在不同字体下显示不同,即使同一组异体字的内码完全相同,因链接的字体文件不同也会出现差异。而数据库检索是通过部首、笔画、笔顺等特征快速定位汉字,如果字符不精准就会影响查全查准和跨系统显示。因此,2013年国务院批准发布了由教育部组织研制的《通用规范汉字表》,收录8105个汉字(17)教育部语言文字信息管理司组编:《信息时代汉字规范的新发展——〈通用规范汉字表〉文献资料集》,北京:商务印书馆,2015年,第49-51页。。教育部等12部门联合发布的《关于贯彻〈通用规范汉字表〉的通知》明确指出,“一般应采用历史通行字形,避免自造新字”(18)费锦昌主编:《语言文字规范应用手册》,上海:上海辞书出版社,2016年,第5页。。“表外字不再类推”应成为古籍整理的一般原则,尤其是诸如人名、地名、物名等专名,名从其祖,不轻易改动。
全球曾有数百种独立编码系统,难免会有相同数码代表不同字符或不同的数码代表相同字符的情况。汉字以往是北美和西欧华人使用HZ码,香港、澳门和台湾地区使用BIG5码,中国大陆、新加坡及东南亚地区使用国标码(GB)。三种中文内码自成体系,使用时需作码位转换,在一个文档或数据库中可以显示的内容,到了另一个界面便成为乱码或不能正确显示,因当前编码无法解析接收到的二进制数据。在中国大陆版本的Windows操作系统中,GBK是一种常用的编码方式,而C++等编程语言在编写源文件或与外部系统交互时可能会采用Unicode编码。由于这些系统和语言会采用不同的编码方式,如果没有正确处理编码转换,可能会造成系统间的编码不匹配或源文件的编译错误。从Windows 7开始,系统带有宋、仿、黑、楷四款字体字库,其他字体相对不完整,少数民族字符、民间俗体字符和域外汉籍字符尤显不足。
汉字字符集的建设,随着统一编码标准的采用而迅速发展。1993年,国际标准化组织(ISO)颁布的ISO/IEC10646编码(Unicode)是“通用多八位编码字符集”,每个数字代表一个字符,共用字符通常使用相同的数字编码。通用字符集在国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟基础上迅速发展起来。GB2312-80和GBK标准无法达到古籍的用字量,但在Unicode编码的ISO 10646标准下,已有方正字符集、青鸟华光字符集、汉仪字符集和文鼎字符集等,尤其宋体-方正超大字库(70244字)基本包含了中、日、韩、越的主要汉字,解决了绝大多数古籍的用字问题。2022年最新发布的Unicode15.0,所收汉字字符已达97046个,其中基本汉字20902个。字的数量随时代的发展一直在增加,考虑到异体异形字,汉字总量远不止10万个。一些学者呼吁建立承载中华文化的文字与符号总和的“中华字符集”(19)沈克成:《书同文:现代汉字论稿》,上海:上海锦绣文章出版社,2008年,第702页。。目前,能处理10万汉字以上的字符集已有多款。
1993年,国际标准化组织颁布ISO/IEC10646标准即Unicode字符集,其内码是通过字体检索程序而在字体库中找到相应字体,再以图形方式显示出来。Unicode9.0已定义128172个字符,囊括了《康熙字典》、《汉语大字典》等主要工具书所收汉字。Unicode主要收录楷体、宋体等通行字体,不包括已有古籍的全部字体,一大批有价值和特点的古文字、俗体字、异体字、避讳字、生僻字等还没有对应的编码。1995年12月,全国信息化标准化技术委员会颁布了《汉字扩展内码规范》(GBK)编码标准,收录了21003个汉字。GBK可用于汉魏以前的典籍整理工作,但涉及字书、佛典、敦煌遗书等,仍会出现大量缺字。超出GBK字符集的汉字显示,需安装超大字符集。同时,还要在编辑软件中选择已被扩充的字符集作为显示字体,否则将无法识别或显示为乱码。一些大型古籍数据库是通过造字来转录文献的,如“文渊阁《四库全书》电子版3.0”总字量逾8亿字,在Unicode5.0字符集的基础上造12592字。《四库全书》电子版能较好地处理冷僻字和异体字,但这些字符被复制或剪切,脱离其系统便会显示为乱码。中华书局古联公司的《中华经典古籍库》一二期逾3亿字,在Unicode5.0字符集的基础上补充造字近1万字。《中华经典古籍库》四期材料的总字量约7.5亿字,在Unicode8.0字符集基础上已新造31305个字。事实上,要将所有汉字字形穷尽式收入编码字符集不可能也不可行。大量异体异形字将会影响汉字的学习、使用,冲击和破坏现行汉字规范体系。
计算机汉字库是在汉字没有系统整理的前提下构建的,与已有汉字谱系存在断层。“目前在通用电脑字符集中已编码汉字的总数已达74588个,除了核心部分GBK的20902字,CJK扩展集的5万多字在数据库中并不能用,无法实现检索、查询、统计等各种处理;而GBK的20902个字和扩展A的6582个字以外的编码汉字无法实现上网查询。”(20)刘凌、刘志基:《中文字符集竟这样不完备——传统文化如何在数字化时代传播》,《文汇学人》,2019年6月14日。古籍数字化不同阶段产生的字符错讹现象,也成为古籍数据库的隐患。集外字的不同处理方式,实则让古籍电子版成批次增加了讹误率。如早期古籍数据库采用的代字法,生僻字用偏旁部首或接近的字代替,或以符号代替并在括号内描述说明。以图形文件代替生僻汉字、采用造字软件造字或建立生僻字资源库等方法,加剧了电子文本之间的差异。图片或符号代替冷僻字,本身并非文字,也无法将图片转回文字和全文检索。外挂汉字平台,也会遇到字库不兼容的问题。这些情况极大影响古籍数据库的质量和应用,让建成可直接引用的古籍数据库为期尚远。
列入国家“十一五”文化发展规划纲要的“中华字库”工程,要“建立全部汉字及少数民族文字的编码和主要字体字符库。重点研发汉字的编码体系、输入、输出、存储、传输以及兼容等关键技术”。预计建立40万字的可编码超大汉字字符集,涵盖甲骨文、金文、小篆、隶书、行草书、楷书等文字发展演变过程中的重要阶段,其中楷书汉字约30万,古汉字约10万。同时,为确保文字字形来源真实可回溯,“从海量文献中提取文字样本的原字图和各类数据,保留每个文字样本原貌和用例,以备回溯覈校”。“中华字库”“预计不重复字量为100万字,制作成供工程研发过程中使用的中间字库。由于汉字形体的发展演变受文字简易律和汉字构形系统的双重制约,不重复字量不可能无限膨胀,以这100万中间字库作为最终编码的30万楷书字表的筛选基础,能够涵盖楷书汉字的各类形体现象。”(21)张翼飞:《古籍数字化中的字符集问题与解决方案》,《出版发行研究》,2016年第3期,第77-80页。此外,中华优秀传统文化传承发展工程支持项目“中华精品字库工程”100款历代书法名家字库、方正电子系列超大字库等,都是重要的汉字字符集。
尽管如此,现有字符集仍难以实现对各种文字的全刻画与全覆盖。随着古籍电子化的迅猛发展,曾经废弃的大量汉字被激活。在不断涌现的繁体字、异体字、讹写字、俗写字和域外汉字的面前,仍然会出现不少缺字。通过临时占用自定义区字符编码的自造字系临时替代码,在编程环境中会因内码差异而变成它字或乱码。Unicode标准为所有字符分配独立的码点,虽便于异体字显示,但不利于异体字的输入、检索与处理。扩大收字范围并不能完全解决集外字问题,不仅会导致Unicode私用区码位被耗尽,“一些早期无法进行汉字认同且已被编码的新造集外字需要与集内字进行认同,如何自动或半自动地实现集外字向集内字的认同与转换是一个亟待解决的问题”(22)辛睿龙、王雅坤:《古籍数字化中汉字处理的现状、问题及策略》,《图书馆理论与实践》,2017年第9期,第105页。。
创建超大字库不但不能一劳永逸解决问题,甚至还会滋生新的问题,如王宁先生所说,ISO10646(CJK)国际编码字符集,估计扩D完成后收字总量会超过10万,“中国历来的字书没有一本曾收字十万,也就是说中国人自古以来用不了十万的汉字,那么这些字从哪儿来?我想,除了大量的异体字以外,必然还有为数不少的废字、死字和错字,现在还有人主张再继续放,他们认为,‘多放了有什么关系,进了电脑再整理’。这种倚仗计算机的巨大容量任意将属性不明的汉字进入编码的‘技术自大’作法,实在非常的荒唐”(23)沈克成:《书同文:现代汉字论稿》,第698-699页。。汉字的使用规范是建立在多样性和通用性基础上的,只有多样而缺乏通行,有许多字不能重现,“万码奔腾”反而不利于汉字的应用、表达。一字形一码打破了原有文字谱系,无形中割裂了字际关系。不能因为新的造字技术让一些字被激活,而消解已有的汉字应用规范和表意系统。
三、文字的统一规范是历史趋势和时代命题
如何走出困境,历史经验可为我们提供借鉴。每个时代都有各种古体字、时行正体字和新兴俗体字,马衡《金文编序》云:“试观殷商之甲骨刻辞,宗周之彝器款识,往往一字数形,随意增省,是其明证。”(24)清华大学国学研究院主编:《马衡文存》,南京:江苏人民出版社,2020年,第407页。伴随着文字的使用,已出现繁体与简体之别。今天的一些简体字,就可以上溯到甲骨文时期。东周诸侯割据,“律令异法,衣冠异制,言语异声,文字异形”。秦代书体就有八种:“一曰大篆,二曰小篆,三曰刻符,四曰虫书,五曰摹印,六曰署书,七曰殳书,八曰隶书。”(25)许慎:《说文解字》卷15,北京:中华书局,2020年,第492-493页。文字不同严重阻碍了思想交流和文化统一,圣贤因而提出了统一文字的设想,如《管子·君臣》云:“衡石一称,斗斛一量,丈尺一綧制,戈兵一度,书同名,车同轨,此至正也……先王之所以一民心也。”(26)李山、轩新丽译注:《管子》卷10,北京:中华书局,2019年,第513页。《礼记·中庸》载:“(子曰)今天下车同轨,书同文,行同伦。”(27)郑玄注,王锷点校:《礼记注》卷16,北京:中华书局,2021年,第693页。彼时的“书同名”、“书同文”,是一种文化理想还是政令实践,学界尚无定论。
同文字的说法虽然早已有之,但秦朝“书同文字”确是史上明文记载的大规模文字规范运动。公元前211年,李斯奏定“一法度衡石丈尺。车同轨。书同文字”(28)司马迁:《史记》卷6,北京:中华书局,2014年,第307—308页。。“书同文字”又称“同书文字”、“书同文”、“同文书”,如《史记·李斯列传》中“同文书”、《六国年表》始皇二十七年和《李斯列传》始皇三十四年载有“同天下书”和“同文书”。此外,秦琅琊台刻石中也提到“器械一量,同书文字”,《汉书·艺文志》载为“书必同文”(29)班固撰,颜师古注:《汉书》卷30,北京:中华书局,1962年,第1721页。。“书同文字”以小篆统一字体外,同时提倡隶书,废除杂乱纷纭的六国异体。据许慎《说文解字》记载:“秦始皇帝初兼天下,丞相李斯乃奏同之,罢其不与秦文合者。斯作《仓颉篇》,中车府令赵高作《爰历篇》,太史令胡毋敬作《博学篇》,皆取史籀大篆,或颇省改,所谓小篆者也。是时秦烧灭经书,涤除旧典,大发隶卒,兴役戍,官狱职务繁,初有隶书,以趣约易,而古文由此绝矣。”(30)许慎撰,陶生魁点校:《说文解字》卷15,北京:中华书局,2020年,第493页。
秦“篆改”以周《史籀篇》为范本,以秦国大篆为基础,“或颇省改”,“罢其不与秦文合者”,形成规范化、标准化的统一字体小篆。“书同文”以前的汉字与小篆相比较,主要措施有固定偏旁写法、确定偏旁的位置、废除异体异构、统一书写笔画等(31)高明:《略论汉字形体演变的一般规律》,《考古与文物》,1980年第2期,第124-125页。,朝着线条化、均匀化和俭省化的方向发展。秦始皇统一六国后,巡游天下,所到处如峄山、泰山、芝罘、东观、琅琊、碣石、会稽皆刻石作颂。刻石都为李斯书写的“小篆”,书写线条圆匀、结构统一定型、字形呈纵势长方等特点结体规整,粗细一致,大小均匀,布局严谨,少用通假,易于书写和辨识。刻石可“垂著仪矩”,确立规范。每立一碑,就等于公布了一批标准小篆和正式标准文字,事实上是在制定和推行规范字表。以这六篇碑文字体为规范,便可以整理出其他小篆字体。
秦统一文字,不仅是统一篆书为小篆,也促进了向隶书的统一。《汉书·艺文志》云:“是时始造隶书矣,起于官狱多事,苟趋省易,施之于徒隶也。”(32)班固撰,颜师古注:《汉书》卷30,北京:中华书局,1962年,第1721页。因为“秦既用篆,奏事繁多,篆字难成,即令隶人佐书,曰隶字”,“隶书者,篆之捷也”(33)房玄龄等:《晋书》卷36,北京:中华书局,1974年,第1064页。。小篆和隶书两种文字用于不同场合,“士人的经典书籍和庆祝大典的金石铭文用小篆,官吏的政令文书和百姓的书信文件用隶书”(34)〔美〕梁少熊:《秦皇秦俑新探》,西安:陕西人民出版社,2019年,第44页。,结果是古文和大篆遂不行。“隶变”将点、横、竖、撇等笔画规范下来,是汉字体系由线条化向笔画化转变,进一步简化和改变了汉字的结构和字形。隶书使文字书写更加规范,朝着标准化方向迈进了一大步。
文字是人类用符号记录表达信息的方式和工具,汉字是迄今持续使用时间最长的文字。它之所以能成为上古各大文字体系中的唯一传承者,正在于应用中的不断规范与统一,让信息可以被跨时空记录和解读。《尚书》序曰:“古者伏羲氏之王天下也,始画八卦,造书契,以代结绳之政,由是文籍生焉。”(35)《尚书正义》,十三经注疏本,北京:中华书局,2009年,第235页。伏羲造书契,是原始时期的文字。最早的汉字是刻符,甲骨文也是源自契刻。《尚书》序又说:“书者,文字。契者,刻木而书其侧,故曰书契也。一云,以书契约其事也。”(36)《尚书正义》,十三经注疏本,北京:中华书局,2009年,第235页。“书”即写,又指文字;“契”即刻,刻木以纪数、纪事之谓。契刻最早便是用来计数的,既是上古的文字、文书,也是古代的编码字符。
“造书契”的实质是对古文字进行分类总结与统一规范。《周礼·质人》云:“掌稽市之书契。”郑玄注:“书契,取予市物之券也,其券之象书两札刻其侧。”(37)《周礼注疏》卷15,十三经注疏本,北京:中华书局,2009年,第1589页。“书契”也指券约等书面凭证,是契约的文字书写形式。书契不仅是信息传递手段,也是信用符号。《礼记·曲礼》有“献栗者执右契”句,其“契”即契约之义。《列子·说符》载:“宋人有游于道、得人遗契者,归而藏之,密数其齿。告邻人曰:‘吾富可待矣。’”(38)杨伯峻:《列子集释》卷8,北京:中华书局,1979年,第271页。符左契右,相与合齿。“右契”代表债权,可充当货币用作支付手段而流通,故曰“吾富可待矣”,而“圣人执左契,而不责于人”(39)陈鼓应:《老子注译及评介》79章,北京:中华书局,2009年,第340页。。这种信用体系的建立,既缘于约定俗成,也出于强制规范。据许慎《说文解字叙》所引《尉律》云:“学僮十七已上始试,讽籀书九千,乃得为史。又以八体试之。郡移大史并课,最者,以为尚书史。书或不正,辄举劾之。”(40)许慎撰,陶生魁点校:《说文解字》卷15,北京:中华书局,2020年,第493页。历代类似西汉对书写规范的要求,确保了文字的一致性,为政治文化的统一与中华文明的延续奠定了基础。
“周宣王太史作籀书”、“李斯作小篆”、“程邈作隶书”等,可以看作早期的统一字符集和标准文本库。《苍颉》、《爰历》、《博学》三篇,“断六十字以为一章,凡五十五章”,则李斯等人所定的规范字就有3300个。汉代合并三篇为《仓颉篇》,仍用秦文;汉武帝时司马相如作《凡将篇》、元帝时史游作《急就篇》、成帝时李长作《元尚篇》,“皆《苍颉》中正字也”(41)班固撰,颜师古注:《汉书》卷30,第1721页。。随着俗体流行,讹体别字增多,汉字字体从隶书向楷书进一步演化。《颜氏家训》云:“晋、宋以来,多能书者。故其时俗,递相染尚,所有部帙,楷正可观,不无俗字,非为大损。到梁天监之间,斯风未变;大同之末,讹替滋生。萧子云改易字体,邵陵王颇行伪字;朝野翕然,以为楷式,画虎不成,多所伤败。至为‘一’字,唯见数点,或妄斟酌,逐便转移。尔后坟籍,略不可看。北朝丧乱之余,书迹鄙陋,加以专辄造字,猥拙甚于江南。乃以百念为忧,言反为变,不用为罢,追来为归,更生为苏,先人为老,如此非一,遍满经传。”(42)颜之推撰,王利器集解:《颜氏家训集解》,北京:中华书局,1993年,第574-575页。汉字在使用过程中,会滋生越来越多的变体异形,甚至为解决临时记录问题而不断生造字。历朝历代都在通过对正体、俗体和通用体的分辨来正字正文,如唐颜师古考定五经文字作《字样》,唐玄度作《新加九经字样》。唐颜元孙《干禄字书》、宋郭忠恕《佩觿》、辽释行均《龙龛手镜》、元李文仲《字鉴》、明焦竑《俗书刊误》和清龙启端《字学举隅》等不断厘定文字和规范用字。尤其《康熙字典》,对清以前的汉字作了系统性总结和规范。
《荀子·解蔽》云:“好书者众矣,而《仓颉》独传者,一也。”(43)王先谦:《荀子集解》卷15,北京:中华书局,1988年,第401页。仓颉造书契和李斯作《仓颉篇》,因其规范与统一,才能沿用千古而体系不坠。据容庚《金文编》著录,在秦统一文字之前的“宝”字就有194种形态,“眉”字有104种,而小篆分别用一个字就可代表。许慎《说文解字·序》说:“盖文字者,经艺之本,王政之始。前人所以垂后,后人所以识古。”(44)许慎撰,陶生魁点校:《说文解字》卷15,北京:中华书局,2020年,第494-495页。正因为文字的统一,才有思想和文化的统一,“在造成政治统一和文化统一的一切文化力量中,文字的一致性(与方言的多样性正好形成对比)几乎肯定是最有影响的因素”(45)崔瑞德、鲁惟一编,杨品泉等译:《剑桥中国秦汉史》,北京:中国社会科学出版社,1992年,第73页。。任继愈曾有推论:“假若中国没有‘书同文’这样得力的措施,古代中国采取拼音文字,中国将不会是今天统一的形势,也许分成多少个独立割据的小国。”(46)任继愈:《从“书同文”到“语同音”》,《中国的文化与文人》,北京:现代出版社,2017年,第267页。书契的首要作用是信息交流,字符集、文本库与类推规则和强制标准相辅相成,共同构筑了汉字文化的基础体系。
汉字由意符、音符和记号等组成,符号选取因人而异,自《说文解字》起,一字多形就是字书常态。正异并用在手抄和雕版印刷时代,尚有一定的并存空间。随着活字字模、电子印刷的广泛应用,越来越出现了统一趋向。在计算机中,需用码点对一组异体字检索和定位。在旧字形中笔画往往有变体,如撇有长撇、短撇,点有竖点、侧点、长点、短点等。新旧字形不仅关系到笔画、笔顺与结构,还关系到对汉字的进一步拆解和向量化统计分析。造字需在不同系统、平台上能显示和转换,同时能进行关联和认同。“再造书契”是为了完成数据、信息与知识的再次对接,加速推动古代文明和传统文化在数字时代的转型升级。
随着大量机器文本的涌现和渗入,包括中华古籍在内的人类文本的集结也已迫在眉睫。除大众熟知的微软小冰等作诗机器人出没在论坛、刊物、著作及各媒体终端外,写稿机器人已在批量生产各种资讯甚至文艺作品。一些网络社区、文本发表平台,正在出现越来越多的人机结合文本甚至机器文本(47)2018年12月,据《纽约杂志》旗下刊物Intelligencer统计,实际上只有不到60%的网络流量直接来自人类。Max Read,“How Much of the Internet Is Fake?Turns Out,a Lot of It,Actually”,Intelligencer,DEC,26,2018.,由算法逻辑生产出来的诗歌数量将远超以往人类所有诗歌的总和。由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT更是以其雷霆万钧之势,改变着人类的语言形态和知识版图。在机器文本大量渗入之前,对人类各语种的标准文本及时汇总和整存,已十分紧迫。
汉文古籍约20万种50多万个版本,已经数字化的有10多万种。可以说,我们已经错过了利用统一字符集来创建标准文本库的最佳历史时期。但窗口期仍在,因为这些古籍主要是影像扫描即原样数字化,可检索的文本式数字化古籍数量仍有限,深度加工的知识型数字化古籍刚刚开始。字符不统一与文本不规范,对前两种数字化古籍类型影响有限。基于深度标引的关系型、结构化古籍数据库、知识库,需要建立在字符和文本高度统一的基础之上。尹小林曾提出“元古籍”的概念,即对原版古籍进行系统规范的数字化,以区别于后世的古籍整理与选编(48)尹小林:《系列笔谈之五:古籍专题资源库的建设》,《数字人文》,2022年第4期。。这种元古籍数据库的构建,不仅是回到古籍善本的数字转化,更意味着字符编码、字际关系和文本格式的强制统一。古籍数字化在大规模光学字符识别(OCR)的同时,又朝着深度标引和知识关联方向飞速发展。好在古籍数字化总量尚未过半,智能化初启,以史为鉴,需要我们抓住这个重大机遇,果断坚定地推行书同文字,履行好在数字化时代再造书契的历史使命。
四、创建以简体规范字为基础的标准文本库
古籍领域的繁简共存,极大制约了古籍数字化的发展。常用古汉字约40000余字(49)张轴材以《四库全书》、《四部丛刊》为基础语料进行字频统计,认为除大规模字书的特殊需求之外,中国古籍数字化所需的汉字字量为30000个左右。北京书同文数字化技术有限公司编:《古籍汉字字频统计》,北京:商务印书馆,2008年,第24-25页。,其中半数为异体字、繁体字、通假字、避讳字等,相互转换缺乏统一标准与精确机制。繁简是相对的概念,繁体不等于古体,也不存在确定不变的繁体字。山东掖县云峰山魏碑石刻有100多个简体字,隋唐楷书中也已出现了许多今天常用的简体字,敦煌写本等文献中更为常见。宋代以后,简体字大量出现在雕版印刷的书籍里。宋元明清12种民间刻本中所用的简体字达6240个,平均每个繁体字有3.9个不同简化字,其中300多个与今用简化字完全相同(50)刘复、李家瑞编:《宋元以来俗字谱》,北平:中央研究院历史语言研究所,1930年,第1-138页。。钱玄同《减省现行汉字笔画案》指出:“数千年来,汉字的字体是时时刻刻在那儿被减省的。从殷周之古篆变到宋元之简体,时时刻刻向着简易的方面进行,可说是没有间断。”(51)前国语研究会编:《国语月刊·汉字改革号》,北京:文字改革出版社,1957年,第161页。简体或省写在民间普遍使用,在抄写本中大量存在,尤其在现代印刷品和电子文本中已成为绝对主流。
繁简体的区分是一个量度和时间问题,它们不仅有交叉,还有中间形态与溢出形态。有些数据库还为简繁字、异体字、古今字等建立一系列词典,将关键词字符串和该词典进行匹配查询,以解决正体、异体之间交互检索的问题。坚持保真原则,“尽量不做简繁代换、正形异体代换,尽可能地保持原有字形”(52)北京书同文数字化技术有限公司编:《古籍汉字字频统计》,第14页。,结果是《四库全书》、《四部丛刊》各种异体兼收。繁简字的转换与文本语境相关,繁体字系统无法简单统为一字。一些特殊的用法,如《礼记·月令》“修宫室,坏墙垣,补城郭”,“坏”(péi,泥封)不能转换为“壞”(53)杨琳:《理想电子古籍的标准》,《第二届中国古籍数字化国际学术研讨会论文集》,北京:五洲传播出版社,2011年,第47页。。一对多的简繁字转换,准确率提升需依据词库,如“干”对应“干、幹、乾”等,先据标识位自动转入词库,再据词库底表自动转换。但这需要做到词语穷举,实则难以完全实现。数据库中的字符已不是简单地繁简二分,而是汇聚各种不同字体字形的系统,它们在数字层面都是等值的,无法简单地通过繁简转化来统一。
如果运用简体,这些转换和细分便不至影响古籍库的质量。简化汉字是“采用同一代替、替换声旁、草书楷化、偏旁简化类推等方法制定的一批笔画较少的汉字。这些汉字取代了对应的笔画较多的汉字作为同行的正体”(54)中国标准出版社编:《信息技术词汇国家标准汇编》,北京:中国标准出版社,2000年,第365页。,其规律性得以强化。简化字具备新形化特征,繁体字也同样具备新形化特征,都面临着电子文本中的部件重新刻画问题。字符编码已超出了繁简二元化的区分,异体字通常会被赋予多个码点,无法标示一组异体字之间的关系。数据库中异体字相关联的就是它们之间的码点,起笔不同,一点之别都会被识别为完全不同的字。以繁体字为标准,反而会滋生更多异体字。如“吕”、“并”等繁体规范字,会与“呂”、“並併竝”等异体字相混。繁体字可以形成单个相对精确的文本集,但无法实现由此及彼的精准查询和解决文本之间的融合贯通。
简体字是基础规范用字,当前汉字规范的最新标准是国务院颁布的《通用规范汉字表》和国家标准委颁布的《古籍印刷通用字规范字形表》,它们保证了编码唯一性和数字化汉字的通用性。《通用规范汉字表》收录规范汉字8105个(附录收繁体字、简体字计11702个),《新华字典》(第11版)共收录11200多字,《现代汉语词典》(第7版)收录13000多字(含繁体和异体)。《通用规范汉字表》所附“规范字与繁体字、异体字对照表”收录800组左右的异体字,可以说繁体、异体字与简体规范字共同构成了当前的通用字符集。由文化部和中国文字改革委员会联合发布的《第一批异体字整理表》收字1865个,包含了810组异体字。《汉语大字典·异体字表》收集异体字约11900组,是对异体字最全面的一次整理。有学者主张,对古籍整理中“底本中的异体字、古体字、俗写字、避讳字等,统一以规范汉字纠正”(55)王益军:《中医古籍校勘与整理》,《中国中医药现代远程教育》,2014年第4期,第105页。。一些古籍整理细则也规定“对异体字,迳改用正体字”(56)邓铁涛主编:《邓铁涛医学文集》,北京:人民卫生出版社,2001年,第491页。,在信息化、规范化、标准化的电子文本中尤其被强调和推行。
1955年颁行的《第一批异体字整理表》规定:“从实施日起,全国出版的报纸、杂志、图书一律停止使用表中括弧内的异体字。但翻印古书须用原文原字的,可作例外。”(57)教育部语言文字信息管理司组编:《语言文字规范标准》,北京:商务印书馆,2017年,第661页。之后古籍出版多采用通行字,建立在这些古籍整理本基础上的电子文本和数据库也主要采用规范字体。根据2000年通过的《中华人民共和国通用语言文字法》、2013年公布的《通用规范汉字表》,简体就是由国家来推动的强制统一规范。1981年,国家标准总局曾发布《中华人民共和国国家标准信息交换用汉字编码字符集·基本集(GB 2312-80)》,是使用简体中文的地区强制使用的唯一中文编码,共收录了6763个简体汉字、682个符号。照排系统、银行系统等主要采用的就是这一标准,原有数据也是基于GB 2312编码字符集的方正照排系统的累积。中文编码字符集标准首次发布于2000年,而2022年发布的新版《信息技术 中文编码字符集》(GB 18030-2022)强制性国家标准收录汉字87887个,较上一版增加录入了1.7万余个生僻汉字,可覆盖我国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字。
围绕用字规范,国家发布的一系列国家标准和配套规范,连同各行政机关和商业机构推行字符统一的措施,共同构成了汉字应用的规范系统,也是汉字信息化、古籍数字化和知识库构建的基础准则。《第一批异体字整理表》精简了汉字数量(废除异体字1055个),随后公布的《汉字简化方案》精简了笔画数。1965年发布《印刷通用汉字字形表》,之后《简化字总表》第二版采用了新铅字排印。《印刷通用汉字字形表》对同一宋体字笔画或结构不同的一般选其便于辨认、书写的字形,促进了宋体楷化,字符笔势倾向横写、折笔改直笔、笔画结构连接、偏旁数量精简等。1988年发布的《现代汉语常用字表》和《现代汉语通用字表》(《印刷通用汉字字形表》基础上增订),2000年实施的《GB13000.1字符集汉字字序(笔画序)规范》和2013年公布的《通用规范汉字表》等,在字形、字量、字级、字序等方面作出了明确规定。尤其《通用规范汉字表》是现代记录汉语的通用规范字集,社会一般应用领域的汉字使用以之为准,原有相关字表停用。随着《学术出版规范古籍整理》、《中医古籍整理规范》等国家和行业标准的发布,业界正据各自标准推进用字统一,如要求“底本中的异体字、古字、俗写字,日本版本中的当用汉字、手写体,除特殊设计的校注项目外,统一以规范字律齐”(58)中华中医药学会:《中医古籍整理规范》,北京:中国中医药出版社,2012年,第4页。。
与此同时,地名、人名的规范也在加速推进。2016年,工信部发布《工业和信息化部关于进一步防范和打击通讯信息诈骗工作的实施意见》,要求三大运营商在2016年底实名率达100%。强制实名制让各运营商不得不采取特殊措施使超GBK集生僻字姓名客户能够入网,却滋生了在其他系统和环节无法兼容的问题。新字形成了印刷文本及电子文本的基础,也是Unicode编码的基础来源。GB18030涵盖了《简化字总表》、《现代汉语通用字表》、《现代汉语常用字表》、《印刷通用汉字字形表》的全部汉字。2021年发布的国家标准GB/Z 40637—2021《古籍印刷通用字规范字形表》,规定了古籍印刷通用字收字和宋体字形规范原则,给出了14250个古籍印刷通用字的字形、字音。基于国家标准研发文本库,用以支持和规范字符的输入、显示和交换,促进信息网络为中心的多媒体用字规范与统一。标准文本库类似历史上的刻石、石经、韵书和字书等,为各种文本提供参校,替换不规范字符。这种标准文本库将因其通用性而被越来越多人使用,成为数字时代的关键基础设施。
汉字简化是近代以来汉字改革的主要内容,也让简体字与繁体字成为两种不同的字符系统。GB 2312所收6763字中的2200余常用简化汉字,与古籍中的常用字并不同。它对现代文献用字覆盖率可达99.99%,而《四库全书》、《四部丛刊》等古籍使用其中汉字5680个,覆盖率仅为72.57%(59)朱岩:《中国古籍用字字频与分布统计分析》,《国家图书馆学刊》,2004年第3期,第93页。。简体标准明确,规则简单,而繁体字经久多歧,缺乏统一标准。尽管编码空间还充裕,但同一个字的各类形体如大小、风格、笔势等都予刻画,也是短期难以穷尽。随着现代印刷文献尤其电子文献所占比重越来越大,简体文本日益成为主流。电子化是一次新的标准化,必然是有一定之规的简体,而非寻求众多繁体中的一种。繁体字库的查全、查准和利用率不如简体,以现行通用的简体规范字为基础,从应用层面来解决繁简转换问题,方能迈开标准文本库建设的第一步。否则,即便创建了繁体字文本库,缺乏字符、语义的历时标注,没有字际关系的研究支撑,也会极大限制其数字功能的发挥。建立在规范简体字基础上的文本才有通用性,也才有资格和条件提供精准检索、字频统计等基础功能。
当然,以简体字为基础也会造成不必要、不合理的合并。除简化字方案的强行合并外,还有在实践操作中参照《汉字简化方案》和《汉字简化总表》制定的简化规则进行类推简化。甚至运用可以作偏旁的简化字和简化偏旁进行类推,把包含相同偏旁的汉字成批简化,构造简体字(60)李国英:《简论类推简化》,史定国主编:《简化字研究》,北京:商务印书馆,2004年,第95页。。无限类推简化会造成大量同形字,破坏汉字结构,割裂历史。有鉴于此,1986年国家重新发布《简化字总表》时强调:“今后,对汉字的简化应持谨慎态度,使汉字的形体在一个时期内保持相对稳定。”(61)中国文字改革委员会等编:《简化字总表》,北京:语文出版社,1986年,第1页。2013年公布的《〈通用规范汉字表〉解读》中明确规定“表外字不再类推”,如果类推,需要报请国家语委等主管部门批准(62)王宁主编:《〈通用规范汉字表〉解读》,北京:商务印书馆,2013年,第45-48页。。一些机构已通过建立词表、对应关联等方式研发了较为精确的繁简转换系统,不再扩大汉字应用的差异,事实上采取了“繁、简二元并存”方式,以保持现有汉字规范的稳定(63)黄德宽:《论汉字规范的现实基础及路径选择》,《语言文字应用》,2007年第4期,第6页。。将来可以采取深度标引、词表关联、词向量表示等方式,解决字体字形之间的复杂关系。
与统一字符集和标准文本库的建设相辅,还可基于字际关系及其历史传承研制相应总表。“中华字库工程”总体组从27亿字楷书汉字文献中搜集整理未编码字140万余,经过认同、去重等流程,最终形成80万楷书汉字的中间字库。在此基础上研制的《汉字代表字表(异体关系总表)》包括代表字、异构字、部件异写字、笔画异写字等,其中“代表字”就是最主要的汉字,具有规定性、通行性、理据性、系统性等特征。一方面是整理楷书正字、隶定字的字际关系数据和相关的时代数据,建立起古汉字纵向的演变序列和横向的字际关系序列;另一方面是整理异体关系数据,建立起楷书汉字横向的字际关系序列。《总表》以多层级的异体关系为组织方式,实现了对中间字库楷书字符的有效管理。一些汉字在不同历史时期,有其习惯写法。古汉字如“唯”有时会写成上下结构,严格隶定是“售”。如果简单地把古今汉字的字际关系混为一表,就易产生混乱。鉴于此,总体组还研制了《汉字历史传承总表》,集合了甲骨文、金文、楚简、帛书、玉石、金器、漆器、陶瓦、玺印等各种载体、各个时代的古文字,梳理了从商周到唐宋的文字发展脉络和样貌(64)参引自“中华字库工程”第27包结项报告(内部资料),感谢项目总体组授权使用。。这一成果不仅有助于生成不同时代、地区、民族和行业的常用字表,还将有助于创建简体规范字符集及标准文本库。
古籍数量众多,形态各异,从字符到文本的统一规范不可能一蹴而就。应先尝试建立古籍文本模型,从文字、符号、图形、图像、版式、结构等方面描述古籍文本特性。电子文本、数据集、数据库事实上承担了数字化时代古籍的版本功能,一些古籍数据库不明版本来源,或回避了版本,或将不同版本杂糅到一个库中。统计分析正是基于编码系统及其与文本的对应关系,而非印刷、抄写等纸本书的基础上。纸书不能作为统计对象,因为无论抄写本还是印刷本,其字符存在异体异形概率较高。只有先实现字符层面的统一和文本集的标准化,才能实现大数据层面的统计分析和深度利用。问题是,异体字、繁简字、正俗字都统一之后,字体字形被强制规范的电子版将替代和覆盖原版,也就不再是原书形态。有些虽然区分了版本,但底本不同,如“文渊阁《四库全书》”有三种电子版,“二十五史”的数字版本多达七种(65)毛建军:《古籍数字化理论与实践》,北京:航空工业出版社,2009年,第107、99、111、135页。。为满足文化界对数字善本的需求,首都师范大学电子文献研究所与北京国学时代文化传播股份有限公司曾于2008年启动“古籍电子定本工程”,也展示了部分古籍定本(66)“古籍电子定本工程”,http://www.guoxue.com/zt/dzdb/,2022年9月1日。。但这种电子定本由于缺少学术研究和国家层面的双重支持,未能实现预期。如果国家有关部门能创建、指定或认证古籍数字权威版本,可直接征引并形成校订机制,将极大提升科研效率和节省文化成本。
五、数据融通是构建新型数据库与知识库的基础
随着信息技术的发展,基于纸质文献特征的知识聚合已不能满足用户的个性化需求。基于字符编码、语义标注、文本格式等元数据要素的聚合,可实现深层、多维和动态的知识关联,解决古籍资源的数据库孤立、内容交叉或异构问题。1984年,栾贵明等就指出,随着计算机的普及,“我国几千年来汗牛充栋而又星罗棋布的古文典籍,可尽行收入方寸之地,召之即来。使用微型机对这些古籍进行版本研究、文句校勘、文字订正、字义诠释、篇章会注、作品编年、古语今译,乃至标点、分段等等都将成为现实。”(67)栾贵明、李秦:《微电脑与古文献研究》,《古籍整理出版情况简报》,1984年8月20日,总第127期。这些畅想之所以未能很快实现,至少在学术应用层面还有一定距离,很大原因是受制于统一标准下的字符集、文本库建设。随着命名实体识别与标引技术的发展和应用,越来越多的专名将被聚合、归类,相应也就要求校验对齐和相互认同。只有从字形、字体层面实现规范统一,古典文献才能高质高效地进入到语义关联、智能化阶段。
字符集改动对文献数据的影响会成指数级放大,字符集的扩充与认同要做到求全与求稳的平衡。针对古籍数字化过程中产生的大量集外字,有学者主张,“逐一分析这些集外字,由于书写变异造成笔画细微差异的字占58%,占集外字的绝大多数,这些字完全可以认同为集内字”(68)肖禹:《古籍数字化中的集外字处理问题研究》,《图书馆研究》,2013年第5期,第28页。。有些已经认同的汉字,随着对其意义、用法的深入了解,后来又认为是不同的汉字。前后标准不一,会造成新的文献断层,使文献恢复变得极为困难。鉴于一些数据库的异体字不具有通用性,可构建动态的异体字数据库,作为正体与异体字之间的中介。在古籍文本的异体字形后标记相应的正体字,“在检索时无论关键词是正体字形还是异体字形,都可以得到正确的结果,并且这种文本的异体字检索并不需要依赖异体字数据库,具有更好的独立性”(69)高天俊:《Unicode标准下古籍数字化的异体字处理》,《现代语文》,2011年第9期,第115页。。集内字中的汉字关联,“文渊阁《四库全书》电子版3.0”提供了异体字、通假字、繁简字、古今字和新旧字关联,“中华经典古籍库”也在“检索选项”设有“应用汉字关联”选项。可为正体字或代表字分配码点,异体字形采用二级编码和代表字链接,以解决字符的输入和检索,以及文本之间的连接与转换问题。
简体字的规范、新字形的推广、统一码的使用,让古籍数据库在字符层面较抄印本发生了重大改变。抄印本对字的处理具有多样化、随机性特点,文本语境容许字在部首、读音、形体方面的差异,甚至借助形体差异而表达一定的义涵,如假借、避讳、谐音等。数字文本是基于字符集的制作,可确保每字及其代码相互区分,却切断了字际关联。从抄印文本到数字文本,实则发生了一次系统性更替。以往汉字已基于形、音、义形成了一定谱系,转换成编码后,原有关联已被削弱。编码也成为与形、音、义并列的要素,甚至是更重要的要素。如果对读音、义项等进行系统分析,借助标引或词表库,其关联也应是基于编码系统。
要研发异体字、异形字智能转换系统,基于通用字体和字形制订汉字标准字根、字模,建立汉字索引标准、控制功能标准、编码和输入方法标准等。同时,也应认识到数字文本不可能完全再现古籍的全部信息。数百种汉字字体,除宋体、仿宋、楷体、黑体等常用印刷字体外,其他字体的数字标准仍需进一步明确和规范。在标准文本库的基础上创建和关联各种子库,如基于汉字本体及演变的甲骨文、金文、竹简帛书、小篆、隶等各种字库,与汉字关系密切的少数民族及日、韩、越等近裔汉文字库。它们基于元数据和索引,与标准库建立衔接和转换机制。方正公司为方正超大字符集开发的“方正典码输入法”,以及海峰五笔、新概念五笔、仓颉输入法世纪版等已基本解决超大字符集的输入问题。今后可以依据历代文献的字频统计,创建不同时代和书体的字符集。同时,改进检索方式和方法,不仅可用代码检索,还能依靠部首、笔画、音序、声符、语义等进行深层检索。
标准文本库不是对抄本和印本文献的复现,而是整合与超越。创建元数据处理标准,才能实现对元数据的统一描述、规范标引、连接整合。一部(类)书的精准用字量和字频统计,不仅要求有规范的形体、统一的编码,还要求有严谨的体例和统一的格式。通过光学字符识别软件将含有文字的单层图形文件转换成集可阅读可编辑于一体的文本文件,再进行清理、校对、元数据提取等,形成众多规范化文本文件。一个字符的统一编码是确定的,但在实际传输过程中,编码的实现方式(转换格式)有所不同。不同机构开发的古籍电子产品往往有不同的文件格式,从而带来了格式转换和字段映射问题。目前的数字化古籍格式有txt、doc、html、exe、pdf、wdl、pdg、ebk、edb等多种类型,它们是基于统一码、仓颉码、大五码或其他字符集而形成的。标准文本库建设应基于纯文本格式,同时提供多格式转换和多媒介迁移。引入数字资源唯一标识符系统(CDOI),探索中文语料的批量可逆转码和数字资源统一调度。采用文本编码倡议(TEL)的电子文本通用标准,制定收集转换策略以生成Access、Excel等格式数据,提高易用性。
应统一元数据标准以实现跨库检索功能,使数据库间资源互通有无,并支持多种硬件平台、服务器、操作系统和工作方式。为避免强制统一造成文字的历史、文化信息损失,可通过字表等方式实现异体或异形字的关联与认同。统一显示与差异转换共存,以不影响字符集整体间的融通。未来古籍数据库不仅可以进行特征检索(题名、作者、关键词),还可实现新旧、正异、简繁转换,以及中日、中韩、中越等不同形体汉字的关联检索,辅助帝王年号、干支纪年与公元纪年的在线换算,提供释义、释形、避讳等背景知识的推荐,以及生成各种类书、辞典及定制文本集等。文本库链接各种数据库,可基于编年、地名、人名、职官、典故等进行文献聚合,也可根据朝代、地域、流派、作家、文体等条件实现个人订制,以及研究成果的可视化呈现。知识图谱与可视化工具可以更容易地进行观察和模拟计算,将原始文本中看不见的信息以新的样貌为人们所看见。
文本库不仅是保存和整合机构知识资源内容的场所,还是一个提供可计算可分析数据资源的平台,以有效支持资源获取、数据加工、知识挖掘、成果评价和智能管理等。当前“中华经典古籍库”已较好实现了功能化,如联机字典可选择同义词检索、纪年换算、浏览历史与书签等辅助功能;加载小工具如年表、繁简转换、字频统计等,可实现用户交互式可视化展现。探索古籍数据库的跨语境应用和跨平台操作,加载推理、建模、融合等工具与技术,实现多元、分时、动态的古籍引用可视化分析,以及个性化订制、推送与交互。未来可望对古籍的版本源流、字体演变、字义关系、纪年转换等作出智能考察,提供包括知识探索、时空轨迹、语义查询、知识推理等智慧化服务。
古籍文献是一个有限集合,应在征集经典文献的基础上,各种断代文库、地方文库、行业文库、专题文库等并联导入,创建齐备精良、标准规范和开放共享的国家古籍文本库。古籍标准文本库的构建,不仅可以聚合同类文本和实现个性化订制,还可自动生成各种知识图谱,实现知识的动态显示和结构关系的多维呈现,不断延伸与加注各种知识点。它们基于字词、实体或各种标签而实现知识连接,进而生成“中国古典知识库”,“在保障古籍文献内容完整性及内部逻辑的基础上,突破文献原有结构,关注文献中的年代、地域、人物、社团、著述等实体的相关属性及不同实体间的关系,通过这些实体及相互关系对文献进行深层组织和知识管理”(70)张力伟:《走向深度学习——大数据背景下“中国古典知识库”的构想》,《光明日报》,2018年10月15日,第13版。。建立文本库的准入标准和审核机制,形成一个集在线阅读、跨库检索、数据服务、知识问答、热点追踪、用户画像等各种功能于一体的智能平台。文本库作为知识点或信息点的枢纽,不仅可为各种写作软件、语言大模型等提供训练素材,也可为关联知识提供自动校验和修订推荐,还是一个增值了的知识库和智慧平台。
新旧字体、字形与字符编码的三次迭代,极大影响了电子文本集与数据库建设。统一字符集和标准文本库是古籍数字化的必要条件,也是构建关系型和结构化古典知识库的基础。正如朱翠萍所说:“字符类型多样、字际关系复杂、终端需求不同、生僻字繁多是古籍数字化工作时时面对的问题,主动开展字符集整理与规范工作,是解决古籍排版、数据库字符呈现、智能处理工具研发等系列问题的必要措施。”(71)张竞艳:《籍合网:数字化让古籍活起来》,《出版人》,2022年第12期。以往不同的语言、媒介和系统之间交换文本信息是困难甚至不可能的,数字化把文字、声音、图形、图像等信息全部变为计算机能够识别的二进制数字序列,借助数码可对各种信息进行统一处理。文本库可以通过建立词汇表等方式,实现不同语种的精准对译,促进比较文化与文明的研究。文本库还可与图像库、声音(方音)库、信息地理系统、社交媒体、虚拟现实界面等连接融合,创造出全新的应用场景。跨语种、跨媒介的信息标准的统一衔接,也将使得共建“巴别塔”前景重现。
随着古籍的电子化与数据化,字符集、文本库、分析工具与智能平台已成为学术研究的新基础设施。标准文本库和古典知识库的建成将为数字化图书馆、博物馆、档案馆的建设提供有力支持,为用于知识挖掘的结构化数据库和智慧平台建设提供坚实基础,促进知识形态的转型升级。可以说,统一字符集是继秦始皇“书同文字”之后的全新规范,正如上次是从刻画形态到书写形态,这次是从书写形态到数码形态。只有尽早实现字符编码和典籍文本的统一,各种新型数据库和知识库才能顺利构建和连接,在信息社会和数字化文明中产生越来越广泛的影响。基于统一字符集和标准文本库建设的古籍数字化必将极大促进古籍文献的整理、传播与研究,解决中文资源的深度利用和全球共享问题。当然,在数字化与规范化带来信息交换便利的同时,也要警惕其带来的单一化、同质化问题,为差异留有余地而避免在某些领域积重难返或推倒重来。