APP下载

中华字库:给汉字填写“身份”信息

2019-06-27周聪聪于冬伟

畅谈 2019年10期
关键词:字库字书生僻字

周聪聪 于冬伟

在河北大学,一间300平方米的工作室内,多名专家学者以及学生,正在参与进行一项规模浩大的汉字整理与考释工作一一中华字库工程。这是一项国家重大文化建设工程,河北大学独立承担着明清图书用字的整理与考释工作。

什么是中华字库?我们已有《汉语大字典》《中华字海》这些大部头的字书,为什么还要对中华文字进行全面的搜集整理?

近日,记者走进河北大学中华字库工程工作室,试图揭开中华字库工程的神秘面纱,同时也走近这群人,听他们讲如何让一个个沉寂在古旧书籍上的汉字,在数字媒体中找到新的安身之所,拥有新的“身份”信息。

帮生僻字寻找“身份”信息

“这两个字念什么?你知道吗?”4月9日,窗外细雨蒙蒙,在河北大学中华字库工程工作室,负责人杨宝忠写下的两个字令记者一头雾水。

只见纸上的这两个字,左边都有一个“鼠”字,不过“鼠”字右边还各有一个“占”字和“靈”字,寫作“鼠占”“鼠靈”。

第一个字,虽在《康熙字典》《汉语大字典》《中华字海》这样的大型字书中有收录,但被作为双音节词用字处理,至于读音,书中却未给出。第二个字大型字书都没有收录。

与这些令普通人直皱眉头,甚至大型字书中都未给出答案或没有收录的疑难字打交道,对它们追根溯源,辨析渊源流变,是河北大学文学院汉语言文字学教授杨宝忠多年来的主要工作。

人们的印象中,汉语言文字学这门学科,可能更多的是在“故纸堆”中埋头考究。而现在,杨宝忠正带领30多位老师和学生,参与一项解决中国目前在信息化、数字化中所碰到的瓶颈问题的重大工程。

走进工作室,只见大家伏案于一排排电脑桌前,全神贯注地盯着屏幕,电脑屏幕上是电子扫描版的竖排文字古文献,不少还纸张斑驳,字迹模糊。工作室忙碌而安静,只听见计算机的嗡嗡声。

“拟认同字、康熙部首、康熙附形部首等属性,以及读音、释义、字际关系等,这些都是一个字的‘身份信息,我们的工作就是为这些从明清图书上找出来的生僻字填写一张完整的‘身份证。”工作室成员、河北大学文学院徐世权博士,一边向记者展示中华字库工作平台界面,一边向记者解释他们的主要工作内容。

“我国现有的计算机字符集仅有7万多个,已无法满足时代需求。因此,国家启动了中华字库工程,将利用先进的信息技术手段,收集和汇总历代文献资源中出现过的汉字和少数民族文字,辨析源流衍变,确定每个字形的历史地位,建立汉字及少数民族文字的编码和主要字体字符库,”中华字库工程第15包项目管理办公室主任杨清臣介绍。

中华字库工程于2011年启动,完成之后的中华字库预计可编码字符数在50万左右。工程共有28个工作包,河北大学以独立承担的方式,获得第15包明清图书用字搜集与整理之三·文字整理与考释的分包任务,对约100万字形(楷体汉字)的疑难字进行辨识、整理和考释。

而他们考释的生僻字“身份信息”,最终将被收进“中华字库”,然后提交给国际标准化组织,在电脑区位中给每个字编码,厂商再据此做出宋体、黑体、隶书等字体,最终进入计算机。

“我们每天的工作就是研究生僻字。很多人并不觉得生僻字对我们的现实生活有何影响,但有的人就因为生僻字,连一张信息准确的身份证都无法得到。”在行唐县独羊岗乡某村进行的一次实地考察,令杨清臣深有感触。

该村的历史可以追溯到南宋时期,距今已有近千年历史。但苦于计算机打不出这个村名,当地村民的第一代身份证上的村名信息只能靠手工填写,而现在使用的第二代身份证,只能用“差取”二字来代表。

最难的是疑难字考释

从某种意义上说,在信息化、数字化时代大潮之下,不论是常用字还是生僻字,只有被纳入字库当中,才算找到了“家”。

在中华字库工程的计算机操作平台上,每个从上一环节递交过来的文字,都设有一个专属的号码,就像一个人的身份证号。工作室成员要做的,就是把这些汉字有名有姓地带回“家”,以便它们能信息完整地“居住”在字库这个虚构的网格式大厦里。

然而,这条寻“家”之路并不容易。

按照工作窒的流程安排,一审主要是硕、博研究生对填写的内容进行互审,二审则是由教师对一审内容进行检查,二审解决不了的问题,则要进一步提交给杨宝忠、梁春胜二人“坐镇”的三级审核。

一般冲破重重关卡来到杨宝忠和梁春胜面前的,都是几轮考释仍啃不下来的硬骨头一一疑难字。

杨宝忠解释,疑难字是个相对概念,指一般人不认识或认错的字,在普通人看来,它们的结构都复杂得令人咂舌。在大型字书里,有些字音义不全,标为“音未详”“义未详”或“音义未详”。有些字虽然音义俱全,很可能也存在注音、释义、字际关系整理等诸多错误。

因此,疑难字的考释,是中华字库工程最难也最见功底的领域。

当初,清代李元所著《蠕范》中出现的“鼠占”“鼠靈”二字的考释,曾令杨宝忠颇费周折。

“鼠占、鼠靈,怎么念?什么意思?”凭借多年疑难字考释的经验,利用自己总结的疑难字考释方法和自己发现的近代汉字“异体部件替换”规律,杨宝忠联想到“鼠占”“鼠靈”很有可能就是“鸟鼠同穴”中的鼠名“鼠突”字。

循着这个思路,杨宝忠多方求证,最终弄清了“鼠占”“鼠靈”二字的来历。

“在历代传抄转录过程中,很容易出现各种书写错误,这就需要我们根据汉字书写习惯和变异规律,结合上下文意思,顺藤摸瓜,追根溯源,考释出一个字的准确读音和含义。”杨宝忠解释,“鼠占”“鼠靈”二字就是在传抄过程中,一错再错错出来的。

《山海经>郭璞注:“鼠名日鼠突。鼠突如人家鼠而短尾……”一误作“鼠名日鼠戾。鼠戾如人家鼠而短尾……”(中华书局影印本《太平御览》),再误作“鼠名日鼠占。鼠戾如人家鼠而短尾……”(文渊阁、文津阁本《太平御览》),三误作“鼠名鼠占鼠灵”(《禹贡合注》),四又误改作“鼠占鼠靈”,此《蠕范》“鼠占鼠靈”所由生。

“《字汇补》以下大型字书收录‘鼠占‘鼠灵二字,既不能与‘鼠突字加以沟通,又皆处理为双音节用字,均欠妥当。”杨宝忠最后得出结论。

考释,不仅要搞清楚一个字的音义,还意味着要抽丝剥茧,通过一个字形考释出一系列的疑难字,并建立字际关系。

正是通过这一系列的研究,杨宝忠最终构建了一个以“鼠突”为中心的矩形联系图,古籍中出现的“鼠戾”“鼠占”“鼠灵”“鼠靈”“鼠录”“鼠炎”“鼠空”“鼠炎”“鼠犬”“鼠吾”“鼠奚”“突鸟”等都是“鼠突”变来的。

从1990年至今,杨宝忠一直从事大型字书的疑难字考释,近30年里,他考释的疑难字将近4000字。

近30个年头,不到4000字,两个数字对比,文字考释的个中艰辛不言自明。

考验学识和学养的积累

河北大学中华字库工程工作室以玻璃为隔断,辟出一间小型阅览室,占据工作室三分之一的空间。别看面积不大,却满满当当码放了整整13排、100多个大书架。

文津阁本《四库全书》《续修四库全书》《百部丛书集成》《域外汉籍珍本文库》《高丽大藏经》……在这里,几乎能查阅到项目研发所需要的各种古籍。

作为补充,阅览室一旁的电脑上,还装有一个文献检索包,收录着书架上没有的电子书,足有10多T。

这些都是为方便大家考释文字时查阅古籍准备的。

每天从早上8时到晚上10时教学楼关门,除上课外,工作室的成员几乎全都泡在这里,即使节假日和周末,也基本是这样,可谓名副其实的埋首“故纸堆”。

这样的工作节奏,很容易让人联想到“枯燥”这个词。

“表面看,我们一直是在做重复性工作,但实际上每天都是新的。”对此,杨清臣却自得其乐。

作为工作平台中的二级审核老师,杨清臣所谓的乐趣和成就感就在于,能在很多习焉不察的一审结果中寻获到“漏网之鱼”。

有一次,一级审核提交上来一个“氵艾”字。对这个字,一级审核并未发觉有何问题,而是根据正常流程,对其各项属性进行了标注,但杨清臣看到这个字却颇为眼生。

这个字出现在明嘉靖刻本《皇明疏议辑略>卷三十一《处置夷情疏》一文中:“又有一路从草坡出氵艾州,一路从 氵僚泽壩出灌县,一路从清溪口出崇庆。”

“氵艾州?从来没有听说过还有这个地方啊!”经过一番仔细查阅,最终,杨清臣的怀疑在文渊阁四库本《忠肃集》中得到了印证,“氵艾”应为“汶”。另外,“氵僚”即“僚”之加旁俗字。

“类似这样的错误,很多都是习焉不察的,在这种地方能产生怀疑的,就是高手。”徐世权说。而能像导师杨宝忠一样,由“鼠占”“鼠靈”找到一个系列的字形,构成矩形系联,形成宏观观察,则令徐世权神往,“这就是我们搞语言文字学追求的最高境界。”

在长期疑难字考释实践中,杨宝忠在前人“形音义三者互相求”的考字方法基础上,提出“形用义音序五者互相求”“五者之中,形最重要”的考释方法,使疑难字考释成为有规律可循、有方法指导的科学。

从一堆“故纸”中理出头绪、解决问题,考验的是能力。能从中有所怀疑,更考验学识和学养的积累。

触发怀疑的机关,要建立在大量阅读基础之上形成的“语感”。

1982年,杨宝忠本科毕业留校后,宿舍和中文系资料室在一层楼,杨宝忠曾以一天一本古书的速度,在六年多的时间里差不多读完了资料室所藏的先秦两汉古书。

在近30年的大型字书疑难字考释中,杨宝忠把《汉语大字典》(八卷本)第一版通读三遍,《汉语大字典》(九卷本)第二版通读一遍,《中华字海》通读四遍,而且是将两本大型字书一个字一个字对照着读。

苦行僧式的阅读经历,使杨宝忠俨然一本“活字典”,很多字的源流衍变信口拈来,如数家珍。

相比老一輩主要靠翻阅纸本古书,杨清臣和徐世权以及他们的学生们更多地是利用电子文献,有了更便捷的阅读手段。

虽然由于字库不全,目前的古籍信息搜索还有颇多不便,但工作室还是通过购买和自主研发两种渠道,建立了专门的古籍信息数据库,借助搜索技术,输入相关搜索内容,几秒内便能把相关文献搜索完毕。

不过,不论哪种模式,都需要坚持。

虽然杨宝忠平时不苟言笑,要求非常严格,但打心眼儿里,他对这些青年学者们严谨踏实的学术态度深感欣慰。在他办公室一旁的角落里,放着几副羽毛球拍和乒乓球拍,对于学习,杨宝忠从不多言,反而总是赶着大家多运动。

“搞学术在外人看来很辛苦,但做出来特别有成就感。就像在海边捡贝壳,在那么多好认的字里找着一个难认的,就像捡着一个特别漂亮的贝壳。”说着,本略显拘谨的杨清臣举起双臂,嘴角扬笑,“那种如获至宝的心情,就想手舞足蹈地跳起来!”

猜你喜欢

字库字书生僻字
生僻字里识青铜
学习生僻字
蒋和《汉碑隶体举要》考述
我国古代字书刍议
多一些《生僻字》这样的网红歌曲
挑战动物生僻字
对蒙古文字研究与信息发布互动平台网站建设的探讨
汉文佛典:谱写汉字研究新篇章
字库在设计中的局限性——以食品包装为例
字库字体侵权系列案例分析研究