《说文解字义证》信息化中异体字的处理
2009-03-27姜永超郭翀
姜永超 郭 翀
摘 要:《说文解字义证》信息化过程中处理异体字是个难题,采用保真和整理相结合的原则能确保全书的系统性并方便计算机处理。这种方式能为古籍信息化中异体字处理提供借鉴。
关键词:《说文解字义证》 信息化 异体字
古籍信息化能“将计算机对语料的形式化处理和专家对语料的分析判断结合起来,充分发挥计算机和人的各自的特长,从而推动汉语史研究的迅猛发展。”[1](p60)古籍信息化,首先必须实现文本字符的信息化,在此基础上,才能利用计算机的优势对古籍资源信息处理以辅助汉语史研究。本文以桂馥《说文解字义证》(以下简称《义征》)为例讨论其处理原则和具体方法。
一、《义证》中的异体字
学术界对异体字的看法不一,我们采用裘锡圭的观点[2],把异体字分为狭义异体字和部分异体字。
《义证》对许慎《说文解字》(以下简称《说文》)做了全方位的研究,在文字训诂学领域具有重要地位;《义证》保存的异体字不仅类型多样,而且数量巨大:首先,《说文》一书本身存在不少重文。许慎指出的就有“古文(壁中书)”“籀文(大篆)”“奇字”“或字”“今字”等多种类型,还有一些异体字没被《说文》列入重文而是分立字头;其次,桂馥广泛征引古籍,而这些古籍在流传过程中又产生了不少异体字。所以,处理好《义证》能为其他古籍信息化中异体字的处理提供借鉴。
二、处理原则及方法
针对《义证》信息化过程中存在的异体字问题,我们采用保真与整理相结合的原则。包括《义证》在内的古籍信息化,主要是辅助语言学家进行汉语史研究的,我们应该尽量保持古籍在形式上的原貌。然而,《义证》存在的大量异体字本质上属于手写文字,规范程度很低,如果追求对这类字形的保真,汉字字库恐怕永远难以满足需要,也根本无法实现真正意义上的信息化处理。所以,我们应在保证内容系统性和正确性的情况下对不规范的异体用字进行整理。
(一)《义证》信息化过程中,碰到一改变字形就影响上下文意思或全书系统性时,必须保持原本字形而不必改为古籍通用形式。这包括如下几种情况:
1.强调本字
(1)斯—廝
斯,析也。從斤,其聲。《詩》曰:“斧以斯之。”字或作“廝”。……韋昭曰:“析薪曰斯,炊烹曰餐。”(第四十六卷)
“斯”和“廝”都有“分”义,它们是一对异体字。例(1)是强调“斯”的本义,所以韦昭提及的“斯”必须保留字形不能用“廝”替代。
2.《说文》的重文
《说文》中的重文分同部重文和异部重文两种情况:
1)同部重文是指重文和正字在同一部首内的异体字,如:
(2)糂—糣—糝
糂,以米和羹也。一曰粒也。從米甚聲。桑感切。(第二十卷)
糣,籀文糂。從朁。(第二十卷)
糝,古文糂。從參。(第二十卷)
许慎先列出“糂”字,随后列出该字的重文“糣”“糝”。例(2)中的古文或籀文字形,如果改为通用的“糂”,则会破坏全书系统性,读者将不知所云,计算机检索结果也会出现问题。
2)许慎在《说文》中明确指出的重文有1163个。但是还有许多本为异体的字却把它们当作不同的词分别加以分析和解说。这种与正字不在同一部,但实际是异体的字就是异部重文,如:
(3)鯁—骾
鯁,魚骨也。(第十一卷)
骾,食骨留咽中也。(第四卷)
这两个词前一个是名词用法,后一个是动词用法。体用同称是古人用字的习惯,它们应当是同一个词。段玉裁在《说文解字注》中曾经考证出二百余处异部重文。比如木部中“楙”,解释为:“楙,木盛也。”下注曰:“此與艸部茂音義皆同,分草木耳。”对于这类异体字我们也应当保留其原貌。
3.用以互训
(4)樛—朻
樛,下句曰樛。从木翏聲。吉虯切。下句曰:“樛者與下文朻字訓。”……馥案:樛、朻二字,同聲相通。(第十六卷)
“樛”和“朻”是组异体字,当它们互训时,不能将它们统一成一种字形,否则就会让读者迷惑不解,也给日后计算机处理造成不便。
4.强调形体差异
(5)罪—辠
罪,捕魚竹网。從网、非。秦以罪為辠字。徂賄切。捕魚竹网者。徐鍇引《詩》:“畏此罪罟。”又《瞻卬》:“罪罟不收。”傳云:“設罪以為罟。”秦以罪為辠字者。本書辠字云:“秦以辠字似皇字,改為罪。”(第二十三卷)
(6)逾—踰—愈—俞—癒
逾,