APP下载

古籍数字化中的集外字处理问题研究*

2013-02-15

图书馆研究 2013年5期
关键词:异体字错误率古籍

肖 禹

(中国国家图书馆,北京 100034)

经过近三十年的发展, 古籍数字化研究与实践取得了丰硕的成果, 产生了一大批有影响的古籍数字化项目。 这些古籍数字化项目具有检索和浏览的功能,但在文字处理方面还有所欠缺。古籍中大量的避讳字、异体字、少数民族文字、草体字(手抄本中的)都在一定程度上限制了古籍数字化的转换和检索[1]。 目前,对古籍数字化中的文字处理的研究主要有两类: 一类是从整体上探讨古籍数字化中的文字处理; 另一类是从具体项目的角度出发讨论具体处理方法。 现有的研究往往从学术角度出发,以异体字处理为研究重点,提出系列异体字处理原则, 或基于某个项目提出异体字的处理方法。 这些研究为古籍数字化中的文字处理提供了思路和方法,但也存在一些不足:其一,未能明确定义异体字的处理范围;其二,未能分别给出集内异体字和集外异体字的处理方法;其三,未能给出异体字处理的工程化方法。

本文立足于大规模古籍数字化项目, 从工程和技术实现的角度探讨古籍数字化过程中的集外字处理问题。之所以以集外字为研究对象,原因有三:其一,集外字虽然是一个相对概念,但是若字符集固定,集外字的范围就是固定的;其二,在大规模古籍数字化项目中,集外字大量存在,集外字处理问题无法回避;其三,集外字无法直接输入、处理和显示,必须采用其他的技术和方法,相关的研究与实践还存在很多的问题。

1 字符集与集外字

字符集是描述多个文字和符号的集合[2],在古籍数字化中最常用的是Unicode 字符集。 Unicode 是一个经过字符宽度整合的编码方式, 它是为文字及符号所建立的国际性编码, 几乎覆盖世界上任何一种语言的字符[3]。目前,Unicode 的最新版本是6.2[4],是符合国际标准(ISO10646)收录汉字最多的字符集,共收字74 566 个,其中CJK 基本集收字20 902 个, 扩A 集收字6 582 个, 扩B集收字42 711 个,扩C 集收字4 149 个,扩D 集收字222 个。

集外字是指字符集所不包含的文字, 若不采用其他的技术和方法,集外字无法输入、处理和显示。 集外字的数量与字符集的收字数量直接相关,若数字化对象的用字总量和文字处理规则固定,字符集收录的文字越多,集外字的数量越少。 以国家图书馆数字方志项目第一期 (全文数字化明至民国间的方志744 种,14 682 卷,506485 筒子页,采用键盘手工录入方式进行全文数字化,使用“中易汉神e”汉字系统,支持CJK 基本区、扩A 区和扩B 区的7 0195 个字符)为例,使用CJK 基本区1 6801 个字 (203 781 248 次),CJK 扩A 区 的2 959 个字 (274 847 次),CJK 扩B 区9 117 个 字(732 675 次)。 若使用GBK 字符集 (收录21 003个字),集外字将多出12 136 个(1 007 522 次),若使用GB18030-2000 字符集(收录27 533 个字),集外字将多出9 117 个字(732 675 次)。 可见,字符集的选择对集外字的数量有很大的影响。

因字符集主要收录楷书字,收字尚不完备,无法完全满足古籍数字化的需求,集外字大量存在。以数字方志项目的文字录入实验为例, 选取明至民国间刻印的方志100 种(5 0000 余页),文字总量超过2 000 万字,完全按字形比对,集内字只占38%,除了少量模糊字外(低于0.5%),其余都是集外字。 逐一分析这些集外字,由于书写变异造成笔画细微差异的字占58%,占集外字的绝大多数,这些字完全可以认同为集内字。 可见,在古籍数字化项目中集外字普遍存在, 仅靠扩大字符集收字范围不能解决集外字处理问题, 还需要一系列的集外字处理方法。

2 集外字处理方法

采用OCR(Optical Character Recognition,光学字符识别)或键盘录入古籍文字,集外字都无法直接输入,必须引入集外字处理方法。 常见的集外字处理方法有:

(1)替换法。 替换法是将集外字变换为其他可以输入的形式,如符号、图形和集内字。 一是符号替换。 在OCR 或文字录入的过程中,将集外字直接替换为某个特定符号, 这是最简单的集外字处理方法。 在保存为纯文本的古籍全文数据建设中常采用这种方法,但这种方法存在以下几个问题:其一,集外字统一替换为某个符号,这些符号基本没有检索意义;其二,替换符号未能保留集外字的任何信息,当字符集变更时,集外字无法管理;其三,常用的替换符号有等,这些符号在古籍中都较为常用, 用户无法区别这些符号是古籍中原有的,还是由于数字化造成的。 二是图形替换。 将集外字替换为图形,图形数据保留了集外字的字形特征,但是图形数据不能直接检索。 图形数据的引入,增强了全文数据的显示效果,同时,为了支持检索和后续的管理维护, 图形数据要添加必要的描述信息。 在数字化项目中将集外字替换为图形,图形的采集、处理和存储都需要加工软件的支持。 三是集内字替换。 相对于特定符号和图形,将集外字替换为集内字是更好的处理方法,但这种替换要满足两个基本条件: 数字化项目对文字字形没有严格的要求,允许对异体字、避讳字、讹误字等进行规范;集外字可以替换为集内字,这两个字读音、含义和用法都相同。 在大规模数字化项目中,将集外字替换为集内字有一定的难度,对人员素质有较高的要求。 在国家图书馆数字方志项目集外字中, 由于书写变异造成笔画微异的异体字占58%, 由于偏旁简省造成的异写字和由于隶定造成的异写字占2%,异构字和其他情况(非异体字) 占2%。 异写字转换的平均错误率为0.27‰,异构字转换的平均错误率为0.52‰,而集内字转换的平均错误率仅为0.22‰。 可见,将集外字替换为集内字会影响数字化项目的错误率,错误率与替换的难度成正比, 难度越大, 错误率越高。

(2)造字法。 造字法是在字符集的自定义区为集外字定义编码, 这些编码与集外字的字形一一对应。 只要有字符集自定义编码区的支持,造字的检索与显示和集内字完全相同。 以《文渊阁四库全书电子版3.0 版》为例,该项目采用了Unicode5.0字符集,整个项目共造字12 592 个[5]。若使用造字法处理集外字,必须有集外字管理、输入法管理、造字、字符集自定义区管理等一系列工具。Unicode字符集允许用户自定义编码, 专门设置了私用区(Private Use Area),私用区、增补私用A 区和增补私用B 区共有137 468 个码位。虽然Unicode 字符集有较多的码位可供造字使用, 但是如果将古籍中出现的所有字形,不做必要的文字规范,也不区分字体、 书体, 只要字形与字符集中的字形有差异, 就简单地做造字处理, 这些码位也会很快耗尽。 同时,Unicode 对私用区基本没有限制,不同的古籍数字化项目对私用区的使用可能完全不同,同一个自定义编码在不同的项目中表示不同的字形,若同时使用这些古籍数字化项目,将发生私用区编码冲突,造成文字编码错误。

(3)描述法。 描述法是将集外字表示为一个字符串,这个字符串描述了集外字的字形。 目前,较为常用的描述方法有 《汉语文古籍机读目录格式使用手册》 中393 字段系统外字附注的外字描述方法[6]、台湾开发的汉字构形数据库使用的构字式描 述 方 法[7]、Unicode 的IDS(Ideographic Description Sequence,表意描述序列)描述方法[8]等。 描述法既可以独立使用,也可以和替换法一起使用,如香港理工大学开发的“中文古籍网上出版平台”将集外字替换为图形,并用IDS 进行描述。

3 集外字处理方案

3.1 集外字处理方案实例

3.1.1 《文渊阁四库全书》电子版项目

《文渊阁四库全书》电子版项目以《景印文渊阁四库全书》为底本,由上海人民出版社和迪志文化出版有限公司合作出版, 迪志文化出版有限公司、 书同文电脑技术开发有限公司承办全部开发制作工程, 清华大学计算机系负责OCR 引擎开发,北大方正电子有限公司负责建立专用字库,微软公司(北京)研究开发中心在平台技术等方面提供技术援助[9]。 基于当时的技术条件,该项目使用CJK+字库 (包含符合Unicode 标准的CJK 和CJK扩A 编码, 自定义编码4 296 个, 共收字31 780个),使用OCR 方式进行全文转换。 该项目的集外字处理方案:(1)参照遵守ISO10646/Unicode 的认同规则对集外字进行有控制的异体代换。 微小笔形差异视作异写, 应认同之而不加标记。 在Unicode 中两个异体字都有编码时, 应选与书中字迹最接近者。 其他异体代换,必须标记相似符号“~”。(2)对原书中的模糊之处(“模糊字”),实在难以辨别者,保留其原图形作“□”处理,并加以说明。 (3)无法认同的集外字保留原图形并做字形描述,依据字形描述进行字频统计, 高字频集外字做造字处理,低字频集外字替换为构字符或“□”。 (4)甲骨文、金文、篆文等字体直接替换为图形。

3.1.2 数字方志项目

数字方志项目始于2002 年,到目前为止已扫描旧志(1949 年以前编辑出版的地方志)6 868 种(3 349 651 筒子页), 已全文数字化2 821 种(1 742 176 筒子页)。 该项目使用支持Unicode5.0 的字库(CJK、CJK 扩A 和CJK 扩B 编码,共收字70 195 个),使用人工录入方式进行全文转换。该项目的集外字处理方案:(1)参照《汉语大字典》对集外字中的异写字进行认同, 认同为本字或字形相近的异体字,不加标记。 异构字认同为本字或字形相近的异体字,并添加文字认同标记。 (2)模糊字替换为图形,并添加模糊字标记。 若模糊字无法反映任何字形信息,则替换为“□”,并添加模糊字标记。 (3)无法认同的集外字替换为图形,并给图形添加IDS 描述。 若无法进行IDS 描述,则添加其他方式的描述。

3.2 集外字处理方案评价

集外字处理是古籍数字化的重要环节之一,不仅影响全文数据的质量和使用效果, 而且影响项目成本、管理和维护。 因此,对集外字处理方案评价也要从检索效果、显示效果、错误率、复杂度、扩展性等方面来进行。

3.2.1 检索效果

检索效果是指集外字处理后能否检索, 以及检索集外字是否需要附加条件。 古籍全文数据库的核心功能是检索, 若集外字无法检索或检索困难,将大大降低古籍全文数据库的可用性。 在《文渊阁四库全书》 电子版项目中, 集外字替换为图形、“□”、构字符等,可以显示(“□”和构字符无法显示集外字字形),但是无法检索。 在数字方志项目中,替换为集内字的集外字可以检索,替换为图形的集外字可以借助IDS 描述实现检索, 但是需要额外的软件支持。

3.2.2 显示效果

显示效果是指集外字处理后能否正常显示,以及这种显示方式是否符合用户的要求。 若集外字无法正常显示, 将大大降低古籍全文数据库的可用性。 在《文渊阁四库全书》电子版项目中,全部集外字都能显示,但是替换为“□”和构字符的集外字显示意义不大, 而且集外字显示为构字符不符合用户的阅读习惯。 在数字方志项目中,全部集外字都能显示,但是替换为“□”的集外字显示意义不大。

3.2.3 错误率

错误率是指集外字处理发生错误的比率,以及集外字处理对全文数据库平均错误率的影响。平均错误率反映了全文数据库的总体质量, 错误率直接决定了全文数据库的可用性。 《文渊阁四库全书》 电子版项目没有相关的数据, 无法做出评价。 在数字方志项目中, 集外字处理的错误率为0.278‰,与文字录入实验的错误率基本一致,符合该项目平均文字错误率低于0.3‰的要求。

3.2.4 复杂度

复杂度是对集外字处理成本和可实现性的度量,这是数字化工程管理和工艺设计的重要指标。《文渊阁四库全书》电子版项目和数字方志项目的集外字处理方案都能满足项目的要求, 符合项目的时间成本和资金成本要求。

3.2.5 扩展性

扩展性是对集外字数据迁移、管理、维护能力的度量,尤其是当字符集发生版本变更时,集外字数据能否自动或半自动迁移到新版本的字符集中。 《文渊阁四库全书》电子版项目使用了自定义编码,当Unicode 字符集升级到新版本,要将自定编码的字形与字符集中新纳入的文字字形逐一进行人工比对,根据比对的结果建立编码映射表,再通过软件完成映射。 同时,该项目虽然对无法认同的集外字部分做了描述, 但是这些描述无法与全文数据集成在一起, 也不能和字符集进行直接的映射,迁移、管理和维护都很困难。 数字方志项目未使用自定义编码, 替换为图形的集外字绝大部分都有IDS 描述, 当Unicode 字符集升级到新版本, 只需将字符集中新纳入的文字的IDS 与集外字的IDS 进行比对,若两者相同,则可以直接替换为正式编码。IDS 也使得日常的集外字管理和维护更为简便,都可以通过软件进行批量处理。

4 小结

字符集是一个封闭的系统, 虽然中日韩统一汉字(CJK)己达7 0195 个字符,但是即使将来再加扩展,也只可能是古籍刻写异体的一个子集,必然有许多字不能重现[10]。 集外字大量存在,集外字处理问题无法回避, 集外字处理直接影响全文数据库的正确率、检索效果和显示效果,进而影响全文数据库的可用性。 因此,有必要多角度研究集外字处理问题,不断改进和完善集外字处理方案。

[1] 陈力.中文古籍数字化的再思考[J].国家图书馆学刊,2006(2):42-49.

[2] 字符集[EB/OL].[2013-03-30].http://baike.baidu.com/view/51987.htm.

[3] 苗军.Unicode/XML 在电子出版物中的实现[D].天津:河北工业大学,2002.

[4] Unicode 6.2.0[EB/OL]].[2013-03-30].http://www.unicode.org/versions/Unicode5.2.0/.

[5] 《文渊阁四库全书》最新3.0 版(内联网版/网上版)产品小册子[EB/OL].[2013-03-30].http://www.sikuquanshu.com/Html/GB/product/download/3.0leaflet_gb.pdf.

[6] 中国国家图书馆馆.汉语文古籍机读目录格式使用手册[M].北京:北京图书馆出版社,2001.

[7] 缺字系统整合动态组字之应用 [EB/OL].[2013-03-30].http://itech.ntcu.edu.tw/Tanet%202007/2%5C396.pdf.

[8] Decomposition for ISO/IEC 10646 Ideographic Characters[EB/OL]. [2013 -03 -30].http://acl.ldc.upenn.edu/W/W02/W02-1209.pdf

[9] 中文古籍網上出版平台系统概要[EB/OL].[2013-03-30].http://e-platform.iso10646hk.net/sysoverview.jsp.

[10] 尉迟治平.电子古籍的异体字处理研究——以电子《广韵》为例[J].语言研究,2007(3):118-122.

猜你喜欢

异体字错误率古籍
中医古籍“疒”部俗字考辨举隅
异体字字形类似偏旁的互用类型综合字图构建
关于版本学的问答——《古籍善本》修订重版说明
偏旁省略异体字研究
小学生分数计算高错误率成因及对策
关于古籍保护人才培养的若干思考
常用隶书异体字表(二)
我是古籍修复师
正视错误,寻求策略
解析小学高段学生英语单词抄写作业错误原因