汉字字料库浅议
2017-10-13单志鹏
单志鹏
汉字字料库浅议
单志鹏
(渤海大学文学院,辽宁锦州 121013)
字料库是由信息科学与汉字学交叉后形成的产物,为汉字学的研究提供了一个新思路和新方法。建设基于真实文本的汉字字料库,对于开展汉字形体的历时演变研究和共时形体比较研究都具有积极意义。目前已经有一些字料库或类字料库问世,但对字料库的建构和研究仍然存在二“少”三“低”的不足。
字料库;汉字整理;意义;现状;不足
一、字料库简介
字料库是在信息科技高速发展的大数据时代,受语料库的影响,由信息科学与汉字学交叉后形成的产物。李国英、周晓文[1]48认为,字料库是指“以文字的整理和文字学的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库。”这是当前及未来字料库的建设与研究具有指导性的一个论断。汉字是迄今为止仍在广泛使用的自源性表意文字。在进入信息时代后,汉字的主要属性扩展为“形、音、义、用、码”五大类,“形”是汉字的本体属性,而“储存汉字的原始形体,建立超大规模汉字形体发展演变关系库,满足汉字研究、汉字整理与规范、古籍数字化等的需求为目标,探索汉字研究与字形整理的新方法,在信息化时代的今天,具有重要的历史意义和现实意义。”[2]汉字字料库对汉字历时演变、共时比较、汉字的层积与流变、传世及出土文献的整理等方面都能显示出强大的优越性。
现代社会不断进步,科技迅猛发展,信息网络的发展情况成为国家的现代化水平最重要的衡量标准,而信息网络的核心即是对语言信息的处理工作,其中对汉语信息的处理中最基础的工作就是汉字的信息化。现阶段,语料库的研究已然相当成熟,然而,对信息化下的汉字整理研究却没有得到更好的发展,其优越性还没有得到学界的广泛关注。在汉字研究方面,传统汉字学也需要紧跟时代的步伐,与时俱进。在当前的汉字学研究过程中,单纯以人工方式整理研究汉字的做法已经比较落后,不仅浪费时间,同时也会耗费巨大的人力物力,其效果往往事倍功半。而建设字料库,使汉字信息在不同文献资料中集中呈现出来,有利于对汉字的分类、系联和类聚,方便对汉字进行横向的字形对比研究与纵向的渐进演变研究,使汉字的研究和整理工作变得更加便捷,而且建设字料库对汉字教学、汉字文化的继承与发展等方面也同样具有重要的作用。
二、字料库研究现状分析
自从李国英、周晓文2009年首次提出字料库的概念之后,学界对字料库展开了一系列研讨。
李国英、周晓文[1]48认为,语言是文字产生的基础,当前学界对语料库的建设与研究已经取得了很多研究成果,但基于字料库的文字学研究还是一片空白。建设以真实文本基础上的汉字字形为目的的大型字料库具有必要性,这将对汉字的整理研究都具有重要的意义。
字频是汉字使用的重要属性之一,字频对汉字研究有着重要意义。在字料库整理中对汉字字频统计方面,李国英、周晓文[3]强调,汉字字频统计是研究汉字实际使用价值的重要领域,要求准确划分字的层级单位。汉字的整理要从字样、字组和字种三个方面进行展开。完善字频归纳的原则和方法,提高汉字字频统计的科学性与客观性,应该借助资料库来进行。
字料库是由语料库类推出来的一个概念。字料库概念提出以前,有不少基于语料库的汉字研究成果。毛承慈[4]对基于语料库的汉字研究情况进行了综述,并且指出,语料库的建立是以研究语言为中心的,建立以汉字学为研究目的的字料库对汉字的发展与整理研究都具有重要的意义。
王平[5]强调,基于数据库的汉字学研究是现代汉字学研究的重点,字料库是以汉字研究为目标的资料整合数据库,具有标注的专业性、出土文献资料的保真性和传世字书的系统性三大特征。
在字料库后期的整理研究时,朱翠萍、周晓文、陈莹[6]明确提出了字料库平台整理工作的三大任务:字形的采集、字形的识别和属性填充与关联。在对古籍进行数字化整理研究工作的同时,注意“保真”,而“保真”的核心是文字字形的存真,对字料的整理是字料库建设的首要之义。同时,周晓文、李国英、朱翠萍、陈莹[7]指出,在对汉字的研究中,异体字的整理工作是重中之重,基于字料库的汉字异体字整理工作,提高了研究的速度与质量,具有极高的价值。在浩如烟海的文献古籍中,对异体字的整理是纷繁复杂的一项工作,借用现代技术手段对异体字进行多功能、全方位的整理研究,将推动汉字研究的发展。
柳建钰发表了一系列文章,对与汉字字料库的本体理论和实体建设相关的几个问题进行了深入探讨。柳建钰、王晓旭[8]指出,字料库建设可以划分为规划阶段、需求分析阶段、设计阶段、实现阶段、字料采集阶段、字料标注阶段、使用及维护阶段七个阶段,每个阶段的建设都要以符合规范为目标。在字料库平台具体建设过程中,对字料的标注工作是重点。字料标注的好坏、标注原则适用性的强弱都直接影响字料库质量的高低。柳建钰[9]特别指出,在字料库的建设中,要注意对字料的标注,标注的原则要科学化,注意通用性等原则,在字料标注中汉字基本属性标注是基础,构形信息标注是核心,字际关系标注是重点。作者强调,字料库能够真实如实地反映汉字信息,客观、真实、多功能地反映汉字数据信息。柳建钰[10]认为,汉字字料库是是汉字研究现代化、信息化的重要基础。字料库汉字学是一门集理论研究与实践研究于一体的交叉学科,能为信息时代的汉字整理与汉字学研究工作提供一个强大的理论指导武器。目前,汉字字料库的实体建构和字料库汉字学的系统研究都还处在起步阶段,但未来二者一定会取得长足的发展。
针对汉字字料库理论的提出背景和主要价值,柳建钰[11]认为,汉字字料库理论的形成,是在当前多学科交叉综合研究方法日益受到学界重视的历史条件下,在汉字整理研究的实践过程中,在总结历代及当前汉字整理研究的经验教训的基础上,通过借鉴语料库理论及语料库语言学成功发展的宝贵经验,逐步形成和发展起来的,同时也是学者对汉字整理研究工作进行长期探索与实践的必然结果。汉字字料库理论丰富了汉字学理论体系,是对学科交叉综合研究方法的一种新尝试,可以用来指导当前的汉字整理研究实践,在汉字学研究方法论上也将产生重要的影响。
通过建立字料库,对真实文本(包括语篇文献和字书文献)的研究,是当前及未来汉字学研究的一条新道路。北京师范大学文学院汉语言文字学专业的研究生进行了一系列研究,主要成果包括:朱玉华《基于字料库的20世纪50年代社会用字调查及规范研究》(2011)、侯佳利《基于〈人民日报〉字料库的20世纪60年代用字调查及规范研究》(2011)、毛承慈《基于字料库的〈诗经〉文字研究》(2012)、王颖《基于字料库的〈尚书〉文字研究》(2012)、刘凝《基于字料库的〈春秋左氏传〉字频统计与研究》(2012)、冯莉《基于〈孟子〉字料库的字频统计与研究》(2012)。以上论文都借用字料库平台对语篇文献中的汉字进行详尽分析,从字形、字音、字义和字频等角度切入进行研究,这对字料库实体建设和基于字料库的汉字学研究均具有重要的作用。
三、字料库及类字料库建设现状分析
目前已经研发出的字料库主要包括北京师范大学字料库(BNUZLK)、渤海大学字书字料库(CCFD)两种;类字料库主要包括华东师范大学古今文字及历代字书资源库、北京时代瀚堂科技有限公司“瀚堂小学类数据库”、台湾“异体字字典”、台湾“中央研究院”“汉字构形数据库”及“小学堂文字学数据库”等六种。下面予以简要介绍。
(一)北京师范大学字料库(BNUZLK)
BNUZLK系统是建立在真实文本基础上的超大规模的汉字数据库,对汉字的历时演变与共时比较都具有重要的意义。该软件系统由北京中易中标电子信息技术有限公司开发,主要是为了适应现阶段汉字本体研究与系统整理的迫切需求,同时也可以满足古籍数字化的要求。
图1 瀚堂小学类数据库
(二)渤海大学字书字料库(CCFD)
图2 渤海大学字书字料库(CCFD)
CCFD字书字料库[12]由渤海大学文学院柳建钰研制开发,它是建立在历代字书真实文本上的字书字料库,借助该字料库可以对字书中的汉字从构形和字际关系等方面进行研究。目前,CCFD字料库收录包括《说文》《玉篇》《康熙字典》等在内的近20部字书,已经标注过的字料信息将近52万条。授权用户可以免费试用。
(三)华东师范大学古今文字及历代字书资源库
图3 华东师范大学古今文字及历代字书资源库
华东师范大学古今文字及历代字书资源库(http://www.wenzi.cn/web/content.aspx?moduleid=22&parentid=20)是由华东师范大学中国文字研究与应用中心承担研制,对汉字的属性、释义、字形结构等方面都进行了比较完善的标注。该资源库大部分内容可以免费使用。
(四)瀚堂小学类数据库
图4 北京师范大学字料库(BNUZLK)
北京时代瀚堂科技有限公司研制的“瀚堂小学类数据库”(http://www.hytung.cn)下辖多个各具特色的分库。到目前为止,总共加工完成并入库管理的图书品种已达300种,形成的记录条目亦近300万条。该数据库需要购买方可使用。
(五)台湾《异体字字典》
图5 台湾《异体字字典》
《异体字字典》(http://dict.variants.moe.edu.tw/)由台湾省国语推行委员会编制,在最新的网络版(2012年正式六版试用版)中,收录62种古今字书文献相应的异体字形,共计106230字,其中字正29 892字,异体字76 338字。该字典绝大部分资源可以免费使用。
(六)小学堂文字学数据库
图6 小学堂文字学数据库
由台湾大学中国文学系、“中央研究院”历史语言所、资讯科学研究所等共同发开的“汉字构形数据库”及“小学堂文字学数据库”(http://xiaoxue.iis.sinica.edu.tw/)是一种大形的汉字字形资源库。内含甲骨文、金文、小篆、楷书等字形,该数据库可以免费使用。
四、前期研究和建设的成绩与不足
(一)成绩
字料库的建设为汉字整理与研究开拓了新的领域。在字料库出现之前,人们对汉字的整理和研究在很多情况下是片面的、零散的,而字料库则可以对数量庞大的真实文本中的汉字进行系统分类整理,能够为汉字整理和汉字学研究提供海量的直观而清晰的字料,字形呈现相对集中的特点尤为明显,从而方便人们进行研究。这种将计算机技术与汉字学相结合而产生的新事物,对全汉字整理和汉字学研究能够发挥不可估量的作用。
就现阶段来看,字料库的建设和研究正在逐步完善。就实体建构来说,北京师范大学研制的BNUZLK字料库系统和渤海大学研制的CCFD字书字料库系统对汉字学的研究与字料库的发展具有重要的意义。在字料库研究方面,学界在字料库系统建设、字频研究、字料标注等问题上都取得了比较可观的研究成果,研究方法逐渐规范和完善,因汉字字料库的实体构建和在此基础上汉字整理研究工作所取得的成就,已引起学界广泛关注。
(二)不足
现阶段字料库的建设和研究也还存在一些不足,可以归纳为二“少”和三“低”两点。
1. 二“少”。一是专门从事字料库研究的学者少。字料库概念提出近十年,专门从事字料库研究的学者依旧很少。二是大型字料库及类资料库实体建构成果少。目前,具有一定规模的实体建构成果却为数不多,例如北京师范大学字料库(BNUZLK)、渤海大学字书字料库(CCFD)、华东师范大学古今文字及历代字书资源库等,相对丰富完善的字料库及类资料库的建设亟须深入。
2. 三“低”。其一是共享程度低。到目前为止,已建成的字料库还没有彻底实现全社会共享。其二是自动化程度低。以渤海大学字书字料库(CCFD)为例,现阶段在对字料信息输入时采用的是人工切图的方式,工作量大。需要不断完善自动分析版面和自动识别字形的技术,进而提高整个字料库工作系统平台的工作效率。其三是标准化品质水平较低。在字料采集、标注等加工过程中,很多问题还没有深入探讨,没有形成能被学界广泛认可的标准化模版。
随着信息时代的发展和汉字整理研究工作的不断深入,建立汉字字料库并展开基于字料库的汉字学研究已经迫在眉睫。汉字字料库在汉字学研究中具有优越性,在汉字的历时与共时的整理研究中都能发挥重要作用。相信将来汉字字料库的信息标注会更加完善,字料库系统的汉字信息收录量会不断增加,自动化水平会有很大的提升,汉字字料库将会朝着更加系统化、共享化的方向发展,为汉字整理和汉字学研究开辟一条崭新的道路。
[1] 李国英, 周晓文. 字料库建设的必要性与可行性[J]. 北京师范大学学报(社会科学版), 2009(5).
[2] 周晓文, 李国英, 王颖, 等. BNUZLK字料库系统的建构与应用[J]. 民俗典籍文字研究, 2014(1): 111.
[3] 李国英,周晓文. 汉字字频统计方法的改进[J]. 北京师范大学学报(社会科学版), 2011(6): 50.
[4] 毛承慈. 基于语料库的汉字研究综述[J]. 语文学刊, 2011(10): 42.
[5] 王平. 数据库汉字学刍议——以魏晋南北朝石刻用字数据库与断代汉字发展史研究为例[J]. 中国文字研究, 2013(17): 159.
[6] 朱翠萍, 周晓文, 陈莹. 基于字料库平台的字书整理研究[J]. 中国出版, 2013(12): 56.
[7] 周晓文, 李国英, 朱翠萍, 等. 基于字料库的开放式异体字整理平台的设计与实现[J]. 中国文字学报, 2015(6): 280.
[8] 柳建钰, 王晓旭. 试论字料库系统建设的七个阶段[J]. 渤海大学学报(哲学社会科学版),2015(6): 75.
[9] 柳建钰. 字书字料库中字料标注若干问题刍议[J]. 语言文字应用, 2015(8): 133.
[10] LIU Jian-Yu. Analyzing of Chinese Character Form Database (CCFD) and the Study of CCFD[G]//Jian-min CHEN. Proceedings of 2nd Annual International Conference on Social Science and Contemporary Humanity Development (SSCHD2016). Amsterdam: Atlantis Press, 2016: 137-140.
[11] 柳建钰. 试论汉字字料库理论的提出背景及其价值[J]. 渤海大学学报(哲学社会科学版), 2017(1): 82.
[12] 柳建钰. 国内首个字书汉字字料库系统在锦州研发成功[N]. 锦州日报(综合新闻), 2015-10-21(A02).
(责任编校:叶景林)
10.15916/j.issn1674-327x.2017.02.019
H31
A
1674-327X (2017)02-0063-04
2016-11-01
2013年度教育部人文社会科学研究青年基金项目(13YJCZH117); 2014年度国家社会科学基金青年项目(14CYY060); 2014年度国家社科基金重大项目(14ZDB099)
单志鹏(1993-),男,辽宁东港人,硕士生。