利用繁体字特征进行两岸三地地域性言语识别的研究
2013-01-30王虹
王虹
(中国刑警学院 辽宁 沈阳 110035)
利用繁体字特征进行两岸三地地域性言语识别的研究
王虹
(中国刑警学院 辽宁 沈阳 110035)
为解决国保、侦查等部门常遇到的用繁体字形成的案件言语材料的地域性归属问题,我们收集了两岸三地近30万个繁体字,并进行逐一比对,编制完成《两岸三地繁体字异同查询手册》,从使用范围、字形标准、字形差异、字形编码和字符集等方面探讨了两岸三地繁体字的差异。
地域性言语识别 两岸三地 繁体字特征
目前,随着两岸三地交流的日益增多,国保、刑侦等部门经常会遇到一些使用繁体字形成的案件言语材料,准确判断这些案件材料的撰稿人是来自大陆还是港台地区,对于缩小案件侦查范围、指明侦查方向有着重要的现实意义。
在此类案件的地域性言语识别中,可用的特征包括方言语音、方言词汇、方言语法等方言特征,地域性文字特征,地域性言语内容特征等。本文主要探讨地域性文字特征中的繁体字特征,着眼于大陆、台湾、香港两岸三地所用的繁体字的不同。
1 两岸三地繁体字的使用范围不同
繁体字,指未经系统性简化的汉字,大陆地区推行中文简化后,将传统文字称为繁体字,简化后的字称为简化字。
1.1 大陆繁体字的使用范围
繁体字在大陆地区以民间使用居多。2001年开始实施的《中华人民共和国国家通用语言文字法》明确规定国家推行规范汉字,表明当前推行的规范汉字为简化字和传承字,同时也明确了可以保留或使用繁体字的范围:“(一)文物古迹;(二)姓氏中的异体字;(三)书法、篆刻等艺术作品;(四)题词和招牌的手书字;(五)出版、教学、研究中需要使用的;(六)经国务院有关部门批准的特殊情况。”在其他情况下,繁体字被视为不规范、不可使用的汉字。
目前,在大陆地区还有一种现象,即在网络聊天、论坛等平台上使用繁体字。繁体字是构成网络上火星文的重要组成部分,多与一些符号、数字等共用。
1.2 港台繁体字使用情况
出于历史的和政治的原因,繁体字是台湾、香港地区的官方文字,民间也一直使用繁体字。
在案件地域性言语识别中,根据繁体字使用范围的不同,我们可以判断,在大陆规定允许使用繁体字的范围外使用繁体字形成的言语材料,多数情况下,其言语人应为港台地区的人。
2 两岸三地繁体字的字形不尽相同
2.1 两岸三地繁体字字形标准
两岸三地繁体字的字形不完全一致,主要是由于其采用的字形标准各不相同。
大陆地区繁体字以《简化字总表》和《新华字典》(繁体字版)上的繁体字为字形标准。
台湾地区繁体字字形标准为《常用国字标准字体表》、《次常用国字标准字体表》和《罕用字体表》。
香港地区繁体字字形标准为《常用字字形表》、《香港增补字符集》。
2.2 两岸三地繁体字的字形差别
为方便检索和使用,我们编制了有简化字对照的《两岸三地繁体字异同查询手册》。
2.2.1 大陆与港台繁体字字形的差别
大陆繁体字与港台繁体字是有一些差别的,部份字形有类似简体字的整理,使其繁体字与港台的繁体字有些差异,没有那么符合字源。如:大陆用的“冲、吕、猫、厠 、麽、鷄 ”等字,港台则用“ 沖 、呂 、貓 、廁 、麼 、雞 ”。
2.2.2 台湾与香港繁体字字形的差别
台湾与港澳繁体字的差异整体来说并不算多,像“携”等字,都是一致的。但也有些字的分别则较明显,如:台湾用字“ 線 、 囪 、臥 、兌 、戶 、著、衛 、溼 、 裡 、麵 、冗”等字,香港则用“ 綫、囱、卧、兑、户、着、衛 、濕 、裏 、 麫 、麫 ”等字。
在案件地域性言语识别中,我们可以通过简体字索引找到每一个繁体字在大陆、港澳台地区的不同字形,并利用繁体字字形特征来分析言语人的地域属性。我们编制的《查询手册》查询简单,携带方便,可以供一线公安技术人员随时使用。
3 两岸三地繁体字的字形编码、字符集等存在差别
随着电脑和打印输出设备的普及,我们遇到的大量的使用繁体字形成的案件言语材料都是使用繁体字打印输出的纸质文件、存储在电脑上文本文件,或通过网络传播的文本文件。这就要求我们对繁字体的字形编码、输入法、字符集等有一定的了解,并探讨它对案件言语识别的实用意义。
3.1 大陆地区繁体字字形编码、字符集
3.1.1 大陆地区繁体字字形编码
关于繁体字的电脑输入,大陆地区在1993年提出的GBK编码和后续2000年、2005年提出的GB 18030编码中,实现了简体字形和繁体字形的共存,占据不同的编码位置。近年来,则普遍使用Unicode跨语言编码集,在同屏下可以显示任何语言的内容。
3.1.2 大陆地区繁体字常见字符集
大陆地区常用字符集有GBK字符集、GB18030字符集、Unicode字符集。
GBK字符集又称大字符集,宋体、隶书、黑体、幼圆、华文中宋、华文细黑、华文楷体、标楷体、Arial Unicode MS等字体支持显示这个字符集。
GB18030字符集,宋体-18030、方正楷体、宋体、香港华康标准宋体、华康香港标准楷体、CERG Chinese Font、韩国New Gulim等字体支持这个字符集的显示。
Unicode字符集是全球可以共享的编码字符集,涵盖了世界上主要语文的字符。宋体、细明体能显示全部Ext-B汉字。至今尚无单独一款字体能够显示全部70195个汉字。
3.2 台湾地区繁体字字形编码、字符集
3.2.1 台湾地区繁体字的字形编码
台湾地区是使用繁体字的地区中最早发展中文电脑的,自1980年以来通常使用Big5中文编码。台湾地区经济部标准检验局公布的一套名为“中文标准交换码”CNS 11643的官方编码,普遍用于台湾地区的户政、役政信息系统中,而台湾大学图书馆亦使用CCCII编码。
3.2.2 台湾地区繁体字常见字符集
台湾地区主要使用Big5字符集,华文中宋、华文细黑、隶书、幼圆、华文仿宋、华文宋体、华文楷体等支持这个字符集的显示。
3.3 香港地区繁体字字形编码、字符集
3.3.1 香港地区繁体字字形编码
香港的繁体字编码使用Unicode的UTF-8编码,同时因港澳地区本身存在的一些口语词,其政府也用UTF-8发行香港增补字符集,包括一些粤方言、特殊地名等,如“乜、啲 、嚟 、邨 ”。
3.3.2 香港地区繁体字常用字符集
港澳地区采用GCCSG字符集(《政府通用字库》),和HKSCS字符集(《香港增補 字符集》)。标准宋体、香港政府细明体、标准楷体、标准黑体、微软细明体、华通细明体等支持这些字符集的显示。
不同的字形编码,以及相应的不同字符集、字体,导致在不同的电脑中能够输入和显示的字符是不同的。如果超出了输入法所支持的字符集,就不能录入计算机。如果没有相应字体的支持,则显示为黑框、方框或空白。如果操作系统或应用软件不支持该字符集,则显示为问号(一个或两个)。在网页上亦存在同样的情况。在案件地域性言语识别中,我们要充分注意这些特点,并运用其确定言语人的地域属性。
繁体字特征是区分言语人是大陆人,还是港台地区人的一个重要特征,我们针对繁体字的使用范围、字形标准、具体字形差异、电脑中的字形编码和字符集等方面进行了探讨;并对进30万个两岸四地繁体字进行了逐个比对,编制了《两岸三地繁体字异同查询手册》,希望能够为国保、侦查等部门解决其遇到的相关问题提供一定的技术支持。
1.常用国字标准字体表[EB/OL].http://zh.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E5% 9C%8B%E5%AD%97%E6%A8%99%E6%BA%96%E5% AD%97%E9%AB%94%E8%A1%A8,2012-5-18
2.常用字字形表[EB/OL].http://zh.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E5%AD%97%E5% AD%97%E5%BD%A2%E8%A1%A8,2012-3-7
注:本文系文件检验鉴定公安部重点实验室自主创新项目。