中国语言和方言语种分类及编码规范问题
2022-04-30范俊军肖自辉
范俊军, 肖自辉
语种编码是用代码标识语言名称,给每种语言或方言建立唯一标识码,相当于语言的身份证号码。随着语言处理技术的发展以及语言资源建设的推进,语种代码的应用越来越广。开发汉语方言和民族语的语料库、数据库和网络平台,建立语言数字档案馆、博物馆,存储和发布语言调查资料,检索各种方言和民族语数据资料,都需要语言代码来标识和分类。鉴于此,本文就我国语言和方言语种编码的相关规范问题进行探讨。
一、国际语种代码标准ISO 639-3的不足
国际语种编码标准是国际标准化组织发布的ISO 639语种代码集,包括ISO 639-1、ISO 639-2、ISO 639-3、ISO 639- 4、ISO 639-5五个子集。ISO 639-1是二字母编码集,用二字母代码标识了世界上主要的语言,如汉语(zh)、英语(en)、日语(ja)等等。二字母代码是国际上较通行的官方语言简称,不少图书出版机构、多语网站都用它作为语种标识。但由于二字母代码数量太少,难以覆盖全世界语言,于是国际标准化组织在第一子集基础上发布了ISO 639-2,提供了一些三字母代码,以便标识更多的语言。后来又采纳了美国暑期语言学院(SIL)三字母编码方案,发布了ISO 639-3子集,给世界所有语言分配三字母编码。之后的ISO 639- 4制定语种编码总则和代码使用指南,ISO 639-5定义了153个三字母语系或语群代码,如亚非语系afa、印欧语系ine,并规定了代码层次标识法,用代码和冒号从左到右依次标识,如cau:cnn里的cau是高加索语系代码,ccn是北高加索语的语种代码。
第三部分子集是信息处理使用最广的语种编码子集。编码范围包括单个语言、大语言、集合语言、方言、用户预留代码、特殊代码元素。其中单个语言是主体,包括:(1)活语言,即现在还有人说的语言。(2)已灭绝语言,离现在不太久之前还使用、现在已无人说的语言。(3)古语,有文献历史确认古代某个时期曾存在过但未流传下来的语言。(4)历史语言,某些现代语言在某个历史阶段的形式,如中古英语、上古汉语等。(5)人造语言,如手语、世界语等。
中华人民共和国国家标准GB/T 4800采纳和批准ISO 639的情况是:(1)等同采纳ISO 639-1:2005的二字母代码。(2)等同采纳ISO 639-2:1998的三字母代码,每个语种有其对应的用于术语学(T)和目录学(B)的代码,其中除23个语种的T代码和B代码不同外,其他语种的T代码和B代码均相同。(3)等同采纳ISO 639-3:2007的三字母代码。GB/T4880增加了每种语言的汉语名称和“按语种的汉语名称音序排序代码表”。
我们发现,ISO 639-3所设计的中国语言和方言代码部分存在不足。一是我国个别少数民族语言和汉语方言没有代码。例如:作为单个语言的东柯尔克孜语、土尔克语、巴那语、蔡家语没有代码;基诺语、彝语、白语、土家语、苗语的方言有代码,有些方言没有代码。汉语大方言五岭土话没有代码。二是对我国境内大语言、语言和方言划分不够明确。例如,汉语、苗语和壮语作为大语言,其他不是大语言的单个语言分出了几个代码,白语有中部白语bca、拉马白语lay、碧江白语bfc、南部白语bfs等4个代码。从单个语言来看,有的少数民族语言的次方言甚至土话有代码,如苗语湘西方言东部土语muq;而有些语言的主要方言却没有代码,如有闽北话、闽东话、闽南话、闽中话、莆仙话等5个代码,但没有闽方言代码,而其他大方言湘、赣、粤、客、吴等分别只有1个代码。这反映出ISO对我国语言和方言分类的混乱,原因之一是ISO 639-3完全采用美国暑期语言学院的语言系属分类,忽略了我国汉语方言和少数民族语言分区分类的重要成果;原因之二是有关大语言、单个语言和方言的区分标准存在模糊性。另外,我国术语标准化委员会提出的GB/T4800方案,只是采纳批准ISO 639标准,并没有结合我国的语言国情和语言科学研究的成果制定一个有关语种代码的国家标准。
二、我国语言和方言语种数量及分类问题
制定我国语言和方言语种代码集,首先要有一个语言和方言分类清单,但迄今我们仍缺乏这样一个公认清单。我国境内究竟有多少种语言和方言,国内和国外的分类差异较大。国内出版的《中国的语言》收录了129种语言,《中国语言地图集》(第二版)列有130种少数民族语言、17种汉语大方言、97个方言片、101个方言小片,《语言调查、语料记录与立档规范》列有少数民族语言、方言和次方言以及汉语方言、方言片、土语共234种。联合国教科文组织《世界濒危语言地图》
仅中国的濒危语言就有147种。美国《民族志:世界的语言》 (英文版)列出中国有321种少数民族语言、16种汉语方言和3种手势语,《中国140种语言全书》 (英文版)概述了中国的汉语和139种少数民族语言。语种数量不一致是一个亟待解决的问题。另一个问题是语言和方言划分标准问题。国外的划分很宽松,有的完全以互通度来划分,主观性较大。例如,国外有位语言学者来中国做语言调研,录下一种民族语言的方言话语,拿到其他地方居民点让说其他方言的人听辨,听懂了就划入同一种语言,听不懂就当作一种独立的语言,因而国外对中国语言的分类仅彝语和苗语就分出了五六十种语言。但是,国内的语言和方言划分又似乎走了另一个极端,几乎不考虑口语互通度的科学测定验证,也不够重视语言的共性特征计量分析,有的仅凭残缺的词汇记录资料就做出分类,或有意突出语言形式上的某些现象差异而分出一些语言。互通度测定是区分语言和方言的重要原则和有效方法。能自然互通的几种口语肯定是同一种语言,但不能互通的几种口语不一定就是不同的语言。这条原则是科学和有效的。我们在调查记录云南盈江仙岛话时,曾邀请陇川户撒乡阿昌族大学生作助手,这位学生此前对仙岛寨和仙岛话毫无所知,但她和发音人一见面就完全可以通话,不存在交流障碍。这表明不能将仙岛话作为一种语言,也不能把仙岛话划为同阿昌族户撒话并列的阿昌语方言。同样,云南玉溪市撒都话也不是一种语言,而是方言。只要不是先入为主,根据互通度原则设计测定,完全可以验证彝语、傈僳语、苗语、壮语、布依语的一些地方变体是方言,而不是单独的语言。虽然语言的系属分类仁者见仁,但确定一个我国汉语方言和少数民族语言的规范清单是完全必要的,也是完全能够做到的。
还有一个问题是某些语言和方言名称较为杂乱,自称和他称哪个作为正名和别名,名称用何种拼音,用哪个汉字译音,国内学者、海外华裔学者、国外学者使用的名称各不相同。例如,布赓语、布甘语、毛南语、毛难语、东部裕固语、西部裕固语、尧乎尔语、恩格尔语、突厥语族的裕固语、蒙古语族的裕固语、客家话、客话、客方言、客家方言、客语、闽方言、闽语、台语、壮侗语族、侗台语族等等,没有明确哪个作为规范的学名。
三、我国语言和方言代码规范的几个方面
汉语方言和民族语的语种编码应考虑原则性、规范性和简便性。原则性就是遵循ISO 639- 4确立的编码通则,如编码范围、语言分类原则等等。规范性是在语种数量、语言分类、语言命名和基本信息方面建立规范,对有争议的问题,应选择一种作为准则。简便性是指语言分类层次要简明,减少不必要代码,便于资源分类和检索,同时保持代码稳定性,避免因分类过细而不断需要调整所导致的代码变更。具体规范工作有以下四个方面。
(一)定层次:确定语言分区分类的层次
从语言学角度看,语言谱系分类可有多个层次,但作为语种代码规范的分类层次则不宜过多,用“语系—语族—语言—方言—次方言”五个层次较为合适。
取消“语支”层次,不采用“方言区”“方言片”“方言小片”“土语区”划分,主要基于以下事实:一是同语族的共性总体高于语支差异。二是ISO 639-5只采用了“语族(language family)”“语群(language group)”分类概念来定义代码,相当于我国的语族分类。三是我国少数民族语言的方言土语人口较少,分布地域范围小,许多土语只是一些词汇口音略有差异,没必要分出多个层次。汉语方言也是一样,同一方言片区内部一致性较高,小片之间的共性远大于个性,许多汉语方言小片的划分带有主观随意性。例如,北方方言划出许多小片,而南方粤方言就没有划分方言小片。无论从语言经验还是语言事实来看,官话方言的方言小片内部差异,与南方方言片的内部差异不可同一而语。
(二)定数量:确定编码的语言和方言数量
根据ISO 639- 4确立的编码原则,确定我国现存活语言、灭绝语言、古语、历史语言、人造语等五类语言的数量。活语言还应考虑哪些方言或次方言应该编码。汉语、苗语、瑶语、壮语、彝语作为大语言(macrolanguage)处理,它们的方言和次方言应该编码,其他语言只对方言层次编码。目前需要对国内和国外已有的中国语言分类进行验证,认定一个权威的“语言—方言—次方言”三层次清单。美国《民族志》苗语、彝语、壮语分类尤其需要验证。例如,该分类的红勉语族(即苗瑶语族)有39种语言,哪些是语言、哪些是方言,应进行验证和调整。近二三十年来,国内所有汉语方言土话以及少数民族语言及方言都得到了基本或充分的调查记录,《少数民族语言简志丛书》出版了57种,《新发现语言丛书》有49种,《少数民族语言方言研究丛书》出版了10多种,国家语言资源保护工程调查记录了1 700多个地点的语言和方言资料,国内的研究完全能够自主建立一个科学而权威的语言和方言语种清单。
(三)定名称:确定语言和方言的命名
我国所有语言和方言、次方言都应有一个学名,包括中文标准名、拼音标准名、英文标准名,并遴选若干自称和他称别名。
1.拟定普通话标准名和拼音名
首先是拟定普通话标准名。单个语言用“××语”命名,如藏语、哈尼语、纳西语、畲语。考虑个别语言名称“××语”会造成混乱,可以采用“××话”作为标准名,例如“标语”容易与通用词“标语”混淆,可用“标话”命名。
目前汉语方言和民族语方言的命名缺乏规范性。有的取省县市简称或通用历史名(或俗名)命名,有的用东西南北方位词命名。例如:苗语川黔滇方言,藏语卫藏方言,汉语粤方言、客家话,北部侗语,等等。方言别名虽然可以有不同说法,但学名应规范。方言命名宜用“地点+方言”作为学名,前面可冠以语言名称。例如:湘方言,汉语湘方言,畲语罗浮方言。采用“侗语天怀方言”而不用“北部侗语”方位词命名,可使名称更简明。
次方言建议不用“片”字命名,因为“片”属地理范围用字,不应当作为语言或方言的通名。次方言宜用“××话”作为标准学名,专名部分最好以县市名称的首字或特征字命名,也可以采用当地约定俗成的历史名,而不建议用东南西北方位词命名。次方言名称前面还可以加上语言和方言名称。例如,勉语优勉方言土瑶话,苗语湘西方言凯里话,湘方言长益话,粤方言四邑话。次方言采用这种表达比较清晰。
确定了普通话标准名以后,按普通话字面拼音拟定汉语拼音标准名。拼音标准名的书写遵照《汉语拼音正词法规则》,不标声调,专名和通名分开书写,各部分首字母大写。例如:白语Bai Yu、独龙语Dulong Yu,粤方言Yue Fangyan,四邑话Siyi Hua。
2.确定英文标准名
我国境内所有语言和方言、次方言应有标准英文名称,以利于国际传播。英文标准名可按以下规则翻译。
(1)语言用“专名+language”。专名部分有通用英文的,尽量采用通用英文名称。例如:
白语 Bai Language 傈僳语 Lisu Language
藏语 Tibetan Language 维吾尔语 Uighur Language
满语 Manchu Language 哈萨克语 Kazak Language
(2)方言用“专名+Dialect”,汉语大方言俗称“×语”的,一律用“专名+Dialect”。例如:
湘方言/湘语 Xiang Dialect 赣方言/赣语 Gan Dialect
平话方言 Pinghua Dialect 五岭方言 Wuling Dialect
阿昌语陇川方言 Longchuan Dialect, Achang Language
畲语罗浮方言 Luofu Dialect, She Language
(3)次方言用“专名+Subdialect”。具体次方言名称,也可以用“话”译音,不分写。例如:
川黔滇方言盘县次方言 Panxian Subdialect, Chuanqiandian Dialect
粤方言四邑话 Siyihua / Siyi Subdialect, Yue Dialect
湘西方言凯里话 Kailihua, Xiangxi Dialect
(4)有时需要用到“方言片”概念时,也译为subdialect。例如:
五岭方言湘南片 Xiangnan Subdialect, Wuling Dialect
粤语沟漏片 Goulou Subdialect, Yue Dialect
(四)定代码:采用三字母编码
美国《民族志》的中国语言系属分类不尽合理,适当调整是必要的。这种调整主要是语言、方言、次方言的分合。编码主要针对语言和方言两个层次,单个语言、大语言及其每种方言都应编码,次方言不编码。我国行政区划到基层村委会都有统计编码,语言资源信息处理时结合行政区划编码,完全能精确分类和定位,因而没必要对次方言编码,这样可以减少编码数量。国际标准化组织废止了ISO 639-6四字母编码,就是考虑到方言以下层次划分主观性较大,三字母码位已经够用。
确定代码应考虑以下方面。一是保留和调整哪些ISO 639-3代码。ISO 639-3分类和国内分类一致的,包括名称不一致而分类一致的,应保留ISO 639-3编码。分类和国内不一致的则有两种情况:(1)国外单列为语言,而国内不作为单个语言的,应废止代码。(2)同一语言的方言数量,国外多于国内分类的,选取最接近国内分类的代码,废止多余代码。例如:ISO 639-3将白语分4个方言,国内分3个方言。
对于ISO 639-3有的语言及其方言都有编码这种情况,语种代码应和标准方言使用同一个代码。例如,彝语代码iii,标准彝语的诺苏方言同样用iii代码,而不是分出2个代码。
ISO 639-3的中国语言和方言分类代码数量多于国内的分类,因此调整分类和选用代码时应尽量使用已经用于中国语言和方言的代码,即在中国语种已用的代码范围内,根据国内的分类调整代码分配,这样便于ISO 639-3版本更新。
(五)定信息:明确语言、方言、次方言的基本信息
我国出版的数百种汉语方言和少数民族语言调查报告和著作存在一个缺陷,就是关于语言分布和使用人口的数据比较笼统,国内迄今没有任何机构能提供我国语言、方言、次方言详细分布地点和人口信息,并定期更新数据,不少新著甚至还沿用一二十年前的数据。可见,确定我国语言和方言语种清单,还应确定清单的每种语言、方言、次方言的必要信息,而且这些信息应采用元数据词条的结构化数据。美国《民族志》定义了编码、系属、本名、别名、人口、地点、活力状况、方言、类型、语言使用、语言发展、书面语、资源检索、备注等14个元数据标识每种语言的基本信息,这个做法值得借鉴。
语言或方言的分布地和使用人口这两项基本数据,应根据语言、方言、次方言建立三级数据规范。汉语大方言的分布范围至少应列出地州市,次方言应列出县区范围的数据。少数民族大语言至少应列出地州市范围,其他语言则根据人口数量,分级次列出县、乡、镇、村分布。10万以上使用人口的语言应列出分布的县区,10万以下人口的语言应列出乡镇,万人以下的语言应列出乡镇村分布地。应将语言和方言分布和使用的条目数据信息收集,作为语言调查记录和研究的基本学术规范。
四、充分发挥语种代码在语言数字资源管理中的作用
我国汉语方言、少数民族语言、语言技术领域已越来越重视资源集成和传播,尤其在中国语言资源保护工程的推动下,语言研究者、语文工作者、教师和研究生的语料数据积累意识普遍提高。因此,应充分发挥语种代码的作用,提升语言资源的集成和传播效用。
(一)语种代码在中国语言文字文献数据检索中的应用
七十年来我国开展了几次大规模的语言调查,出版了大量汉语方言和少数民族语言调研报告、研究著作、教材、工具书以及学位论文。由于图书出版书号编码只有中文等大语种二字母编码(如中文图书用CN),缺乏对内容是汉语方言和民族语文献标识,所以无法在已有文献库基础上,对我国汉语方言和民族语文献进行数字集成和分类,不便于语言知识和语言资源的传播检索。图书文献、档案文献、博物馆文献的网络信息检索,应在《都柏林核心元数据元素集》()基础上,对语言元素language进行扩展定义,定义一个语言代码扩展元素或元素属性language code是必要的。《中国图书馆分类法》语言文字分类号,对我国汉语方言和少数民族语言的语种分类,也应吸纳语种代码具体标识和列目。
内容涉及中国语言文字(含汉语方言和少数民族语言文字)的研究著作和学位论文,应增加关于著作内容语言的元数据信息页,至少应在论文绪论或概述中标识“语言标准中文名”“语言拼音名”“语言别名”“语言标准英文名”“语言代码”“地点”“地点代码”等重要元数据信息,这将大大提升图书编目和数字图书档案资源检索的效率。
(二)语种代码在汉语方言和民族语调查研究中的应用
语言田野工作应体现语种代码意识,在汉语方言或少数民族语言田野调查和资料收集工作中,要树立语种资料数据分类和标识观念。通常而言,汉语方言和少数民族语言田野调查工作,会搜集、采集或录制三类资料:一是书面笔记资料,二是实地录音资料,即音频文件;三是实地录像资料,即视频文件;除此之外,还有一些实地拍摄的照片,即数字图形文件。这些资料可能来自一个地点的一种或几种语言和方言,也可能来自同一语言或方言的不同社区居民点、不同发音人和说话人。实际上,不少汉语方言和民族语的调查都是几个地点、几种方言和多位发音人。三类资料还包含字音、词汇、句子、话语、文字、数据等六种资料。无论从资料汇集、分类、分享来看,还是从调查资料的对比分析和研究利用来看,对这些语言调查资料以语种代码为基准进行编码和元数据标识,都是十分重要的。许多高校的语言学教师和研究生在学位论文研究和课题项目研究中采集的资料无法共享,其中原因之一是没有建立基于语种代码的各类语言和方言资料的分类标识。因为没有科学分类标识的碎片化电子文件,几十个或上百个地点的几千个方言字,几千条词语,数百个句子、对话、语篇,连同word文档,excel表格,图片和音频视频文件,即使免费公开,读者也无法检索和使用。
以语种代码为基础,结合国家行政区划代码系统,建立语言资源标识代码规范,是非常必要的。在目前没有国家语种代码标准的情况下,可暂以ISO 639-3为基础,根据各自调查的汉语方言和民族语情况进行合并或调整,待有了国家标准以后也可转换更新。国内每个语言调查点的各种资料,都应基于“语种代码+统计区划代码”建立唯一标识,在此基础上制定几个语料类别标识码,例如字(Z)、词(W)、句(S)、语篇(T)。这样一来,所有地点、所有汉语方言和民族语的资料都可以简单快捷地进行标准编码。有了这种编码,各种语言的调查记录资料都可以快捷分类标识,既方便自己利用,又方便图书馆、档案馆、资料室保存和收藏,容易实现资料共享,还能避免不必要的重复劳动,大大节省语言田野调查工作的人力、物力和财力。
(三)语种代码在中国语言资源平台建设中的应用
这里的语言资源平台主要指汉语方言(含海外汉语方言)和少数民族语言(含跨国界线分布的境外相同或相似语言)网络数据库和语料库。随着数字生活的普及,有些省区在建立本土语言文字实体博物馆的同时,已经开发或正在开发语言数字资源网络平台,中国语言资源保护工程的展示平台也开通试用。
汉语方言和民族语的资源平台都应具有资源保存和维护、展示和检索、特定用途服务以及资源接收和积累四大功能。在资源平台或数据库的数据结构和功能构架中,资源数据都是建立在语种代码分类标识基础之上,语种代码有着重要作用。建立语种代码、区划点代码(含城乡分类代码)、资源种类代码三维一体的数据编码序列,能很好实现数据资源检索浏览,如对语言名称、语言代码、语言社区地点、方言关键字词、民族文字关键字词、普通话关键字词、注音或标音关键词的单项和多重检索以及同步多媒体浏览。
以语种代码为主键的语料资源编码数据构架,有助于优化数据表,扩充字段和数据挖掘功能,提高资源数据库运行效率。例如,几百上千调查点、几百种语言和方言的字、词、句样本资料,可以整合为一个表单运行,各种口述语篇也可以成为结构化数据,有利于提取字词句和语篇特征,为语言计量分析提供广泛的数据挖掘空间。又如,各地汉语方言和民族语的语言特征频次和分布统计,语言相关度统计,同源词统计,语音对应统计,语音和词汇类型学统计等等。又如,以语种代码为主键的三维一体编码序列,也容易将地名数据和地图地名数据关联,提取任意语言特征数据,动态绘制任意区域范围的语言特征地域分布地图,而传统的语言地理静态地图只能人工给定有限语言特征,在数字地图的底图上逐页标注。再如,有了三维一体编码数据,容易与其他以地理地点为关键标识的数据库关联,进行语言特征、地点、地理生态特征、文化特征以及更广范围的社会、经济、生态数据库关联,进行广域的、跨学科的语言广义相关性计量分析,揭示诸如语言、生态、文化、社群、生产、生活等方面多维度、多层次相关关系,同时便于建立国家语言社会生态数据监测系统。可见,对我国语言资源平台建设来说,科学数据编码体系将有力促进语言学的创新和发展。
(四)语种代码在中国语言信息技术中的作用
语言代码作为标识,在多语音多文种社交平台、通讯平台和商业服务平台信息处理中能发挥重要作用。我国有一百多种语言,虽然目前只有少数几种语言进入信息技术领域并发挥社会交流效能,但地州市区域有五六十万和上百万使用人口的民族语和方言,是具备信息处理和数字生活潜能的。目前除少数几种汉语方言和民族文字能电脑文字录入、文本翻译、文语转换、语文转换等基本信息处理外,大多数有相当人口规模的民族语还缺乏基本信息处理,因而面向这些语言文字信息处理有较多开发空间,譬如基于语音智能的信息搜索和各种在线服务。建立多语种多文种机器学习音库和文本库,支持各种算法模型的音库和文本树库,都要用语言代码标识各语种文种。移动通讯用户终端日常生活语音智能信息推送,有赖于建立数字生活交际域知识语义场,大数据各种语言或方言信息识别,也有赖于语种代码标示训练数据。许多智能终端的语音智能支持都借助于专门语音智能芯片,而里面整合的多语种语音模块也要借助语言代码识别。至于在语言智能基础训练资源采集中,语言代码作为资源标识则更是不可或缺。
综上所述,我国语言和方言语种编码规范看起来是一件小事,但它涉及语言分类,语言资源集成和传播使用,语言研究和语言文字现代化等诸多方面,一件小事能促使我们打开国际视野,增进在语言学领域参与制定和修改国际标准的意识,尤其是在关于我国自己语言文字的国际话语中能否走向世界和体现话语权。如此看来,它就不是一件小事,我们应当努力。
:范俊军,负责选题和三、四部份撰写及统稿修改;肖自辉,负责ISO 639-3中国语言的数据统计和本文一、二部分撰写。