中国少数民族语言信息资源跨语种共享策略研究*

2014-12-31赵生辉西藏民族学院管理学院陕西咸阳712082

图书馆建设 2014年2期

赵生辉（西藏民族学院管理学院陕西咸阳 712082）

中国是统一的多民族国家，多民族、多语言、多文字是我国的基本国情。在信息资源管理领域，除了以国家通用的汉语和汉字作为信息记录语言之外，民族地区社会实践和民族事务管理过程中产生的语种各异、类型丰富、功能多样的少数民族语言信息资源也是我国档案信息资源的重要组成部分。少数民族语言信息资源跨语种共享是利用信息技术打破语言文字差异带来的沟通障碍，促进全国各族人民之间的相互理解，实现中华民族多语种信息资源和谐共存的重要举措。

1 少数民族语言信息资源跨语种共享概述

中国少数民族语言信息资源是指主要内容以我国境内除全国通用的汉语普通话和规范汉字以外、现存的或者曾经存在过的少数民族语言和文字作为信息记录和表达方式的信息资源[1]。目前，全国55个少数民族当中，除回族、满族已全部转用汉语外，其他53个民族都有自己的语言，有些民族内部不同支系还使用着不同的语言；除回族、满族已不使用自己民族的文字而直接使用汉字外，有29个民族有与自己的语言相一致的文字，由于有的民族使用一种以上的文字，如傣语使用4种文字，景颇族使用两种文字，所以29个民族共使用54种文字[2]。其中，藏、彝、蒙古、维吾尔、哈萨克、柯尔克孜、朝鲜、傣等民族的传统文字大都具有数百年的历史，藏文和彝文甚至已经有1 000多年的历史。这些少数民族文字具有比较规范的习惯用法，使用范围较广，影响也较大。从20世纪80年代开始，我国先后制定发布了上述少数民族语言文字的计算机文字编码、字型、术语等方面的国家标准，从1993年起研究制定了基于ISO10646多文种平面的中国少数民族文字的编码字符集标准（Unicode），使得这些文字成为最先具备计算机处理能力的几种少数民族文字，实现了其计算机编辑、排版和检索[3]。近年来，以蒙古文、藏文、哈萨克文、维吾尔文、柯尔克孜文、朝鲜文、壮文、彝文等为代表的一系列少数民族语言操作系统、文字处理软件、办公自动化系统、编辑出版系统开始在少数民族地区得到应用，少数民族语言信息资源的管理需求也在逐步显现，而其中最为突出的需求就是少数民族语言信息资源的跨语种共享。

“少数民族语言信息资源跨语种共享”是指在少数民族地区信息管理工作中，通过技术手段和管理手段的综合应用，使各个少数民族语种信息资源所包含的内容信息具备能够被全国各民族没有熟练掌握该语种的人口以较低的成本、较为便捷的方式进行阅读和理解的能力。该定义的内涵主要体现在以下方面：第一，少数民族语言信息资源跨语种共享强调内容理解层面上的共享，而不是电子数据可访问性层面的共享[4]。电子数据本身的可访问性可以借助分布式数据库来完成，不是本文探讨的重点。第二，少数民族语言信息资源跨语种共享强调建立一种大范围、稳定的共享机制，而不仅仅是满足个体、临时性的共享需求。例如，人工翻译方式也是跨越语言障碍的一种方式，却不能满足大范围、长期性的共享需求，因而不能作为一种全局性的战略来考虑。第三，少数民族语言信息资源跨语种共享并不是只涉及到少数民族语言问题，由于少数民族语言与国家通用语言之间的紧密联系，少数民族语言信息资源跨语种共享必然要涉及到国家通用语言文字问题。第四，少数民族语言信息资源跨语种共享需要结合各语言发展现状进行分类管理。例如，当前主要考虑的是当前使用人口相对较多的蒙古文、藏文、哈萨克文、维吾尔文、柯尔克孜文、朝鲜文、壮文、彝文等语种的信息资源，使用人口较少或者处于濒危状态的少数民族语言文字重点考虑的是文化保护问题，而不是共享问题。第五，少数民族语言信息资源跨语种共享的核心是关注少数民族语言信息资源的利用问题，其目标是将少数民族语言信息资源的利用范围从部分地区、个别群体扩展到全国各族人民。少数民族语言信息资源的可靠性、完整性和可读性保障需求是进行信息共享的前提条件，其实现方式也不在本文的讨论范围。第六，少数民族语言信息资源跨语种共享能力并不是要求所有少数民族语言信息资源做到完全准确地翻译，而是根据不同的应用场合区分为不同的精度，如低精度场合只需要了解信息资源的主题和大致内容，高精度共享场合则需要进行准确的翻译[5]。

跨语种共享是少数民族语言信息资源管理的核心目标之一，其意义主要体现在以下方面：第一，少数民族语言信息资源跨语种共享有利于全国各族人民之间的相互沟通和理解，使得不同民族的人群之间可以通过较为便捷的方式互相了解对方的思想和文化，有助于强化各民族之间的心理联系，增强中华民族的“向心力”[6]。第二，少数民族语言信息资源跨语种共享有助于少数民族文化的传播。少数民族语言文字是中华民族的宝贵财富，也是非物质文化遗产的重要内容。少数民族语言信息资源跨语种共享将会为少数民族文化的传播提供更加广阔的空间，使少数民族文化在信息技术的支撑下，在更大范围内得到保护和传承。第三，少数民族语言信息资源跨语种共享有助于加强我国边疆民族地区的文化安全。我国少数民族当中有30多个跨境民族，他们与境外同族有共同的语言和文化，少数民族语言信息资源跨语种共享也是争夺虚拟空间控制权、维护边疆地区文化安全的重要手段。

2 少数民族语言信息资源跨语种共享的框架和思路

少数民族语言信息资源的利用在本质上是一个认知问题，也就是不同类型的“主体（Object）”如何阅读和理解不同语言的“客体（Subject）”问题。在这个过程中，可能是“主体”直接完成对“客体”的认知，也有可能是“主体”通过“中介”来完成对“客体”的认知，其关系如图1所示。

图1 少数民族语言信息资源跨语种共享的框架

在图1中，“主体”就是少数民族语言信息资源利用所面对的服务对象，按照少数民族语言信息资源跨语种共享的定义，应当包含全国有信息资源利用需求的各类人群。为了简化问题，假定熟练掌握某种语言文字的人可以非常容易地理解用这种语言文字作为信息记录手段的信息资源。这样，“主体”就可以简化为熟练掌握各类语言的人。“客体”就是有待被认识的对象，也就是少数民族语言信息资源，根据语种的不同也可以分为不同的类型。按照所使用的语言符号的不同，少数民族语言信息资源还分语音文件和文本文件两个大类。目前，少数民族语言信息处理技术的进展主要集中在文字领域，语音识别领域虽然已经开始起步，但是离大规模应用还有较远的距离，少数民族语言音频文件和视频文件的管理还是按照将语音信息著录为文字信息的方式来实现。因此，少数民族语言信息资源跨语种共享可以暂时简化为文本信息的共享。“中介”就是在少数民族语言信息资源利用过程中提供跨语种服务的人或者技术系统。将上述体系用二维矩阵形式表达的框架模型如表1所示。

在表1中，矩阵的行代表主体（O）当中所掌握某种语言的群体，列代表客体（S）少数民族语言信息资源用来记录信息的语言文字。其中，G代表国家通用语言文字，也就是汉语和规范汉字；M1～M8分别代表目前使用人口相对较多的8种少数民族语言，即蒙古文、藏文、哈萨克文、维吾尔文、柯尔克孜文、朝鲜文、壮文和彝文；符号代表不经过中介可以直接进行认知和理解，其余两种语言用斜线联系代表要进行两者语言的翻译，如M1/G代表要通过人工翻译或者机器翻译将国家通用语言文字的信息资源翻译成为蒙古文才能被只掌握蒙古文的人群所理解；M2/M1代表需要将蒙古语信息资源翻译成为藏文以后才能被只掌握藏文的人群所理解。

根据表1所示，提高少数民族语言信息资源跨语种共享程度的思路主要有以下3种类型。

第一，基于主体的策略。基于主体的策略就是通过提高主体掌握少数民族语言文字的能力来扩展少数民族语言信息资源跨语种共享的程度。例如，将表1中的M1改为M1-M2，也就是让熟悉藏文的群体同时也熟练掌握蒙古文，则M1/M2环节就不需要经过中介而变成直接认知和理解，其符号会变成。由于大多数人学习语言文字的能力是有限的，不可能熟练掌握较多的语种，因而这种方式在实践中主要体现在少数民族语言文字和国家通用语言文字两者的双语教育，如果每个少数民族群体除了掌握本民族的语言文字以外，同时能够熟练掌握国家通用语言文字，则表1中的M1/G，M2/G，M3/G，M4/G，M5/G，M6/G，M7/G，M8/G就可以省去，体系信息共享能力得到了提高。目前，双语教育是我国少数民族地区在基础教育阶段探索出来的成功模式，接受过系统基础教育的人口都可以同时熟练使用本民族的语言文字和国家通用语言文字。

第二，基于客体的策略。基于客体的策略就是要通过提高客体双语保存的程度来提高少数民族语言信息资源跨语种共享的程度。例如，如果某一语种的信息资源在保存时同时将与之对应的同一内容另一语种的信息资源同时保存，就可以提高体系的共享能力。例如，藏文信息资源M2在保存时同时将与其内容相同的彝文信息资源M8一同保存，则M8/M2所需要的两种语言的翻译就可以省去。在实践中，多语种同时保存的情况主要体现在少数民族语言信息资源与同一内容的国家通用语言文字版本同时保存，如表1中，如果每一语种少数民族语言信息资源保存的同时也将国家通用语言文字版本保存，则中介环节G / M1，G / M2，G / M3，G / M4，G / M5，G / M6，G / M7，G / M8就可以省去。由于不是所有的少数民族语言信息资源都有国家通用语言文字版本，所以双语保存除了全文双语之外，还可以体现为双语著录、双语摘要等形式，也就是说，文件全文采用少数民族语言文字，对其进行著录的元数据同时采用少数民族文字和国家通用文字。这种情况下的跨语种共享就属于低精度共享，可以让不同语种的人群了解到文件的主要内容，但是并没有提供全文翻译，要了解到细节内容还需要借助人工机器方式进行全文翻译。

第三，基于中介的策略。基于中介的策略就要通过壮大人工翻译队伍和发展机器翻译系统的形式提高少数民族语言信息资源的跨语种共享能力。人工翻译具有精度高的优势，但是培养高水平翻译人才需要较长的周期，作为小语种的少数民族语言文字翻译人才就更加缺乏。少数民族语言文字翻译人才的成长具有一定的规律性，大多数少数民族语言文字翻译人才都熟悉国家通用语言文字和某一种少数民族语言文字之间的翻译，熟悉两种少数民族语言文字之间翻译的人才相对较少，因而不是任意两种少数民族语言文字都能找到高水平的翻译人员。为了弥补人工翻译方式的上述不足，利用计算机替代人工进行某些语种之间的跨语种翻译就是一种解决思路，这就是机器翻译（Machine Translation）。机器翻译技术是计算语言学的核心内容，自20世纪起全球不同领域的众多专家曾经对这一领域进行过探索，并研究出基于规则的方法和基于统计的方法两种类型的机器翻译方法，在一些领域取得了一定的成就。由于语言现象本身的复杂性，目前机器翻译的发展水平与人们的期望还存在非常大的距离。在少数民族语言信息资源跨语种共享中，机器翻译方法可以应用在低精度共享场合，如利用者只需要通过浏览大致了解文件主题和内容，以判定是否符合需要，然后对需要的文件再进行人工翻译[7]。按照计算语言学发展趋势，目前双语机器翻译所使用的主要是基于双语对齐语料库的方法，如要进行藏文和维吾尔文之间的机器翻译，需要建立“藏文/维吾尔文对齐语料库”和“维吾尔文/藏文对齐语料库”，由翻译系统根据语料库当中语料的统计规律选择词汇并安排语序，实现机器翻译[8]。要实现表1中所有需要借助中介方式进行的机器翻译，需要建立的双语对齐语料库的数量是相当庞大。为了解决这一问题，可以只建立每一种少数民族语言文字和国家通用语言文字之间的双语对齐语料库，借助国家通用语言文字作为中介实现跨语种机器翻译[9]。这种模式极大地降低了双语对齐语料库建设的成本，又可以实现任意两种语言之间的双向翻译，是一种非常科学、合理、有效的解决方案。

3 基于中间语言的少数民族语言信息资源跨语种共享策略

根据对少数民族语言信息资源跨语种共享思路的分析，无论是基于主体的策略、基于客体的策略还是基于中介的策略都与国家通用语言文字的应用具有非常紧密的关系。中国少数民族语言信息资源跨语种共享以国家通用语言文字为中间语言，可以有效地将各种少数民族语言的信息资源联结成为一个整体，形成“以国家通用语言文字为核心的少数民族语言多语种信息资源共享体系”，极大地提高整体性的跨语种共享能力，基本思路如表2所示。

表2 基于中间语言的少数民族语言信息资源跨语种共享模型

在表2中，“主体”由各个群体只掌握单一语言文字转变为同时掌握本民族语言文字和国家通用语言文字的双语状态，“客体”由只采用一种语言文字转换为同时进行少数民族语言文字和国家通用语言文字的双语全文保存或双语著录、双语摘要。从理论上讲，如果所有少数民族人口全部掌握了国家通用语言文字或者同时掌握本民族语言文字和国家通用语言文字，与此同时少数民族语言信息资源全部实现了双语全文保存，则“中介”环节就可以省略，因为所有的人都可以通过国家通用语言文字来理解各个语种的少数民族语言信息资源，中国少数民族语言信息资源之间的“无障碍”沟通和交流就可以实现，除两语种完全对应的情况下符号是“ ”以外，其他所有原本需要翻译的情景都增加了一个符号“ ”用来表示可以不借助翻译直接阅读和理解。

上述状况只是一种理想状态，其要求的状态在现实中很难同时具备。双语教育是需要一定时间周期的，而双语保存也需要大量同时掌握少数民族语言文字和国家通用语言文字的人才，这些都不是短期内能够解决的。此外，对少数民族语言文字历史档案进行数字化加工而形成的信息资源原本就不具有国家通用语言文字版本，已经保存的一些少数民族语言文字档案资源也没有双语著录。因此，由于某一环节条件的不具备而导致的沟通和交流障碍的情况仍然大量存在，这就需要借助人工翻译和机器翻译作为中介手段来辅助完成。其中，实现机器翻译的关键就是要建立各个少数民族语言文字与国家通用语言文字之间的双语对齐语料库，以满足某一语种少数民族语言信息资源与国家通用语言文字的双向翻译和任意两种少数民族语言信息资源之间的翻译问题。例如，只熟练掌握藏文的少数民族群体如果希望了解蒙古文信息资源的内容，可以借助于机器翻译系统，先通过蒙古语/汉语对齐语料库将蒙古文信息资源翻译成国家通用语言文字，然后再通过汉语/藏语对齐语料库将国家通用语言文字版本转换为藏文版本。经过两次机器翻译，信息资源的内容与原有内容可能具有一些差异，甚至会在语法上出现很多问题，在一些低精度共享场合这种翻译质量也能满足用户的基本需求[10]。

4 研究结论

综上所述，中国少数民族语言信息资源跨语种共享的关键是要建立起以国家通用语言文字为中间语言的少数民族语言多语种信息资源共享体系，以国家通用语言文字为中介将各语种少数民族语言信息资源联结为一个整体。这一体系建设的重点有3个方面：第一，继续加大少数民族地区双语教育的力度，培养更多的同时掌握少数民族语言和国家通用语言的双语人才；第二，明确少数民族语言信息资源的“双语保存”原则，尽可能实现少数民族语言信息资源与其对应的国家通用语言文字版本同时保存，如果没有国家通用语言文字版本，则应该尽可能进行少数民族语言文字和国家通用语言文字的双语著录或双语摘要；第三，建设少数民族语言文字信息共享基础设施平台，通过主要语种少数民族语言文字和国家通用语言文字之间的双语对齐语料库体系，实现少数民族语言文字和国家通用语言文字之间的双向互译，同时，以国家通用语言文字为中介，实现任意两种少数民族语言文字之间的双向机器翻译。

[1]赵生辉.中国少数民族语言电子文件管理初探[J].档案学通讯,2011(2):61.

[2]中国少数民族语言文字概况[EB/OL].[2013-07-22].http://www.moe.edu.cn/edoas/website18/level3.jsp?tablename=1266&infoid= 4795.

[3]戴庆厦,许寿椿,高喜奎.中国各民族文字与电脑信息处理[M].北京:中国民族学院出版社,1991:360-377.

[4]周宁.东方多语种文献信息处理进展[J].情报科学,1991(5):30-34.

[5]周宁.东方多语种文献计算机管理初探[J].武汉大学学报,1992(5):106-111.

[6]刘援朝.电脑的多文种支持技术与我国少数民族传统文字问题[J].贵州民族研究,2002(4):165-173.

[7]塔娜.面向跨语言信息检索的蒙汉语义词典构建[G]//第三届全国少数民族青年自然语言信息处理学术研讨会论文集.北京:中央民族大学出版社,2002:12-15.

[8]郑敏.跨语言信息检索的理论与实践[J].情报理论与实践,2003(3):223-226.

[9]李新.中国少数民族声像资源整合与利用刍议[J].图书馆论坛,2006(5):11-14.

[10]李永宁.民族地区多元文化信息库研究与设计[J].中国电化教育,2011(5):7-12.