面向智能信息处理的语料库标注质量影响因子*——从《汉语人名拉丁转写方案》的设计谈起
2015-10-23通拉嘎
通拉嘎
(泉州师范学院图书馆,福建 泉州 362000)
1 引言
语料库是大量自然语言素材的有序集合,这些语言素材是书面文本、言语录音或其转写[1],语料库标注是为语料库增加一些语言学信息[2]。语料库不仅为语言研究提供新的研究手段,也为信息检索、文本分类、机器翻译等自然语言信息处理的研究提供重要支持。由于国内外语料库建设尚缺乏通用的规范或标准可以遵循,如何衡量语料库标注的质量、语料库标注出现了哪些问题,都值得我们深入探究。笔者以智能信息处理发展相对薄弱的少数民族信息处理典型代表蒙古文信息处理的子问题——《汉语人名拉丁转写方案》的设计为例,探讨影响语料库标注质量的各类因素。
蒙古文语料库的建设从20世纪80年代开始兴起,由于传统蒙古文书写形式从上至下,蒙古文部分元音、辅音显示形式相同,新以蒙古文语料库建设之初即以拉丁形式转写各式语料,避免了排版、显示、系统兼容及部分歧义问题,把面向信息处理的蒙古文本形式简化为蒙古文(或汉字)包括标点符号等组成的一个字符串问题[3]。不过与中、英文大规模语料库的发展相比,蒙、藏、维为代表的少数民族语言信息处理的研究与发展相对滞后,语料库经过机器标注之后,还需大量的人工校对过程,这不仅耗时耗力,还因标注者的不同理解,语料有不同层次的标注问题。蒙古文信息处理作为少数民族语言信息处理发展的卓越代表,发展中出现的问题极富典型性意义。对不同的自然语言理解来说,未登录词及歧义问题始终是重点及难点问题,而未登录词问题比歧义问题更为棘手。在Bake-off-2003的4个语料库中因未登录词造成的分词精度失落比歧义切分造成的精度失落至少大10倍左右,未登录词主要包括各类命名实体,人名、地名、机构名等专有名词和新词语,未登录词中人名的分布将近30%[2]40-41;而内蒙古大学26万词规模语料库中,人名有3522个,汉语人名即有1243个,占据了35.29%的较高比例,汉语人名的拉丁转写问题成为了蒙古文语料库标注无法忽视的问题。我们设计的《汉语人名拉丁转写方案》(以下简称《转写方案》)是在详细分析蒙古文语料库标注问题的基础上提出的解决方案,在分析语料库标注质量影响因子时有其独特的视角及代表意义。
2 语料库标注质量影响因子分析
语料库开发通常包括规划、设计、选材、建库和标注等5个阶段[4]。语言学知识的赋予是语料库具备可用性的基本前提。目前,语料库的标注还未达到完全的自动化标注,后续还需要人工干预,语料库的设计与加工差异较大,标注质量也千差万别。影响语料库标注质量的因子有标注的规范化发展、标注的准确性、一致性、中立性、通用性等5方面。
2.1 标注的规范化发展
标注的规范化发展是指语料库建立之初,即以通用科学的规范来指导语料库具体的标注工作。语言文字是信息的主要载体,没有高水平的语言文字的规范化、标准化,就不可能有真正意义上的高水平的信息化。人们在生活工作中愈加注重时效,更加注意信息现代化,标准化规范化比以往任何时候都显得重要和迫切。
语料库的标注必须以完整、通用的规范作为指导,语料库的标注规范是为语料库提供科学、实用的系统化规则,是语料库标注的导引性文件,对智能信息处理的规范化发展、对各类系统的兼容,对语言资源的数据共享都有积极影响。
有鉴于此,我们在设计《转写方案》之初,参考各类的中文分词规范,以适应语料库现状的4条规则作为《转写方案》的设计原则。《转写方案》具体以蒙古语外来词标注习惯为基础,适当参考现代蒙古文拉丁及汉语拼音的标注习惯,条例以排列顺序享受优先:
条例1汉语语音需一一对应成蒙古文拉丁字母。
条例2以蒙古文书面语的外来词拼写习惯为基础。
条例3以蒙古文语料库的标注现行规则为参考。
条例4以《现代蒙古语语料库标注规范》为参考[5]。
2.2 标注的准确性
标注的准确性,顾名思义,指语料库标注要求准确,才能实现通用及实用,以CLAWS为例,采用统计方法标注,正确率达到96%~97%[6],这已经是标注效果非常好的语料库了。语料库标注按加工层次可以分为词法标注、句法标注、语义标注、篇章标注等,无论对哪种深度的标注来说,准确性是影响语料库实用的基本前提。
以蒙古文语料库的汉语人名的拉丁转写来说,虽然经过自动标注和人工校对,语料库的标注还是出现大小写字母混用,相同的声母、韵母被标注成了不同的形式等问题,如“zhzhi”“ch-chi”“sh-shi”被标注成了不同声母,“j、q、x、z、c、s、zh、ch”等汉语多个声母与蒙古语少数辅音相对应,汉语韵母被赋予了蒙古语元音的阴、阳性特征。
目前,蒙古文语料库的汉语人名的标注有些参考了汉语拼音,有些参考了蒙古语人名的标注惯例,因而汉语人名标注不一,甚至相同人名的标注也未能统一,如:LIU=LAN=T00|LIU=LAN=T0V(刘兰涛),LIYAN=POWe|LIYAN=PUWE(廉颇)。
蒙古文语料库中汉语人名标注的错误直接影响到了未登录词的处理,并进而影响了蒙古文信息处理的发展,使系统的实用性大打折扣,由此可见标注的准确性对语料库质量产生的影响。
2.3 标注的一致性
标注的一致性指按固定的规范或原则指导语料库的标注,对相同语言成分的标注要前后一致,贯彻数据库始终。
以蒙古文语料库汉语人名的拉丁转写为例,由于存在较多的人工标注与校对的成分,人名在拉丁转写方面并非前后一致,相同的声母、韵母转写为不同的元音、辅音形式,不同的声母、韵母转写为相同的蒙古文大小写形式,这给语料库的使用带来很大困难。
2.3.1 声母转写出现的问题
c标注为C|c(c0V=CONG曹聪);c、q、ch都标注为C(cAI=LUN蔡伦|JIYANG=CING江青|CeN=D0V=$eNG陈道生);d标注为D|d(LIU=YAN=DONG刘延东|deNG=SIY0V=PING邓小平);g标注为G|g(BUWe=GU 博古|JU=geN=JU朱根柱);h标注为H|h(HU=CI=LI胡启立|cAI=he=SeN蔡和森);r标注为R|r(BAI=RU=BING白如冰|CeN=JING=rUN 陈景润);x、s都标注为S(SIVWAN=WANG宣王|(LI=LI=SAN李立三);j、zh都标注为J(JIYANG=JIYe=$I蒋介石|deNG=JUNG=SIYA邓中夏;z标注为Z|z(LIU=ZONG=YVWAN柳宗元|LIN=ze=SIUI林则徐);zh标注为J|Z(ZeU=IVI周瑜|JeU=eN=LAI周恩来);zhi标注为zhI|zHI(FANG=zhI=MIN方志敏|$eN=I=zHI沈一智)。
2.3.2 韵母转写出现的问题
ao标注为0V|00|AV(LI=J0V=SING李肇星|J00=ZI=YANG赵紫阳|MAV=Ze=dONG毛泽东);i标注为 e|I(LI=Se=GVWANG李四光|HU=CI=LI胡启立);ian标注为IYEN|IYAN(Ye=JIYEN=ING叶剑英|CIYAN=CI=CeN钱其琛);o标注为00|Owe(LIYANG=$eNG=B00梁胜波|BOWe=I=BOWe薄一波);ou标注为eU|EU(JeU=BA=PI周扒皮|PeNG=YONG=EU);ong标注为ONG|UNG|VNG(c0V=CONG曹聪|dUNG=cUN=rUI董存瑞|J0V=zhI=HVNG赵志红);uo标注为OWe|UWe(JANG=ZOWe=LIN张作霖|YANG=$UWe杨朔);ü标注为IVI|IUI(SIVI=SIYANG=CIYAN徐向前|dA大=IUI禹)。
2.4 标注的中立性
标注的中立性指语料库标注中要采取被标注者、使用者及系统本身可以普遍接受的中立模式,很多分词单位的界限有时较为模糊,我们在语料库标注中要注重以中立的态度标注语料,以适应不同深度、不同层次、不同受众的需求,提高语料库的使用价值。以《转写方案》的设计原则为例,“汉语语音需一一对应成蒙古文拉丁字母”指汉语声母需与蒙古语辅音达到一一对应,以避免混淆。汉语无法对应到蒙古语的声、韵母可以参考《汉语拼音方案》进行标注。
“以蒙古文书面语外来词拼写习惯为基础”指应充分尊重蒙古文历来的外来词拼写习惯。蒙古语经过多年的演变与发展,已有相当固定的外来词拼写规则,如:“红”在蒙古语中拼写为“HVNG”或“hUNG”,“河”拼写为“he”,我们对现已成形的蒙古文外来词拼写习惯应予以充分重视。
“以蒙古文语料库标注现行规则为参考”指需遵守现代蒙古文语料库的现有标注习惯。现行的语料库标注规则是基于蒙古文传统的词语标注习惯,以大、小写字母区分汉语声、韵母,我们应予以保留。
“以《现代蒙古语语料库标注规范》为参考”指《转写方案》的制订应遵循《现代蒙古语语料库标注规范》确立的专有名词标注的4条规则:“zhi、chi、shi标注为zhI、chI1;人姓和名之间的圆点以等号表示;蒙古语的dong标注为dUNG;专名必须以等号连接,如,MAV=Ze=dONG。”
设计原则充分中和了蒙古文语料库标注固有知识、蒙古语书面语外来词拼写惯例及《汉语拼音方案》,既照顾了蒙古文语料库已有的语料库标注习惯,也考虑了蒙古文非语料库使用的外来词拼写习惯,又综合参照了中文信息处理用途,有很强的中立性,适应了语料库标注需要及语言研究需要。
2.5 标注的通用性
标注的通用性指不仅符合智能信息处理的各项标注需求,也适应不同文本之间的文本转换、数据共享的需求。我们以设计原则为指导,对汉语的蒙古文拉丁转写制订了具体的转写方案。
表1 汉语声母的蒙古语拉丁转写方案
表2 汉语韵母的蒙古语拉丁转写方案
《转写方案》不仅适应蒙古文语料库各类文本的标注,适应词法分析、句法分析、信息检索、信息抽取直至机器翻译的需求,也适应蒙古文本与其他文种间的双语、多语语料库的建设需要,具有非常强的通用性。
3 结语
语料库对智能语言信息处理及语言学研究都具有重要意义,笔者着重探讨了影响语料库标注质量的因素,认为语料库的规范化发展,标注的准确性、一致性、中立性、通用性等是影响语料库标注质量的关键因素,并以蒙古文语料库标注中的重要及典型问题——汉语人名的拉丁转写为例,分析了影响因素对语料库建设产生的作用。蒙古文语料库中的汉语人名的拉丁转写问题是语言文字的标准化问题,以蒙古语语料库标注现状及蒙古文标注外来词的固定习惯为基础,以《现代蒙古语语料库标注规范》为参考,适当借鉴汉语的标注规则,提出了较为详尽和通用的《转写方案》,希望语料库标注质量影响因子的探讨能对语料库的科学化发展、语言的本质属性和规律的探讨及信息资源的共享与交换产生积极影响。
注释:
文中的符号说明:
等号(=)为连接符号,表示被连接的是一个标记单位,如“SIVI=SIYANG=CIYAN徐向前”。
竖线(|)表示语言单位之间的切分或隔断,如“C|c”。
[1] 赵铁军.机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社,2000.
[2] 达胡白乙拉.蒙古语基本动词短语自动识别研究[D].呼和浩特:内蒙古大学,2005.
[3] 刘连元.现代汉语语料库选材设计[A].罗振声,袁毓林.计算机时代的汉语和汉字研究[C].北京:清华大学出版社,1996.
[4] 嘎日迪.蒙古文信息处理技术及自然语言理解[M].呼和浩特:内蒙古大学出版社,2006.
[5] 郑家恒.智能信息处理——汉语语料库加工技术及应用[M].北京:科学出版社,2010.
[6] 国家语言资源监测与研究中心.中国语言生活状况报告[M].北京:商务印书馆,2007.