中日双语平行语料库之日语科技语标注技术
2015-03-13李毅鹏
李毅鹏
摘 要:中日双语平行语料库由中文和日文两种语言组成,在研发阶段,我们主要从语言学角度对这两种语言进行对比和分析。无论是从语言形态还是整篇文章的结构来看,中日文都有着共同的特性。在计算机数据处理时,只有对两种语言同时进行标注,才能达到互译的效果。目前,大多数语料库采用数据库处理和文本处理相结合的组织模式,采用XML(Extend Marking Language)标记语言。现如今双语平行语料库最流行的项目是应用于XML的语义标注技术,该标记语言的优点在于语料处理比较直观,基本和实际的文章相似,弥补了同类标注技术的不足。
关键词:科技日语;标注技术;XML;中日双语
一、科技语的定义及表现形式
科技实际内容的另一种表现形式是科技语文章。科技文献存在的前提是科技语言的掌握。语言学给出这样的结论,科技日语是以日语为根基,传递的是科技方面的思想内容,是日语中必不可少的一部分。科技日语语体描述的主体是现实生活中客观存在的事实,这就是自身最大的特点,由于这个原因使其在表现手段、逻辑思维等方面有鲜明的特色。换句话说,科技日语语体在遣词造句等方面有其自身的特点。只有充分地掌握这些特点,才能正确理解科技日语文章。
语言是思维的外在表现形式,思维有赖于语言,尤其有赖于文章的准确性体现思维的明晰性,文章的层次性体现思维的条理性,文章的周密性体现思维的逻辑性阅读过程中的判断推理、分析综合、类比想象、欣赏评价,都离不开思维。换言之,文章阅读的过程,就是整理思维的过程而阅读科技语体的文章,不仅是一个语义辨认、语法分析的过程,同时也是读者运用相关学科的知识和经验对写作者所传递的新理论,新信息,新资料进行判断、推理、分析、综合的复杂逻辑思维过程。因此,在阅读整理科技日语语体的文献时,除了掌握科技日语的基本语言特点,具有较高水平的语言分析能力外,还必须了解有关学科的基本知识和较强的逻辑思维能力,才能把握原文的精神实质,用恰当的概念去判断原文。
二、中日双语科技语标注技术
(一)中日双语日语科技语标注技術采用的主要方法。目前,大多数语料库采用数据库处理和文本处理相结合的组织模式,采用XML(Extend Marking Language)标记语言。该标记语言的优点在于语料处理比较直观,基本和实际的文章相似。此种标记语言需要高配置、高性能的硬件设施,但是对于数据的处理能力较低,所以很难完成多用户的共同处理任务。相对于其他的标记语言,该技术的功能较繁琐,数据库的管理和安全性的维护都很难能实现。由此得出该种标注技术只适用于数据量较小,双语语料库。但是,到目前为止还没有研究出比XML标记语言更便利的标记语言,因此,市场依旧采用XML语言,在此基础上研发出了多用户并发操作模式,即群组分布式操作模式,以达到扬长避短的目的。
群组分布式操作模式,通过市场热门的数据库应用软件,分解文本数据,并将其存储在一个公共数据库中,主机之外的计算机只能为客户机的身份操作数据库。分布式计算机系统是由广域网或局域网相互连接,可以在数台计算机上同时运行程序的不同部分。通过B/S(Browser/Server,浏览器/服务器)或C/S(Client/Server,客户端/服务器)结构,不仅能将语料数据有效的存储和完成复杂的检索,而且能实现了多用户的群组操作,达到了事半功倍的效果。
中日双语语料库的建设系统和使用系统是由数台相互联网的计算机组成,将一台计算机放在中心的位置,充当服务器,剩下的计算机只有通过局域网访问服务器才能获得需要加工的数据。以此让语言翻译有关的研究人员都能操作数据库。群组分布式操作模式像网一样将用户、创建人员、研究人员等与服务器相连,从而操作翻译语料库。
(二)中日双语科技语标注技术遇到的主要问题。(1)语言学理论上的问题。首先,中日双语科技语标注技术缺乏统一的文法理论基础。从自然语言处理实践来看,还没有哪一种语言学流派成为一种理想的理论基础,因此建立中日双语科技语标注技术就面临着缺乏语言学理论基础。这样,一方面是缺乏一个统一的语言理论来指导建立中日双语科技语标注技术,从而造成中日标注分别建立在两个不同的语法体系的现象;另一方面,一旦选定某种文法理论来设定标注技术,那么要引入另一个文法进行某些研究时,就会造成标注技术的冲突和冗余,其结果就是双语标注技术的标准性无从谈起。其次,中日双语科技语标注技术面临着描述双语现象的难题,这一点在语言学中也是一个有待深入研究的问题。双向机器翻译系统的下一步工作是:利用等值翻译理论,建立等值翻译表达式,从而实现双向机器翻译系统的知识级的共享。但是这一方案在实践上还有很多问题有待克服,其中之一就是如何进行双语的描述问题:不仅需要分别充分描述汉语和日语各自的特点,而且还要能够刻画出二者相互转换时的特征,也就是说需要刻画出双语的异同点。而恰恰在这里,语言学和比较语言学研究乃至翻译研究,都没有能够提供一个充分可行的理论。也就是说,中日双语标注集需要首先确定所需要表示的知识范围:汉语和日语之间究竟在什么范围、什么程度上存在那些异同,标注技术究竟在什么层次上刻画双语现象。此外,在双语标注技术的出发点上,还存在着理性主义和经验主义两种不同的意见。理性主义意见认为双语标注技术应该根据双语研究的成果,对于双语间相同的语言现象使用相同的符号,而对于那些不同的现象再引入相互区别的标志。当然这种状态比较理想,但是目前这方面的语言学研究还不太成熟。另一种经验主义认为,双语标注技术应该针对每种语言的特点设置各自符号,而后在此基础上进行双语的比较和对照研究,才能够充分揭示两种语言的异同。这种意见从实践的角度来看是可取的,其缺点是可能造成一定的符号冗余。(2)双语标注技术设计的几个难点。首先,公认性是双语标注技术存在的基础。公认常常意味着人们对某个事物达成了共识,但对于语言标注乃至整个自然语言处理来说,这种共识几乎不存在。其次,开放性是中日双语标注技术的设计核心。标注技术的开放性在机器翻译研究中不仅仅是技术上的问题,而且具有十分重要的实践意义。机器翻译研究包括句法分析、词义消歧识获取、口语机器翻译等不同专业众多的研究方向。最后,兼容性是中日双语标注技术实用化的体现。目前,语料库研究和其他自然语言处理研究的果是机器翻译研究的一个丰富的资源,如果能够使标注技术兼容这些研究所使用的符号集,也是说在彼此之间能够建立比较好的对应关系,那么不仅可以利用这些丰富的研究成果和已的研究工具,而且可以使我们的研究和相关的研究之间具备了真正的可比性。
(三)中日双语科技语标注技术问题的初步解决方案。(1)中日科技语标注技术从整体上不依赖于某个特定的文法,而是根据目前汉语和日语的研究经验,分别对两种语言中比较普遍的、公认需要研究的语言现象设置符号;对于其他可能需要的知识表示,留待后期完善。(2)标注技术包括词法标注和句法标注两大类,两者的语法层次、符号大不相同,在词法标注技术和句法标注技术中,分别将各自的符号划分成三个部分:基本符号,常用符号和专用符号。(3)基本符号描述自然语言共有的一些特征或者中日双语的基本概念,这些概念在各种语料库中几乎都有类似或相同的符号代表,例如词法标注中的名词、动词等概念和句法标注中的名词词组、动词词组、介词词组等等。(4)中日文常用符号集主要包括一些比较公认或应用比较广泛的语法概念,例如人称、数、性别、时态、语态;甚至可能包括所需要的某个文法中的一些基本概念,如格语法中各种格的符号等等。中日文专用符号集可以看作是对以上两种符号的补充,它往往是根据各种分支研究的需要所填补的各种表示符号。例如口语机器翻译所需要的额外符号,汉语分词研究所添加的特征标记等等。基本符号和常用符号一般来说是比较固定的,但是常用符号可能随着研究的深入,经课题组和有关专家讨论后,进行有系统的改动或添加。(5)专用符号体现整体的开放性,可以根据需要随时添加。不过,应该首先尽可能沿用已有的符号,只有在十分必要时再进行增补。对于每个新增的符号,都要有严格的说明和定义;而新增一批专门用于某个分支研究的符号时,应该专门书写说明,记载该项研究继承了哪些已有的符号,新增了哪些符号等等。一般来说,这些专用的符号都不允许脱离已有的标注集而另成体系。
(三)中日双语科技语标注技术的研究意义。其意义主要有以下几个方面:(1)稳定的研究基础标准的中日双语科技语标注技术是机器翻译、双语语料库以及其他有关研究的知识表示基础。以一个统一的基础开展研究可以确保研究的延续性和一致性。(2)研究成果的积累有利于机器翻译系统的开发和有关的双语语料加工。如果能够以一个标准的中日双语标注技术为基础,那么每个为此目的开发的辅助工具和系统都可以直接继承并加以利用,从而节省科研劳动,依靠成果积累加快研究的深入。(3)统一的对比平台和转换标准英汉双语的语料加工在国内外已经有比较丰富的成果,而且所使用的符号体系各有特点。如果没有一个标准的双语标注集,就无法对这些工作进行比较,而且对于这些语料的进一步加工利用就会需要额外的转换工作。因此,标准的中日双语标注技术会促进对已有资源的利用。可见,一个标准的中日双语标注技术对于涉及中日双语的研究来说具有战略意义(如果能够在全国范围内建立这样一个标准,其意义将更加巨大)。在这一过程中,我们发现建立中日双语标注技术不只是对原有单向标注集的简单归纳整理。雙语标注技术不仅涉及到一些比较复杂的实现策略问题,还涉及到比较语言学和翻译理论中悬而未决的一些问题。
结语:中日双语科技语标注技术是中日双语处理研究的知识表达基础。由于目前国内文献对此类问题关注较少,本文比较详细地论述了设计双语标注技术的必要性、设计中的难点并提出了一个可行的解决方案。该方案不仅能够适应相当长的时间内中日双向机器翻译和汉语语料库研究,而且对于其他跨语言的比较研究和机器翻译研究,都有一定的借鉴意义。
应该说,该标准仍然没有能够达到理想的状态,还不能胜任刻画全部的中日双语现象。不过,鉴于目前研究水平所限,我们认为中日双语标注技术的进一步完善只有在更加细致的双向机器翻译研究,或者是更加完备的中日双语比较研究的基础上才能够进行。而这些不是在短时间内能够做到的,也不是一个研究单位能够胜任的,还有待于广大计算语言学研究人员和语言学研究人员的共同努力。
参考文献:
[1] 陆建江等、编著语义网原理技术[MI科学出版社2007.3.l第一版
[2] 《文休学概论》秦秀白编著湖南教育出版社19 88
[3] 《科技日语语体的基本特点》广州华南理工大学外语系 钱红日