连介兼类词在专利文献中的考察及区分
2014-03-19刘小蝶闫慧颖晋耀红
○刘小蝶 闫慧颖 晋耀红
(北京师范大学 中文信息处理研究所,北京100875)
一、引言
在现代汉语中,“和、与、跟、同”这四个虚词既可当连词又可当介词。如何区别这组连介兼类词,一直是现代汉语语法研究中一个颇费周章的问题。刘静辉(1984)归纳出三种方法:互换法、代替法、插入法。沈锡伦(1987)提出四种方法:分解法、互换法、插入法、调换位置方法。玉柱(1988)认为分解法、互换法和调换位置法并不能对所有动词都适用,而插入法是最有效的分辨方法。上述研究主要是面向人的研究,靠实验和转换来尝试,判断的标准是语义是否改变。
本文的研究是面向专利的汉英机器翻译的,此判断标准对于目前无法理解语言的机器而言是无能为力的,各种鉴别方法对于机器也是不可操作的。在依赖语言知识的规则机器翻译系统中,系统只能按照给定的标记识别连词和介词。本文以专利语料为研究对象,以“语义为主、形式为辅”,从句子层、短语层和篇章层三个层面对兼类单用时进行考察并总结规律,希望能在此基础上构建形式化的规则库指导机器对兼类词进行识别。
二、语料的分析
(一)语料的来源
语料是来自NTCIR-9 PatentMT①训练集中的2000句专利语料句对,包括汉语和英语参考译文,我们对例句进行逐条分析,归纳总结规则。
(二)兼类词的分布
“和、与、同、跟”都具有连词和介词的词性,在专利领域这种书面语体中出现的频率如表1所示,可知四词在专利文本中的使用上比重差别很大,“和”和“与”的比重占98%。本文主要考察“和”和“与”两个兼类词。
表1“和、与”在2000句专利语料中的频率
(三)兼类词的考察
在专利语料中,“和”主要有三种词性:名词、介词和连词。名词出现的语言环境比较容易确定:“和”前一定有“的”或“之”,可能位于句尾。
所以本文考察的重点内容是:“和、与”在作连词和作介词时(为行文方便,下文以“和”代替“和、与”两个兼类词),跟哪些词语搭配使用?例如,作连词时,其连接的前后项表达式为“X1和X2”,是联合结构,此结构是一个复数范畴,其作为一个整体时比单数范畴增加了数量多概念,这种需要在汉语语言表达上有所体现,需要考察哪些动词、名词、形容词、副词、方位词要求与其搭配的短语一定是复数范畴。其中“动词、形容词”一般做核心谓词,对主宾语有语义需求,而“副词、方位词”数量较少只需跟形式挂钩。下面从语义和形式两方面进行探讨。
1.语义方面。(1)句子层面的考察。在句子层面,“和、与”兼类词做介词还是连词的一个难点是“X1和X2”在句子开头时,即在“X1和X2 V(O)”结构中,“X1和X2”是联合结构作主语,还是“和X2”作介宾短语。张谊生(2000)从核心谓词的语义要求的角度,即按照“X1和X2”与核心谓词搭配后如何充当该词语的关涉对象和陈述对象,将其分为三类:零涉词语、单涉词语、双涉词语。跟零涉词语搭配时,“X1、X2”都不充当关涉对象,都是陈述对象,“和”必定是连词;“和”跟单涉词语搭配时,“和”必定是介词;跟双涉词语搭配时,“X1、X2”可以都是陈述对象,又可以互为关涉对象,“和”词性的判定需要依赖篇章层面的信息。
(2)短语层面的考察。在短语层面,据考察主要有如下四种情况:
1)任何一个小句都可以采用加“的”的句法手段,变成一个短语。经考察,零涉谓词的句子只能变成“V(O)的X1和X2”,其中“和”是连词;单涉谓词的句子只可以变成“和X2 V(O)的X1”,其中“和”是介词;双涉谓词可以变成“和X2 V(O)的X1”或“和X1 V(O)的X2”,其中“和”都是介词。
2)框架“PRON+和X的NP”,PRON代表代词,NP没有太多限制,但一般是双涉动词产生的效应,可以双涉动词加上语素的形式构成,其中“和”都是介词。
3)在“X1和X2”中,当“X1、X2”都是动词或形容词时,“和”是连词。从连词的意义来说,连词连接至少两个项,不限于连接名词性短语,也可以连接动词或形容词[5]。但介词一般只介绍对象而非动作。所以,如果两个动词、形容词由“和”连接,可以判定为是连词。
4)在“X1和X2”中,当“X1、X2”都是标号时,“和”是连词。在专利语料中出现较多的是对发明的装置、部件的详细介绍,出现许多数字或数字与字母构成的指示性标号。如果“和”两边紧挨着的是标号,则优先是连词。
(3)篇章层面的考察
此部分主要考察框架“X1和X2 V(O)”下,其中V是双涉动词或双涉形容词时,“和”的词性。如果后续句的句首一般是用表示复数的代词加以复指、用表示单数的代词(如“前者、一方面、这”等)加以分指,如果后续句的句首是动词、虚词或者用表示单数的人称代词,“和”一般是介词。
2.形式方面。汉语重意合,具有较少的形态变化。但是考察一定的语料发现,汉语的副词、方位词或短语对“和”的区分具有重要的提示信息。
当“X1和X2”与总括标记、相互标记、协同标记、独立标记、复指标记搭配使用时,“和”是连词。总括标记、协同标记、相互标记、独立标记一般出现在动词前,总括标记如“相继、共同、都、全部、全、之间、中的至少一个、中的任何一个、中的任意一个”等相互标记如“互相、彼此、互为”等,协同标记如“一起、一块儿、同时”等,独立标记如“各自、分别”等,复指标记主要是同位短语中复指前面的内容的标记,一般出现在联合结构的后面,如“两者、二者、之一、双方、两个”等。
在框架“和X2”中,如果“和”前为空,即句首是“和”,或者如果“和”前是虚词“并且、虽然、但是、可、将”等或虚词的组合时,则判定为介词。
三、小结
本文对专利文本中的介词和连词兼类的情况进行了考察,以“和”为代表从语义和形式两个方面从句子、短语和篇章三个层次对连介兼类词进行研究,并归纳了一些规则。未来的工作重点是将本文的考察成果形式化为规则和知识库应用于一个基于规则的语义翻译系统,并根据英语转换和生成的需要调整或者改进兼类词的识别。
【注释】
①是由日本国家科学咨询系统中心策划主办的NTCIR中建立的一个标准测试集,作为咨询检索与自然语言处理研究的基础语料。
②“X1和X2”由“和”连接的前项X1和后项X2,“X1和X2V(O)”中V指的是核心谓词,(0)指的是宾语,可有可无。
[1]刘静辉.怎样辨别连词“和”与介词“和”[J].语文教学与研究,1984.
[2]沈锡伦.从“和”看介词和连词的区别[J].汉语学习,1987.
[3]玉柱.关于介词和连词的区分问题[J].汉语学习,1988.
[4]张斌,张谊生.现代汉语虚词[M].华东师范大学出版社,2000.
[5]晋家泉.连词“和”连接谓词性词语刍议[J].滨州师专学报,1995(9).