从自然语言处理视域新探汉英词类差异
2011-08-15郭建芳
郭建芳
(1.中北大学人文社会科学学院,山西太原030051;2.华中师范大学语言与语言教育研究中心,湖北武汉430079)
从自然语言处理视域新探汉英词类差异
郭建芳1,2
(1.中北大学人文社会科学学院,山西太原030051;2.华中师范大学语言与语言教育研究中心,湖北武汉430079)
拟从自然语言处理的角度探讨21世纪汉语词类划分标准,详细分析中文信息处理与汉语词类研究的关系及其相互作用和影响,进而尝试找出在此形势下汉语和英语词类研究存在的问题及差异,并对词类问题研究的发展方向提出建议。
语言本体;自然语言处理;相互作用;词类差异
1 中文信息处理研究现状
早在计算机出现之前,英国数学家图灵(A.M.Turing)就预见到未来的计算机将会对自然语言研究提出新的问题。21世纪是信息时代,信息时代的主要特点就是利用计算机来逐步减轻人的体力劳动和脑力劳动。早在20世纪90年代,我国就已明确提出了建造信息高速公路和研制智能计算机的任务。但不管是建造信息高速公路还是研制智能计算机都离不开语言学研究成果的支撑。目前,世界上已形成了三个研制智能计算机的中心:一是美国,二是日本,三是欧盟。在研制和开发智能计算机的过程中,它们都不约而同地将自然语言信息处理(Natural Language Processing,NLP)放在极其重要的地位。在计算机硬件技术突飞猛进的今天,真正成为语言信息处理技术中的“瓶颈”却是语言信息的计算机处理。
中国在中文信息处理方面的研究起步较早,在20世纪50年代末、60年代初就已开始研究机器翻译,且在当时还处于世界先进水平。进入80年代后,中文信息处理尤其是在汉字信息处理方面也有比较大的发展,而且在全国成立了一些研究机构,但中文文本的自动分词(Cutting)和自动词性标注(Tagging)一直是中文信息处理中最基本的两大技术难题。从计算机技术的角度来说,目前已初步解决了自动分词和自动词性标注的问题。刘迁等在《中文信息处理中自动分词技术的研究与展望》一文中提出中文文本自动分词技术取得了令人瞩目的成果,国内也研制出了一些实用的自动分词系统。这些系统在分词的精确度(精度达到99%以上)和分词速度(速度达到千字/s)方面都具有相当高的水平[1],但是汉语自动分词技术却依然面临着“词”概念模糊等实际困难。造成这些困难的根源之一是对于汉语词类的划分标准不一,即对于中文信息处理中词类到底该按意义标准、形态标准、语法功能标准还是按综合标准来实施,我国汉语学界一直存有不同的见解。
2 21世纪汉语词类划分问题
2.1 汉语的词类划分问题介绍
早在汉代中国学者就开始了汉语词类问题的研究。由于受到西方思想及印欧语等体系的影响,中国学者对于汉语词类问题的研究经历了许多坎坷。在汉语语法学史上,最早出现的词类划分是以意义为标准的划分方法,代表作有马建忠的《马氏文通》[2]、黎锦熙的《新著国语文法》[3]、吕叔湘的《中国文法要略》[4]、王力的《中国语法理论》和《中国现代语法》[5]。马建忠鉴于汉语没有足以区分词类的形态变化,主张根据意义划分词类。后来随着汉语语法学研究的进一步发展,又出现了以汉语语法特点为标准的划分词类的方法以及多标准划分词类的观点。然而直到今天,中国学者对于汉语词类问题的划分标准仍未达成一致意见。
2.2 21世纪汉语词类划分的研究
在20世纪50年代~70年代的汉语词类划分研究中占流的是由“词汇·语法范畴”理论指导下的多标准论,20世纪80年代至今则是结构主义语言学理论影响下的单一的语法功能标准论占主流的时期。
单一的语法功能(句法功能)标准最早由陈望道明确提出。早在“文法革新讨论”时,他就提出只有功能标准才能划分汉语词类。朱德熙也是坚决主张根据单一的功能标准区分词类的。他在《语法讲义》里又进一步强调“汉语的词分类不能根据形态,只能根据词的语法功能”[6]。他在《语法答问》里再次强调“划分词类的根据只能是词的语法功能”[7]。胡裕树本来主张区分词类应以形态(指“广义形态”)为标准,但在其主编的《现代汉语》提出分类的基本根据是词的语法功能。田申瑛也认为词类是词在语法上的功能类别,主张以语法功能作为划分词类的根据或标准。郭锐也认为“词的语法功能为划类标准”[8]。
吕叔湘在大讨论时倾向于把结构关系作为分类的主要标准,然后兼顾形态、意义等标准(多标准),但在《汉语语法分析问题》中提出“汉语没有严格意义的形态变化,就不能不主要依靠句法功能”,所以他也明确主张用“句法功能”做划分词类的依据[9]。邢福义在《词类问题的思考》中提出“语法特征是划分词类、判别词性的根本依据”[10]。词的语法特征主要表现为词具有组合能力。在《词类辩难》中他认为“划分词类时,既要根据语法特点,又要参酌词的意义,这样才能做到准确、合理”[11]。
在汉语词类划分标准问题上,目前的研究现状是单标准和多标准并存的局面,二者各有利弊。单标准难以做到穷尽划分词类,而多标准在判断起来相对复杂一些,尤其对于计算机而言。
3 中文信息处理与词类问题研究
3.1 中文信息处理与汉语本体研究
进入21世纪,中文信息处理的快速发展无疑给汉语本体研究带来了巨大的挑战,但同时也对汉语本体研究发挥着巨大的推动和促进作用。
3.1.1 自动分词对汉语本体研究的启示
中文信息处理中的自动分词跟汉语本体中的分词的目标基本是一致的,但考虑到如何更有利于中文信息处理,中文信息处理中的分词和汉语本体研究中的分词不完全相同。比如,对于“二分之一”,按汉语本体研究的方法应切分为“二”、“分”、“之”、“一”,但在中文信息处理过程中处理为三部分,即“二”、“分之”、“一”。中文信息处理注定优先考虑计算机识别和使用,因此对今后的汉语本体研究也是一种启示。
3.1.2 词性自动标注软件现状——以“小句”为最好的观测点
词性自动标注是中文信息处理的基础平台。毫无疑问,这个平台的质量直接决定了中文信息处理后续工程(包括机器翻译、信息检索、自动文摘等)的水平。实践表明,现行的词类体系无法满足中文信息处理的需要,其弊端是非常明显的。
温锁林在其《从词性标注看小句的中枢地位》一文中明确提出历史上曾出现过五种“本位”①语法学界曾出现的五种本位:马建忠的“词类本位”、黎锦熙的“句本位”、朱德熙的“词组本位”、徐通锵的“字本位”和邢福义的“小句本位”。,而以邢福义先生的“小句本位”得出的规则为词性自动标注的准确率最高(98%),极其适合计算机识别[12]。
对于汉语这种缺乏形态变化的语言来说,词的语法特点只有在小句中才能观察得更为详尽、准确。如果不把词放在小句的大本营中观察,视野不宽,对词的语法性质就可能把握不准,难以达到观察、描写和解释的充分性。与语法学家所提出和使用过的几种主要的语法描写和表述系统相比,小句中枢说在中文信息处理中具有其独到的优势。
3.1.3 句处理对汉语本体研究提出新要求
句处理所需要的汉语知识实际上是一种涉及到语音、语汇、语法、语义等方面的综合性知识。目前,中文信息处理学界都深感汉语本体知识的匮乏,深知目前的汉语本体知识远远不能满足中文信息处理的需要。而加强汉语本体研究,无疑会加快中文信息处理技术中句处理的进程。
3.1.4 语言研究形式化问题——用数学方法研究自然语言
计算机是根据人们给它编制的程序进行工作的。计算机没有思维能力,它所能做的就是执行命令,而且所有的指令都必须是精确的信息,它无法直接接受自然语言的指挥。于是,建立一种“一是一,二是二”的形式化的语言就成为人机沟通的必要途径。也就是说,计算机在加工语言信息时首要的一条是要求语言形式化,只有形式化才能算法化、自动化。语言研究的形式化就是用数学或形式逻辑的方法来研究语言,即用符号、公式把纷繁复杂的具体的语言现象抽象化、概念化,然后把这种研究成果编成计算机可以识别的规则。
汉语的形式化研究任重而道远。我们现在对汉语的研究还很不深入,很不透彻,对自己语言的认知、理解还缺乏精细的刻画,所以我们距离汉语形式化的描写、距离计算机对汉语理解的真正实现还有一段相当遥远的路程,这有待于计算机技术的进一步提高,但最主要的还是语言本体研究的问题。
3.2 自然语言处理与英语词类
3.2.1 英语词类在自然语言处理中的问题
在英语中,大多数单词都没有歧义,所以在自然语言处理中通常只有一个单独的标记。但在最常用的英语单词中很多都是有歧义的。例如,can可以做助动词,表示“能够”,相当于英语中的“be able to”;也可以充当名词,表示“罐头”,相当于英语中的“a metal container”;也可以充当动词,表示“把某物装进罐头中”,相当于英语中的“to put something in a metal container”。词类标注主要是对于兼类词进行消歧。兼类词的判定实际上是在词汇中进行词类的消歧,兼类词的消歧是英语自动分析中必须认真对待的问题[13]。
3.2.2 兼类词的排歧
英语词类在自然语言处理中最主要的问题就是兼类词的排歧。兼类词的排歧主要有三种方法:
1)从形态上进行排歧。英语是具有丰富形态变化的语言,所以英语中各类词的形态变化不尽相同,对于发生了形态变化的兼类词,可以通过形态变化方式来判定它们所属的词类。例如,list兼有动词和名词两种词性。但在例句:I have listed all the contents中,listed是过去分词形式,而名词list不可能有这样的变化形式,因此断定此时的listed是动词,词义表示“列出”,而不是表示词义“目录、名单”等名词。
2)按照上下文所提供的语境进行排歧。所谓词的上下文就是指词的分布。词的分布是一种广义的形态,可以反映词的句法功能。在英语中,名词前可以出现数词、形容词、限定词,由此分布语境可以判定动词-名词兼类词是名词;在英语中,动词前可以出现助动词,据此可以判断助动词后面的动词-名词兼类词是动词。在英语中,形容词前可以出现副词,而名词前面不能出现副词,根据这样的分布可以判定形容词和名词的兼类词情况。
3)按照语义进行排歧。词与词之间的搭配关系从本质上来讲是存在着一定的优先序列关系的。例如,在及物动词 make(制作)之后是 list时,由于make之后一般为人或物(somebody or something),所以其后的作为动词-名词兼类词的list可以判定是名词。
3.3 自然语言处理中汉英词类差异的研究
3.3.1 汉英词类的本质差异
众所周知,语言可以根据其词汇形态特征分为孤立语、粘着语、屈折语和综合语等4种主要类型。汉语是一种相当接近于孤立语型的语言。从形态语与非形态语对立的角度来看,汉英词类的语法功能是有很大差别的。一般说来,汉语语法关系主要是通过词序和虚词等手段表现的。英语主要是通过形态变化表现的;而在汉语中,则不存在严格意义上的形态变化,具体形态上的变化手段主要使用的是重叠。在汉语中大部分动词以及部分形容词可以重叠。例如:看看、说说、圆圆、漂漂亮亮等。另外,指人的名词一般可加“们”,表示复数;动词能加“着”、“了”、“过”等。
与汉语相比,英语采用的主要语法手段有附加、内部屈折和异根等,因为这些变化是在词的内部进行的,通常称之为形态变化。例如,英语中名词的数、性、格,动词的时、体、态,形容词的比较级、最高级等,在表示不同语法意义时不是采用附加的方式就是采用内部屈折或异根的方式(flower的复数是flowers,sleep的过去时slept,good的比较级better等)。与英语不同,汉语的动词、形容词可以在不进行任何形态变化的情况下放在主语或宾语的位置上。
虽然汉语和英语都利用前缀和后缀构词,但汉语的前缀和后缀规模小,数量少,而且种类不多,而英语无论是前缀还是后缀,都是规模大,数量多,种类齐全。形态构词在汉语中仍处于发展阶段,具有较强的生命力,是汉语扩充词汇量的一种辅助手段。虽然目前利用这种构词法构成的派生词在整个词汇中占的比例还不是很大,但有增长的趋势。英语的形态构词(词缀法)是最能产的构词手段,是英语扩充词汇量的主要方式,通过这种方式构成的词在整个英语词汇中占的比例很大。但是汉语形态构词法中引进了句法关系,这是汉语形态构词的一大特点,动宾关系、动补关系、并列关系、偏正关系和主谓关系都在这种构词法中得到了运用。
3.3.2 自然语言处理中汉英词类的差异
在自然语言处理中,鉴于英语单词之间本身就有间隔,所以在自然语言处理中无需象汉语那样进行分词。同时,由于汉语属于孤立语,英语属于屈折语,汉英词类之间的语法功能存在着很大的差别。英语主要是通过形态变化,而在汉语中则不存在严格意义上的形态变化。所以在词性标注中,相比汉语而言,英语在更多的情况下可以根据形态的诸多形式来进行,其难度较汉语的要小得多。
3.4 汉语词类划分对中文信息处理的影响及发展走向
3.4.1 目前词类划分问题对于中文信息处理的影响
目前,影响中文信息处理的词类问题的关键就是各家学派对于词类划分标准的观点不一致,没有统一的词类划分标准。
词类和意义有着无法否认的密切联系。这种联系主要表现在词的语法功能类和意义类大体是一致的。通常情况下,名词用来表示事物,动词用来表示动作、行为、变化,形容词用来表示性质、状态。但如果把意义作为该类词的分类标准的话,却不能反过来说表示事物的词是名词,表示动作、行为、变化的词是动词,表示性质、状态的词是形容词。所以说把词的意义作为划分词类的标准是不可行的,词的意义在必要时只是可以作为一种参考而已。
形态指词的形态变化,即构词和构形的语法形式。汉语是一种缺乏形态标记的语言,所以在给汉语划分词类时,单纯依靠词的形态划分词类是不符合汉语本身的特点的,是行不通的。形态在划分词类上可以作为参考项,但不能作为主要评判标准。
朱德熙、陆俭明、邢福渝和胡明扬都提出了划分词类根本上要依据句法标准。但事实上,完全依据词的语法功能并不能穷尽地把词类划分出来,例如“开外”、“见方”等词。
汉语本身既缺乏形态标记,又有诸多一词多意等复杂现象,因此,所有的单标准词类划分方法都很难穷尽划分汉语的词类。邢福义先生在《词类辩难》中认为词类要“根据词的语法特点,结合词的意义”来划分,提出在判别词性时应该考虑三方面因素:①词的形态;②组合能力;③造句功能;最后还可艺辅助参酌词义。显然,采用综合标准可以穷尽划分汉语词类,但这对于中文信息处理的应用无疑是有一定难度的。
就中文信息处理而言,汉语词类划分存在两个严重的问题:一是没有统一的汉语词类划分标准;二是汉语词类划分系统没有划分词类最穷尽、而且最容易掌握和使用的汉语词类划分标准。
3.4.2 汉语词类问题发展方向
针对汉语词类划分中出现的问题,要想结合中文信息处理技术就是要简化汉语词类划分问题和方法,划分的方法越简单越公式就越好,越是利于与计算机结合,越利于操作。根据我国目前词类研究现状,词类划分的主流还是要凭借功能形式来探求验证功能意义作为最根本的原则。语法功能是个语法范畴,而语法范畴都是语法意义和语法形式的统一,所以无论是句法功能、语义功能还是语用功能,它们都既含有意义又含有表现意义的形式。意义是隐层的、内蕴的,形式是表层的、外显的。意义容易见仁见智,而形式比较显豁,所以在给词分类的时候,应该更多地凭借形式去探求、验证。
在划分词类时,还要注意分清一般规律和特殊现象,即要分清一个词的一般功能和特殊功能以及特定情况下的临时用法。就句法功能而言,在静态语境下的功能是一般功能,在动态语境下的功能在多数情况下跟一般功能一致,但有时也会出现跟一般功能不一致的情况。名词的一般的句法功能是作主语和宾语,在一定条件下作谓语就是特殊功能,如“淑女”、“香港”在一般情况下是名词,可以做主语和宾语,但在“她很淑女”、“他的发型很香港”中的“淑女”和“发型”是临时用法,都临时变成形容词,从而可以与“很”结合充当句子的谓语成分。当然,词的分类或定性应当根据词的一般功能,而不是特殊功能和临时用法。
3.4.3 关于词类问题研究的几点拙见
1)根植于汉语语法事实。汉语语法研究始终都是围绕汉语语法事实来进行的。但有些汉语语法事实的重要现象至今仍未得到充分的观察,有些汉语事实的本质和客观规律性至今仍未得到充分挖掘,因此对于词类问题的研究仍会出现这样那样难以解决的问题。在今后的汉语语法研究中,我们仍然必须坚持以汉语语法事实的客观规律性作为汉语语法包括词类在内的根本原则以及最终目标。
2)加强理论性思考及理论和事实的互证。在当前发展日新月异的时代里,除了分析语法事实,我们还需要发扬创新精神,提出一些建设性的理论来。邢福义先生1997年1月在华中师范大学举行的一次座谈会上也认为“中国语言学的发展已经到了需要更多地进行理论思考的阶段。”一切离开了事实的理论都是灰色的。
3) 汉语特性和语言共性的有机结合。在现代汉语语法研究中一定要摆正汉语特性和语言共性的关系,决不要片面强调汉语的特性。简单搬用西方普通语言学理论来处理汉语是不可取的;但片面地强调汉语的特性,也是不可取的。徐烈炯先生指出“语言学就是语言学。如果还要提倡‘有中国特色的语言学’,在 21世纪就会落后于别人。[14]”
4 结 论
自 1999 年以来 ,Intel、IBM、Microsoft、Motorola等国外大公司登陆并进驻北京、上海等城市,设立中文信息处理研究机构,来争夺中文信息处理的制高点。许嘉璐指出,现在必须有组织、有计划地为汉语言学界和中文信息界搭起一座桥,使双方在很大的范围内走到一起,不但一起解决当前中文信息处理所遇到的语言学瓶颈问题,而且促使语言学的研究更面向实际、面向现代化,进而培养出一批高水平的跨学科人才。
中文信息处理研究和汉语本体研究两者之间是密切相关、密不可分,并相互影响和相互促进的。汉语本体研究成果是中文信息处理研究的前提条件和基础工作,而中文信息处理研究过程中出现的问题将引导或指导汉语本体研究进行更加深入的研究。同时,在自然语言处理中,英语词类虽与汉语词类有着很大的不同,但是仍然存在着很多共性。正是由于汉英语之间具有相似性,语言之间的翻译才成为可能,在自然语言处理过程中才具有系统性。
[1]刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006(3):175-182.
[2]马建忠.马氏文通[M].北京:商务印书馆,1998.
[3]黎锦熙.新著国语文法[M].北京:商务印书馆,2000:15-16.
[4]吕叔湘.中国文法要略[M].北京:商务印书馆,1982:16-18.
[5]王力.中国现代语法[M].北京:商务印书馆,2000:17-18.
[6]朱德熙.语法讲义[M].北京:商务印书馆,1998.
[7]朱德熙.语法答问[M].北京:商务印书馆,2007.
[8]郭锐.现代汉语词类研究[M].北京:商务印书馆,2004:111-118.
[9]吕叔湘.汉语语法分析问题[M].北京:商务印书馆,2005:28.
[10]邢福义.邢福义学术论著选[G].武汉:华中师范大学出版社,1999:144.
[11]邢福义.词类辩难[M].北京:商务印书馆,2003.
[12]温锁林.从词性标注看小句的中枢地位[J].汉语学报,2004(1):52-60.
[13]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司,2005:156.
[14]徐烈炯.语言学就是语言学[J].语言文字应用,1998(1):7-8.
On Further Exploration of Category Divergence Between Modern Chinese and English from NLP
GUO Jianfang1,2
(1.School of Humanities and Social Sciences,North University of China,Taiyuan030051,China;2.Center for Language&Language Education,Central China Normal University,Wuhan430079,China)
From the perspective of Natural Language Processing,the author explores the criteria of modern Chinese,and makes a full analysis of interrelation and interaction between the study of Natural Language Processing and category in Chinese,in order that category divergence can be found.Therefore,some helpful suggestions can be proposed.
ontological language;natural language processing;interaction;category divergence
H313
A
10.3969/j.issn.1673-1646.2011.02.023
1673-1646(2011)02-0098-05
2010-09-19
国家社科基金资助项目:基于网络媒体监测语料库(汉语)的性别语言比较研究 (09BYY018)
郭建芳(1977-),女,讲师,博士生,从事专业:中外语言比较。