APP下载

语言科学发展的新分支——自然语言处理

2013-12-18邵泽国

电子科技 2013年5期
关键词:统计法语言学语料库

邵泽国

(上海师范大学人文传播学院,上海 200234)

自然语言处理是计算机科学、语言学、数学、认知学等学科的交叉学科,是语言科学发展的一个新的学科分支[1]。它立足于实验、理论和计算来实现计算机对语言文字信息的自动分析和理解,是个实用性强、应用范围广的学科[2]。在机器翻译、文本处理、语音分析与识别、人机交互、信息检索等领域有着广泛的应用。特别是近年来随着网络信息的大爆炸,自然语言处理技术被认为是处理信息网络世界中语言载体的核心技术。

1 自然语言处理的概念

语言科学搭起了人文科学与自然科学的桥梁,自然语言处理[3](Natural Language Processing,NLP)正是以语言为对象,利用计算机技术来分析、理解和处理自然语言。它是典型边缘交叉学科,涉及到语言科学、计算机科学、数学、认知学、逻辑学等。人们把用计算机处理自然语言的过程在不同时期或侧重点不同时又称为自然语言理解(Natural Language Understanding,NLU)、人类语言技术(Human Language Technology,HLT)、计算语言学[4](Computational Linguistics)、计量语言学(Quantitative Linguistics)、数理语言学(Mathematical Linguistics)。

人类最早将自然语言与计算机联系在一起是机器翻译。当发现语言的计算机处理过程不是一个简单的机械过程时,人们将注意力聚焦在自然语言的理解上[5],即追求语言含义的真正解释,从而形成由自然语言理解[6]这一学科。随着人们对“理解”的日益加深,逐渐拓宽了自然语言同计算机结合的认识,从“理解”变为“处理”,即而有了自然语言处理[7]。之后,随着人类学的发展,人们用“人类语言技术”这一更确切的术语来命名面向人类语言的处理技术的研究。

在这个研究过程中若侧重于从计算角度来看待语言学的性质,或以自然语言为对象来研究算法,则称之为计算语言学,它是用计算机模拟人去分析、处理自然语言。若侧重于以计算机作为工具手段对自然语言进行计量研究,则称为计量语言学,它是利用计算机来获取语言中隐含的数量规律。如果是专注于对自然语言进行各种类型的信息处理和加工技术研究,且强调计算机实现,则称之为自然语言处理。如果是专注于以数学方法来刻画语言的各种特点,从而形成表述严密的语言理论体系,则称之为数理语言学。

事实上,自然语言处理同自然语言理解、人类语言技术、计算语言学、计量语言学、数理语言学相互之间没有严格的界限,一般把自然语言处理等同于计算语言学。

2 自然语言处理的发展历程及现状

2.1 国际情况

(1)萌芽阶段。1954年,美国乔治敦(Georgetown)大学与IBM公司合作,在IBM-701型计算机上进行了俄语翻译成英语的机器翻译实验,这是世界上首次将计算机应用在非数值计算的信息处理领域。

(2)成长阶段[7]。20世纪60年代,出现了一批基于诺姆·乔姆斯基(Noam Chomsky,美国语言学家)的转换—生成语法的语言处理系统。如麻省理工学院拉法勒(B.Raphael)的信息检索系统SIR、韦森鲍姆的ELIZA。这些系统采用的主要技术是模式识别中的句法匹配,没有成熟的句法分析。1972年伍兹(Woods)在他的自然语言信息检索系统(LUNAR)提出了著名的扩充转移网络(Augmented Transition Network,ATN)。同年,威诺甘德(T.Winogand)的自然语言理解系统(SHRDLU)嵌入了一个句法分析程序、一个语义分析程序、一个问题求解器,是一个句法、语义和推理的组合系统。1975年,香克(R.Schank)设计了基于本人概念从属理论的 MARGIE(Meaning Analysis,Response Generation,and Inference on English)系统,系统由概念分析器、推理器和篇章生产器3部分组成。

(3)实际应用阶段[8-9]。20 世纪 80 年代,出现了各种新的语法体系,如Gazder的广义短语结构语法(Generalied Phrase Structure Grammar)、Bresnan 与Kaplan的词汇功能语法(Lexical Functional Grammar)、M.kay的功能合一语法(Functional Unification Grammar)等。90年代语料库语言学(Corpus Linguistice)的研究蔚然成风,许多国家和学术机构相继推出了不同语种的超大型语料库或知识库。

这些语言学上的成果大幅提高了自然语言处理系统的能力,涌现出了诸如美国METAL和LOGOS,日本PIVOT和HICAT,法国ARIANE以及德国SUSY等著名实用性系统。

2.2 国内情况

属于汉藏语系的中国在自然语言处理方面的研究与应用目前稍落后于印欧语系的欧美等国家,这是由于汉语自身的特点和计算机技术的落后决定的。但近年来我国无论在自然语言处理的理论方面,还是在应用方面都取得了可喜成绩。典型代表:理论方面有黄曾阳(中国科学院声学研究所)先生的概念层次网络理论(Hierarchical Net Work of Concept);应用方面有北京大学的《现代汉语语法信息词典》,清华大学的《汉语语素数据库》,董振东先生的知网(How Net),潘悟云先生的汉语方言地理信息系统平台,中国社会科学院文学研究所的千万词级汉语语料库,台湾中央研究院的千万级古代、近代、现代汉语语料库,清华大学的ZW大型通用汉语语料库等[10]。

近期有学者指出汉语言是世界上方言语种最多、文献资料最丰富、唯一保持历史延续性的语言,未来自然语言处理技术的突破有可能在中国出现。

3 自然语言处理的意义和方法

3.1 意义

1950年,图灵(Alan Mathison Turing)提出了被后人称为人工智能直接起源之一的著名的“图灵测试”。而这个测试正是机器理解人类语言的典型范例,所以更多的学者把自然语言处理看作是人工智能的一个分支。语言是人类智能与智慧的高度表现,因而对自然语言处理的研究也有助于人们揭开人类智能的奥秘、认识自己,为智能科学的发展和突破贡献力量。

作为一个边缘交叉学科,自然语言处理的发展受益于相关学科的发展,同时也会促进相关学科,特别是信息科学、语言学、认知学、心理学的进步。

自然语言处理也为国民经济的发展和社会的进步带来了动力。随着信息时代的到来,自然语言处理已在机器翻译、信息检索、人机交互、语音识别、语音合成、文本分类、自动文摘、问答系统等应用领域里发挥了重要作用,这正是这门学科的实用价值所在。

3.2 方法

自然语言处理的方法到目前可以归纳为规则法、统计法、规则统计法。从方法论上又将规则法称为理性主义方法,统计法称为经验主义方法[11]。

(1)规则方法。通常是先由语言学家撰写“规则库”,例如“词典”,再由计算机科学家编写算法程序,对“规则库”进行解释和执行,如图1所示。具体是由句法分析器按照设定的自然语言语法把输入句分析为句法结构,再根据语义规则把语法符号结构映射到语义符号结构。

图1 规则方法的流程

(2)统计法。统计法是通过对语料库中的训练数据来估计统计模型中的参数,从而建立统计性的语言处理模式。这里“语料库”由语言学家建立,计算机科学家负责建立统计模型、利用语料库训练模型参数以及编写算法解决问题,如图2所示。

图2 统计方法的流程

(3)规则统计法。其实是规则法与统计法的融合,充分吸收两者的有点。规则方法易于表达复杂的语言知识且语言知识的表达较直观、灵活;但语言知识的覆盖率低,缺乏言知识的冲突统一解决机制。而统计方法的统计模型提供了统一的冲突解决机制,且大规模数保证了语言知识的大覆盖率;同时它又不善于表示复杂的、深层次的语言知识,对于数据稀缺的语言没有好的解决方案。

统计方法在发展的过程中不断改进,逐渐吸收规则方法的优点来弥补自身的缺陷,统计模型趋于复杂,甚至一些模型直接建立在规则表示的基础上,从而能够表达很复杂的语言知识。两者的巧妙融合形成了规则统计法。目前该方法成为了自然语言处理的主流方法。

3.3 汉语处理方法

虽然国外的自然语言(印欧语系)处理技术先进于国内,但国外的众多理论和方法难以照搬应用于汉语言处理中。原因在于表意体系的汉语与表音体系的印欧语在自身特征上有较大差异。印欧语在词汇、语法、语用、语境诸层面上有明显的特征区分,相互间又有对应关系。但汉语在各层面上难以划分,特别是句法和语法间的界限相当模糊。另外,汉语没有严格意义上的形态变化(形态标记),对词没有一致认可的定义和明显的分词的自然形态界限[12]。总之汉语处理要难于印欧语的处理,突出的问题是:

(1)汉语的歧义。歧义是自然语言的普遍现象,当语言形式不能完全决定语言内容(语义)时即称为歧义。在语言的语音、词汇、句法、语境上都存在歧义现象。汉语言文字是字形、字音分离的文字(不考虑有音无字的名族语),所以一字多音,一音多字现象较多。再加上汉语词汇较难定义,句法、语法界限模糊,使得汉语的排歧相当困难。目前多是综合利用语法和语义知识,结合字典、语法规则库及上下文信息来进行排歧,但效果并不理想,特别是语境歧义无法解决。

(2)汉语语法兼类。语法兼类即词的同形异类,同一形式的词具有两种或两种以上的语法功能类别。如“连”这个词兼有副词、介词、动词、名词、和量词5种词性。兼类词虽然数量不多,但出现的频率较高,且越是常用词,其兼类现象越严重。

(3)分词。汉语句子中的词与词间没有标识符号,所以要理解和处理汉语句子就要先把句子中的词正确的切分出来。词才是计算机处理的核心对象。

(4)词性标注。建立句法结构树的首要任务是词性标注,即明确文本中所有语法兼类词在具体语境下所属的词性。在语法平面内现有的词性标注法有:基于规则的方法、基于统计的方法、基于神经网络的方法、规则与统计混合法。

(5)电子词典。电子词典包含了语料加工处理所需有关词的各种语言学知识,包括分词、词性标注、短语分析等。电子词典的规模和质量决定了自然语言处理系统的成败。

(6)规则库。语言是有规则的,规则是可以描述和处理的。规则库就是把语言学知识归纳成一套文法规则,用于判断匹配成的句子是否合法。最典型的语言学知识表示方法有:依存语法(Dependency Grammar)、格语法(Case Grammar)、语法树方法(Syntax Tree)、转换生成语法(Transformational Generative Grammar)、扩充转移网络法(Augmented Transition Network)、语义网络(Semantic Network)理论、蒙塔鸠语法(MONTAGUE GRAMMAR)、系统语法(System Grammar)、概念依存理论(Conceptual Dependency Theory)和现代语法理论。20世纪80年代后,国外又推出了一些新的语法理论和方法,较有影响力的有:广义短语结构语法(Generalized Phrase Structure Grammar)、头驱动的短语结构语法(Head-Driven Phrase Structure Grammar)、词汇功能语法(Lexical Functional Grammar)、功能合一语法(Functional Unification Grammar)、链语法(Link Grammar)、范畴语法(Categorial Grammar)、依存语法(Dependency Grammar)、树嫁接语法(Tree Adjoining Grammar)。

(7)统计信息库。包含了对语料库信息的各种统计结果,如带词性标注的词频统计、邻接词同现概率统计和短语结构分布信息等,它为基于统计的语料库处理技术提供了客观的语言分布数据。这些数据可以认为是计算机从大规模语料中获得的语言学知识,它不仅有助于计算机信息处理,更对语言学研究起到推动作用。

4 结束语

语言是人类智慧的最重要特征,可以说人类的语言和大脑是世界上最复杂的两样东西,而计算机是研究它们的有效辅助工具[13]。因此对自然语言处理的研究及应用是人类社会发展必须且必将迈过的一道障碍。

[1]冯志伟.计算语言学基础[M].北京:商务印书馆,2001.

[2]冯志伟.自然语言的计算机处理[M].上海:上海外语教育出版社,1996

[3]江铭虎.自然语言处理[M].北京:高等教育出版社,2006.

[4]俞士汶.计算语言学概论[M].北京:商务印书馆,2007.

[5]刘开瑛,郭炳炎.自然语言处理[M].北京:科学出版社,1991.

[6]冯志伟.自然语言处理的形式模型[M].中国科学技术大学出版社,2010.

[7]陈肇雄,高庆狮.自然语言处理[J].计算机研究与发展,1989(11):1-16.

[8]宗成庆.统计自然语言处理[M].北京:清华大学出版社,2011.

[9]陈力为,袁琦主编.计算语言学进展与应用[M].北京:清华大学出版社,1995

[10]刘玉屏.计算机在汉语方言研究中的应用[J].宁夏大学学报,2002(1):53-57.

[11]陆致极.汉语方言数量研究探索[M].北京:语文出版社,1992.

[12]俞士汶.计算语言学前瞻[M].北京:商务印书馆,2005.

[13]郑锦全.语言学——结合人文关怀与科技应用的学科[J].暨南学报:哲学社会科学版,2005(5):94-97.

猜你喜欢

统计法语言学语料库
稳健统计法在实验室能力验证中的应用
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
《语料库翻译文体学》评介
常用统计法处理实验室间比对结果的探讨
认知语言学与对外汉语教学
基于经验模态分解/高阶统计法实现微机械陀螺降噪
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
概率统计法在储量估算中的应用