我国计算语言学研究70年
2019-11-26冯志伟
冯志伟
(杭州师范大学外国语学院,浙江杭州)
在中华人民共和国成立70周年之际,《语言教育》编辑部约我对我国在计算语言学方面70年来取得的成就进行初步的总结。我今年已经80岁了,亲身经历了我国计算语言学走过的全部过程,觉得这是一件很有意义的工作,因此就欣然答应了。在本文中,我将根据我的亲身经历以及我自己和同行专家70年来所发表的论著,来总结我国计算机语言学70年来的成就。
由于要总结70年来的研究,在本文中不可避免地需要引用或引证大量的论著,为了尊重作者的版权,凡是直接引用或引证的论著,我都注明了出处,并在文末的参考文献中列出。有兴趣的读者可以根据这些线索,进一步阅读原文,了解这些成果的来龙去脉。
采用计算机技术来分析、研究和处理人类的自然语言(natural language)是20世纪50年代才开始的。50多年来,这项工作取得了举世瞩目的进展,形成了计算语言学(Computational Linguistics,简称CL)这门重要的新兴学科(冯志伟,1992)。
计算机对自然语言的研究和处理,一般应经过如下四个方面的过程:
第一,形式化(formalism):把需要研究的问题从语言学的角度进行形式描述,建立语言的形式化模型,使之能以一定的数学形式,严密而规整地表示出来。在基于规则的系统中,这样的描述通常要对于语言中的各种特征(features)用手工进行精细的分析和整理,是一项庞大的语言特征工程(feature engineering)。
第二,算法化(algorithm):把经过语言特征工程处理的严密而规整的数学形式表示为计算机的算法。
第三,程序化(programming):根据算法编写计算机程序,调试程序并在计算机上加以实现。
第四,实用化(implement):建立各种实用的自然语言处理系统,对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户使用的要求。
在目前兴起的基于深度学习(deep learning,简称DL)的深度神经网络(deep neural network,简称DNN)中,语言特征的获取不再通过手工来进行,深度神经网络可以从大规模的、真实的语料库中自动地学习到这样的语言特征,在深度学习的过程中,语言学知识与深度神经网络之间彼此促进,相得益彰。
由此观之,为了研究计算语言学,研究者不仅要掌握语言学的知识,而且,还要掌握数学的知识和计算机科学的知识,这样一来,计算语言学就成为了一门横跨语言学、数学和计算机科学等不同领域的边缘性的交叉学科,它同时涉及到文科、理科和工科三大领域(冯志伟,1990)。
计算语言学的出现,使得语言学在现代科学体系中的地位产生了明显的变化,成为了人文科学发展的突破点和生长点,古老的语言学由一门传统的基础科学变成了一门领先的带头科学,获得了与数学、哲学同等的地位,它的重要意义已
计算语言学的研究首先是从机器翻译(Machine Translation,简称MT)开始的。1946 年电子计算机刚一问世,一些具有远见卓识的学者们就考虑到了利用计算机把一种或几种语言自动地翻译成另外一种语言或另外几种语言的可能性。从 20世纪50年代初期到60年代中期,机器翻译一直是自然语言计算机处理研究的中心课题,不过当时主要是采用基于机器词典的“词对词”(words to words)翻译方式,译文质量低劣,难以达到预期的翻译效果(冯志伟,1997)。
20世纪60年代中期,人们开始从计算机处理自然语言的角度对语言的形态、句法、语义、语用和语境等基本问题进行形式化的研究,并尝试着让计算机来理解自然语言。Turing(图灵)认为,断定计算机是否理解了自然语言的最直观的方法,就是让有智慧的人同计算机对话,如果计算机对有智慧的人用自然语言提出的各种问题能够做出正确的回答,就证明计算机已经理解了自然语言(冯志伟,1997a),这样,就出现了“智能问答”(Question Answering,简称QA)的研究。计算语言学的理论和方法也就在MT和QA的研究中逐渐形成、完善并成熟起来。
目前,除了MT和QA之外,计算语言学的研究领域还进一步扩展到了信息自动检索、信息自动抽取、文本自动分类、自动文摘、语料库语言学、机器词典、汉字信息处理、语音自动识别与合成等领域,已经成为人工智能(Artificial Intelligence,简称AI)研究的一个热点,成为了人工智能皇冠上的明珠(冯志伟,1989)。
计算语言学与自然语言处理(Natural Language Processing,简称NLP)的研究是密不可分的。“自然语言处理”可以看成是“计算语言学”的同义术语,当主要涉及理论和原理的时候,用“计算语言学”这个术语,当主要涉及方法和应用的时候,用“自然语言处理”这个术语(冯志伟,2009a)。
1952年,在美国的麻省理工学院(MIT)召开了第一次机器翻译会议,在1954年,出版了第一本机器翻译的杂志,这本杂志的名称就叫做Machine Translation(《机器翻译》)。尽管人们在自然语言的计算机形式分析方面进行了大量的研究,但是,直到20世纪60年代中期,才出现了Computational Linguistics(计算语言学)这个术语,而且,在刚开始的时候,这个术语是小心翼翼地出现的(冯志伟,2011)。
1965年Machine Translation杂志改名为Machine Translation and Computational Linguistics(《机器翻译和计算语言学》)。在杂志的封面上,首次出现了“Computational Linguistics”这样的字眼,但是,“and Computational Linguistics”这三个单词是用特别小号的字母排印的(冯志伟,2011)。
这说明,当时这个刊物的编者对于“Computational Linguistics”是否能够算为一门真正的、独立的学科还没有充分的把握,有点儿畏首畏尾、小心翼翼的惧怕心理。因此,计算语言学刚刚登上学术这个庄严的殿堂的时候,刊物的编者还没有足够的胆量和勇气用与Machine Translation同样大小的字母来排印它。
当时Machine Translation杂志之所以改名,是因为在1962年美国成立了“机器翻译和计算语言学学会”(Association for Machine Translation and Computational Linguistics,简称AMTCL),通过改名可以使杂志的名称与学会的名称一致起来(冯志伟,2011)。后来,由于计算语言学的进一步发展,这个学会在1968年干脆把“Machine Translation”这两个词也删除了,改名为“计算语言学学会”(Association for Computational Linguistics,简称ACL),一直沿用至今。ACL在1982年成立了欧洲分会,简称EACL,在2000年成立了北美分会,简称NAACL,在2018年成立了亚太分会,简称AACL。ACL还设立了21个特殊兴趣小组(Special Interest Groups,简称SIGs),几乎涵盖了计算语言学研究的所有领域。从1962年算起,ACL已经成立57周年了,中国在ACL中的作用越来越重要,ACL现任主席是中国学者周明,他是微软亚洲研究院副院长。
根据上述史料,我们认为,远在1962年,“Computational Linguistics”这个学科就已经出现了,尽管它在刚出现的时候还有些畏首畏尾的尴尬。但是,无论如何,计算语言学这个新兴的学科终于萌芽了,她毅然地破土而出,悄悄地登上了学术的殿堂,并且迅速地发展和壮大起来(冯志伟,2011)。
由于早期的机器翻译的译文质量低劣,难以满足用户的要求,1964年,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),调查机器翻译在美国研究和应用的情况,并于1966年11月发布了一个题为《语言与机器》(language and machines)的报告,简称ALPAC报告,这个报告对机器翻译采取了否定的态度。报告宣称:“在目前给机器翻译以大力支持还没有多少理由”;这个报告还指出,机器翻译研究遇到了难以克服的“语义障碍”(semantic barrier)。在ALPAC报告的影响下,机器翻译研究跌入低潮,由于机器翻译的拨款锐减,一些已经建立起来的机器翻译研究单位的经费极为困难,入不敷出,难以继续维持,只好停业。在世界范围内,机器翻译的热潮逐渐消失了,出现了空前萧条的局面(冯志伟,1997)。
美国语言学家David Hays(海斯)是ALPAC委员会的成员之一,也是ALPAC报告的主要起草人。在ALPAC报告中,他建议,在放弃机器翻译这个短期的工程项目的时候,仍然有必要加强语言和自然语言计算机处理的基础理论研究,应当把原来用于机器翻译研制的经费使用到自然语言处理的基础理论研究方面,David Hays把这样的基础理论研究正式命名为Computational Linguistics,并且在1967年出版了一本叫做《计算语言学导论》(Introduction of Computational Linguistics)的专著。所以,我们可以说,“Computational Linguistics”这个学科名称最早出现于1962年,而在1966年才在美国科学院公布的ALPAC报告中正式得到学术界的认可,并在1967年出版了第一本Computational Linguistics的专著(冯志伟,1994)。
在AMTCL还没有改名为ACL之前,1965年在美国纽约成立了单独以Computational Linguistics冠名的国际计算语言学委员会(International Committee of Computational Linguistics,简称 ICCL),每两年召开一次国际会议,叫做COLING。COLING第一任主席是Bernard Vauquois(沃古瓦),他是法国著名数学家和法国格勒诺布尔大学应用数学研究所自动翻译中心CETA主任,也是笔者在法国留学时的导师。与此同时,美国出版了学术季刊《美国计算语言学杂志》(American Journal of Computational Linguistics),后改名为《国际计算语言学杂志》(International Journal of Computational Linguistics)。Bernard Vauquois在1985年去世后,COLING的主席由Martin Kay(马丁·凯伊)担任,他是美国斯坦福大学教授(Vauquois & Boitet, 1985)。
与国际计算语言学发展的情况相似,我国计算语言学的研究也是首先从机器翻译的研究开始的(冯志伟,2007a)。
1949年中华人民共和国成立之后,就开始关注语言文字工作,进行了文字改革,接着就开始了机器翻译的研究。我国是继美国、苏联、英国三个国家之后,世界上第四个开展机器翻译研究工作的国家。当今在机器翻译方面居于先进水平的日本,是在1958年才开始进行机器翻译的,起步比我国晚了两年之久(冯志伟,2001)。
早在1956年,也就是在国际计算语言学会(ACL)成立之前6年,我国便把机器翻译研究列入了国家科学工作的发展规划,成为其中的一个课题,课题的名称是:“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”(冯志伟,1996a)。
1957年,中国科学院语言研究所刘涌泉、高祖舜、刘倬与计算技术研究所合作,开始俄汉机器翻译的研究。1959年,他们在我国制造的104大型通用电子计算机上,进行了初步的俄汉机器翻译试验,成功地把9个不同类型的、较为复杂的俄语句子用计算机自动地翻译成中文(冯志伟,1996a),作为向国庆10周年的献礼。不过这个系统翻译出来的中文不是汉字,而是中文的代码,一般人是读不懂的。这是我国研制的第一个机器翻译系统(刘涌泉等,1964)。
在这个时期,北京外国语学院、北京俄语学院、广州华南工学院、哈尔滨工业大学也分别成立了机器翻译研究组,开展了俄汉或英汉机器翻译的试验。我国的机器翻译呈现出欣欣向荣的局面(冯志伟,2007a)。
然而这种局面很快就被“文化大革命”破坏了。从1966年至1975年这个时期,除了极少数的对于机器翻译有强烈兴趣的人在极端恶劣的条件下仍然坚持着继续进行理论探索之外,没有人进行任何的机器翻译研究和试验。几乎没有学者关注到国际上出现了“Computational Linguistics”这个新兴学科。
1974年在重庆一家计算机杂志《计算机应用与应用数学》上发表了笔者综述数理语言学(mathematical linguistics) 新理论的长篇论文,成为了这个时期唯一的关于计算语言学的论文,这篇文章的发表,有如在人迹空旷的山谷中听到了远处轻微的脚步声,鼓起了处于困境中的自然语言处理研究者的学术勇气(冯志伟,1975,2007c)。
这篇论文还在国内首次提到了1966年在A LPA C报告中出现的“C o mp u ta tio n a l Linguistics”这个术语,初步介绍了国外计算语言学研究的新理论。可惜的是,这篇论文发表在“文化大革命”时期,学术研究已经停滞,几乎无人问津。“文化大革命”时期,学术研究已经停滞,几乎无人问津。
1975年,冯志伟还通过手工计算的方法,初步估算出汉字的熵(entropy)为9.65比特,汉字的熵也就是汉字的信息量,根据Shannon(香农)信息编码第二定律,编码时码字的长度不能小于码字的熵,汉字的熵为9.65比特,大于1个字节(8比特),因此,汉字编码的码字长度必须大于1个字节,起码应当采用双字节编码,而不能像西文字符那样采用单字节编码,这就为尔后的计算机汉字编码必须使用双字节提供了理论依据(冯志伟,1984),可惜在“文化大革命”的动乱中,他的研究结果未能及时发表(冯志伟,2011)。
“文革”结束之后,我国机器翻译研究重振旗鼓,开始复苏。
1975年11月,在中国科学技术情报研究所(ISTIC)设立了一个由情报所、语言所、计算所以及有关部委情报部门的工作人员组成的机器翻译协作研究组,他们以冶金题录5000条为试验材料,制定英汉机器翻译方案并上机试验。1978年5月,在中国科学院计算所111机上进行抽样试验,抽样20条,达到了预期的效果(冯志伟,1997)。接着又在情报所的TK-70 计算机上进一步扩大试验,用BOL语言编制程序,译文的可读性有所提高。当时国家标准GB2312-80信息处理用汉字编码字符集尚未公布,汉字输出无标准可依,研究人员克服重重困难,在日本制造的T4100汉字处理机上,首次用汉字输出了中文译文。在当时的技术条件下,这是非常不容易的事情。
1981年,冯志伟在法国格勒诺布尔理科医科大学留学期间,提出了多叉多标记树模型(Multiple-branched and Multiple-labeled Tree Model,简称MMT模型)(冯志伟,2014),全面地描述了自然语言处理中的形态、句法、语义、逻辑等特征以及这些特征的计算求解方法,建立了一个大规模的、行之有效的语言特征工程模型(feature engineering model),并根据这个模型研制了汉-法/英/日/俄/德多语言机器翻译系统FAJRA,这是世界上第一个把汉语自动地翻译成多种外国语的机器翻译系统,研究成果用法语在1982年的国际计算语言学大会COLING’82上发表,这是我国学者在国际计算语言学大会上发表的第一篇论文(Feng Zhiwei, 1982)。
1982年冯志伟从法国学成回国之后,用中文写了“汉-法/英/日/俄/德多语言自动翻译试验”的论文在《语言研究》上发表。全文长达56页之多,这也许是我国语言学刊物上发表的最长的论文,由于内容好,编辑部破例发表了这篇论文,这反映了我国语言学界对于计算语言学这个新学科研究的容忍、理解和支持(冯志伟,1982)。
1983年,冯志伟用中文写的“汉语句子的多叉多标记树形图分析法”,在《人工智能学报》发表,介绍了他提出的MMT模型,这是在我国人工智能刊物上发表的第一篇关于机器翻译的论文(冯志伟,1983)。MMT模型中采用的“多标记”(multiple-label),实际上就是当时国外学者提出的“复杂特征”(complex feature),MMT模型是世界上最早提出的复杂特征模型之一。
此后,我国研制了若干个机器翻译系统。主要有:
■ 译星1号英汉机器翻译系统:1987年,中国人民解放军军事科学院研制成功实用型全文与题录兼容的英汉机器翻译系统“科译1号”。这个系统的语言理论基础是董振东提出的“逻辑语义结构”(logic-semantic structures)。他认为,逻辑语义是机器词典中词典信息赋值的出发点,是机器翻译源语言(source language)分析的目标,是英汉语言转换的主要平面,因此,应当对逻辑语义给予特别的关注。源语言分析采用成分功能关系语法,分析与生成相对独立。“科译1号”系统的基本原理是:由源语言的线性结构出发,经过多层次的反复扫描和规则匹配,形成以动词为根结点,以逻辑语义项为主结点的多结点、多标记的树形图,最后,从根结点逐层展开,形成目标语言(target language)的线性结构,得到相应的译文。该系统于1988年由军事科学院转让到中国计算机软件与技术服务总公司(简称“中软公司”),改名为“译星1号”。“译星1号”在语言词典和规则方面作了大幅度的改善,在软件硬件的开发环境方面作了精雕细刻的优化,推向市场实现了商品化。这是我国第一个商品化的机器翻译系统,被列为我国1988年计算机界十件大事之一,1991年获国家“七五”攻关重大成果奖。后来,董振东又研制了“知网”(How-Net),建立了一个大型的语言知识库,成为了极其宝贵的自然语言的语义处理资源(Dong Zhendong & Dong Qiang, 2006)。
■ 高立英汉机器翻译系统:这是北京市高立电脑公司与中国社会科学院语言研究所联合开发的机器翻译系统,冯志伟也参与了该系统的部分开发工作。这个机器翻译系统以语言学公理和原则作为语言分析的理论基础,以智能化的机器词典代替传统的信息参数词典,使句法规则的共性与单词的个性相结合,使单词的意义与单词的参数和句法的规则相结合,整个机器翻译系统实质上是一个“词专家系统”(word expert system)。这个机器翻译系统还建立了基于常识的背景知识库,把语义分析与句法分析有效地结合起来,在抽象的形式分析中,充分地利用语义信息。由于机器词典与系统的运行程序彼此独立,用户可以通过词典维护程序来修改机器词典的内容,这样,用户就有可能在自己的使用过程中根据他们自己的需要,不断地修改和改善机器词典,不断地提高机器翻译的译文质量。高立英汉机器翻译系统地实现了商品化。该系统于1992年1月在北京新技术产业开发试验区通过了鉴定,先后获得北京市科技进步奖、新加坡INFORMATICS’92国际博览会计算机应用软件银奖和1992年第二届中国科技之光博览会电子行业金奖,并被列入火炬计划(冯志伟,1994)。
■ 智能型英汉机器翻译系统863-IMT/EC:这个系统是中国科学院计算技术研究所开发的,该系统从1986年开始研究,经历了理论探索、模型系统试验和实用系统开发等阶段,最终实现了商品化。该系统研究的内容包括语言学工程、翻译处理软件环境和知识处理环境三个部分,在语法规则中引入了上下文相关条件测试,实现了数据与操作一体化处理技术,提出了“子类语法”(Sub Category Grammar,简称SC语法)。在863-IMT/EC系统的基础上,中国科学院计算技术研究所与香港权智集团合作,投资1800万美元,建立了科智语言信息处理有限公司,后来又进一步发展成华建公司,专门从事机器翻译系统的开发(冯志伟,1996b)。
■ 英汉机器翻译系统Matrix:这个系统由国防科技大学于1994年研制成功。该系统的词典可根据用户的需要自行修改,并可独立于系统单独使用,还可以配上不同的专业词典,以满足不同专业用户的需要(冯志伟,1996b)。后来Matrix系统经过深圳桑夏公司进一步开发,发展成为Light系统,接着在深圳环球网络公司的支持下,开发出了用于互联网翻译的英汉自动翻译系统,受到了我国广大网络用户的欢迎。深圳环球网络公司开发的readworld(“看世界”)英汉自动翻译网站可以把互联网上的英文自动地翻译成中文,从而帮助中国网络用户通过网络观看世界,克服语言障碍畅游网络,这在上世纪90年代是难能可贵的创举。
■ 汉外机器翻译系统Sino Trans:这个系统由中软公司开发,包括汉英机器翻译系统和汉日机器翻译系统两个部分,于1993年9月通过了电子工业部主持的部级鉴定。该系统是国内外第一个能翻译汉语技术报告、论文、报刊文章、产品说明书等文字资料的机器翻译系统。该系统也是一个多功能的中文信息处理系统,可以进行汉语自动切词,词性自动标注、短语生成、汉语语法树生成、汉语-外语转换、外语生成等工作。由于其中的每一个模块都可以单独使用,该系统还可以为自然语言理解研究和基于语词的语言学研究提供帮助。该系统提出了汉语完全语法树(I-Tree)来统一表达所有可能出现的汉语陈述句型,并建立了属性制约原则和属性制约文法,因而研究者就有可能进一步通盘地来研究汉语的句法,不必再像传统的汉语语法研究那样只局限于使用简单枚举的方法来概括语言规律。完全语法树还清楚地表示了句子的自动分析和生成过程,明确在句子内可以递归的部分和可以递归的内容,为在理论上深入研究汉语理解的实际过程提供了线索(冯志伟,1997a)。
此外,哈尔滨工业大学计算机系研制了汉英机器翻译系统 CEMT,并通过了航天部组织的鉴定。东北工学院计算机科学与工程系研制了汉英机器翻译系统 CETRANS。冯志伟还根据他提出的MMT模型,独立开发了法汉自动翻译系统FCAT(冯志伟,1987)、德汉自动翻译系统GCAT(冯志伟,1990)和日汉自动翻译系统JCAT(冯志伟,1997)。我国还开发了一些可以在互联网上使用的英汉机器翻译系统,如北京阶梯信息工程有限公司的“阶梯译王”、天津大通通译计算机软件研究所的“通译Internet V2.0”等(冯志伟,1999a)。
上述机器翻译都是基于语言学的短语规则的,叫做基于短语的机器翻译(Phrase-Based Machine translation, 简称PBMT)(冯志伟,1999b)。
20世纪90年代,我国开展了基于大规模真实语料库的统计机器翻译(Statistic Machine Translation,简称SMT)的研制。21世纪初期开始,借助于互联网的发展,机器翻译进一步走向商品化,以IBM、微软、谷歌为代表的科研机构和企业,都相继成立了统计机器翻译研制团队,几年后,界上数十种常用语言的互联网机器翻译系统,迅速普及了机器翻译的应用场景,人们可以比较方便地使用机器翻译软件进行信息沟通(冯志伟,2018)。
2012年,微软公司的Rick Rashid(拉希德)在我国天津召开的“21世纪计算”上,现场演示了一个语音机器翻译项目,他用英语讲话,计算机同时把他的话翻译成汉语普通话。这是机器翻译从文本翻译拓展到语音翻译的标志性事件,引起轰动。此后微软等企业相继推出了实时语音机器翻译的产品。
2014年前后,随着计算机深度学习(deep learning)技术在语音、图像等领域取得成功,深度学习的方法开始在机器翻译中得到使用,统计机器翻译进一步发展成神经机器翻译(Neural Machine Translation, 简称NMT),显著地提升了机器翻译的译文质量。
神经机器翻译使用神经网络(neural net)直接把源语言句子转化为目标语言句子,具体地说,就是把源语言的句子表示为词向量(word vector),形成句子的分布式,然后利用解码器依次生成目标语言的单词序列,直到生成目标语言的整个句子为止。神经机器翻译过程是端到端(end to end)的计算过程,由于其内部是由基于词向量的数值计算构成的,难以从语言学的角度解释中间过程的计算机制,翻译过程还是一个黑箱(black box)操作。目前我国的小牛、百度、搜狗、有道等公司都采用了神经机器翻译的方法,翻译效果都远远超过了基于短语的机器翻译和统计机器翻译,机器翻译已经从梦想变成了现实(李沐等,2019)。
自然语言理解(Natural Language Understanding,简称NLU)是计算语言学的重要方面,我国在自然语言理解的研究中也取得了一些成果(周威成,2003)。
在计算语言学的研究领域中,我国的机器翻译是起步很早的,但是,我国自然语言理解的研究起步却比国外晚了17年。国外在 1963 年就建成了早期的自然语言理解系统,而我国直到 1980年才建成了两个汉语自然语言理解模型,都以人机对话(man-machine dialogue)的方式来实现。
■ RJD-80型汉语人机对话系统:该系统由中国社会科学院语言研究所的研制,(简称“RJD-80系统”),是基于语言学模型的人机对话系统,强调对语言结构本身的分析。1984年,中国社会科学院语言研究所又进行了“TK-84型汉语人机对话系统”(简称“TK-84系统”)的研制。该系统以铁路客运咨询为主题,存贮汉语单词200条,句型30多个,内容包括北京至东北几条铁路客运快车的到达站、中途站、开车时间、到达时间、车次、车种、车组等,也以人机对话方式来实现(刘根辉,2005)。这样的自然语言理解系统初步具备了一定的自动推理能力。
■ CLUS人机对话系统:该系统由中国科学院心理研究所研制,是基于“心理学模型的人机对话系统,强调模拟理解语言时的心理活动,注意语言意义的理解,也具备一定的自动推理能力”(刘根辉,2005)。
后来,自然语言理解的研究领域进一步扩大。山西大学计算机科学系建立了哺乳动物数据库,并开发了这个数据库的自然语言前端(natural language front end),用户可用英语与哺乳动物数据库系统进行人机交互。中国科学院心理研究所建立了一个适用于汉语篇章理解的记忆模型,该模型能够组织汉语篇章理解过程中所需的各种知识,并将系统的词典与知识库有机地结合在一起,初步建成了一个简单的汉语篇章理解系统。东北工学院建立了“中文句子及文本理解系统CTUS”,这是一个基于概念的汉语理解系统;清华大学建立了一个面向军事情报的汉语篇章理解实验系统 TUSMI,接着又建立了WPS汉语通用人机接口和学籍管理系统的汉语专用人机接口;南京大学建立了找水专家系统的汉语专用人机接口CNLIGW和汉语歧义分析模型系统CAAMS;吉林大学建立了石油专家系统 PRES的汉语专用人机接口 HRJ;北京信息工程学院开发了信息检索系统的汉语人机接口;中国科学院沈阳自动化研究所研制了汉语人机接口NLI-db3;哈尔滨工业大学研制了基于段落理解的汉语问答实验系统 CQAES-II(刘根辉,2005)。
近年来,自然语言理解着重地研究了智能问答,逐渐由受限领域问答发展成开放领域问答,开放领域问答包括问题分析、候选生成、候选打分、答案的合并与排序等过程。
除了文本问答之外,近来又出现了知识图谱问答、表格问答、社区问答等。文本问答基于文本检索生成答案,知识图谱问答基于结构化的知识库进行问题理解和答案生成,表格问答基于表格进行问题理解和答案生成,社区问答基于已有的问题和答案进行答案的检索和生成。如何在智能问答中引入图像、语音、视频等多模态信息,是当前自然语言理解领域研究的新热点(段楠 周明,2019)。
20世纪80年代以来,由于个人微型计算机的普遍使用,使得联机检索的用户从各种中间人转移到最终用户,即自己有微型机算机或者手机的经营者、专业人员和普通家庭,使得联机信息检索进一步提高其友善性和易用性,各种对用户友好的联机信息检索系统相继出现(冯志伟,1996b),自动信息检索(Information Retrieval, 简称IR)系统开始进入千家万户,成为了老百姓日常生活中的寻常事件。由于互联网和网络搜索引擎的发展,自动信息检索已经成为任何一个普通网民获取信息的基本手段。
我国从1963年开始进行机械信息检索的研究工作。1965年进行了机械信息检索试验。20世纪70年代以来开始研究计算机信息检索。1975年进行了首次计算机信息检索试验。1977年进行了计算机联机检索试验。
1983年在中国科学技术信息研究所建立了连接美国、欧洲主要国家的数据库联机检索系统,这个系统通过意大利的 ITALCABLE 分组交换中心,连接到欧洲空间组织的 ESA-IRS 系统,并由数据交换网转接美国的 DIALOG、ORBIT 系统,这样,我国就可以在北京利用通信卫星检索到欧美200多个数据库的几十万篇文献(冯志伟,1996b)。
当时,不少单位建立了各种中文文献库,有的单位研究了自动标引和自动文摘的问题。全国科技信息部门配备了大中小型计算机,建立各种科技文献数据库、事实数据库、数值数据库(冯志伟,2001)。
随着互联网和搜索引擎的普及,信息检索也更加受到普通老百姓的欢迎,联网搜索信息已经成为老百姓日常生活的一部分内容。
自动信息检索主要包括自动标引、自当文摘、文献自动分类、全文信息自动检索等内容。
■ 自动标引(automatic indexing):信息检索系统的核心工作是标引(indexing)。所谓“标引”,就是对所收集的文献给出其标识引导,如文献标题、作者名、分类号、主题词、关键词等。我国在20世纪70年代末期开始探讨汉语文献的自动标引问题,先后建立了一批试验性的自动标引系统。如上海交通大学研制的基于汉字部件词典的中文篇名自动标引系统,北京大学图书馆系研制的基于规则和词典的中文文献自动标引系统,中软件公司研制的基于非用字后缀表法的中文文献自动切词标引系统。
■ 自动文摘(automatic abstracting):文摘是文献内容要点的简要描述或指示。所谓“自动文摘”,就是利用计算机自动地编制和生成文摘。目前,自动文摘的方法基本上是建立在统计规律的基础之上的,要进一步的推动自动文摘方法的研究,必须对所摘文献进行词汇分析、语法分析和语义分析,并对结果进行综合,这些都需要对自然语言的词汇、语法语义规律进行深入的研究,充分地利用自然语言计算机处理的新成果和新方法,使自动文摘工作实现智能化。
■ 文献自动分类(automatic classification):所谓“文献自动分类”,就是利用计算机对一批作为实体或对象的文献进行分类。文献自动分类有利于文献的快速查找。20世纪60年代初,国外就开始了文献自动分类的研究。我国上海交通大学计算中心在IBM-5550微机上研制了一个试验性的中文科技文献自动分类系统,采用文献篇名作为原始分类对象,以加权的题中关键词作为分类的基础,统计分析了文献篇名中的关键词,归纳出大约300个基本类主题词,构成类主题词表。当时,用户利用这一系统在微机上对一篇文献进行分类所需的时间不到一秒钟,该系统对上海图书馆《全国报刊索引》收录的1000多篇有关计算机的文献进行自动分类试验,自动分类的结果与人工分类的结果有74%是相符合的。
■ 全文信息自动检索(automatic retrieval of full text):现行的信息自动检索系统,大多数都是检索文献目录库和文摘,这类检索系统所获得的信息有很大的局限性,如果用户在检索之后,还希望获得所检索出记录的全面而详细的信息,往往还要按检索到的文献索引号,再到书库中去进一步翻阅、摘引大量的原文文本,为了解决这个问题,学者们提出了“全文信息自动检索”,简称全文检索。全文数据库的建立和全文检索功能的实现是全文检索的两大技术支持。我国的全文检索研究开始于20世纪80年代中期。1986年,武汉大学开始接受国家教委文科博士点科研项目“湖北省地方志全文检索系统”,建立了“湖北省地方志大事记”和“中国人民解放军大事记”两个全文数据库。接着,北京文献服务处(BDS)研制了“基于自然语言处理的中文信息检索和处理系统CIRPON”,用于BDS的文献自动标引和文摘自动处理,文献标引的查全率和查准率大体上相当于手工标引的质量。1990年初,北京信息工程学院与人民日报社合作开发了全文检索系统Biti FTRS(Full Text Retrieval System的简称),对于《人民日报》进行全文自动检索。电子部计算机与微电子技术发展研究中心(CCID)中文信息处理开放实验室(CIPOL)研制了中文全文检索系统TIR,该系统可以对各种文本型资料和某些数据库的文件进行操作,能够检索一切输入文本,对原始文献里的字符无特别限制,可以处理各种通用的字符。(冯志伟,1996)
随着大量文献的出版和互联网的普及,文档的数量与日俱增。而且,大多数文档数据都是无序的、非结构化的,文档数据中不仅包含文字信息,而且还包含图像信息、图形信息、音频信息、视频信息。文档数量的急剧增加和多样化是对于信息检索技术的严重挑战(冯志伟,1996)。
我国在语料库语言学方面也取得了可喜的成绩。我国从20世纪70年代末期便开始建立语料库。从1979年到1992年,在我国建立的主要的语料库有:
■ 现代文学作品语料库(1979年),527万字,武汉大学。
■ 现代汉语语料库(1983年),2千万字,北京航天航空大学。
■ 中学语文教材语料库(1983年),106万8千字,北京师范大学。
■ 现代汉语语料库(1983年),180万字,北京语言学院。
■ 汉语新闻语料库(1988年),250万字,山西大学,包括4部分:
·《人民日报》:150万字,
·《北京科技报》:20万字;
·《电视新闻》(CCTV):50万字;
·《当代》(杂志):30万字。
■ 北大汉语语料库(1992年):500万词,北京大学。
(冯志伟,2001)
此外,国家语言文字工作委员会语言文字应用研究所还建立了英汉双语语料库,其中包括一个计算机专业的双语语料库和一个Plato(柏拉图)哲学名著《理想国》(Politeia)的双语语料库。在这些双语语料库上,他们进行了汉字极限熵的测定和双语对齐的研究(冯志伟,2001)。
1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,其规模为7000万汉字。这个语料库是均衡语料库,其语料要经过精心的选材,现已投入使用。
1992年以来,大量的语料库在研究计算语言学的单位建立起来,语料库成为了研究计算语言学的基本语言资源。目前,建设大规模真实文本语料库的单位有:《人民日报》光盘数据库、北京大学计算语言学研究所、北京语言大学、清华大学、山西大学、上海师范大学、北京邮电大学、香港城市大学、东北大学、哈尔滨工业大学、中国传媒大学、中国科学院软件研究所、中国科学院自动化所、北京外国语大学日本学研究中心、台湾中央研究院语言研究所(筹备处)。
例如,中国传媒大学的语料库包括文本语料库(7000多万字)、音视频语料库(900小时的音频和视频语料)和精品语料库(如著名主持人的节目、获奖节目的音频视频语料),这是世界上规模最大的、多模态的汉语传媒有声语言的语料库,语料库加工体系从语音开始,到文字、词语、句子、篇章都进行了标注和处理。
我国在20世纪80年代中期就建立了第一个英语语料库,即上海交通大学的科技英语语料库,简称JDEST(Jiao Da English for Science and Technology),这个语料库为我国大学英语教学大纲的制定和词表统计做出了积极的贡献。后来在我国建成的英语语料库还有:ICLE中国子语料库、中国英语学习语料库、大学学习者英语口语语料库、中国专业英语学习者口语语料库、CEC中国英语语料库、中学英语口语语料库等,这些英语语料库都为我国的外语教学和外语学习做出了贡献(冯志伟,2007c)。
双语平行语料库也有很大的发展。北京外国语大学中国外语教学研究中心研制了英汉双语语料库,北京外国语大学日本学研究中心研制了日汉双语语料库。此外,中国科学院软件研究所、自动化研究所也都研制了有一定规模的英汉双语语料库(桂诗春等,2010)。
汉语树库(tree bank)的建设也取得可喜的成绩。例如,清华大学的TCT树库、台湾中央研究院的Sinica中文树库、哈尔滨工业大学的汉语依存树库、中国传媒大学的中文依存树库、中国科学院计算技术研究所的汉语树库等,这些树库都成了计算语言学研究的重要的语言资源(冯志伟,2007)。
语料库建立之后,如何把“生语料”变成“熟语料”,需要对语料库进行加工,主要包括自动分词、自动标注等。为了推动汉语语料库的深入研究,我国建立了初步的分词规范。1990年10 月制定了国家标准GB-13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定语单词切分的原则,是汉语书面语自动切词的重要依据。在汉语语料库的自动加工中,我国的计算语言学研究取得了长足的进展(Feng Zhiwei,1995)。
我国在机器词典的建造方面也取得了可喜的成绩。在“七五”期间,北京大学计算语言学研究所建立了“现代汉语语法信息库”,在“八五”期间,北京大学计算语言学研究所把这个信息库进一步扩充为机器可读的《现代汉语语法信息词典》,中国人民大学语言文字研究所从1990年开始对于现代汉语常用动词的3000多个义项进行格关系(case relations)的描述,编制了《动词大词典》和《现代汉语动词大词典》,清华大学计算机系和中国人民大学语言文字研究所联合研制了《现代汉语述语动词机器词典》。这些成果是我国计算语言学研究十分宝贵的语言资源(冯志伟,2001;刘根辉,2005)。
在信息时代,如何把汉字输入输出计算机,成为我国计算语言学的关键性问题。
我国在20世纪60年代末期就开始对汉字信息处理进行探索和实践,1968年研制成汉字电报译码机,70年代中期明确提出“汉字信息处理系统”的研究课题,叫做“七四八”工程。1978年以来,中国开始广泛应用大规模集成电路存储器和成套的微处理机芯片,为汉字输入计算机提供了物质条件,研制成了一些新型的汉字输入输出设备,并配制成各种应用系统。汉字信息处理的研制成果已经在中国的现代化建设中发挥着重要作用(冯志伟,1997b)。
当时的汉字输入方法大致可以分为六类:编码输入法、整字输入法、拼音-汉字转换法、印刷体光学输入法、手写输入法、声音输入法等。这里着重谈谈编码输入法。
所谓“编码输入法”,就是给汉字规定一种便于计算机识别的代码,使每一个汉字对应于一个数字串或符号串,从而把汉字输入计算机(冯志伟,1997b)。
学者们提出的汉字编码方案已有近千个,其中上机通过实验和已被采用的编码方案也达数十种之多。这些汉字编码方案大致可以分为四种:
■ 形码:根据汉字的字形来进行的编码。如笔形编码法和五笔字形编码法。笔形编码法在笔画层进行编码。这种方法把汉字的笔画分为一(横)、丨(竖)、丿(撇)、丶(点)、┒(折)、┗(弯)、×(叉)、□(方)八类,分别用1、2、3、4、5、6、7、0等数字来代表,横、竖、撇、点为单笔,折、弯、叉、方为复笔。汉字代码是不等长码,最大码长为9码。五笔字形编码法在部件层进行编码。这种方法把汉字分解为部件,并把汉字的部件归并为664个,进行部件的优选,合理安排部件在键盘上的布局。平均码长为4码,使用高频字简码和词汇码后,平均码长缩减为2.8码(冯志伟,2001)。
■ 音码:根据汉字的读音来进行编码。音码一般以汉语拼音方案为根据,汉语拼音方案已有50多年的历史,1982年成为国际标准,国际标准号是ISO 7098, 2015年进行修订,国际标准号是ISO 7098: 2015。由于汉语拼音方案是以国际通行的拉丁字母字符集以及它们相近的发音为基础制定的,有利于国际交流。采用音码最大的困难是区分同音字的问题。汉字的音节不计声调共408个,而汉字的数目成千上万,这就必然导致大量的拼音同音字的出现,一个音节对应于很多汉字,汉语音节的歧义指数(ambiguity index)很高。现有的音码方案都把区分同音字作为主要的研究目标。例如采用以词定字的方法,根据汉语拼音正词法规则,在计算机中存储双音词和多音词数万个,按词输入,以词来定字,从而减少了重码(冯志伟,2001)。
■ 形音码:这种编码法基本上立足于字形分解,把字分解为部件和笔画,统称为字元(element),各个字元又通过它们的读音来帮助记忆。
■ 音形码:这是一种以音为主,以形为辅的编码,利用字形来区分同音字(冯志伟,1997b,2001)。
在20世纪70—80年代,汉字编码的研究出现了“万马奔腾”的局面,为了促进汉字编码的研究更加健康地向前发展,对已有的汉字编码方案进行了评测,以便优选出最佳的汉字编码方案。目前,拼音-汉字转换法已经成为最普遍的键盘汉字输入的方法,它逐渐地代替了形形色色的汉字编码输入法。汉字输入在手机通信中也得到了广泛的使用和普及(冯志伟,1997b)。
汉字输出也是汉字信息处理的难点之一。为了解决这个难题,“七四八”工程把能够输出高质量汉字的汉字照相排版编辑系统作为重点攻关项目。经过20多年的艰苦奋斗,取得了令人瞩目的成就。中国已经以计算机激光汉字编辑排版系统全面地改造了传统的铅字排版,在印刷技术上结束了“铅与火”的时代,计算机激光汉字编辑排版技术在推广应用上达到了普及的程度,中国自行研制的计算机彩色制版系统(冯志伟,1997b)已成为商品推向市场(冯志伟,2019)。
随着计算机汉字输入输出问题的解决,我国的汉字信息处理技术得到了多方面的发展,我国在汉字信息压缩、汉字自动识别、汉字信息通讯等多项技术上,也取得了显著的成就。
我国的汉字识别研究独具特色,采用选取汉字特征点和数学形态学的方法来提取汉字的结构特征,在印刷体汉字识别方面,我国已经研究出一批实用化、商品化的系统(冯志伟,1992)。这些系统一般都具有版面分析、文本识别、识别结果后处理、自动纠错、自动编辑、自动输出等功能。在手写体汉字识别方面,识别率已达到商品化的水平(冯志伟,2001)。
我国在语音自动处理的领域也取得了很大的成绩。1999年6月9日成立的安徽科大讯飞信息科技股份有限公司(简称“科大讯飞”)是一家专业从事智能语音及语音技术研究、软件及芯片产品开发、语音信息服务的国家级骨干软件企业。科大讯飞在语音技术领域是基础研究时间最长、资产规模最大、历届评测成绩最好、专业人才最多及市场占有率最高的公司,其智能语音核心技术代表了国际的最高水平(冯志伟,2018)。
语音自动处理技术实现了人机语音交互,使人与机器之间沟通变得像人与人之间沟通一样简单。使用语音合成技术可以让机器说话,使用语音识别技术可以让机器听懂人说话。语音自动处理技术的应用空间是非常广阔的。
计算语言学不仅有着重大的学术意义,而且,它对社会经济的发展也有着现实的或潜在的经济价值。我国政府对于计算语言学非常重视,投入了大量的经费(冯志伟,2009a)。
在国家重大基础研究发展计划973项目中,1999年至2003年国家科技部首批立项的重大基础研究发展规划项目“图像、语音、自然语言理解与知识挖掘”将计算语言学列为重要的研究内容。2004年国家科技部重大基础研究发展项目规划“数字内容理解的理论与方法”再次将计算语言学作为重要内容(冯志伟,2009c)。
国家863计划也投入了大量的资金用于计算语言学的研究。2002年的重大项目“奥运多语言智能信息服务系统关键技术及示范系统研究”突出以人为本的信息服务,通过网络手段对各国记者和观众提供综合、全面、多语种、可定制的信息服务,从而通过“科技奥运”实现了“人文奥运”的目标。
国家自然科学基金委员会也支持计算语言学的研究,先后设立了重点项目、一般项目和青年基金项目,研究范围不仅涉及到汉语、蒙古语、藏语、维吾尔语等语种的语料库建设和语义分析等基础问题,还涉及到文字输入法、机器翻译、自动文摘等应用问题,对自然语言的词汇、句子、语义、篇章等方面进行了有效的探索(冯志伟,2009b)。
国家哲学社会科学规划办公室也立项支持计算语言学的研究,设立了相应的社会科学基金研究项目。2003年立项的“计算语言学方法研究”,总结了国内外的计算语言学方法,使之系统化,理论化,具体化(冯志伟,2010)。
可以看出,国家对于计算语言学的大力支持,促进了我国计算语言学的发展。国家在我国计算语言学的研制和发展中,起了举足轻重的作用。
目前,我国的计算语言学研究已经取得了显著的成绩。语料库技术得到了充分的发展,建立了一批具有重要影响的语言资源库,面向信息处理的汉语基础研究有了长足的进展,理论成果初见成效,应用技术开发蓬勃发展,产业化进程硕果累累(冯志伟,2009c)。
我国开发的这些语言资源库和自然语言处理系统中,部分技术已经达到或者基本达到实用化水平。例如,机器翻译系统、智能问答系统、各种类型的汉语语料库、汉字输入系统、汉字激光排版系统、搜索引擎等。
许多新的研究方向不断出现,在实际应用的驱动下,自然语言处理技术不断与各种新技术相结合,开发出越来越多的实用技术。例如,网络内容管理和监控的研究,不仅与自然语言处理技术有关,而且与网络技术、情感计算、图像理解等技术有关;语音自动翻译技术涉及到机器翻译、语音识别、语音合成、语音通讯等多种技术(冯志伟,2009b)。
由于现实的自然语言极为复杂,不可能直接作为计算机的处理对象,为了使现实的自然语言成为可以由计算机直接处理的对象,在计算语言学众多的应用领域中,我们都需要根据处理的要求,把自然语言的计算机处理抽象为一个“问题”(problem),再把这个问题在语言学上加以“形式化”(formalism),建立语言的“形式模型”(formal model),使之能以一定的数学形式,严密而规整地表示出来,并且把这种严密而规整的数学形式表示为“算法”(algorithm),建立自然语言处理的“计算模型”(computational model),使之能够在计算机上实现。在自然语言处理中,算法取决于形式模型,形式模型是自然语言计算机处理的本质,而算法只不过是实现形式模型的手段而已。因此,这种建立语言形式模型的研究是非常重要的,它应当属于计算语言学的基础理论研究(冯志伟,2009c)。
由于自然语言的复杂性,这样的形式模型的研究往往是一个“强不适定问题”(strongly illposed problem),对于这样强不适定性问题的求解,应当加入适当的“约束条件”(constraint conditions),使问题的一部分在一定的范围内变成“适定问题”(well-posed problem),从而顺利地求解这个问题(冯志伟,2014)。
计算语言学是一个多边缘的交叉学科,因此,我们可以通过计算机科学、语言学、心理学、认知科学、人工智能、生物学等多学科的通力合作,把人类知识的威力与计算机的计算能力结合起来,给计算语言学的形式模型提供大量的、丰富的“约束条件”,从而解决计算语言学中的各种困难(冯志伟,2017)。
法国著名数学家J. Hadamard(阿达玛)曾经说过:“语言学是数学和人文科学之间的桥梁”,今天,我们可以进一步说:“语言学是自然科学、思维科学和人文科学之间的桥梁”。古老的语言学已经改变了它在整个现代科学体系中的地位,正在成长为一门带头的科学(冯志伟,2007b),成为现代科学技术研究的一个热点,计算语言学也成为了人工智能技术的语言学支撑,成为了人工智能研究中的一个举足轻重的学科。
由此可见,中华人民共和国成立70年来,我国计算语言学取得了辉煌的成就。展望未来,任重道远,我们还要继续努力。