APP下载

分析自然语言的计算机处理过程中的歧义问题

2021-12-06吴钟健

科技信息·学术版 2021年29期
关键词:计算机

摘要:计算语言学是计算机对人类自然语言利用的全新领域,通过相关研究发现,计算机利用英语和机器翻译过程中会出现歧义问题,需要将相关知识作为基础,进而对高质量的机器翻译系统开发。本文从计算语言学及其发展入手,讨论自然语言处理过程中存在的问题,阐述如何解决歧义问题,希望对相关研究带来帮助。

关键词:自然语言;计算机;歧义问题

自然语言处理(NLP)是人工智能领域主要的研究方向,在利用计算机的过程中会存在自然语言非规范性、歧义性等影响,需要专业知识与通过一定的推力能力实现语言理解,这也让自然语言处理面临极大的挑战,以下进行相关分析。

一、计算语言学及其历史

计算机语言学是语言学研究的一个分支,通过计算机和语言学的结合可以辅助分析以及处理英语、汉语、日语等本族语言,进而对自然语言处理系统设计和加工。在技术层面看,计算机对自然语言起到了多方面的辅助作用,具体说来:其一是连接了计算机软件和自然语言,当前已经证实通过麦克风向计算机咨询商业航班;其二是借助计算机检索和更新资料,比如对报刊和相关文章进行浏览,之后进行索引,进而快速的计算文章中语句、词汇等出现频率,也可以分析文章的语法;其三是实现了机器翻译,如今的计算机可以将文章从某种语言翻译成另一种语言。上世纪50年代世界计算机领域的研究人员开始分析计算机语言,并且在信息检索预计机器翻译领域取得一定的成绩,比如50年代末期,美国、俄罗斯与欧洲的学者都认为随着科技的发展短期出现高质量的机械翻译,然而10年过去依旧未能实现。美国科学院曾发表了自动语言处理顾问委员会的报告,认为当时的资源尚不能解决机器翻译方面的资源问题,需要关注语言处理中更多基本的问题,只有对这些问题解决才能建立翻译机器,然而机器翻译远远比想象中的困难。随后世界很多先进国家在该项研究中的实验室数量减少,政府也很少提供长期研究的资金。语言学家也将研究成果用于其它领域,比如分析语言成分出现频率,然后在文学文体研究中得到了利用,之后在信息检索中利用自动化语言分析[1]。

进入80年代,对机械翻译的研究热潮再次响起,该阶段的研究方法略不同于50-60年代,人们普遍认为主要的研究成就来源于日本,这也侧面指明了语言学与软件技术的发展联系不大,和计算机规模与发展速度关系不大,更多的和人们欣赏独创性有关,进而促进机器翻译初步成功。该阶段蒙特利尔大学研发了气象系统,受到了社会的广泛关注,这个系统为货运公司、航空以及有关机构提供法语翻译,部分机器生产商发现技术员使用特定的语言,之后对模式仔细规划,这样就可以对机构内部维修说明书自动翻译[2]。

二、NLP过程中存在的问题

(一)计算机在使用语言过程中出现的难题

计算机具有强大的功能,但是不能对英语这种简单的语言利用,比如对于美国、英国等群众来说英语是十分简单的语言,尽管计算机有着强大的性能,但是人们使用语言要比计算机更为复杂,比如为盲人提供阅读机器,需要先把书面的符号转化为语音,这是一项复杂的工作,即使计算机可以对词典中每个词汇的读音掌握,在实施的过程中依旧存在很多的难题,比如说“read”可以读成“reed”、“red”,这时机器不会分析在哪种情况下才是正确的读音,机器并不能懂得在每一种情形下哪个读音才是正确的呢?假设机器遇到如下句子:The boys will read the book(reed),这时就可以进行程序的编写,让read出现在will后面时读“reed”,出现在have后时读“red”,不过这样又会带来以下问题:①Will the boys read the book? (reed)②Have any men of good will read the book? (red)③Have the executors of the will read the book? (red),在①中,尽管will和read不挨着,但是依旧读成read;在②和③中,will和read挨着,但是read读成“red”。如何通过程序的编写才能让计算机正确读出,关键如下:其一是计算机需要明确在①和②中will、have 是助动词,是对read的修饰,所以需要分析阅读这个词汇是发生在过去还是将来,需要告知计算机“reed”在助动词will之后读“reed”,如果在助动词have之后读“red”即使will、have的位置在语句中不相邻。Will也是助动词,是对reed的修飾,所以读“reed”但是在②和③中Will不是助动词,read修饰have,所以读“red”,那么机械如何进行识别,只通过一个单词无法区分,这是由于Will在①和③中用法一样,需要计算机对文章中语法进行分析,之后组成短语,分析词汇属于哪一类,究竟是名词还是动词,所以工作更加简单[3]。

初中生都知道如何区分哪种条件下读“read”、“reed”或者“red”,但是机器不确定,需要进行细致的分析。上述问题无伤大雅,但是在计算机中的人类语言里,不管是盲人阅读还是自动电话系统都会出现这一问题。以上例子只是无数疑难问题的一个表现,这些疑难问题需要学者进行语句分析和开发,以往的30-40年人们对句法的理解也帮助了了解语言结构,帮助人类首次对人类自然语言通过机器翻译出来。但是这种简单的语言运用也需要计算机编入语言程序,人们不论是阅读、写作还是聆听与对话也需要对这种问题解决,但是人类就可以轻松解决,甚至在不经意间就完成。随着心理学和神经学的发展,人们对如何理解这些任务有了更深刻的理解。此外,深入理解语言机构也有利于提升计算机的智能性,可以说明的是,对于语言处理来说,即使计算机十分先进也不能和人类大脑比拟[4]。

(二)机器翻译中的歧义问题

对于计算机的翻译歧义问题来说,其中包括了诸多的因素,比如词语有着多重语义,句子中有多种语法,代词指代不明确,计算语言专家需要进行可以识别词性或者语法的系统,在机器翻译中的歧义问题可以在以下方面说明:“我用望远镜观察操场上的那个运动员”,该句中计算机不能确定望远镜是我的还是运动员的,或者是运动场的。当消防员说“你的汽车旁边有一堆易燃垃圾,你得把它处理掉”,所以需要处理汽车还是易燃垃圾,人们的理解不同,行动也会不同,这些歧义会对口语或者书面语言歪曲。人们对语言歧义普遍不在意,这是由于人们已经有了足够的知识,可以根据上下文分析,但是计算机却不能做到这一点[5]。

对于翻译问题来说主要存在如下误解:一方面是翻译不需要利用语言知识。另一方面是翻译的过程中不需要保留原意,这也导致了人们普遍认为计算机进行语言翻译是简单的工作,比如说“警察拒绝给学生发放许可证,因为他们害怕暴力”,如果将语义放在法语中“(police)警察”这个词汇是阴性的,如果用“(advocate)提倡”代替“feared”,好像是指学生,那么翻译结果就会明显不同。这个结论得到只需要理解学生、警察等常识与关系就可以分析。

比如在法语中,Ou voulez - vous que je me mette?这句话的意识是“你想把我放在哪里?”如果翻译为“你想让我坐在哪里?”、“你想让我在哪个位置签名?”、“让我把船停在哪里”也无可厚非。一般情况下,很多的语言就像法语,代词中需要区分数量,汉语中的名词不需要区分复数,再如日语中可以将代词省略,而俄语中部存在冠词,德语的语序更加多样,难以区分其中的主语,所以翻译是一项复杂的工作,计算机进行语言的翻译难度更大[6]。

三、如何解决歧义问题

从逻辑关系来看,自然语言是机器智能化的基础,而自然语言理解的主要障碍就是消除歧义,这一过程中需要开展诸多工作。要想解决歧义问题并找出其中的答案,需要以知识为基础、以统计为基础,从这两个方面入手并将知识作为解决方法,需要系统开发人员对知识进行编码,通过程序代指内容,比如消防员警告的语句中,需要掌握汽车与废物之间的价值关系,废物和丢掉两个词汇的联系,之后对以上内容编码,该方法更加接近人类对语言的处理方式,所以更容易取得成功。不足之处在于编码是一项庞大的工程,并且利用已有的知识进行编程效率很低。以统计学为基础的方法中,需要对大量的语言库和注解资料搜集,之后逐渐消除歧义带来的不利影响,也可就是计算歧义后得到想要的结果。比如人们收到三个一组的词语、介词、名词组合,在语料库中会发现相比man、with的组合更为常见,这种组合的优势在于利用语料库可以自动的完成预定任务,不足之处是对这种带有注解的语料库制作需要很大成本,需要具备对上文的洞察力,并且在分析的过程中可能出现错误[7]。

(一)关系映射歧义消解算法

在网络技术不断发展的背景下,网络中的信息海量增加,对于自然语言中的歧义问题,长期利用关键词:模式匹配的搜索引擎技术,不过在信息的不断增加下这种技术缺陷开始暴露出来,比如信息组织混乱问题,导致查询的代价过大,再如关键词:匹配不能理解用户问题,无法准确的体现检索需要。所以近年来对于非结构化及半结构化信息出现了大量结构化数据集,YAGO就是一种的代表性数据集,其在Wikipedia中抽取了海量数据,之后结合WordNet构建的本体,如今在YAGO本体中的国家、城市、地名、机构、人物等实体超过107个,使用RDF三元组的形式表示全部知识,其中主要包括两种方法,其一是实体映射歧义消解,其二是关系映射歧义消解。有研究发现,该算法从自然语言向SPARQL语言映射过程中的正确率高达到81.3%,说明了该算法靠性较高[8]。

(二)基于语料库的方法

这种方法就是研究人员大量标注语料的基础上考察已经标注的意向文本,然后得到和将要考察词义项相关的参数和数据,之后通过得到的数据和参数标注目标词义项,比如说汉语当中的“单数”,该词汇有不同的义项,一方面是指1、3、5、7等正奇数,另一方面是指语言当中的单一数量,所以在开始阶段需要搜集包括单数的句子,然后标注词性,在上下文中进行参数提取,考察过程中需要列举包括单数的新句子,然后通过新句子上下文以及已经标注词性的句子上下文进行分析,不过这种基于语料库的方法进行参数提取期间需要对较多语料人工标注,并且参数也需要大量计算,此外标注人员自身的语言水平也会对消除歧义的准确率受到影响[9]。

(三)基于词典释义的排歧方法

这种方法就是借助词典条目的解释,以此分析多义词释义和语境之间的交集,也就是通过词典释义分析词汇的相关程度,比如在汉语词汇中X是个多义项,在词典中X的每个义项都对应了不同的释义,X在某个具体语境当中出现时利用上下文出现的词汇可以判断其特征词,并且每个特征词在词典中的释义有所不同。在分析X在具体语境当中的义项时也需要计算交集,这种排除歧义的方法依赖词典,而词典需要对词语释义精炼概括,导致在复杂的自然语言环境下不能充分应对。

(四)基于词类分析进行排歧的方法

词义在当代汉语当中需要应对不同词类,所以需要分析多义词的词类,这样就能解决词类的歧义问题,比如干净的“净”,用于形容词表示为洁净、没有剩余,用于动词代表洗刷干净,用于副词代表单纯,用于名词代表戏曲中的角色。比如“地上净是水”这一句当中用于副词,这种排除歧义的方法由于词汇自身义项较多,所以判断难度较大。整体来看,在汉语当中词性和句法的成分也未能形成相对应关系,导致难以解决词性分析的问题[10]。

四、机器翻译系统的构成

尽管多数的机器翻译系统都存在差异不过在已经投入系统的部分都可以作为教科书中的章节名称,并且在系统中都对语法、句法、语义、形态的组成成分进行了设定。源语和目的语这两种语言都可以找到某个特定的部分,进而对语句中的基本词汇、复杂词汇、句子、语义进行分析,在翻译的过程中单独成分载入另外成分中,然后到词语链的最后成分中,由此对目的语的某个句子或者体现成分概括。载入转换成分,这是专门为两种语言而设计,首先可以对源语的体现形式概括,之后转化成目的语,在转换的过程中翻译系统利用语言关系或者中间语把转换的部分分成两个阶段,其中第一个阶段将源语言翻译成中间语,之后将得到的结果概括成为目的语。

五、自动分词深度学习模型

(一)Bi-LSTM模型

在深度学习系列模型当中,循环神經网络是一种用于序列标记的人工神经网络,这种模型适合用于词性标注、自动分词、实体识别等自然语言处理的任务中。从模型理论上讲,循环神经网络可以对不同自动分词特征依赖关系属性加以学习,不过在自动分词模型训练期间,随着时间顺序推移循环神经网络自动分词的深度也在加强,一旦循环神经网络自动分词层数达到临界值容易造成梯度下降。LSTM可以解决这种问题,在汉语自动分词当中LSTM结合了记忆单元,并且引入门控制器,对自动分词模型训练当中的历史信息保留或者舍弃。通常来讲,单个LSTM神经网络神经元涵盖了单个记忆单元,在自动分词当中对应了信息输入门、分词相应信息输入门以及分词相应信息遗忘门,分别对分词信息、输入输出进行控制。

(二)Bi-LSTM-CRF模型

在构建汉语自动分词模型过程中,尽管通过LSTM模型能够达到良好的分词顺序效果,不过中文自动分词这种输出标签之间对于顺序标记问题较为依赖,并且softmax激活函数只能分析当前汉语字分布狀态特点,无法关联汉语字前后特点。所以LSTM模型当中的汉语自动分词模型性能受到一定影响,为解决这一问题,CRF模型应运而生,可以将LSTM模型当中的soft max层去掉,之后实现LSTM模型融合CRF模型这种组合,保留了LSTM考虑汉语字上下文信息特性并且借助CRF层对整个汉语自动分词观察顺序状态标记当中的联合条件概率分布进行了计算。

六、结论

综上所述,在心理学、语言学和计算机等领域中的发现为机器翻译提供了巨大的便利,而随着人工智能技术的发展,也为自然语言的翻译提供了更多便利,如今语言专家对相关的研究也更加深入,其中心理学专家认为假设人脑是生物计算机,可以对大脑理解的以及产生的语言原理掌握,并且可以作为计算机工作模式,之后进行机器翻译系统的研究,不过能否实现翻译质量的提升依旧是今后研究的重点。

参考文献:

[1]杨凡,任丹.基于知识图谱的自然语言中歧义字段切分系统设计[J].现代电子技术,2020,43(1):44-47,52.

[2]陈倩,乐红兵.基于改进Trie树的歧义消解方法[J].计算机与数字工程,2020,48(9):2238-2243.

[3]姚建华,李佳,徐雯丽.第五讲化学结构的歧义性及其计算机表达方法[J].上海化工,2019,44(8):8-10.

[4]徐兵,石少青,陈超.基于自然语言的中文地址匹配研究[J].电子设计工程,2020,28(16):7-10,16.

[5]宋一凡.自然语言处理的发展历史与现状[J].中国高新科技,2019,22(3):64-66.

[6]侯圣峦,费超群,张书涵.面向中文的修辞结构关系分类体系及无歧义标注方法[J].中文信息学报,2019,33(7):20-30.

[7]陆正扬.基于计算机自然语言处理的机器翻译技术应用与简介[J].科技传播,2019,11(22):140-141.

[8]郭蕾.基于自然语言处理的英语翻译计算机智能评分系统设计[J].现代电子技术,2019,42(4):158-160,165.

[9]Meesad P .Thai Fake News Detection Based on Information Retrieval,Natural Language Processing and Machine Learning[J].SN Computer Science,2021,2(6):1-17.

[10]Bi S .Research on English Translation of Computer-aided Classics Based on Natural Language Processing[J].Journal of Physics Conference Series,2020,1550:032036.

作者简介:吴钟健,(1981-)男,本科,华云天下(南京)科技有限公司。

猜你喜欢

计算机
我和《微型计算机》 MC读者心声
中国计算机报202007、08合刊
中国计算机报2019年48、49期合刊
中国古代的“计算机”
注重“三引导”推进计算机基础教学
电脑的跨越
电影中的牛气计算器
随“声”随意 欧凡OA-G10 2.4G无线耳机
一体式,趋便携雅兰仕AL-225
计算机:看我72变等3则