中文信息处理中的歧义问题分析

2017-08-14方玉萍

科技传播 2017年13期

关键词：分析

方玉萍

摘要中文内容中的歧义问题一直都是语言学中的一个重点研究内容，同时也是将中文语言与计算机信息处理技术相互融合的一个难点所在。随着我们对中文信息处理相关问题的深入研究，我们也逐渐发现了新的问题。这给中文信息化处理工作带来了极大的障碍。为了更好地理解并有效地解决这一问题，我们将中文信息处理中存在的问题专门拿出来进行探讨。通过对歧义问题的处理，从而就目前存在的歧义的原因进行分析并提出相关消除歧义的方式方法。

关键词中文信息处理；歧义问题；分析

中图分类号 TP3 文献标识码 A 文章编号 1674-6708（2017）190-0058-02

人们将信息技术的发展引入到与中文信息的处理中，不仅能够有效地提升工作效率，同时还能够更好的对中文进行研究。然而在实践过程中我们发现，虽然信息技术能够很好的对中文进行信息转换，然而在面对中文中存在的歧义问题时，仍然会出现一些问题。比如在特定的中文信息环境中，对语言信息的处理不恰当的现象。虽然这种歧义一直存在，但是它产生的影响相对较小。主要原因在于人们会自发的通过语言环境，背景以及常识进行有效地结合。从而在不同的歧义含义中找出最为正确的答案。相较于信息技术对于中文信息处理中存在的歧义，正是缺乏这种环境、背景、常识的引入所导致的。因此，我们可以通过这种方式来寻找解决方法。从而帮助计算机在处理中文信息的过程中减少歧义问题的发生。

1 中文信息处理的概念

关于中文信息处理的概念性的表述可以理解为通过使用计算机的信息技术来将中文中涉及到发音、字形以及含义等相关信息的内容进行处理和加工的方式[1]。中文信息处理方式是综合了语言学、计算机信息技术、声学等多种学科的综合性的技术概念。通过将计算机信息技术引入到中文研究中，不仅有效地提高了对中文的含义表述的工作效率，同时还能够实现多方面、多层次的处理手段，从而使中文的表述以及含义理解更加具体。

2 中文信息处理中对歧义问题研究的发展

随着在中文信息处理过程中歧义问题的不断发生，对于“消歧”的工作也逐渐受到更多的重视，尤其是在信息技术发展的迅猛阶段[2]。对于“消歧”工作的科研学术报告已达到近百篇。不难看出，自从对于信息处理过程中的歧义有了定义后，“消歧”工作的研究和开展已呈现出一个明显的上升趋势[3]。同时，“消歧”的研究内容也在不断的拓展，从中文内容中的各个方面开始逐步进行了研究。使研究内容不仅具有全面性更有交叉性。

3 目前存在的主要歧义问题

通过对中文信息处理过程中的歧义问题的分析，在对歧义问题进行研究和探讨时，我们通常会将中文中的歧义问题以其具体发生歧义的情况为准，分为：结构歧義、词义歧义、分词歧义、其他类型以及不明确限定的歧义类型。在其他类型的分类中还包含着对于词语词性的歧义分析、短语边界的词义分析、文字信息所反映的词义分析以及缩略语句的歧义问题。

4 消除歧义问题的方法

4.1 处理歧义问题的策略

1）在对中文信息处理中的歧义问题的处理过程中，我们在研究过程中主要是两方面的工作内容，一方面就是对目前存在的歧义进行定义，另一方面就是对歧义进行类别区分。

2）在研究的过程中，会针对歧义出现的规则进行对消歧工作的开展。在2005年前对于歧义问题的分析处理中，着重以歧义出现的规则为主要的主导研究方式。后来这种方式慢慢被人们所摒弃，成为消歧工作的偏门手法[4]。

3）通过大家对消歧问题的不断研究，逐渐对消歧工作产生了新的工作方式，这种方式是基于规则的策略下有效的结合了统计的方式。通过二元数据的分析，对所使用的方法进行评估。随着大家对这种消歧方式的使用，越来越多的人开始认可统计策略带来的消歧工作的高效率。因此，统计方式逐渐成为了消歧手段中的主打方式。

4）随着知识被不断的积累，知识库的建立。以知识库作为信息技术处理基础的方式也被大家认可，并产生了一定的积极的作用。随着知识库的不断发展和完善。能够使研究者更好的结合统计策略和规则策略对消歧问题做出更好的处理。

人们不断地对歧义问题和消歧问题进行研究，相信会有更多的消歧方式出现，并加入到消歧方式之中对目前的消歧工作提供有效的补益。

4.2 处理歧义的方式方法

1）随着对歧义问题的研究逐步发展成熟，语料库的发展也逐渐的完善。因此，通过语料库对歧义问题进行评测已成为目前研究的主要趋势。

目前所要面对的问题就是，对于歧义的规则和知识库的信息内容需要有人进行不断地完善和筛选。同时，这个工作并不是短期内就可以结束的工作，它需要相关人员进行长期的工作。于是研究者想出了相对较为简单的方式，通过对语言进行收集并加工，将语言资源做成语料库，通过不断地实验对计算机进行训练，使计算机自发的通过语料库的信息处理来消除歧义，并对消除歧义的方式进行评测。实现评测的依据是根据大量的数学内容和统计学的方式，而计算机正好具有数据处理的优势，所以这种方式的应用被迅速的推广开来。

2）在研究过程中，机器引导学习的算法取得了一定的效果。如果有监督机的话还需要标语料。然而这种方式对人力物力的需求量较大。所以无监督的学习方法逐渐进入了歧义研究的领域。通过自动匹配语料库中出现的消歧义的信息，从而消除信息内的歧义信息[5]。然而有监督的消歧方式和无监督的消歧方式之间的差异仍很明显。尤其是对于目前网络信息中出现的新的语料问题。将歧义有效的转换为两种语言对应的语句的计算问题也成为我们需要继续研究的方向。

3）信息技术的发展必然带来计算机运算方式的更新，随着计算方式的不断更新，必然会对消歧产生一定的积极作用。不仅能够在一定的范围内提升消歧的效率和准确率。同时还能够在目前消歧所使用的现有算法的基础上对其进行改进。

5 对于消歧工作的思考

在计算机信息技术迅猛发展的近30年的时间内，我们对消歧的研究主要在于消歧所使用的策略方法。通过不断的实验和研究，也得出了目前较为实用的消歧方式。尤其是概率统计的方式已成为消歧方式的主要手段，将消歧工作的效率推向了一个新的层次，然而之后却再没有明显的超越。因此，我们的研究必须进一步的发展。第一，在研究歧义问题的过程中我们必须紧密的结合语言发展的方向以及科学技术。从而更进一步的加强对应的理论依据和模型计算的方式。第二，在研究歧义问题的过程中，我们还需要对语言知识面做进一步的扩展。从语言的心理认知的方向都对歧义问题进行研究。从而看看对于歧义问题的处理能否有新的收获。第三，在前期的研究中我们得出统计方式和结构方式的歧义问题处理已成为主流，而在不断的发展中，这两种方式也呈现出了不断融合的态势。第四，在研究过程中，还需要不断的借鉴国外对信息处理中的歧义问题的解决方式。第五，建立标准数据集，从而更好地引导中文信息处理工作。

6 结论

在信息处理过程中的歧义问题本就是语言处理技术在发展过程中的必然存在，因此，我们需要不断的进行研究和分析。从而更加清晰的掌握目前在中文信息处理过程中产生的歧义。

参考文献

[1]张禄彭，易绵竹，周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报，2012（4）：73-84.

[2]温唱.基于树形结构的中文分词方法的研究及实现[D].北京：华北电力大学，2013.

[3]方昌健，王有权.基于规则和上下文语境的交集型歧义消解算法[J].科协论坛（下半月），2012（6）：112-114.

[4]尹倩.基于语境信息的中文分词交叉歧义处理方法[J].重庆工商大学学报（自然科学版），2016（5）：20-24.

[5]魏莎莎，熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息，2010（30）：190-192.