半监督算法在自然语言处理中的应用研究
2019-06-11黄春
黄春
摘 要:随着科学技术的发展进步,机器学习方法在自然语言处理领域已经得到了广泛的普及与应用。半监督算法作为其中一项重要方法,具有更一般的假设,方法更加直观,解释性好,因此在自然语言处理中有着广泛的应用。本文以半监督算法在自然语言处理中的应用为研究对象,首先分析了半监督算法在自然语言处理中应用必要性,随后探讨分析了半监督算法的一些具体应用方式。
关键词:半监督算法 自然语言处理 应用
中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2019)02(c)-0131-02
通过总结半监督算法在自然语言处理中的应用,对于促进半监督算法推广应用普及具有重要的意义。
1 必要性分析
有监督学习算法是当下自然语言处理中应用的一种主流算法,该方法在句法分析、词性标注等方面均有着良好的应用效果,在机器翻译、情感分析等领域叶达到了非常高的水准。此外,有监督学习算法在其他领域中也有着非常重要的应用,有效推动了诸如图像处理识别、垃圾邮件识别等领域的发展。但该方法在实际应用时也有着一定的局限性,例如需要依赖大量的标注数据,而这些数据标注工作通常需要相关人员采取人工方式进行,因此工作量较大,耗费时间人力成本较高。当遇到标注语料缺乏问题,将会严重限制该方法应用效果。另一方面,在我国自然语言组成中,有很多少数民族语言,例如壮语、蒙语、藏语等,这些语言应用相对较为“小众”,语料资源比较匮乏,因此严重限制了有监督学习算法在这些语言中的应用。此外,即使针对一些应用比较广的语言,例如汉语、英语等,在某些实际应用中也会出现标语语料获取难度大等问题,同样严重应用效果。以构建统计句法分析应用树库为例,该任务由于难度较大,当前只有汉语与英语有专门的大规模标注树库(宾州树库),而阿拉伯语与俄语虽然实际应用范围也比较广,但由于标注树库规模较小,有监督学习算法对于这些语言句法分析依然难以得到有效应用。基于此,为使得语料匮乏的自然语言处理任务问题得到妥善解决,有必要对半监督算法进行研究分析。半监督算法作为当下机器学习语言的重要方法,主要研究如何同时利用标记数据与无标记数据获得更好的语言学习性能,达到满意的应用效果。
2 半监督算法在自然语言处理中的应用
2.1 应用于无向图建立
半监督算法在实际的语言处理过程中,无法直接训练出固定的模型。原因在于面对大量任务同时存在的情况,该算法需要对文档中词汇的特征进行逐一提取,难度较大。为避免出现数据稀疏问题,在应用该算法进行知识检索过程时,需要围绕全部数据,建立一个无向图。具体而言,每一个数据点都各自由一个点来代表,若两点之间具有一定相似性,则利用连接线来具体体现。然后通过设置X,用于表示无向图中连接线的权值矩阵,其中针对数据点j与数据点k之间連接线权值,用xjk表示。若上述两点之间不存在连接线,那么xjk=0。我们可以假设邻近数据点为L,数据点k在数据点j的邻近区域中,那么可得xjk=1。我们通过利用高斯核的方式对上述关系进行核对并描述,可得出如下结论:
在上述分析的基础之上,在流形条件下,引入半督学习算法。流形条件具体是指:当数据样本的数据复杂度较高时,将这些复杂的数据在数据复杂度较低样本中来进行存储的一种条件。基于此,若该条件假设成立,那么在实际进行自然语言处理时,即使面对数据复杂度相对较低的空间,也能够实现知识的有效检索。总的来说,通过应用半监督学习算法,可以有效降低自然语言处理各种局限性的影响,尤其是针对数据复杂度过高的局限性,可有效改善这一局限性问题,彰显了半监督算法的应用优势。
2.2 应用标记传播法降低自然语言处理知识检索的难度
标记传播算法是一种比较典型的半监督学习算法,该算法对流形假设进行了充分的利用。主要是在所有样本的基础之上,通过构建K近邻图或完全图,对于图中标注样本标签而言,可以使其在未标注样本之上进行传递。如果两个样本点之间有着较高的相似度,则说明越容易传播。在上述过程中,有标注数据标签会保持不变,而未标注数据标签则会不间断地进行更新。借助该方法,可以有效简化无向图,降低在自然语言处理过程中知识检索的复杂度与难度,提高处理效果。
基于上述的分析可知,通过应用流形假设,在实际进行数据处理分析的过程中,能够有效获取与数据样本相关的邻近区域的图谱。并且针对获取的无向图来说,也有着非常高的完整性,更有利于处理效果提升。与此同时,在图中,我们还可以做出如下假设,在所有数据样本中,存在一部无数标注数据样本,这些样本标签可以传递到其余数据样本中。如果数据样本有着非常高的相似度,那么在实际进行样本传递时,难度将会大大降低,并且在传递过程中,样本的标签也不会发生变化。但对于无标注数据样本而言,自身标签会完成数据更新。在实际进行无向图建立过程中,针对两个数据点而言,他们的相似度可以进行自定义设置,针对数据样本之间的标签传递,也可以进行标签传递概率矩阵的构建,设置矩阵大小可用如下公式表示:,结果可得:
我们可以通过利用上述方法,来完成无向图的构建,具体步骤如下。
(1)进行数据输入:假设全部数据样本构成了一个集合,用E表示,在该集合中,包含三个子集合,一是由标记数据构成的集合,用M表示,二是由为标记的数据组成的集合,用V表示,三是由不同数据类别属性构成的集合,我们用D表示。
(2)以自定义的数据样本之间的相似度计算方式为依据,完成数据样本的无向图,的构建,具体可表示为,从中可以获得对应相似度矩阵,具体可用X表示。
(3)立足于数据样本标签传递过程进行计算,可以获得传递概率矩阵,具体用U表示。
(4)以数据样本标签传递概率为依据,来对标签数据之和加以计算,并更新对应的数据概率分布,具体应用公式如下:
(5)围绕已经明确有标注的数据样本,需要对该数据点概率值进行初始化设置,然后不断重复(3),直至该公式满足收敛条件。
在上述应用半监督算法进行基于自然语言处理的数据知识检索过程中,我们可以作出如下假设:首先是时间复杂性取值大于了,同时对于标记传播方法而言,在具体进行自然语言知识检索过程中,采用的是直推方式,在每次进行知识检索,需要重新对算法进行相应的测试,因此在实际应用过程中,需要在较短时间内将样本中主题词完成提取,使得自然语言处理计算的复杂性得到有效降低。
3 结语
综上所述,半监督算法作为机器学习算法的重要组成部分,在自然语言基础性问题处理上发挥着重要的作用。在原本使用的监督算法中,由于其实际应用有着诸多局限性,比如对于标注资料依赖性较高,需要耗费大量的人力物力资源等,整体应用成本比较高昂,并且对于标注资源需求数量较高,并不适合一些“小众”语言学习应用,同时在标注语料扩展方面难度也比较大。而半监督算法出现,则有效弥补了上述缺陷,已经成为机器学习领域内主流发展方向之一,通过对标记数据与无标记数据进行综合利用,从而有效提升整体数据的有效利用性。
参考文献
[1] 朱晓光.基于半监督学习的微博情感分析方法研究[D].山东财经大学,2014.
[2] 周鑫.半监督算法在自然语言处理中应用的研究[D].哈尔滨工业大学,2014.
[3] 柏艺珊,黄展原.自然语言处理中半监督算法的应用[J].电子技术与软件工程,2017(2):156.