基于聚类算法的英语动词词形分类方法研究
2022-07-14吴沛瑾
吴沛瑾
(蚌埠学院,安徽 蚌埠 233000)
1 引言
英语是被广泛使用的国际语言,在经济全球化和世界多元文化格局下,提高全民的英语水平,逐步消除英语沟通障碍显得十分重要。动词是英语语法中的核心词汇,具有较高的开放性,存在很多词形变化的特征[1]。英语动词词形不仅需要和主语人称以及数量保持对应,还需要依据句子的时态、语态和语气进行转变。英语动词词形可以反映动作发生的时间或存在的状态以及反映主语和动作之间的关系[2],同时还可以表示对某个动作的命令、请求等。由于汉语不包含词形变化,因长期受到母语的影响,导致很难理解及区分英语动词词形,进而影响人们的英语学习效果。因此,有必要对英语动词词形进行有效分类,帮助人们更好地掌握动词的用法。英语动词词形分类不仅能为英语教学提供辅助,还可以丰富翻译单位和语料库研究,同时对于词典编纂、教材编写以及文本分析等也发挥着不可估量的作用[3,4]。传统分类方法以人工识别形式为主,虽然准确度较高,但存在耗时费力以及受数量限制大等弊端,并且部分非常用词形很容易被忽略。因此,研究可靠并具有大批量处理能力的英语动词词形分类方法成为当前学术领域关注的重点课题。
很多学者均在该课题的研究上取得重大进展,例如牛振东等人利用深度随机森林完成英语动词词形分类,该方法能很好地应对大规模数据处理问题,但对于复杂动词词形的分类效果欠佳[5];丁勇等人利用主题和关键词特征完成英语动词词形分类,该方法的泛化能力和时间性能较为优异,但在特征提取时未考虑特征的词频信息[6]。
为此,本文设计了了基于聚类算法的英语动词词形分类方法。随着大数据时代的发展,以聚类算法为核心环节的信息检索技术在语言识别领域得到广泛应用,通过K-means 算法和支持向量机算法的相互协作,达到准确判断英语动词词形类别的目的。并通过实验分析验证了本文分类方法的有效性。
2 英语动词词形分类方法设计
2.1 英语动词词形语义结构模型构建
为了实现英语动词词形的分类,首先构建了英语动词词形的语义架构模型。英语动词词形用CS描述,其包含的语义结构数量为m,在其基础上通过多元特征分布重新塑造语法规则,得到英语动词词形语义特征分布模型,并借助权重约束手段获取语义结构特征分布集,同时引入模糊度检测,完成英语动词词形状态特征量的提取。令语义策略用Ai描述,在此策略下,英语动词词形状态分布集用V描述,其属于谓语中心词,相应的承受者用O 描述,英语动词的分级特征量用S 描述,且S=V,任意一个英语动词用Wi描述,其多级知识结构用S 和V 描述,Wi的特征语义修饰对象用WGi描述,则可以使用公式(1)描述英语动词词形状态分布的相关度计算过程:
定义β 代表英语动词词形特征分布的实数集,且满足β∈[0,T],其中英语动词词形评价集S内的元素有T 个,通过语法树将英语动词词形多级知识表达模型创建于S 中,并利用最小属性特征分割对英语动词词形结构进行组合分析[7,8],以获取公式(2)所示语义信息分布状态特征量求解过程:
式中,ak的取值介于[-0.5,0.5]范围内,取整算子用round 描述。依据语法量化集对该式进行求解,可获得英语动词词形状态特征量,用m 描述。
针对多级知识结构的划分,可以通过分段划分的形式来完成,使其变为AB、AA、PD,并从英语动词的特征分布集中查找相应的简单语义集,分别用AB+S、AA+S 和PD+V 描述,最后借助语义本体特征构造方法反映英语动词词形语义特征,如L→AAPDAB,从而实现英语动词词形语义结构模型构建。
2.2 英语动词词形语义特征表达
在上述构建的英语动词词形语义结构模型基础上,为描述英语动词词形语义特征,使用语义本体特征构造方法来实现,进而有效提取英语动词词形状态特征量。
二元语义信息用{(s1,a1),(s2,a2),…,(sn,an),}描述,与其相匹配的权重向量用ω=((ω1,a′1),(ω2,a′2),…,(ωn,a′n),)T描述,其中ωj的取值介于[0,1]范围内,可使用公式(3)表示加权算术平均算子的计算过程:
通过有向图模型重组英语动词词形状态,得出相应的语法树模型[9,10]。定义R(rij,aij)m×n代表英语动词词形评价矩阵,多级知识反映的指标权重用W=((ω1,β1),…,(ωn,βn))描述,则公式(4)为将语法树使用模糊度寻优完成归一化后所得结果:
依据上式所得结果,获取有向图模型内的指标权重以及综合评价矩阵,分别用W=((ω′2,β2),…,(ω′n,β′n))、X=(rij,a′ij)m×n描述。
2.3 英语动词词形状态特征量的相似度计算
使用余弦相似度对上述过程中获取的英语动词词形状态特征量之间的相似度进行计算。英语动词词形间的相似度,即英语动词词形状态特征量之间的夹角余弦值,若想表明英语动词词形之间具有较高相似度,则余弦值应取较大值[11]。该方法的计算过程用公式(5)描述:
式中,两个英语动词词形状态特征量分别用x、y 描述,两者位于空间上的距离用Sim(x,y)描述,x的第k 维权重值用xk描述,y 的第k 维权重值用yk描述,英语动词词形状态特征量总数用n 描述,x和y 的模分别用||x||、||y||描述。该式可以转化为公式(6)所示形式:
通过单位化处理英语动词词形状态特征量x,能够得到公式(7)所示结果:
可采用同样方式处理英语动词词形状态特征量y,进而获得以下所示公式(5)的转化结果:
通过上述转化过程,可显著提升英语动词词形状态特征量之间相似度的计算效率。
2.4 英语动词词形分类实现
依据上小节获得的英语动词词形状态特征量之间相似度的计算结果,使用K-means 算法和支持向量机算法相结合的方法,对英语动词词形进行分类。
2.4.1 K-means 算法
K-means 算法是当前应用最广泛的非监督、间接性聚类算法之一。该算法定义的参数用k 描述,据其将数量为n 的对象划分成k 个簇,以使簇内和簇间的相似度分别处于较高、较低水平[12]。其中利用簇内对象的均值便能得出簇内相似度。
K-means 算法基本原理:采用随机形式抽取数量为k 的对象,各对象均能表示一个聚类中心,针对未抽取到的对象,依据某对象和每个聚类中心间的距离,将其划分至与自身相似度最高的聚类中,并重新求解各聚类的聚类中心。循环执行以上步骤,当准则函数达到收敛状态时,则停止循环。
(1)假设英语动词词形划分的类别个数为k,则需要以随机形式选取数量为k 的初始中心向量。
(2)对各英语动词词形和k 个聚类中心之间的距离进行计算,依据相似度结果将所有英语动词词形归入相应的类别。当运算执行次数为m 时,第i类的聚类中心用Ci(m)描述,其中i 的取值介于[1,k]范围内。在满足D(t)-Cj(m)<D(t)-Ci(m)的条件下,且i和j 的值不相等时,则表明英语动词词形D(t)和聚类中心Cj(m)的相似度最高,将其分配到类θj中。
(3)在计算k 个类的平均距离的基础上,利用公式(9)求解k 个新聚类中心:
式内,类θj内的总点数用Mj描述。
(4)依据最小距离原则,利用求出的新聚类中心重新实现所有英语动词词形的聚类。循环执行上述过程,停止条件为聚类中心不再发生变化。
2.4.2 支持向量机算法
创建符合分类标准的最优超平面,并将其视为决策曲面,以最大化正、反例间的隔离边缘[13,14],即支持向量机(Support Vector Machine,SVM)的基本原理。
针对线性可分问题,假设训练样本用{Xi,yi)}Ni=1描述,其中输入模式中次序为i 的例子用Xi描述,表示为Xi=(x1,…,x2,…xn),目标输出用yi描述,则可使用公式(10)描述分类超平面符合的约束条件:
式中,权值向量用W 描述;偏置用k 描述;i 的取值介于[1,n]范围内。此时可使用Δ=2/||W||2表示分类间隔,因此能将最优超平面建立问题转化为在公式(10)的条件下,求解Φ(x)=||W||2/2 的问题,该式的解仅存在一个,最优超平面即最小化Φ(x)的分类平面。
针对线性不可分问题,通过正松弛因子和错误惩罚参数的引入,将上式转化为公式(11)所示形式,同时使用公式(12)描述目标函数:
式中,正松弛因子错误惩罚参数,分别用ξi、C描述。
依据拉格朗日(Lagrange)乘子法,使用公式(13)描述以上问题转化后的对偶形式:
式中,Lagrange 乘子用α 描述,αi的值大于等于0,且小于等于C。αi、W 和k 的最优解分别用αi*、W*以及k*描述,对其进行计算 可获得 公式(14)所示分类函数:
式中,符号函数用sgn(·)描述;输入向量用X描述。
通过非线性映射处理输入向量,使其呈现在高维特征向量空间[15],最优分类面可在该空间内进行创建,并选取合适的核函数,即可将非线性问题转化为线性分类。
2.4.3 融合K-means 和SVM 的英语动词词形分类过程
(1)初始聚类。输入样本用D(t)=[d1(t,)d2(t),…,dn(t)]T描述,使用K-means 算法实现输入样本的初始聚类,获得类别数为k。
(2)选择训练样本。针对以上步骤生成的各类样本,以其内英语动词词形数量作为标准,从中选取距离聚类中心较近的英语动词词形进行SVM 训练。
(3)使用SVM 完成分类。利用以上步骤获得的训练集对SVM 进行训练,并通过完成训练的SVM重新分类初始样本,以获得新的英语动词词形分类结果。
3 实验分析
将从某语料库不同使用频率的英语动词集中,抽取的2000 个不同词形变化的英语动词作为实验对象,其包含动词原形、第三人称单数、过去式、过去分词和现在分词5 种英语动词词形类别,且存在不规则变化的动词,使用本文方法对这2000 个英语动词进行分类,以验证该方法的分类能力。
分别从5 种英语动词词形类别中随机选择3个规则动词,再另外选择2 个不规则动词进行分类测试,使用表1 描述本文方法计算的各英语动词词形状态特征量的相似度结果,与之对应的英语动词词形分类结果用表2 描述。
表1 英语动词词形状态特征量的相似度
表2 英语动词词形分类结果
从表2 可以看出,不同英语动词词形类别中不存在分类错误的动词,对于规则变化的动词,过去式和过去分词类别中的动词完全相同,这是由于这两种类型具有一致的英语动词词形变化方式;对于不规则变化的动词became 和broken,本文方法均能将其分类到正确的类别中。表明本文方法对规则及不规则变化的英语动词词形均具有较优异的分类效果,且该方法的英语动词词形状态特征量的相似度计算结果准确性较高,能够为后续分类提供可靠依据。
引入调整兰德系数(Adjusted Rand Index,ARI)衡量本文方法的英语动词词形分类性能,该系数的取值介于[0,1]范围内,其值越大,表明方法的分类结果与实际情况的吻合度越高。将错误惩罚参数分别设置为3、6、9、12,测试不同正松弛因子下,本文方法的分类调整兰德系数结果,具体用图1 描述。
图1 英语动词词形分类调整兰德系数结果
分析图1 可以发现,在正松弛因子不断增大的情况下,不同错误惩罚参数对应的英语动词词形分类调整兰德系数均呈现出先上升,并在达到极值后开始下降的趋势,当正松弛因子增大至3000 时,不同错误惩罚参数对应的分类调整兰德系数均处于最高值,其中最大值十分接近于1,当正松弛因子一定时,错误惩罚参数取9 时对应的分类调整兰德系数始终保持最高,且在达到极值后的下降速率极其缓慢,其余值对应的分类调整兰德系数下降速率较快。以上结果可得,将正松弛因子和错误惩罚参数分别设置为3000、9 时,可获得更好的英语动词词形分类效果。
4 结束语
英语动词词形分类对语言研究和语言教学的发展起着重要的推动作用,为解决已有分类方法存在的分类效果较差等问题,本文研究基于聚类算法的英语动词词形分类方法。该方法利用余弦相似度能准确计算英语动词词形状态特征量之间的相似度,从而为分类提供可靠的数据支持。该方法通过K-means 算法和支持向量机的相互协作,可以对规则变化与不规则变化的英语动词词形进行有效分类,并且该方法通过测试已证明可以获得更好分类效果的参数设置。