APP下载

融合多特征的半监督并列结构识别

2021-08-24邵玉斌张海玲杜庆治

小型微型计算机系统 2021年9期
关键词:语料语言学聚类

杨 丹,邵玉斌,张海玲,龙 华,杜庆治

(昆明理工大学 信息工程与自动化学院,昆明 650500)

1 引 言

并列结构作为汉语中常见的语言结构,成为句法分析的底层研究领域,其正确识别对汉语句法分析有着至关重要的作用.随着汉语研究从中文信息处理到自然语言处理的发展,并列结构的影响范围也随之扩大,从浅层句法分析到机器翻译、信息抽取,此研究都有较为重要的意义.由于汉语本身的复杂性,并列短语形式多样,结构繁杂,左右边界难以界定,从而给并列结构识别研究增加了不小难度,加上无标记结构对并列关系表现“乏力”[1],目前对并列结构的研究以有标记结构为主.

并列结构的识别问题可转化为序列标注问题,因而目前主流的识别方法是基于统计[2-6]的有监督学习方法,利用机器学习模型与语言学特征的有机结合来选取最佳标注序列,完全依赖于标注语料进行研究.另外,还有基于规则[7-9]和规则与统计相融合[10-12]的方法.基于规则即由人为制定符合并列结构形式的规则,根据一系列规则“套出”句子中的并列短语.以往研究表明基于统计较基于规则的方法效果相对较优,原因主要是规则的建立具有较强的主观性,“机动性”较差,且规则之间易产生互斥,并列短语除单层短语外还存在着复杂多变的嵌套结构,这使规则无法完全覆盖.基于统计的方法取得的效果相对较好,但其对标注语料的依赖难以适应小语料研究,从语料中获取的有监督特征涵盖面狭隘,无法有效利用未标注语料信息补足特征单一的缺陷,而人工扩大标注语料库则需要付出大量的人力、时间成本.因此并列结构研究语料不足也成为其自动识别的一道障碍.

鉴于扩大标注语料耗费时间长,而存在的未标注语料丰富,可以充分利用未标注语料内容来影响基于有监督学习的并列结构的识别效果.随着自然语言中词向量[13]的引入,如何将词向量更好的应用于半监督模型这一问题由GUO等人[14]做了探索,并在命名体识别中得到了有效验证[15].本文由此根据词向量的应用,在CRF模型中融合无监督学习特征,提出基于半监督的并列结构自动识别方法.首先,本文参照王东波[2]的研究方法,根据并列结构的外部特征和内部成分的语义相似性,在CRF模型中融入词语长度、是否连接词、同义词编码3个语言学特征,考察不同语言学特征及其组合对并列结构的识别效果的影响;其次,利用大量未标注语料训练词向量,再将训练出的连续的词向量转化为离散高维的适合线性CRF的表达[14],此种表达即作为无监督特征融入到CRF模型中,考察不同无监督特征及其组合的识别效果.最后,将语言学特征与无监督特征作不同的组合实验,考察两种类型特征的共同作用是否会对识别效果产生更大的影响.

2 相关工作

周强最先把并列结构放在整个句子生成的层面验证,得出了联合结构的识别“错误很严重”的结论[16].孙宏林也曾利用并列成分之间的对称性构建概率模型来识别并列结构的边界,而效果也不太理想[17].吴云芳在分析了仅依靠成分的相似性来判定并列结构似有所不足后,探讨了汉语并列结构可能存在的边界标记,为之后基于规则的并列结构识别研究做了准备[18].并在之后的论文中从句法和语义两个层面考察并列成分间的约束关系,将这些约束关系以规则的形式描述出来,从而基于规则识别并列结构的边界[7].由于之前对并列结构的自动识别研究几乎大多围绕并列成分的相似性来进行,吴云芳又基于中文概念词典(CCD)对名词性并列结构的成分相似性进行“逆向”考察,为名词性并列结构的自动识别奠定了一定的理论基础[19].王东波继以吴云芳的联合结构具有中心语相似和结构平行的特性为理论基础,从单层单标记联合结构的句法结构和语法功能中统计出规则模板,结合词语的语义相似度进行单层联合结构自动识别研究,最终由于规则模板颗粒度过于粗糙和词语语义计算的粗略得出“仅依靠联合结构各成分间的相似性进行识别的方法行不通”的结论[8].接着在之后的论文中引入基于统计的方法,利用条件随机场为基本框架,使用7词位标注集和18个特征模板,同时结合4个语言学特征对有无嵌套及最长联合结构进行识别研究,取得了相对满意的结果[2].

自此,对并列结构的自动识别研究基本朝着基于规则与基于统计的方向发展.王浩在条件随机场的基础上增加隐结构感知模型来处理并列短语中的隐含信息,在特征选择一致的并列名词短语任务中较条件随机场的精度更高[6].刘小蝶从多个角度对专利中的并列结构进行标注,制定217条规则融入HNC系统中对专利中的并列结构进行识别研究.而苗艳军则提出一种规则和统计相结合的方法,先用最大熵模型识别出并列结构的左右边界,再用制定的规则对识别出的左右边界进行处理得到最终识别结果[10].

在以往的研究中,基于统计的方法较基于规则的方法取得的效果较明显,但由于有监督方法完全建立在标注语料上进行研究,无法获取未标注语料中隐含的语义信息,并且之前的研究并未使用半监督学习方法.为充分利用未标注语料,从中获取对识别模型有利的特征,本文提出基于条件随机场和半监督学习的方法,将从未标注语料中提取的无监督特征融入条件随机场中,构建半监督模型进行考察.

3 基于半监督学习的并列结构识别

本文以CRF模型与词性特征结合为基本框架,首先逐一加入词语长度、是否连接词、同义词编码3个不同语言学特征以及不同特征组合进行考察.接着利用《人民日报》的大量未标注语料训练词向量,通过对词向量进行二值化、聚类和取相似词得到无监督特征,将词向量特征、二值化特征、聚类特征以及相似词特征4个不同无监督特征及其不同组合特征加入基本框架中进行实验.最后将语言学特征和无监督特征进行交叉组合实验查看识别效果以进行结果分析.实验流程如图1所示.

图1 半监督学习实验流程

在此部分中,首先介绍整个模型的基本框架——条件随机场模型,再对选取的特征及其特征模板的设定作一个简要说明.

3.1 条件随机场模型

条件随机场(conditional random field,CRF)最早由Lafferty[20]提出,是一种用于标注和切分有序数据的条件概率模型,它从形式上看是一种无向图模型.条件随机场模型作为一个整句联合标定的判别式概率模型,同时具有很强的特征融入能力,是目前解决自然语言序列标注问题最好的统计模型之一,在NLP领域有很多应用,如词性标注、浅层句法分析、命名体识别等任务.

假设X=(x1,x2,…,xn),Y=(y1,y2,…,yn)均为线性链表示的随机变量序列,若在给定的随机变量序列X的条件下,随机变量Y的条件概率分布P(Y|X)构成条件随机场,即满足马尔可夫性:

P(yi|y,y1,…,yi-1,yi+1,…,yn)=P(yi|x,yi-1,yi+1),i=1,2,…,n

(1)

则P(Y|X)为线性条件随机场.其参数化形式为:

(2)

其中tk是转移特征,Sl是状态特征,λk,μl为特征函数对应的权重,而Z(x)是规范化因子:

(3)

后将转移特征和状态特征及其权值用统一符号来表示,设有K1个转移特征,K2个状态特征,记为:

(4)

并列结构识别作为浅层句法分析的一个研究领域,可被转化为序列标注问题,对句子进行最优标注,通过标注的标签则可自动提取出其中最佳范围的并列结构.条件随机场除了特征设计灵活,可容纳上下文信息外,还通过计算全局最优输出节点的条件概率,解决了标记偏置的问题.因此基于统计学习对并列结构的研究中,采用CRF模型是相对比较理想的.

CRF是一个序列化标注算法,接受一个输入序列如X=(x1,x2,…,xn),并且输出目标序列Y=(y1,y2,…,yn),此处的X假设是将要被标注的含并列结构的句子,Y是与之对应的标签序列,n是序列长度,如图2所示.

图2 并列结构标注示例

3.2 特征和特征模板的选取

在CRF模型中,特征的加入会使其性能受到不同程度的影响,优质特征会使其识别效果得到提升,因此特征的选取较为重要.根据并列结构的内外部特征,选择3个语言学特征结合CRF模型进行实验,同时充分利用未标注语料,从中获取无监督特征.不同特征对整个模型的影响面不同,每个特征对应的特征模板也会直接影响识别效果,为使每个特征对模型的影响较优,且耗费时间短,本文为不同特征配置相对适宜的特征模板.特征表示中W指的是词语(word),P是词性(pos),由于词性是最基本特征,故不归入语言学特征中,而直接加入基础模型中.基础模型的特征模板如表1所示.

表1 基础模型特征模板

之后每个特征的总特征模板都是在基础模型的特征模板基础上增加列出的每个特征对应的特征模板块.

3.2.1 语言学特征

1)词语长度(word_length,WL)

在标注语料中词语长度为1-3个单位的词语量占比约为95%,从分布上看,词长为2个单位的居多.这在汉语中似乎是个比较“普通”的特征,但仅从并列结构的外部形态上看,词长仍然是一个显性特征存在,或多或少会对并列结构产生影响,因而依然将此列为一个语言学特征,作为对比实验进行考察.其特征模板为:

W|P|WL-2;W|P|WL-1;

P|WL-1|WL-2;P|P-1|WL-1

2)是否是连接词(conj,C)

并列连接词是并列结构的一个显象标志,是各个并列成分的“纽带”.从语义上看,连接词将两个相近的成分结合在一起,使句子意思更进一步;从外部形态上看,连接词标示了并列结构的位置,是并列结构存在的“地标”.当前词是连接词时为“Y”,不是为“N”.其特征模板为:

C-i,C,C+i(i=1,2);W|P|C-1;

P|C-1|C-2;P|P+1|C-1

3)同义词编码(Synonym_coding,SC)

基于《哈工大信息检索研究室同义词词林扩展版》(1)http://www.ir-lab.org/.2019.(HIT IR-Lab Tongyici Cilin(Extended)),选择出词语对应的小类代码,即第3级编码.词典中将词汇分成大中小3类,每个类又根据词义的远近和相关性分成了若干个词群,进一步分成若干行,同一行的词语要么词义相同或很相近,要么词义有很强的相关性,词语编码表如表2所示.随着级别的递增,词义刻画越来越细.

表2 词语编码表

表2中的编码位是按照从左到右的顺序排列.第8位的标记有3 种,分别是“=”、“#”、“@”,“=”代表“相等”、“同义”.末尾的“#”代表“不等”、“同类”,属于相关词语.末尾的“@”代表“自我封闭”、“独立”,它在词典中既没有同义词,也没有相关词.

由于并列结构中各成分之间存在一定的相似性,有相同编码的词表示属于同一类,有一定的语义相关性,因此根据编码来判断词语的相似性.编码粒度过细可能会使在识别过程中遗漏有一定作用的语义信息,同时为训练增加负担,因此本文根据词义标注语料选取第3级编码.其特征模板为:

SC-i|SC|SC+i(i=1,2);W|P|SC-1

4)组合特征

将不同语言学特征组合考察其结合之后的识别效果,特征模板如图3所示.

图3 语言学特征组合特征模板

3.2.2 无监督特征

词向量是将词表示成一个定长的连续稠密向量的分布式表示,在自然语言处理中有着广泛应用,现已成为改进各项NLP任务不可或缺的基础技术.同时词向量的获取与语料是否标注无关,可充分利用未标注语料,因而也成为改进有监督系统性能的一个重要工具.本文利用大规模未标注语料训练不同维度的词向量,将词向量作为额外特征加入模型中.由于线性适合离散高维特征空间,非线性适合低维连续特征空间,而CRF属于线性模型,词向量则是连续的低维的矢量表达,因此再将词向量转化为一种高维离散的适合线性CRF系统的表达[14],将这种表达作为特征加入基础模型中.

1)词向量(Embedding,emb)

本文利用Google开源推出的word2vec工具包训练词向量,word2vec工具主要包含两个模型:跳字模型(Skip-gram)和连续词袋模型(continuous bag of words,CBOW),Skip-gram模型是根据目标词预测语境,CBOW模型则是根据语境预测目标词,分别用这两种模型训练词向量进行实验,同时训练不同维度的词向量以观察维度对识别效果的影响.由于词向量带有与词义相关的信息,仍将词向量作为一个特征进行实验.其特征模板如下:

emb-i|emb|emb+i(i=1,2);

W|emb+2;W|P-1|emb-2

2)词向量二值化(Binary,Bi)

二值化是GUO[14]等人提出的一种将词向量转化为高维离散表达的一种方法,对词向量二值化之后降低了词向量的复杂度,使模型训练时长减短.对词向量进行二值化在形式上是将连续值的词向量矩阵EV×D转变为离散值的矩阵BV×D,其中V是指词典大小,D是指词向量的维度.首先词向量第j列中的值Ei,j分为正负两部分,Ei,j>0表示为Ej+,Ei,j<0表示为Ej-.接着计算正负两部分的均值,正均值记为mean(Ei+),负均值记为mean(Ei-),计算公式如下:

(5)

(6)

其中nj+是指Ej+的个数,nj-是指Ej-的个数.最后将词向量矩阵EV×D中的连续值转化为离散值,构成二值化矩阵BV×D.转化函数如下:

(7)

其特征模板如下:

Bi-2|Bi-1|Bi;W|P-1|Bi-2

3)k-means聚类(Cluster,Clu)

由于并列结构具有平衡性和语义相似性特征[19],即并列短语中各成分之间语义相近,为表现其这一特性,再对词向量进行聚类,将聚类后所得每个词对应的簇序号作为特征.聚类算法很多,而在词向量的聚类算法中大多应用K-means聚类,原因可能是其作为一种经典算法,有着出色的速度和良好的可扩展性.在K-means聚类算法中用欧氏距离来衡量样本与各个簇的距离,将词归入距离最近的簇中,计算公式如下:

(8)

聚类后的不同簇包含不同的语义信息,聚类的个数直接决定词语间的相似关系.尤其对于训练模型,聚类粒度的选择尤为重要,因此在聚类时设置不同的聚类数以获得不同的序列标签,进行粒度分析.其特征模板如下:

clu-2|clu-1|clu;W|P-1|clu-2

4)相似词(Similar_word,Sim)

词向量能够揭示词语之间潜在的语义联系,由此可通过词向量获得某个词的相近词,将获取的相似词作为一个特征.训练得到词向量后,计算特定词向量与其他词语向量之间的余弦相似度,选择5个相似词作为特征引入.例如有n维词语向量a和b,分别表示为:a=[x1,x2,x3,…,xn],b=[y1,y2,y3,…,yn]余弦相似度计算公式如下式:

(9)

相似度Similarity的范围在[-1,1],1表示两个向量的指向完全相同,-1表示完全相反,则当Similarity越接近1时,表示两个词语之间的相似度越高.由此选出相似度较高的前5个词作为实验特征,且每个词不能重复出现.其特征模板如下:

sim-2|sim-1|sim;sim|sim+1|sim+2;W|P-1|sim-2

5)组合特征

将二值化特征、聚类特征和相似词特征分别组合,考察特征结合后对识别效果的影响.特征模板如表3所示.

表3 无监督组合特征模板

4 实 验

首先介绍实验数据及对数据的处理工作,列出实验的评价指标,然后将实验大体分为3个部分展开:1)对语言学特征及其组合特征的实验分析;2)对无监督特征及其组合特征的实验分析;3)对语言学特征和无监督特征两类特征组合的实验分析.

4.1 实验数据

实验中用于训练词向量提取无监督特征的未标注语料为《人民日报》1998年与2014年的语料整合(分词后约2894个词),训练集和测试集为吴云芳(2)https://opendata.pku.edu.cn/dataverse/icl.2018.标注的《人民日报》并列结构标注语料(约56万字),其中用“{ }”标示出并列结构,有7215个并列短语.本文参考王东波[2]的实验,将标注语料按9:1的比例随机抽取分成训练集和测试集两部分,并采用7词位标注集T={B,F,G,I,M,E,S}对语料进行标注,其中B是并列结构的开始词,F是第2个词,G是第3个词,I是第4个词,M是第5个及以上的词,E是结尾词,S是并列结构外部的词.实验前对数据做了如下处理:

1)剔除语料中每行开头的日期信息,如:1998-01-001-001/m.

2)将句子按,.!?4类标点符号分割成小句,为避免之后因句子冗长给模型增加训练负担.

3)筛选出语料中含有并列结构的小句作为新语料,从中提取训练集和测试集,减小标注标签工作量及多余信息的融入.

4.2 评价指标

准确率,召回率和F值的计算公式如式(10)-式(12)所示,本文以F值作为最终评价指标.

(10)

(11)

(12)

4.3 实验结果及分析

本文将词语(word)和词性(pos)与CRF框架的结合作为基本模型(Baseline),在此基本模型中逐一添加各项特征进行对比实验.实验部分主要从3个模块展开:1)语言学特征及其组合特征对识别效果的影响及分析;2)无监督特征及其组合特征对识别效果的影响,这部分中考察Skip-gram和CBOW两个模型分别训练出的不同维度的词向量和不同个数的聚类集的影响程度,选择其中效果最好的参数进行下一步实验;3)将语言学特征和无监督特征任意组合进行实验,作效果对比.

4.3.1 语言学特征组合实验

并列结构本身的特征会对模型的识别产生影响,为考察不同语言学特征的影响程度,分别将词语长度(word_length)、是否连接词(conj)、同义词编码(Syn_coding)3个语言学特征加入基本模型,同时将3个特征随意组合,其识别结果如表4所示.

表4 不同语言学特征组合实验

从结果中看出分别加入词语长度特征和是否连接词特征后F值提高0.21%,两者组合加入Baseline后提高0.61%,说明这两个语言学特征对并列结构的识别影响较小,而两者同时融入模型时的效果稍优于单独融入的效果,提升依然较小.可能由于并列短语的组成结构多样,除了在整个语料中占比较大的单层并列结构的形式相对稳定,易于识别,其余复杂多变的并列结构如嵌套结构组成成分各异,在这部分的识别上依然存在很大难度.同时各项成分的词语长度是取决于语料本身的分词方法,大多词语长度分布在1-4,此语言学特征无法作为一个影响很大的因素,对并列结构的识别效果影响较小.在句中确定并列连接词的位置相当于找到并列结构的中心,在主观上根据并列结构的是否连接词特征可以有效影响识别效果,但同样由于并列嵌套结构的复杂性,并列中会包含另外一个或多个并列,并列词的位置有助于对并列结构实行“定位”,却无法保证并列结构边界识别的准确性.从实验结果看,同义词编码的加入反而使整个模型的识别效果呈“负增长”,原因可能是3级编码标注语料中包含的词语较少,测试集和训练集中的很多词语无法获得“编码”,致使识别效果不佳.

4.3.2 无监督特征组合实验

在工作原理上看,Skip-gram模型是“逆向”的CBOW模型,两种模型训练出的词向量有一定差异,因而这部分中用了两种模型分别训练词向量,继而进行词向量的二值化及聚类,通过实验效果选择更适合并列结构识别模型的方法.不同维度的词向量会使词之间的关系发生变化,因此训练不同维度的词向量进行对比实验以获取最适宜的词向量,同时,在聚类时改变参数以产生不同个数的簇.

1)不同模型及维数下的单特征实验

通过两个不同模型分别训练不同维度的词向量,依据实验所用的数据量设置词向量维度为50、100、150,将这3个维度下的词向量特征、二值化特征及聚类特征分别加入基本模型进行对比实验,词向量和二值化特征的对比结果如图4所示.单从维度上看且忽略模型类别时,50维时的数据较为稳定,此时词向量特征和二值化特征的F值几乎接近且都达到全部数据的最高值:F1max(Embedding)=85.12%,F1max(Binary)=85.22%100维时词向量特征的F值为最低值84.62%,而二值化特征的F值达到最大;150维时两个特征的F值都较最大值85.22%低.综合看来,在3个维度中,词向量维度为50维时效果较其他的更好.

从图4中可见两个模型下的词向量特征在50维时的F值都为85.12%,在另外两个维度时F值的差值也都控制在0.3%以内;对于二值化特征,两个模型下的F值在100维时均达到最高值85.22%,另外两个维度下的值相差也不大.从两个特征在各个维度上的差值上看,模型的类别对两个特征的识别效果影响较小.

图4 不同维度及模型下的词向量、二值化特征对比

在不同模型下训练出不同维度的词向量后进行聚类,分别聚类出100、300、500、700、800、1000、2000、3000个簇,将8组聚类中不同聚类簇标签作为特征进行实验,结果如图5(横坐标聚类组x=1时,簇个数N(x=1)=100;N(x=2)=300;N(x=3)=500;N(x=4)=700;N(x=5)=800;N(x=6)=1000;N(x=7)=2000;N(x=8)=3000).在CBOW模型下,词向量为50维时,聚类数N(x=2)=300、N(x=7)=1000、N(x=8)=3000时F值都达到最高85.32%;100维时,聚类数N(x=8)=3000时达到最高85.32%;150维时,聚类数N(x=3)=500、N(x=8)=3000时达到最高85.32%.在Skip-gram模型下只有在150维、N(x=6)=1000时达到最高值85.32%.两个模型下得到的数据相差不大,若将数据一一对比,总体情况下CBOW模型的识别效果比Skip-gram模型的稍好.在CBOW模型的条件下,50维时多个值达到最高值;在聚类数N(x=8)=3000时3个维度的F值都达到最高值,效果较其他几组更好.

图5 不同维度及模型下的聚类簇对比

2)不同无监督特征组合实验

为考察不同无监督特征组合加入基本模型后性能是否在单特征的基础上提高,此部分将CBOW模型下训练出的词向量为50维的二值化特征与同等条件下聚类数为3000的聚类特征以及相似词特征组合进行实验.因词向量特征耗时较长,效果与二值化特征相近,此部分实验不加入词向量特征.实验结果如表5所示.

表5 不同无监督特征组合实验

从表5中看出词向量的二值化特征、聚类特征和相似词特征的加入都使并列结构的识别效果有所提高,3个特征加入后的F值分别提高了1.52、1.62、1.22个百分点,3个特征组合加入后F值达到85.71,较基础模型提高了1.95%.说明无监督特征的加入能够有效提升并列结构的识别效果.

4.3.3 语言学特征与无监督特征组合实验

在以上实验的基础上,将语言学特征与无监督特征任意组合,考察不同类型的特征对模型性能的影响,混合特征的特征模板为两种特征的模板结合.由于语言学特征中的同义词编码特征起了“负作用”,不考虑加入此部分实验.实验结果如表6所示.

表6 不同类别特征的组合实验

从表6中看出无论是语言学特征还是无监督特征,对并列结构的识别效果都有一定的影响,而语言学特征的影响较无监督特征的影响较弱.语言学特征组合后的F值为84.41%,无监督特征组合后的F值为85.75%,而全部特征混合后的F值达到85.77%,较基础模型提升了1.97%,两种特征结合后的效果与无监督特征组合后的效果相差不大.说明无监督特征的加入为识别“注入”了丰富的语义信息,在一定程度上减少人工选取繁多特征的工作量.

4.3.4 CRF模型与神经网络模型的对比实验

随着深度学习在自然语言处理任务中取得越来越好的效果,大多自然语言处理任务如情感分析、命名体识别等都采用了较为“流行”的神经网络模型.本文采用Bi-LSTM-CRF模型对并列结构进行识别测试,与CRF模型进行对比.实验中使用的词向量除本文中自训练的50维词向量,还引入3个公开词向量集,根据预训练好的模型获取词向量,考察不同质量的词向量对识别效果的影响,词向量预训练模型的语料规模和维度如表7所示.其中词向量预训练模型1和模型2生成静态词向量;模型3生成动态词向量.

表7 词向量预训练模型

由不同的词向量提取出无监督特征,将3个无监督特征融入CRF模型,并与Bi-LSTM-CRF作比较,识别结果如表8所示.不同质量词向量的引入会使识别结果产生波动,对于CRF模型,引入Bert训练的词向量(D=768)时F值较原模型提高0.23%,D=300时提高0.1%,提升百分比很小.对于Bi-LSTM-CRF模型,在不同词向量下识别F值都低于CRF模型,原因是语料规模还是偏小,在训练时易造成过拟合,同时动态词向量(D=768)的识别效果较好,F值提升了1.23%.

表8 模型识别结果对比

在实际应用中,模型的性能也是考量其实用性的一个重要因素,因此通过模型的耗时情况来查看模型的性能如何.表9是两个模型性能对比,CRF在CPU(i5-8300H@2.3GHz)、GPU为4GB的设备上进行训练;Bi-LSTM-CRF在CPU(i9-9900H@3.6GHz)、GPU为8GB的设备上进行训练,迭代次数为100.Bi-LSTM-CRF中不引入无监督特征,故不存在词向量聚类耗时.从表9可见Bi-LSTM-CRF模型训练耗费的时间要比CRF模型多,且对设备有一定要求,需要耗费更多成本.而从获取词向量时间及词向量聚类时间看,虽然Bert训练出的动态词向量效果稍好,但在小语料规模的任务中优势不太明显,且需付出大量时间成本.

表9 模型性能对比

5 结语与展望

本文针对目前研究方法完全依赖标注语料进行,而并列结构标注语料规模较小的问题,引入半监督学习方法.利用未标注语料训练词向量,并转化为无监督特征加入以CRF为基本框架的模型中.实验中加入语言学特征作为对比实验,将提取出的无监督特征——词向量特征,二值化特征,聚类特征和相似词特征分别加入基础模型,并将特征进行组合实验.实验表明,无监督特征和语言学特征对并列结构的识别都有影响,但无监督特征的影响比语言学特征的影响大得多.无监督特征的引入能够充分利用未标注语料中的语义信息,用词向量来揭示单个词与上下文的语义联系,并体现词语之间的相似性,可以在减少人工选取特征工作量的同时将丰富的语义信息通过较为简单的形式传递到识别过程中.实验结果表明本文引入的半监督方法能够有效影响并列结构的识别效果.

实验方法对并列结构的识别研究有一定的正面影响,但识别准确率的上升仍然处于“瓶颈期”.实验结果中单层并列结构的识别准确率较高,例如:“各/r 条/q 战线/n {改革/v 和/c 发展/v} 的/u 任务/n 都/d 十分/m 繁重/a”.原因是单层结构是并列结构中最为简单的一种类型,且它在整个标注语料中的占比达到39.84%[8],在训练时有较大优势.但其余结构中包含的复杂多变的长句结构和嵌套结构就难以准确识别出.如:“保持/v {社会/n政治/n、/w 经济/n、/w 文化/n} {协调/v 发展/n 和/n 全面/ad 进步/v} 的/u 兴盛/a 局面/n”,易错误识别成“保持/v {社会/n政治/n、/w 经济/n、/w 文化/n 协调/v 发展/n 和/n 全面/ad 进步/v} 的/u 兴盛/a 局面/n”,难以识别多重并列结构,其中一个主要原因是汉语本身的复杂性,还有一个原因是训练语料中出现的类似的句式较少,复杂嵌套句形式多变而每个句式在语料中出现的次数较为稀少.

目前并列标注语料规模较小,无法满足大数据量研究的需要,阻碍了对并列结构识别研究的发展.在之后的研究中,将通过半监督方法对标注语料进行扩展,然后利用神经网络模型自动提取特征对并列结构进行识别研究.

猜你喜欢

语料语言学聚类
一种傅里叶域海量数据高速谱聚类方法
基于数据降维与聚类的车联网数据分析应用
海量标注语料库智能构建系统的设计与实现
浅谈视频语料在对外汉语教学中的运用
基于模糊聚类和支持向量回归的成绩预测
可比语料库构建与可比度计算研究综述
语言学研究的多元化趋势分析
美国现代语言学会版《〈红楼梦〉教学法》:要览与反思
书讯《百年中国语言学思想史》出版
The Influence of Memetics for Language Spread