APP下载

汉语选择复句的计算机自动改写方法研究

2016-08-01林燕芬

中国科技信息 2016年13期
关键词:词法复句语料

林燕芬 杨 柳



汉语选择复句的计算机自动改写方法研究

林燕芬1杨柳2

1.哈尔滨商业大学计算机与信息工程学院;2.黑龙江旅游职业技术学院

行业曲线

本文针对汉语选择复句的语法结构特点,提出汉语选择复句的计算机自动改写的观点。在自然语言处理行业起到一定的参考作用

在对汉语复句分类的基础上,提出了基于模板的选择复句的改写方法。通过对选择复句进行分类及语法结构的形式化、数学描述,从而抽取了选择复句的改写模板。由预备实验确定了改写语句与改写模板之间的相似度阈值。最后利用小规模的语料进行了选择语句的自动改写实验,实验结果的正确率61.0%和模板覆盖率45.5%均表明了方法的有效性。

语言是人们日常沟通的工具,不同的人表述方式不同。对于长句来说,其表述方式更加灵活,如果将复句进行改写,使其表达形式简单化则会提高计算机处理汉语的效率。语句改写作为汉语处理的技术其应用非常广泛,如机器翻译、自动文摘等。比较简单句而言复句的改写更加复杂,也更有研究价值。

选择复句理论分析

图1 模板抽出过程

本文参考相关语言文献将选择复句划分为“是……还是”、“或者……或者”、“不是……就是”、“与其……不如”、“宁可……也不”、“要么……要么” 等六种类。选取“是……还是”、“要么……要么”、“与其……不如”、“宁可……也不”这四类进行改写研究。“不是X就是Y”是表示“非此即彼”选择的关联组合,在现代汉语中使用频率非常高。

选择复句按照选择情况又分为两类,已定选择和未定选择。其中“与其……不如”、“宁可……也不”为已定选择,选择具有确定性。“是……还是”、“要么……要么”为未定选择,选择具有不确定性。以下通过抽象化、形式化、算法化的过程对已定选择和未定选择句进行改写方法研究。

复句改写策略

改写模板抽出

表1为选择复句互为改写的例子。对汉语句对进行词法分析得到句子的形式化表示,通过抽象化获得句子的语法框架结构,比较表达意思相同而表达形式不同的改写句对的结构从而抽出改写模板。模板抽出过程如图1所示。

表1 选择复句

将词法分析后的互为改写的选择复句进行比较,进行抽象化和形式化。关键词保留,其他词看成变量,对两种选择复句的结构形式化结果如表2所示。

表2 选择复句的形式化

表1和表2是对应关系,形式化表示中的关键词之间用空格隔开。

对于改写方法,根据未定选择和已定选择复句的特点,可以归纳出未定选择复句前后单句之间无明显的联系,已定选择复句前后单句之间大部分是相反关系。因此在进行改写的过程中,可以把未定选择复句的不确定意义的关键词互相替换,而对于已定选择复句可将确定性的关联词删除。

对表1所示类似的互为改写的句子进行形式化得到其抽象表示后,比较互为改写的句对的抽象表示获得改写模板,表3给出了几个互为改写的选择复句的改写模板的例子及对应的改写句。

表3中1-1与1-2互为改写、2-1与2-2互为改写、3-1与3-2与3-3互为改写模板。从表3可以看出,一个语句可能改写为几种不同的形式,即多个改写模板互为改写。

表3 选择复句的改写模板及改写句

改写处理过程

给定待改写句,通过查找其相应的改写模板对其进行改写。在查找合适模板时要计算待改写句与模板的相似度。由预备实验确定改写语句与改写模板之间的相似度阈值。句子相似度计算的具体算法参考文献通过改进得到,如式(1)所示:

式(1)其中,vk、vl表示公共值向量中第k、l项的值,0<k≤p,0<l≤p;vi、vj表示句子Ti、模板Tj的关键词权重值向量Tvi、Tvj中第i项、第j项的值,1≤i≤n1,1≤j≤n2;Tq为Ti、Tj中长度较短的句子或者模板,Len (Tq)为Ti、Tj中长度较短的句子或模板的长度,公共值向量Evi,j的长度为p。

选择复句的改写实验

实验数据

实验数据是收集的四种类的选择复句各50句,总共200句选择复句。词法分析后的结果作为改写实验的输入。由改写系统自动进行改写处理。

改写结果及分析

对实验结果正确与否采取人工评价的方式,由公式(2)和(3)计算改写正确率PRate和模板覆盖率TRate。

式(2)(3)中,句子总数Psum,改写正确的句子数Rres,模板的总数Tsum。

最终得到改写正确率为61%,模板覆盖率为45.5%。

改写结果中122句改写正确,有22句未被改写,78句改写错误。

其原因是多方面的,首先因为句子过长,造成句子成分过多导致相似度计算未达到改写阈值;其次因为模板和句子不匹配,未找到选择复句适合的模板。而改写错误的原因有三点:第一是因为标点符号错误,模板抽出时造成;第二是句子结构出错,原因是模板具有一定的覆盖率,不可能覆盖到所有的句子;第三是关联词搭配出错,原因是改写模板的关联词不能匹配所有的句子。

对于以上出现的错误,采取相对应的解决措施可能会得到解决,如改写程序,添加冗错措施解决空格间隔符的问题;改写部分模板,使更多的句子与其匹配等。

总结

通过对选择复句中的已定选择和未定选择的两种复句的词法分析,将选择复句进行形式化。由同一语义而表达形式不同的句子的相互比较获得互为改写的模板对。通过小规模的语料进行了选择复句的改写实验。实验结果表明了方法的可行性。在以后的研究中,将通过增加语料规模寻找其深层次的内在规律性以提高复句改写的正确率。

DOI:10.3969/j.issn.1001- 8972.2016.13.028

猜你喜欢

词法复句语料
连动结构“VP1来VP2”的复句化及新兴小句连接词“来”的形成
基于归一化点向互信息的低资源平行语料过滤方法*
基于语料库的汉语复句韩译研究
汉语复句学说的源流
应用于词法分析器的算法分析优化
《苗防备览》中的湘西语料
复句内部不应当用句号
国内外语用学实证研究比较:语料类型与收集方法
语文学习方法之组词法浅谈
异种语料融合方法: 基于统计的中文词法分析应用