基于模板的对几种特殊结构句子的语句改写
2009-03-19刘圆圆王忠建
刘圆圆 王忠建
摘 要:通过对大量汉语句子进行考察和结构分析,抽出以关键词为核心的改写模板,对具有一定结构特点的语句进行改写。通过相似度计算进行改写模板与相应改写句的匹配。通过合并修饰词并用变量替换把体现句子结构的关键词及结构辅助词固化在模板中,既实现了句子级的结构精确匹配又提高了模板的覆盖率。通过实验对方法进行了考察,并给出了改写的模板覆盖率和改写正确率,分别为66.34%和74.71%。
关键词:语句改写;改写模板;模板匹配;汉语结构
中图分类号:TP391文献标识码:B
文章编号:1004-373X(2009)03-157-03
Paraphrasing of Several Special Sentence Structure Based on Templates
LIU Yuanyuan,WANG Zhongjian
(School of Computer and Information Engineering,Harbin University of Commerce,Harbin,150028,China)
Abstract:By analyzing and studying the structure of large amount sentences in Chinese,extracting paraphrasing templates based on keywords,which can be used to paraphrase some sentences with special structure.Matching of paraphrasing template with sentences through calculating similarity of paraphrase sentence with paraphrasing template.With fixing keywords and structure auxiliary words which reflect the structure of sentences in the templates and combining the qualifier and replacing them using variable,it has achieved exactly structural matching in sentence level and has enhanced the coverage of the templates.To evaluate performance of the method,experiments have been done and the coverage rate of template and precision of paraphrasing are 66.34% and 74.71% respectively.
Keywords:paraphrasing;paraphrasing template;template matching;structure of Chinese
0 引 言
语句改写是在不改变原语句表达意思的条件下的另一种表达方式,其技术可以应用到信息检索、问答系统、自动文摘以及机器翻译等系统中,并能够有效地提高相应系统的性能。
有关句改写方面的研究资料有很多,如汉语语句改写[1],对语句改写语料库的构筑、改写规则抽出及改写句的生成等进行了综述,并介绍了采用外国名著的多个中文译本进行句子对齐,获得句子的改写实例从而构建改写语料库的研究。文献[2]将语句改写应用于汉语口语的机器翻译中,采用基于句子分析和语言生成技术的方法对口语句子进行了改写。关于英语和日语的语句改写研究,如文献[3]从语料库中抽取用于改写研究的改写句子语料,注重于改写语料库资源的构筑研究,对改写句的生成涉较少。文献[4]则采用一种近似于无指导的学习方法将日语中的名词短语改写为动词短语或是相关的从句,这种方法几乎不需要手工干预,而且易于实现机器学习。文献[5]实现了对英语的改写,把被改写句中一系列不间断的单词事先编码后映射到模板中,将从模板语法中抽取出的改写规则递归的运用到改写句的生成中,这种方法要求改写句子的长度一般在5~12个单词内。
由于汉语缺乏严格的形态变化,既不像英语有词序、时态、人称、词尾变化等可参考,又不像日语有格助词和词尾变化等帮助决定句子的语法结构和时态,语序和虚词是汉语表达的重要手段。所以汉语语句改写的研究要相对困难。本文在对语句的语法结构进行分析的基础上使用基于模板的方法对几种具有特殊结构的汉语语句的改写进行了研究。通过模板的抽出,可以积累改写语料为后续研究提供资源。
1 基于模板的语句改写方法
该文采用基于模板的语句改写方法,方法中的模板分为实例化模板和规则化模板。实例化模板是针对句子结构比较复杂的特殊句型设计的,鉴于这种特殊语句很难使用规则模板进行描述,而实例模板能够更好地体现其句子特性,并使模板匹配更加准确;规则化模板是由标志句子结构的关键词和其他的变项组成,语言知识的精细度高于规则并具有规则的抽象化特性。
这里涉及改写内容主要是:句子结构的变换,利用单句的特殊句式改变句子的结构达到改写的目的。
1.1 模板获取分析
汉语语法结构的分析是模板建立的关键。汉语语言表达要求细致,语言中的同一个意义可以用不同的句法格式来表达,这就造成大量的同义句式存在[6]。在进行语句分析中对于不同的词类区别对待,将动词、助词、介词、和虚词保留,通过用变量来替代其他的一些实词构筑句子改写模板。以例句1为例进行说明。
例句1:我丢了办公室的两把钥匙。
在保持基本表达意思不变的情况下,在不同的场合根据不同的表达需要有不同的表达形式,即可用不同的句式来表示。表1中的四种句式可以用来表达例句1的意思。
表1中的四种句式互为改写句式。除A句式外,其他三种句式还可以因表达的需要而在内部格式上有所变化,从而生成更多的改写语句(见表2)。
可见例句1的改写句达10余种,可对应抽出10种句式的改写模板。
根据汉语句子的结构特点可以划分出汉语句子的基本句型[7],通过对所有句型的分析归纳总结出能被改写的几类句型。对汉语中很难归纳到某种句型的特殊句式,通过分析最后归纳出存现句、倒装句、名词谓语句、双重否定句、反问句、特指问句、选择问句、“把”字句、“被”字句、“比”字句等在句子结构上可以变换的句式。这些句式的转换主要是主题的转移,非常规语序大都是修辞的需要引起的。这些变化都多少会影响句子的感情色彩,但句子所要传递的信息没有改变。为了说明和处理方便,在此仅介绍存现句。
表1 例句1的不同表达方式
编号句子结构改写结果
A名词语[施事]+动词+名词语[受事];
“主—动—宾”句式,正常的表达方式我丢了两把办公室的钥匙。
B名词语[施事]+把+名词语[受事]+动词语;
一般的所说的“把”字句我把办公室的两把钥匙丢了。
C名词语[受事]+被+名词语[施事]+动词语;
一般所说的“被”字句办公室的两把钥匙被我丢了。
D名词语[受事]+名词语[施事]+动词语;
一般的所说的主谓谓语句办公室的两把钥匙我丢了。
表2 内部格式变化的不同表达方式
编号句子结构改写结果
B′名词语[施事]+把+名词语[受事]+给+动词语我把办公室的两把钥匙给丢了。
C′a.名词语[受事]+被+名词语[施事]+给+动词语;
b.名词语[受事]+被+名词语[施事]+动词语+数量词a.办公室的两把钥匙被我给丢了;
b.办公室的钥匙被我给丢了两把。
D′a.名词语[受事]+名词语[施事]+给+动词语;
b.名词语[受事]+名词语[施事]+给+动词语+数量词a.办公室的两把钥匙我给丢了;
b.办公室的钥匙我给丢了两把。
注:B′,C′,D′是由表1中B,C,D进一步变化后得到的句子。
1.2 存现句的模板获取过程
存现句是表示什么地方存在、出现或消失什么人或事物的句子式。从结构上来说存现句由三部分组成:句首是表示处所或时间的词或短语,中间是动词或动词短语,句末是名词或名词短语。存现句是一个歧义句式,既可以表示存在、表示静态,又可以表示活动、表示动态。因此同一个意思可以用不同的句式表达。 下面通过例子给出了存现句的语句改写模板的抽出过程。
例:墙上挂着一幅画。
→(有)一幅画在墙上挂着。
→(有)一幅画挂在墙上。
对应如下变换关系的句法结构框架:
Np+V+着+N
→ (有)+N+在+Np+V+着
→ (有)+N+V+在+Np
在此,Np表示句首方处所结构;V表示动词或动词短语;N表示句末名词性结构。
在原句式中,“挂”和“画”是动作和受事关系,“墙上”表示存在的处所;在变换式中,“挂”和“画”仍是动作和受事的关系,“墙上”仍表示“画”的存在的处所。三者在共现词之间的语义关系上保持不变。
通过对存现句的句子结构分析得出各种句法结构框架,进一步进行抽象化,就得到了改写模板。分别以s,f,t表示处所、方位和时间的品词标记,则每种结构都会有(s)处所词,(f)方位词,(t)时间词。将其分离出来,作为该类模板的关键词结构。对于有介词的句式,将介词保留或是变换成另一种形式。合并名词短语,形容词短语等非关键成分,就得到了如下的改写模板:
(1) {*}+[s/f/t]+[v]+(着)+{*}+[n]
(2) {*}+[n]+[v]+(在)+{*}+[s/f/t]
(3) {*}+[n]+(在)+{*}+[s/f/t]+[v]+(着)
其他几种句式比如倒装句、名词谓语句、双重否定句、反问句、特指问句、选择问句、“把”字句、“被”字句、“比”字句等的改写模板的抽取过程与上述存现句的类似。
2 改写的处理过程
模板匹配是基于模板方法的改写系统的关键,基本思想是实现一个具有少数关键词常项、任意多个变项的模板匹配算法,把原语句中的任意符号串结构自动替换成目标语句中的符号串结构。在具有关键项、约束项、任意变项的模板匹配算法的基础上,可以利用按照一定的层次结构组织存贮的模板,实现从原语句到目标语句的自动改写。在此关键项是指抽出的所有模板共通的关键词,而约束项是指所有抽出模板中除关键项之外的关键词。在进行语句改写时对将要进行改写的语句抽出其结构框架,计算它与改写模板的相似度以决定与之相匹配的改写模板,计算式如式(1),式(2)所示。
关键项相似度和约束项相似度计算:
KWS[%]=SKW(T,S)TKW(T)×100
RWS[%]=RW(T,S)TRW(T)×100
(1)
则待改写句与模板的相似度计算:
TemSim[%]=0, KWS=RWS=0
α•KWS(T,S)+β•RWS(T,S)KWS(T,S)+RWS(T,S)×100,
KWS or RWS≠0
(2)
式中:SKW为待改写句与模板对应的关键项个数;RW为待改写句与模板对应的约束项个数;TKW为模板中所含关键项个数;TRW为模板中所含约束项个数;KWS为待改写句与模板的关键项相似度;RWS为待改写句与模板的约束项相似度;TemSim为待改写句与模板的相似度;α,β是加权参数由预备试验获得。
通过式(1),式(2)的计算获得待改写句与模板的相似度值,满足设定的相似度阈值的模板用于改写。
3 语句改写实验及考察
3.1 实验数据及结果
实验使用了从中学课文中收集的约300个句子,模板库中模板总数为196个。语句改写的输入内容是使用分词系统得到的分词和词性标注过的句子。改写结果的正误判断通过手工进行。判断的基准分为改写正确和改写错误。改写正确:改写句没有错误、表达意思不变或错误较少及表达意思基本不变;改写错误:信息缺失、语序混乱及表达意思改变。
采用评价函数对抽出模板及其语句改写的效果进行评价,公式如下:
CPR[%]=CPNPST×100
TCR[%]=PSTIST×100
(3)
式中:CPR为正确改写率;TCR为模板覆盖率;CPN为正确改写数目;PST为改写句子总数;IST为输入句子总数。由式(3)对实验结果评价得到在被改写句中改写正确率为74.71%,模板覆盖率为66.34%。
3.2 实验结果的考察
在被改写的语句中随机抽取200句,其中错误改写句为49句。通过对改写错误句子进行考察,获得造成改写误差的不同原因。在改写错误中由于分词和词性标注错误而导致改写的错误约占19.23%,而由于待改写句修饰成分过和多句子过长,则分词后的词汇信息单元过多,超出了模板所能描述的程度,出现的错误改写率占38.46%。模板匹配错误而导致的改写错误有:模板抽出的错误和相似度计算不够精确而导致的错误的匹配分别占15.38%和26.93%。由此可见对于较长的句子需要对抽出模板的方法进一步探讨,此外相似度计算也有进一步改进的必要。
4 结 语
通过考察句子的语法结构,抽出句子的结构框架从而进行了语句改写模板的构造。对待改写句则通过计算改写句与相应模板的框架中包含的关键项和约束项的相似度进行模板的匹配。通过对小规模数据进行的实验及考察给出了针对几种特殊结构的句子的改写效果。错误分析指出了改写方法及处理细节上存在的问题,在今后的研究中计划针对抽取模板的细化、相似度计算方法的改进、扩大对不同结构语句的模板的抽取范围和进行较大规模数据的实验考察等方面进行探讨。
参考文献
[1]李维刚,张宇,刘廷.复述技术研究综述[J].中文信息学报,2006,20(4):25-32.
[2]宗成庆,张玉洁,山本和英.面向口语翻译的汉语语句改写方法[J].Journal of Chinese Language and Computing,2006,12(1):63-77.
[3]Li W,Liu T.Combining Sentence Length with Location to Align Monolingual Parallel Texts [A].In:AIRS.2004.
[4]Kentaro Torisawa.A Nearly Unsupervised Learning Method for Automatic Paraphrasing of Japanese Noun Phrases.Workshop on Automatic Paraphrasing,2001:63-72.
[5]Carl Michael,Ecaterina Rascu,Paul Schmidt.Using Template Grammars for Shake & Bake Baraphrasing.Proceedings of EAMT,Budapest,2005:66-73.
[6]陆俭明.现代汉语语法研究教程[M].北京:北京大学出版社,2005.
[7]贾娇燕.实用汉语语法[M].合肥:安徽教育出版社,2003.
作者简介 刘圆圆 女,1981年出生,山东潍坊人,硕士研究生。研究方向为自然语言处理。
王忠建 男,1960年出生,河南濮阳人,教授,博士。研究方向为自然语言处理。
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。