APP下载

基于句本位图解树库的汉语句式实例获取

2017-11-27朱淑琴彭炜明宋继华郭冬冬

中文信息学报 2017年5期
关键词:图解表达式实例

朱淑琴,彭炜明,宋继华,郭冬冬

(1. 北京师范大学 信息科学与技术学院,北京 100875; 2. 北京联合大学 师范学院,北京 100011)

基于句本位图解树库的汉语句式实例获取

朱淑琴1,2,彭炜明1,宋继华1,郭冬冬1

(1. 北京师范大学 信息科学与技术学院,北京 100875; 2. 北京联合大学 师范学院,北京 100011)

为了将中文树库更好地服务于国际汉语教学,考虑到语法教学中句式框架的整体性,该文引入基于句式结构的句本位图解树库,深入分析其结构特征,并基于句式结构的分层抽取思路,提取了蕴含在每个标注句中的句式实例,构建了汉语句式实例库,具体分为基础句式实例库和复杂句式实例库两部分。该项工作使得小规模标注树库可以获取较大规模的句式实例库,为句本位图解树库在国际汉语教学中的应用提供了一种有效的数据解决方案。

句本位图解树库;句式结构;句式实例获取

1 引言

随着中国经济的快速发展和国际影响的日益扩大,世界范围内的汉语热持续升温。国际汉语教学的蓬勃发展迫切需要得到来自计算语言学、语料库语言学等学科研究成果的支持。将大规模语料库应用到国际汉语教学是一个重要趋势,语料库可为国际汉语教学提供丰富的教学素材,在此基础上催生新的教学方法、教学技术甚至是教学理念。将语料库应用于教学研究也已经普遍地开展,并取得了广泛的应用成果[1],其中影响较大的语料库有: 北京大学CCL语料库、北京语言大学国家语言资源动态流通语料库(DCC)、北京语言大学汉语语料库(BCC)。然而,上述语料库提供的标注信息均局限在生语料或词法层面,缺乏更有价值的句法结构信息。

国际汉语教学讲究结构、功能、语境的统一,通常采用各类“句式”作为语法教学的结构单位。这种以词、短语或句子成分的线性序列表征的半词例化单位与当前中文信息处理领域常用的两类句法树(短语结构树和依存树)存在着显著的结构差异,因而利用树库来检索句式实例和统计句式信息很不方便。为了能够有效支持基于句式的国际汉语语法教学,本文从北京师范大学语言与文字资源研究中心构建的句本位图解树结构出发,探讨基于图解树库的句式实例获取和句式资源库构建方法,大致结构安排如下: 第二节梳理教学中句式表达式的短语和非短语结构因素,指出短语结构树和依存树在句式相关的信息处理中的不适应性;第三节介绍句本位图解树库,并分析其结构特征;第四节阐述本文利用句本位图解树库获取句式实例的方法和步骤;第五节对获取的句式实例库作一个大致的统计概览;最后指出本文工作的意义和实用价值。

2 句式表达式中的非短语结构因素

如下所示为从国际汉语教材或工具书中选取的几个代表性的语法点表达式:

(1) S+要/快要/就要+V+(O)+了——《体验汉语·基础教程·下》

(2) ……,而……则……——《博雅汉语·中级冲刺篇Ⅱ》

(3) 宁肯……,也不/也要……——《汉语新目标·第7册》

(4) A+有+B+那么/这么+Adj.——《三一语法 结构·功能·语境》

(5) Adj/V+是+Adj/V,可是/但是……——《中文听说读写·Level 1》

(6) 一天比一天+A.——《新实用汉语课本·第四册》

这种表达式的写法比较自由,或取词形,或取词类,乃至短语、句子成分、标点等。总之,截取若干不同形式的单位连接成一个线性序列。其中的句法结构信息(句法关系和结构层次等)虽未显式地标记出来,但都是确定无歧义的。

分析这些表达式可以发现,其语法教学的着眼点在于句式框架的整体性,而非两两单位之间的短语结构组合。在以短语结构语法体系(依存关系本质上也是一种短语结构关系)为理论基础的主流句法树库中进行上述句式相关的例句检索和信息处理是很困难的。

以(1)为例,句式着眼于时间副词“要/快要/就要”和语气助词“了”的搭配,但这两部分内容的节点在短语树中的层次是不固定的,在依存树中也不存在直接的词汇依存关系。(2)和(3)是关于关联词语搭配的,其中,连词在树库中通常视为一种“附加”节点或关系,关联副词则按“状中”关系分析,它们之间的这种“搭配”关系并非短语结构因素,因而在树结构中没有直接的表现。(4)~(6)结构带有一些“构式”性质[2],更加不方便全按二分短语结构来分析。

以上示例中反映出来的非短语结构因素在语法教学的句式表达式中是很普遍的。中文的树库构建已经走过了很长一段历程,也积累了规模不小的短语树库和依存树库,但它们的应用主要还是局限在中文信息处理领域的自动句法分析,而在语法教学领域的应用成果却少之又少。这与树库在描写句法结构时舍弃“主语”“谓语”“宾语”等“句子成分”节点的做法有直接关系,不管是短语结构还是依存结构,这些信息都形式化为一种二元的“句法关系”。而教学中讲解语法,都是在句式的框架下以“句子成分”直接描写各类词语单位的。从“句法关系”到“句子成分”,理论上都可以按一定的规则从树库中提取,然而,解析树结构在程序实现上并非易事,这就极大地限制了树库在教学中的应用。因此,从教学实际需求出发,我们寻找一种直接以“句子成分”作为节点的形式化句法树结构作为教学应用的数据基础。根据何静[3]、彭炜明[4]等的研究,采用“句式结构”构建的句本位图解树库可以较好地建立与教学句式之间的结构映射关系。

3 句本位图解树库的结构特征

北京师范大学语言与文字资源研究中心构建的句本位图解树库采用黎锦熙先生在《新著国语文法》中首创的图解法形式描写句子结构,并经过了形式化的语法体系改造[5],其图解公式如图1所示。从直观上看,图解形式以带谓语核心(简称谓核)的长横线为纲,清晰地呈现句式的整体结构格局,便于从全局把握句子的语意脉络。这种带有谓核的长横线称为句式的“主干线”,以它为基准确立句式的结构层次(简称句式层次)。主、谓、宾位于主干线上,为句式的“主干成分”;定、状、补位于主干线下,为句式的“附加成分”。全句第一层句式的干线称“基干线”,相应句式层次称为“基干层”。

从数据存储结构看,其显著特征是: 采用XML格式,且使用了“主语”“谓语”“宾语”等“句子成分”作为元素节点。为了实现图解图形与XML数据之间的编码/解码转换,其形式化结构设计中如下几点值得关注。

(1) 与短语树和依存树相比,它彻底放弃了结构主义语法分析句的理念,树结构更加扁平化。对照如图2所示的图解和XML,直连于同一条主干线上的主语(sbj)、状语(adv)、谓语(prd)、宾语(obj)等“句子成分”节点依次排列,作为小句(xj)的孩子节点。定语(att)的层次要低一级, 与其所饰的中心词

图1 图解公式

图2 图解与XML对应示例

互为兄弟节点。由多个谓核构成的复杂谓语句中,前后谓语(prd)也是依次排列,互为兄弟节点。这样,在同一句式中,各成分节点的层次是相对固定的,不会因成分内部结构的扩展而有所改变。若某成分内部又扩展为带谓核的VP结构(如示例中的“工人”的定语“修铁路”),则以prd为基准产生新的句式层次。

(2) 为介词、连词、助词、方位词等设置“虚词位”。介词位、方位词位、助词位分别用于介宾结构、方位结构、助词结构,连词位(cc)用于并列结构、同位结构和复杂谓语结构中,有时仅起占位符作用,如上例中连动关系的两个VP就是通过空cc节点的@fun属性来标识的。

(3) 在句子成分节点(三字母)和虚词位节点(两字母)之外设置动态词节点,节点名与普通词节点相同,但其内部还包括若干词(或语素)节点,并以属性@mod标记构词模式。动态词内部虽可作类似于句法的“词法分析”,但结构不如句法组合那样可自由扩展,其在句式中的作用仅相当于一个词。根据文献[6],图解树库中的动态词范围比中文信息处理中普遍关注的“未登录词”范围要大,包括“动结式”“动趋式”“数—量”和“V—了”等一般认为是“句法结构”的单位。

以上特征保证了句本位图解树库在面向教学句式信息化的应用中具有良好的结构对应关系,因而可以为不同的教学句式设置特定的XPath表达式(XML结构查询语言)[7]。然而,通过XPath查询XML的程序运行效率不高,且受限于句本位图解树库的规模,目前的一些应用[8-9]大多停留在实验阶段而并未达到工程化水平。为了解决以上问题,本文尝试在图解树库基础上抽取大量句式实例,并以其为中介建立树库例句与句式表达式之间的映射关系。

4 句式实例库获取

树库的构建耗时费力,句本位图解树库处于起步阶段,尚不足以支撑大规模教学应用的实际需求。然而,教学中句式主要着眼于单层的句式结构,而图解标注的句子通常情况下都包含着不止一个句式层次的嵌套结构。基于这种情况,本文从已有的句本位树库中进行分层抽取,得到隶属于不同句式结构层次的句式实例。这些句式实例虽不一定是完整的自然语言句子,但是仍然具有语法教学的应用价值。

4.1 生成句式结构序列表达式

文献[5]将汉语的句式系统首先划分为基本句式、扩展句式和复杂句式三大类。基本句式与扩展句式都是单谓核结构,区别在于后者带有附加成分(定、状、补语等),复杂句式则打破了单谓核结构。这只是就单一句式层次而做的划分,真实语料中的句例由于存在句式层次的嵌套,不能完全以基干层的句式类型判定句子的复杂程度。

从句式结构中抽取句式实例时应首先排除层次嵌套的干扰,以单一句式层次为限。从图解图形上看,只需取直连于同一主干线的各成分的“中心词”。此处的“中心词”不完全等同短语结构语法中的中心词定义,若某成分内部又为VP结构(即扩展为新的主干线),则递归取其主干成分的中心词。将取得的中心词按如下方式顺序连接起来,作为该层句式的序列化表达式:

(1) 定、状、补语分别以小括号()、中括号[]和尖括号lt;gt;括起;主干成分若有顶起,也以大括号{}括起。

(2) 主干成分及多个谓核部分之间以分隔符间隔,具体字符类似图解图形,如下:

① 主‖谓 动|宾;

② 兼语句谓语: VP1∥VP2;

③ 连动句谓语: VP1/VP2;

④ 联合谓语: VP1……VP2;

⑤ 合成谓语: VP1∶VP2。

(3) 虚词位中的虚词也作为中心词,分别按如下方式连接: 介词∧、□方位词、▲助词。连词情况分三种:连词(并列结构)、=连词=(同位结构)、…连词…(联合谓语之间)。

图3所示为“您对国家不允许名人以患者身份出现在广告中的规定怎么看?”一句的图解图形。按照上述思路,可以分析得到两条主干线,对应两个句式层次,其句式结构的序列表达式分别如下:

图3 多层句式结构图解示例

• 您‖[对∧规定][怎么]看

• 国家‖[不]允许|名人∥[以∧身份]出现lt;在∧广告□中gt;

由于不涉及层次嵌套,从句式的序列表达式便可直接读出该句式层次的各句子成分,而根据图解公式,它们之间的句法关系也是一目了然的。

从XML中分层抽取句式结构的算法流程大致描述如下(python伪码):

for elem in xmlTree.xpath("//*[prd]"):

#xmlTree为XML解析树,带prd孩子的元素即蕴含句式层次

pttExpr="

for child in children(elem):

#遍历孩子元素

pttExpr+=ProduceExpr(child,1)

#只展开一个句式层

print(pttExpr)

def ProduceExpr(elem,layer):

#为不同类别的成分生成序列表达式,通过参数layer控制展开层数

if(layer==0)return";

elemExpr="

if(elem is pos_node):

#"词"节点(通过节点名为单个字母判断)

elemExpr=elem.text if elem.text!="else"×'

#生成文本内容,若为空,则以"×"替代

else:

#没有中心词节点,说明当前成分内部又有新的句式层次

for child in children(elem):

elemExpr+=ProduceExpr(child,layer-1 if isAttatchComp(child)else layer) #递归

elemExpr=prefix(elem)+elemExpr+suffix(elem)

#前、后缀为根据成分类型确定的分隔符(如: 主语后缀"‖"等)及附加成分的各类括号

return elemExpr

4.2 拆分复杂句式实例

句式结构的序列表达式分为两类: 基本句式和扩展句式为单谓核结构,通过它可以观察动词的论元框架;复杂句式主要为多谓核结构,它反映动词论元框架进一步融合的事理知识。为了有效地区分这两类知识,本文将句式实例库也设计为两类: 基础句式实例库和复杂句式实例库,前者收录基本句式和扩展句式实例,后者收录复杂句式的主干内容。以图3为例,其句式实例的入库过程如图4所示。句式结构序列表达式入库前需做复杂句式拆分和基础句式推导两步操作,下面分两节分别阐述。

图4 句式实例入库过程示意图

对多谓核句式,首先以谓核间分隔符(∥、/、……、∶)为基准,取其两旁主干成分的中心词生成复杂句式主干,归入复杂句式实例库。

按表 1所示的规则拆分出其中蕴含的单谓核句式实例,将所得的结果与基本句式实例、扩展句式实例归并到一起,作为推导基础句式实例的输入。

复杂句式中还有一类: 主谓谓语句。不同于上述四类多谓核句式可直接拆分,其结构可向单谓核句式作“变换”,但变换规则需根据深层语义结构来决定。大致分为如下两类:

表1 多核句式拆分单核句式的规则

(1) 他‖[昨天]{肚子‖疼}→(他)肚子‖[昨天]疼——大小主语有领属关系;

(2) 困难‖{我‖[不]怕}→我‖[不]怕|困难——大主语为谓语小句的某个论元缺位。

由于涉及较为复杂的语义分析,本文暂不将这类“变换”纳入句式实例获取的范围。

4.3 推导基础句式实例

根据句式结构体系设计的约束,单谓核最多可支配一个主语、两个宾语和一个补语,但作为修饰成分的定语、状语则可能并排多个。此外,由于名词并列结构和同位结构的存在,经上一节归并后所得的大量单谓核句式与教学句式相比仍然不是最简约的。因此,需对其做进一步推导,以获得最简约的“基础句式”实例。推导方式如下:

(1) 对于存在并列和同位结构的成分,每处只保留多个连续NP中的一个,生成约简的序列表达式;

(2) 对于序列表达式中的状语成分,首先将其从中删除,再逐个地附加上去。例如:

• 您== 几位‖[请][慢]用 →

您‖[请][慢]用 →您‖[请]用;您‖[慢]用

几位‖[请][慢]用 →几位‖[请]用;几位‖[慢]用

当然,上述两个步骤均有可能会产生不自然的句式实例。例如,某些动词要求搭配集合义的主语论元,此时若将并列结构主语拆为单项名词,则生成句式实例是不通的。此类问题有待人工校正。

5 句式实例库概览

本文从句本位图解树库中选取国际汉语教材中的标注句子,所选生语料来自国家汉办的七套主干教材。具体句子分布情况如表 2所示。

表2 图解树库中的国际汉语教材例句分布

按照第四节所述步骤,从10 927个句子共生成句式实例数为44 290,基础句式实例库和复杂句式实例库分别含39 724和4 566个。也就是说,教材的图解标注句子数与具有教学价值的句式实例数之比约1∶4。

为了方便句式实例的检索和管理,将两个库分别导入关系数据库中,表结构及部分数据截图如图5所示。

基于上述句式实例库结构,便可实现“教学句式-句式实例-教材例句”三层架构的例句索引结构,以支持面向国际汉语的语法教学,如图6所示。在检索框中输入特定的词汇或序列表达式串,可以得到具体的句式结构序列表达式,进而找到其在树库中对应的原始句子。检索流程大致如下:

(1) 将输入文本作为关键字分别到基础句式实例库和复杂句式实例库中做模糊匹配;

(2) 对匹配结果求并集,再按ppt_expr字段(见图5)分组并按实例数降序排序(Group By ppt_expr Order By count(*)desc)

图5 基础句式实例库和复杂句式实例库表结构及部分数据截图

图6 句式实例检索界面

(3) 输出ppt_expr,并根据ref_juid连接课文句子原文。

这种检索模式借助句式序列表达式作为句子结构的索引,无需每次解析树结构,提高了例句检索的效率。

为了考查本文得到的句式实例能否作为教学句式,从库中随机挑选了562条教材例句,其对应的基础句式和复杂句式分别为1 879和121条,对这2 000条句式实例进行人工校对,没有发现句式拆分和推导错误,其中有116条(5.8%)句式语义不自足,如表3所示。这主要是由附加成分分别添加、合成谓语拆分为基础句式时语义丢失导致。这116条中约21%的句式为“是”构成的合成谓语句,在实际应用中可以通过控制使得不从这种合成谓语中获取句式实例。

表3 无效教学句式

续表

可以看出本文从句本位树库中获得了大量具有教学价值的句式实例,虽然少量无效句式实例不能应用于国际汉语教学,但在句法分析中仍然具有很重要的价值。

6 结论

本文面向国际汉语语法教学应用,从句本位图解树库中抽取句式实例,探索出一种能够快速建立教学句式与树库例句索引的方法。本文工作也有一些未尽完善之处,特别是在生成基础句式实例的过程中,如何判断生成的句式实例的有效性问题。后续工作计划对这些句式实例进行语义范畴的抽象,在实例库基础上归纳句式结构知识库。

[1] 王丽丽. 基于语料库的词汇教学在对外汉语教学中的应用研究[D]. 上海外国语大学硕士学位论文,2013.

[2] 张娟. 国内汉语构式语法研究十年[J]. 汉语学习,2013(02): 65-77.

[3] He Jing, Peng Weiming, Song Jihua, et al. Annotation schema for contemporary Chinese based on JinXi Li’s grammar system[A]//Proceedings of the 14th Chinese Lexical Semantics Workshop. CLSW2013[C]. Beijing: Springer Verlag, 2013: 668-681.

[4] 彭炜明,何静,宋继华. 句本位语法图解析句系统的设计与实现[M]. 项洁. 数位人文研究丛书5: 数位人文研究与技艺. 台湾: 国立台湾大学出版中心,2014: 195-210.

[5] Peng Weiming, Song Jihua, SUI Zhifang, et al. Formal schema of diagrammatic Chinese syntactic analysis[C]//Proceedings of the 16th Workshop on Chinese Lexical Semantics Workshop. Beijing: Springer Verlag, 2015: 701-710.

[6] Guo Dongdong, Zhu Shuqin, Peng Weiming, et al. Construction of dynamic word structural pattern knowledge base for the international Chinese teaching[C]//Proceedings of the 17th Workshop on Chinese Lexical Semantics Workshop. Beijing: Springer Verlag, 2016.

[7] James C. XML Path Language(XPath)Version 1.0[EB/OL]. [2015.9.7]. https://www.w3.org/TR/xpath/.

[8] Zhang Yan, Song Jihua, Zhu Xue, et al. The identification of grammar points in international language teaching materials based on sentence-based annotation[C]//Proceedings of 2014 International Conference of Educational Innovation through Technology. CPS, 2014: 29-36.

[9] 何静,彭炜明,宋继华. 汉语句式结构的形式化: 句本位语法与“图解法”改造[J]. 北京师范大学学报(自然科学版),2016(04): 413-419.

朱淑琴(1978—),博士研究生,主要研究领域为中文信息处理。

Email: zhushuqin@mail.bnu.edu.cn

彭炜明(1985—),讲师,主要研究领域为中文信息处理、词汇语义学。

Email: pengweiming@bnu.edu.cn

宋继华(1963—),通信作者,教授,博士生导师,主要研究领域为语言信息处理、计算机教育应用。

Email: songjh@mail.bnu.edu.cn

TheExtractionofChineseSentencePatternInstanceBasedonDiagrammaticTreebank

ZHU Shuqin1,2, PENG Weiming1, SONG Jihua1, GUO Dongdong1

(1. College of Information Science and Technology, Beijing Normal University, Beijing 100875, China;2. Teachers’ College of Beijing Union University, Beijing 100011, China)

For the purpose of international Chinese teaching, this paper introduces the sentence-focused Diagramma-tic Treebank to preserve the integrity of the sentence pattern structure in grammar teaching. Based upon a thorough analysis the Treebank structures, the Chinese sentence pattern instance are summarized form each parse in via a hierarchical extraction strategy. Finally, a Chinese sentence pattern instance bank is achieved, consisting of basic sentence patterns and complex sentence patterns. This approach paves the way to develop Chinese sentence pattern instances for a small scale Treebank, and enables the practical application of Diagrammatic Treebank in the international Chinese teaching.

diagrammatic treebank; sentence pattern; Chinese sentence pattern instance

1003-0077(2017)05-0032-08

TP391

A

2016-09-09定稿日期2017-03-27

猜你喜欢

图解表达式实例
灵活选用二次函数表达式
表达式转换及求值探析
浅析C语言运算符及表达式的教学误区
图解十八届六中全会
图解天下
完形填空Ⅱ
完形填空Ⅰ
议C语言中循环语句