基于标记隐现规则的复句层次关系识别∗
——三句式二重有标复句层次关系识别
2018-04-26刘凤娇刘剑锋翟宏森杨梦川
李 源 刘凤娇 刘剑锋 翟宏森 杨梦川
(华中师范大学计算机学院 武汉 430079)
1 引言
随着信息化社会的发展,中文信息处理成为推动搜索引擎、人工智能等技术的重要工具,因此,大力研究中文信息处理技术的发展成为人们关注的焦点。在对复句进行研究的过程中,分词、词性标注等技术已经相对成熟,极具代表性的是中科院的分词系统ICTCLAS、哈工大与科大讯飞联合推出的语言云平台等。目前,国内的研究重点是复句的语义、依存关系、层次关系等。如鲁松、罗进军等对复句层次关系的探讨,吴锋文、舒江波、胡金柱等发表的基于规则的汉语复句层次关系自动识别研究,以及吴锋文提出的三分句可识别关系词隐现形式。这些对复句层次关系等方面的研究不仅能加深对复句内部联结规则的认识,同时,对复句信息工程的纵深化发展也起到至关重要的推动作用[1]。
本文的主要工作是借助哈工大的语言云平台以及华中师范大学的CCCS语料库,对三分句二重复句进行分词、词性标注以及复句内标记隐现模式进行确定,从而通过构建的标记隐现规则库获得该复句的层次结构。
2 关系词标注对复句层次关系识别的限制
2.1 关系词
复句关系词是“复句中用来联结分句标明关系的词语”(邢福义,2001:26)。它作为复句内部关系的标志,在复句中有着特殊的地位和作用。特别是,对有标复句而言,关系词语的正确提取、标记和搭配是进行复句层次划分的重要依据[2~4],另外,关系词语的类别也暗含了关系词所在分句的语义类型。因此,在进行三分句复句层次识别过程中可以利用复句关系词语在句法和语义方面的标志作用,将关系词语的句法语义信息、搭配规则以及分句间的语义依存关系提供给计算机,让计算机在这些信息的支持下来识别和判断有标复句的层次关系。通过关系词库的建立和关系词的搭配规则的研究可以发现,对于全标复句,可以直接利用关系词搭配规则进行复句层次划分。所以,在复句缺标的情况下,可以想方设法将所缺标记进行有效补全进而转化为全标复句,再进行复句层次划分。
在对复句进行层次关系的识别过程中,首先要对复句进行预处理,包含分词、词性标注、关系词标注、分句等;其中,关系词的正确标注和分句的正确获取是有效识别有标复句层次关系的重要依据。因此,在预处理过程中,关系词的正确标注是做好有标复句层次关系识别的重要前提。
2.2 关系词标注过程中的困难
关系词的正确标注是提高复句层次划分正确率的重要保障,然而,由于汉语表达方式的千变万化以及复句的结构多样性,在使用计算机对复句的关系词进行标注的过程中会面临很多困难。目前,存在两个最主要的问题:一是关系词隐现;二是伪关系词的标注[5]。
例1、如果有人说小高已经在喜欢她了,1)所以才会留下来。2)小高是死也不会承认的。3)(古龙《英雄无泪》)
例2、只/要一斤,多的不要。
图1 (例2)句法分析图
在例1中分句3)缺标即关系词隐现,根据关系词的搭配规则以及已有的语义信息可以在分句3)中添加关系词“要不然”、“否则”等。通过哈工大语言云平台对例2进行词性标注和依存句法分析可以发现,“只要”会出现分词错误,因此导致计算机在关系词标注时将两个词“只”和“要”错误地标注成关系词“只要”。
3 分句的获取
根据《汉语复句研究》(邢福义著)中对复句的定义可知,复句是分句的复合。复句与单句的本质区别在于复句中的分句是相对独立的,每个分句都有“句”的性质和地位,每个分句都不做彼此的成分。因此,正确获取分句也是保证正确进行复句层次划分的重要前提。通过对华中师范大学CCCS语料库的观察发现,逗号、分号和冒号是常用的复句句中标点符号。但是,冒号一般表示解释、说明的意思,因此,在句子中具有统领作用,而分号在一般复句中也存在标识层次的作用。所以,本文重点使用依存句法(COO依存关系)和句中标点符号(逗号)来进行分句的获取[6~7]。
3.1 依存句法
依存语法是通过分析语言单位内成分之间的依存关系来揭示其句法结构,该语法直接描述词语之间的关系。每对词之间构成依存关系对,其中,依存对中的一个词为核心,亦称支配词,另一个词为依存词,亦称从属词,所有受支配的成分都是以某种依存关系从属于其支配词[8]。那么,直观来讲,依存句法就是分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系[9]。
计算语言学家Robinson总结了一组语法的4条公理:
1)一个句子中只有一个独立成分不依存于其他任何成分;2)句子的其他成分都必须依存于某一成分;3)任何一个成分都不能依存于两个或两个以上的其他成分;
4)如果成分A直接依存于成分B,而成分C位于A和B之间,则C依存于A或者B,或者依存于A和B之间的某一成分[10]。
3.2 基于依存句法和标点符号(逗号)获取分句
在复句中,逗号是出现频率最高的句中标点符号(表示一句话没有结束),所以在确定分句的过程中,可以根据句中逗号对有标复句进行初步的分句切割并编号。但是由于在汉语中,使用逗号分开的部分不一定都能单独成为一个分句,它可能是其他分隔部分的句子成分,此时就不能够进行分句,因此单独使用逗号划分出分句是不准确的[11]。
例3、1986年,厂工会改选,由于肖医生群众基础好,威信高,被选为厂工会主席。《长江日报》1989年02月10日02版次
经过哈工大语言云平台对该有标复句进行依存句法分析,分析结果如下:
根据图2可以看出,例3通过逗号初步分句的结果是:1)1986年;2)厂工会改选;3)由于肖医生群众基础好;4)威信高;5)被选为厂工会主席。但是经过依存句法分析可以知道,1)、2)两部分中所含的成分之间存在ADV关系(状中结构),并非COO关系(并列关系),因而不可以分句,即1)、2)同属一个分句。3)、4)、5)三部分中的成分也没有存在COO(并列关系),只有ADV关系,因此,3)、4)、5)同属一个分句。而在2)中的“改选”和5)中的“选”存在COO关系,所以该复句由两个分句构成。虽然此处出现的是COO关系,但是并不意味是并列,该复句是一个因果类的复句。
图2 (例3)分析结果
例4、当时,除了皇帝,没有人敢狩猎骆马和穿着骆马毛制的衣服,否则将受到死刑惩处。《长江日报》1988年11月15日04版次
经过哈工大语言云平台对该有标复句进行依存句法分析,分析结果如下:
根据逗号对例4进行初步分句的结果是:1)当时;2)除了皇帝;3)没有人敢狩猎骆马和穿着骆马毛制的衣服;4)否则将受到死刑惩处。但是经过依存句法分析可以知道,1)、2)、3)三部分存在的是ADV关系(状中结构),构成依存关系,因而不可以分句,即1)、2)、3)同属一个分句。4)和前面三个部分存在COO(并列关系),因此,4)单独成为一个分句。同时,该复句是一个转折类的复句。
图3 (例4)句法分析结果
从3.2中的实验结果可以看出,单纯地用句中逗号进行分句的获取是不准确的,所以在分句获取的过程中可以借助依存关系进行伪分句的去除。当然,这种获取分句的方式的正确率在很大程度上要取决于依存句法的正确分析。因此,在依存句法分析错误的情况下,为了提高分句获取的正确率,保证后续复句层析分析的正确性,可以采取人工过滤伪分句。
4 基于标记隐现规则的三分句二重复句层次关系识别
4.1 三分句二重有标复句的两种关联模式
通过对三分句的二重复句进行研究发现,由三个分句构成的二重复句存在着两种句法关联模式,即1-2型关联模式和2-1关联模式,这两种关联模式如图4、图5所示[11]。
图5 2-1型
从图示中可以看出这两种关联模式在结构上具有不同的组合顺序,1-2型,是S2、S3两个分句先进行组合构成一个层次,最后整体与S1构成一个新的层次;2-1型是S1、S2两个分句先进行组合构成一个层次,最后整体与S3构成一个新的层次。
4.2 三分句二重复句的标记隐现模式
对于一个给定的三分句有标复句,它的标记隐现模式是由各分句的标记隐现情况共同组成。设三个分句的标记形式分别为C1_TYPE、C2_TYPE、C3_TYPE,则整个复句的标记隐现模式为(C1_TYPE ,C2_TYPE,C3_TYPE),其中这三者的值 可 为 kb、Ri_fore、Ri_back、Rj_fore、Rj_back、Ri_back+Rj_fore及Ri_fore+Rj_fore中的某一个。
每个字段的含义如下:
1)R:表示关系标记(关系词);
2)i/j:表示关系词的语义类别为S(i)或S(j);
3)_:主要作用是将关系词的语义类别和配位进行分隔;
4)fore/back:表示关系词分别为前配位、后配位,即前呼标或后应标。
5)kb:与(1)~(4)不同时存在,表示该分句中不存在准关系词,即为空标。
如Ri_fore表示标记R的语义类别为S(i),句法配位为X(fore)。kb表示此分句中标记缺省,即空标。
如图8所示为构建的标记隐现规则库[12~13](部分数据),其中C1_TYPE、C2_TYPE、C3_TYPE分别表示三个分句中的标记隐现形式,RESULT_TYPE为对应的复句层次结构类型。
图6 三句式二重有标复句的标记隐现规则库
4.3 基于标记隐现规则的复句层次结构分析
本文选取CCCS语料库中1000条三分句有标复句作为层次分析的测试用例,为了方便说明,本文列举了充盈态1-2类型的三分句有标复句、充盈态2-1类型的三分句有标复句。对此进行开放性测试,层次关系分析,得到的实验结果如下所示。
例5钓鱼一坐就是几个小时,既能增强体质,又能培养耐力。
图7 例5层次结构类型结果
例6“电热褥”不仅能驱寒解乏,消除潮气,而且还是理想的家用医疗器具。
图8 例6层次结构分析结果
表1 实验结果
5 结语
汉语表达方式的千变万化决定了复句层次关系的识别将是一个复杂的工程,而对复句的各种研究的落脚点都要归于对复句内关系词的研究上去。复句内标记隐现模式的正确获取是做好层次识别的关键。因此,复句的层次关系识别和复句的标记是相辅相成的两部分,对复句的层次关系的识别离不开对关系词的正确标注,在后续的研究过程中,要做好对复句中标记隐现情况的研究。
[1]吴锋文.汉语复句信息处理研究二十年[J].中文信息学报,2015,29(1):13-18.WU Fengwen.The twenty years of Chinese language infor⁃mation processing research[J].Chinese information jour⁃nal,2015,29(1):13-18.
[2]胡金柱,吴锋文,李琼,等.汉语复句关系词库的建设及其利用[J].语言科学,2010(2):133-142.HU Jinzhu,WU Fengwen,LI Qiong,et al.The construc⁃tion and use of Chinese sentence relationship[J].Lan⁃guage science,2010(2):133-142.
[3]吴锋文.基于关系标记的汉语复句分类研究[J].汉语学报,2011(3):63-73,96.WU Fengwen.The classification of Chinese sentence based on relation markers[J].Journal of Chinese,2011(3):63-73,96.
[4]胡金柱,舒江波,姚双云,等.面向中文信息处理的复句关系词提取算法研究[J].计算机工程与科学,2009,31(10):90-93.HU Jinzhu,SHU Jin,YAO Shuangyun,et al.The reach of word extraction algorithm about Chinese information pro⁃cessing[J].computer engineering and science,2009,31(10):90-93.
[5]吴锋文.关系标记对汉语复句层次关系识别的影响[J].渭南师范学院学报,2014,29(9):68-73.WU Fengwen.The relation markers'influence on the rec⁃ognition of compound sentences[J].Journal of Weinan Teachers University,2014,29(9):68-73.
[6]秦存钢.影响分句确认的因素[J].泰安教育学院学报岱宗学刊,2002(3):36-40.QIN Cungang.The factors which affecting the confirming of clauses[J].Journal of Tai'an Institute of education Da⁃izong journal,2002(3):36-40.
[7]朱文献.分号与复句的层次[J].阅读与写作,1998(4):29-30.ZHU Wenxian.Levels of compound sentences with a semi⁃colon[J].reading and writing,1998(4):29-30.
[8]叶林沿.基于依存关系树的复句句法特征自动选取[D].武汉:华中师范大学,2014.YE Linyan.The automatically select of sentence syntactic based on dependency relation'tree[D].Wuhan:Central China Normal University,2014.
[9]袁文宜.依存语法概述[J].科技情报开发与经济,2010(18):152-154.YUAN Yi.Overview of dependency grammar[J].Science and technology information development and economy,2010(18):152-154.
[10]石翠.依存句法分析研究综述[J].智能计算机与应用,2013,3(6):47-49.SHI Cui.Review of dependency parsing[J].Intelligent computer and application,2013,3(6):47-49.
[11]刘剑锋.基于搭配关系的有标复句层次关系分析[D].武汉:华中师范大学,2015.LIU Jianfeng.The hierarchy analysis based on colloca⁃tion tag compound sentence[D].Wuhan:Central China Normal University,2015.
[12]吴锋文.面向信息处理的“一标三句式”复句层次关系判定[J].北方论丛,2012(1):64-68.WU Fengwen.The determination about relationship of layer for information processing“one standard of three clauses”[J].The North journal,2012(1):64-68.
[13]吴锋文.面向信息处理的“二标三句式”复句层次关系判定[J].信阳师范学院学报(哲学社会科学版),2012,32(1):88-93.WU Fengwen.The determination about relationship of layer for information processing“two standards of three clauses”[J].Journal of Xinyang Normal University(Phi⁃losophy and Social Sciences Edition),2012,32(1):88-93.