基于UML的小句本体模型研究
2019-03-30沈威
沈 威
(华中师范大学 语言与语言教育研究中心,湖北 武汉430079)
1 引言
1.1 目前中文信息处理的现状
近年来,中文信息处理技术取得了一定的成绩.总的来讲,在字、词处理方面的技术比较成熟,而在句子层面的研究则相对薄弱.在字、词等方面,尤其是上世纪80年代之后,汉语的字、词方面的各种研究得到了较快的发展.比如在分词算法上,全切分分词方法、最短路径分词方法、N-最短路径分词方法、基于隐马尔科夫模型(HMM)或n元语法(n-gram)的分词方法等一系列分词方法相继提出.而且,还出现了一批有指导性、代表性的文献和工具,比如《现代汉语语法信息词典》和“知网”.这些成果的出现显示出现阶段中文信息处理在字、词方面的研究已经相当成熟.不过尽管中文信息处理目前取得的成绩是巨大的,但还是存在不少问题.
中文信息处理是一个融合了认知科学、数学、逻辑学、统计学、语言学、计算机科学等多个学科知识的综合性学科.它所面临的问题往往是复杂的.目前仍面临着许多尚未解决,也不好解决的难题.比如,从目前情况来看,仅仅是歧义的消解就已经让自然语言处理研究者力不从心,更何况在实际的语言运用中,还有诸如隐喻、幽默、夸张、双关等修辞手法的运用.[1]
特别是在中文信息处理领域中,对小句的研究还相对不足.比如现在热门的各种搜索引擎仍旧是以词项为主要匹配手段.而汉语中人们交流的形式是小句,各种专家系统中人与机器的交流形式也是小句,中文信息处理迫切需要对小句有足够的认识,那么首要的问题就是要对小句进行准确、细致的建模.
相对于字、词已经取得的丰硕成果,中文信息处理对句子层面的研究就显得非常不足了.目前对小句进行本体建模的文章极少,而且所建的本体模型要么不太完善要么不太准确,都或多或少存在着这样那样的问题.[2]在这个大环境下,要想中文信息处理在句子层面有所突破,最关键的第一步就是建立一个科学的小句本体模型.而如何将传统的小句本体知识应用于中文信息处理,首先要解决的就是建立一个以小句为中心的句法标注体系.[3]
1.2 本体的概念
本体(Ontology)最开始是在哲学领域中出现的,哲学中对本体的定义为:“系统地对世界上客观存在物的描述.”哲学中的本体关心的是客观现实的一种抽象本质.自哲学领域对本体做了定义之后,其它许多学科和学者也都给本体下过定义,其中以Gruber给出的定义影响最大.“本体是概念化的明确的规范说明”.[4-5]后来Studer等人总结前人的相关定义描述,将本体的描述概括为“共享概念化的形式的明确规范”.[6]
本体的主要目标是对相关领域的知识进行搜集和分类,确定这个领域内部人们普遍认可的词汇,并从各个不同层级的形式化模式上标明词汇之间的各种复杂的联系.信息处理领域中本体是人们公认的最重要的成分之一.
1.3 为什么选择UML对小句进行建模
UML(unifiied modeling language)是一种面向对象的建模语言,它是运用统一的、标准化的标记和定义实现对任何具有静态结构和动态行为的系统进行面向对象的描述和建模.运用UML对小句本体进行建模可以保证模型的通用性,所以本文将利用UML对小句进行静态的本体建模.
2 汉语中小句的中枢地位
2.1 小句的内涵
人们平时说话都会用到小句,或者由小句构成的复句、句群.人们说话就是一种表述.小句是最小的具有表述性和独立性的语法单位.
所谓具有表述性,是指能够阐明言者的表达意图,不能含糊不清.所谓独立性,是指小句作为一个实体不能作为别的小句的组成部分.[5]比如:
(1)今天星期一.
(2)我知道今天星期一.
(3)由于外面在下雨,所以我迟到了.
这三例中,第一例是小句.第二例也是小句,但是第二例中的“今天星期一”不是小句,因为“今天星期一”被包含在小句“我知道今天星期一”里.第三例是由两个分句“由于外面在下雨”和“所以我迟到了”组合而成的复句.
有时,即使是由一个叹词构成的疑问句或感叹句,实际上也跟深层潜在的判断存在关系.比如:
(4)哦?
(5)哼!
第一个例子是由一个叹词构成的疑问句,在特定的语境中可能跟“想不到会这样”之类的判断存在联系;第二个是由一个叹词构成的感叹句,在特定的语境中可能跟“你想得美”之类的判断存在联系.
2.2 小句的中枢地位
小句在汉语的各级各类语法单位中占有主导地位,换句话说,居于中枢地位的是小句.[6]小句之所以能够统领汉语的其他语法单位如词、短语、复句、句群等而居于核心地位,是基于以下三个方面的因素:
2.2.1 小句在各级各类语法实体中,所具备的各种语法因素最为齐全
相对于句子语气、语素、词、短语、复句、句群等语法单位而言,小句所包含的语法因素种类最多.
2.2.2 小句在各级各类语法实体中,具有中枢地位
汉语包含多种语法实体,而只有小句和其他各种语法实体有直接联系,处于核心地位.具体来说,人们在说话表达意图时,小句和句子的语气是直接联系的;在小句的内部构成部件上,词、短语和小句是直接相关的;在小句之外更大的语法单位来看,复句和句群也都是由小句构成的.
2.2.3 在汉语的各级各类语法实体中,其它实体均依附于小句,处于从属地位
由于小句具有承上启下的重要功能,使得只有小句能约束其它的语法实体,其它语法实体都必须依附于小句.[7]具体来讲:
2.2.3.1 句子语气 依附于小句
准确一点来讲,应该是句子语气粘附于小句直接构件,从而形成小句.
比如“今天星期四”是小句直接构件,那么只要陈述语气粘附于这个构件,就会形成陈述句“今天星期四”.倘若是疑问语气粘附于这个构件,就会形成疑问句“今天星期四?”
2.2.3.2 复句和句群 依赖于小句
复句是由分句和分句联结而成,而分句也可以看做是一种特殊的小句,可以说没有小句,也就没有复句.
句群是由两个或两个以上的句子构成.构成“句群”的成分“句”既可以是单句成分的小句,也可以是由以小句为基础的分句联结而成的复句.
(6)今天下午老师有事,下午的课取消了.
(7)学校里走不开?不认识到这里的路?车胎漏气了?路上出了麻烦?
这两例中,前一例是个因果复句,这个复句由两个分句“今天下午老师有事”和“下午的课取消了”联结而成.后一例是个句群,这个句群由四个小句“学校里走不开?”“不认识到这里的路?”“车胎漏气了?”“路上出了麻烦?”组成.
总而言之,复句和句群离不开小句.
2.2.3.3 词 受控于小句
汉语语法系统中的词独立存在于小句之外,但是却是受控于小句的.词,只有跟小句发生联系之后,才能明确显示其语法特性和语法职能,才能发挥特定的语法作用.
比如:
(8)这是一个标志,标志着人类正在走向互相了解,走向互相尊重.(边霞遐《化剑为犁》)
这一例中,第一个“标志”出现在宾语部分里,受“一个”的修饰,这一语法环境把它规约为名词;第二个“标志”出现在谓语部分里,带了动态助词“着”,而且后面出现了宾语“人类正在走向互相了解,走向互相尊重”,这一语法环境把第二个“标志”规约为动词.“入句显类”,这是词性句规约的重要表现.
2.2.3.4 短语 从属于小句.
绝大多数的短语,不像词那样独立存在于句子之外.从总体上看,在汉语语法系统中,短语实际上从属于小句,为小句所管控.这可以从三个方面来观察.
①短语的具体组合,为造句的具体需要所决定.
绝大多数的短语,都是自由短语.它们具有组合的临时性和可变性.也就是说,短语究竟由哪个结构成分跟哪个结构成分组合而成,完全取决于小句表述意旨的临时需要,非常灵活.比如:
(9)他这几天要跑钱.(哪有心思跟你们聊天!)
(10)他这几天要跑票.(哪有心思跟你们聊天!)
(11)他这几天要跑官.(哪有心思跟你们聊天!)
单独说“跑钱”“跑票”“跑官”,听起来也许不知所云,但出现在“他这几天要X”的小句中,它们的意思就比较明确了.“跑钱”,为弄到钱而奔跑;“跑票”,为弄到票而奔跑;“跑官”,为弄到官职而奔跑.
②短语的结构类型是包容在小句的结构类型之中的.
短语所具有的的结构类型如“动宾”“主谓”“定心”“状心”“心补”等,没有一种不在小句结构类型的包容之中.短语的结构类型在小句中全都可以找到.请看例子:
(12)买五个苹果!
(13)今天我请毓芳同云霖看电影.
(14)好漂亮的蝴蝶!
(15)非常不错!
(16)累得在床上躺了三天三夜.
例(12)~例(16)的例子去掉句末标点就分别变成了相应的动宾、主谓、定心、状心、心补短语.
③短语的语义内涵,为小句的结构格局所显示.[7]
看两个例子:
(17)我们下午学习文件.
(18)我们下午领学习文件.
这两例中,“学习文件”有不同的语义内涵.前一例,“学习文件”被安置在谓语部分,是动宾结构,表示行为.后一例,被安置在动词“领”的后面作其宾语,是定心结构,表示事物.
3 小句本体建模
本部分将利用UML对小句进行本体建模.先介绍小句建模涉及到的概念以及概念与概念之间的关系.
小句本体建模里涉及到的概念有:句子语气、语素、词语、短语、成分词、非成分词、成分短语、非成分短语、关系类短语、标志类短语.
小句本体建模里各概念之间涉及到的关系有:
①公共领域本体和小句本体为聚合关系,且一个公共领域本体可以使用多个小句本体.
②小句和句子语气的关系为组合关系,一个小句必须有而且只可以有一种语气.
③句子语气和陈述语气、疑问语气、祈使语气、感叹语气的关系为继承关系.
④小句的构件有两个类型:词语和短语,小句和词语、短语的关系为聚合关系.
⑤一个短语由两个或两个以上的词语构成,短语和词语的关系为聚合关系.
⑥一个词语由一个或一个以上的语素构成,词语和语素的关系为聚合关系.
⑦词语按照能否作句法成分,又可以分为成分词和非成分词.词语与成分词、非成分词的关系为聚合关系.
⑧成分词分为名词、动词、形容词、副词、数词、量词、代词、拟音词.成分词和名词、动词等词之间为继承关系.
⑨非成分词分为介词、连词、助词.非成分词和介词、连词、助词之间为继承关系.
⑩短语根据是否可做句子成分分为成分短语和非成分短语.短语与成分短语、非成分短语之间为聚合关系.
⑪成分短语可以从结构的角度和功能的角度分为结构类短语和功能类短语.成分短语和结构类短语、功能类短语之间的关系为聚合关系.
⑫结构类短语根据结构成分之间的语义关系是否清晰可分为结构关系类短语和结构标志类短语.结构类短语与结构关系类短语、结构标志类短语之间为聚合关系.
⑬结构关系类短语又可根据组成成分之间是否平等分为成分配对式短语和依次排列式短语.结构关系类短语与成分配对式短语、依次排列式短语之间为聚合关系.
⑭成分配对式短语的类型有:主谓短语、动宾短语、定心短语、状心短语、心补短语.成分配对式短语与主谓短语等短语之间为继承关系.
⑮依次排列式短语可分为联合短语和同位短语.依次排列式短语与联合短语和同位短语之间为继承关系.
⑯结构标志类短语根据语表上的标志可分为:能愿短语、“的”字短语、介词短语、方位短语、趋向短语、比况短语、数量短语.结构标志类短语和它们之间的关系为继承关系.
⑰功能类短语包括名词性短语、动词性短语和形容词性短语.功能类短语和它们之间的关系为继承关系.
根据以上小句的概念以及各概念之间的关系,可以构建图1所示的小句本体模型图.
图1 小句本体模型
结 语
本文首先介绍了中文信息处理的研究现状、本体的概念以及为什么选用UML来描述小句的本体模型;其次,本文较为详细地介绍了汉语里小句的概念和内涵以及小句为什么在汉语的各级各类语法实体里处于中枢地位?最后,本文对小句里包含的各种概念以及概念之间的关系进行了分析,并利用UML对小句进行了静态的建模.本模型为中文信息处理领域的句处理打下了基础.今后有关汉语里句子语义的自动理解,小句、复句乃至句群等方面的研究都可以利用本文所建立的小句本体模型.
下一步,我们将对小句本体模型图中各个类的数据成员和方法逐一进行实现、对小句构件内部各成员之间隐含的语义、语法关系进行充分地挖掘并将其形式化,这些尝试将对中文信息处理中的句处理起到推进作用.