基于《知网》的中文信息结构消歧研究
2012-06-29张瑞霞庄晋林杨国增
张瑞霞,庄晋林,杨国增
(1. 华北水利水电学院 信息工程学院,河南 郑州 450011;2.郑州师范学院 数学系,河南 郑州 450044)
1 引言
语义分析在中文信息处理领域中占有重要地位,特别是随着一些知识库和语义分析理论的成熟,使得语义分析的自动化成为可能。《知网》是一个以英汉双语所代表的概念以及概念的特征为基础的常识知识库,它主要描述了概念与概念之间以及概念所具有的特性之间的关系[1],在中文信息处理中得到广泛应用[2];而其中的重要组成部分之一,中文信息结构(简记为CMS)描述了中文词语的各个组成部分之间由《知网》所规定的动态角色关系或属性,其揭示了中文的语言结构规律[3],可以作为中文语义分析的规则库;然而在《中文信息结构库》[4]中包含众多CMS,因此对其消歧是应用的必要前提之一;文献[5]应用了CMS的消歧,但没有说明如何对其进行消歧;文献[6]构建了基于《知网》的中文信息结构抽取器,但其规则形式不简练且规则中忽略了动态角色,其次消歧策略不明了;鉴于此,本文首先以《中文信息结构库》为蓝本形式化了CMS;然后根据CMS的构成形式对其进行优先级划分,并提出了不同的消歧方法: 如词性序列消歧法、图相容匹配消歧法、图相容度计算消歧法及基于实例的语义相似度计算消歧法;最后描述了信息结构集的消歧流程。实验证明此消歧是有效的。
2 CMS的形式化描述
在《中文信息结构库》中每个CMS由四部分组成,即: SYN_S,表示相应的句法结构;SEM_S,表示语义结构;Query 和Answer,表示该信息结构模式传达的真正信息,并由此可产生的问与答; 例子,给出符合该信息结构模式的真实语料的实例。例如:
SYN_S=V <-- N
SEM_S=(事件,烹调) <-- [成品受事] (食物/植物/兽/部件,%动物/部件,% 植物)
Query1: 什么食品?
Answer1: V+N
例子: 炒-菜,烤-鸭,卤-蛋,烤-白薯,烤-面包,拌-凉菜,炒-鸡蛋
为了便于消歧,在不改变信息结构表达意义的基础上,对信息结构中的SYN_S和SEM_S进行形式化描述,以使其与《知网》2005版知识词典的描述一致,从而能够充分利用知网中的语义资源进行消歧;约定在形式化描述式中,“|”表示或者,“...”表示省略,其他符号均表示出现在描述式中的实际符号。并对信息结构中的例子进行了词性、词义、语义角色标注。
2.1 句法结构的形式化描述
在CMS中,SYN_S中使用弧表示了短语或词语间的修饰关系,即弧指向部分是修饰语,弧的离开部分是被修饰语,在SYN_S的形式化描述中,用“L”代替指向SYN_S左部分的弧,用“R”代替指向SYN_S右部分的弧,SYN_S形式化描述如下所示。
SYN_S::=Syntax Direction Syntax | Syntax Direction {SYN_S} |{SYN_S} Direction Syntax | {SYN_S}Direction {SYN_S}
Syntax::=《知网》的词性标记
Direction::= L | R
例如: SYN_S=V <-- N,可形式化为: SYN_S=V L N
2.2 语义结构的形式化描述
SEM_S主要包含了三种信息,即: 词语的语义信息,用义原或义原的组合形式表示;短语或词语间的修饰关系,用弧表示;短语或词语间的语义关系,用动态角色表示。因此对SEM_S的形式化描述主要就是对这三方面的形式化描述。
对词语语义信息的形式化描述,采用《知网》2005版本知识词典中对概念项的描述方法;对短语或词语间的修饰关系的形式化描述与句法结构形式化描述相同;短语或词语间的语义关系,均采用《知网》中动态角色对应的英文形式。SEM_S的形式化描述如下所示:
DEF1::=(sememe) | (sememe/sememe/...) | (sememe:label1=(word)) | (#:label2=(punc))
DEF2::=(sememe:role=DEF1) | (sememe:role=DEF2) | DEF1/DEF 2
DEF::=DEF1 | DEF2
SEM_S::=DEF direction DEF |{SEM_S} direction DEF | DEF direction{SEM_S}| {SEM_S} direction {SEM_S}
sememe::=《知网》中的义原
word::=《知网》概念词典中的中文词语
punc::=标点符号
role::=《知网》中的动态角色
label1::=ALI
label2::= PUNC
direction:=[role] L | R [role]
例如:
SEM_S=(事件,烹调) <-- [成品受事] (食物/植物/兽/部件,%动物/部件,% 植物)
可形式化为:
SEM_S=(烹调) [ProductPatient] L (食物/植物/兽)/(部件:whole=(动物/植物))
3 基于《知网》的CMS消歧方法
CMS消歧主要是对给定的短语选择最优的CMS,例如,“教学生”,如何选择最优CMS?这里主要涉及三个问题:
(1) 在众多CMS中,应该按照怎样的次序进行消歧,即CMS优先级的问题;
(2) 设计怎样的消歧方法,即消歧方法的设计问题;
(3) 如何综合应用这些消歧方法,即消歧的流程问题;
3.1 CMS的优先级
对CMS划分优先级的目的是确定CMS消歧的次序,即优先级高的CMS先消歧;对CMS划分优先级的依据是根据其SEM_S的构成形式。
第一优先级: SEM_S中含有具体词语,例如: SEM_S= (文字/姓) [modifier] L (人:ALI=(嫌/员/局/队/处/妇/女)),此信息结构集中共含有29条CMS,记为PRISET1.
第二优先级:SEM_S中含有的义原均为义原树上的叶节点,例如: SEM_S= (度过) R [patient] (时间),此信息结构集中共含有38条CMS,记为PRISET2。
第三级: SEM_S的中心义原为义原层次树上的叶节点,例如: SEM_S=(事件) [duration] L (时间),此信息结构集中共含有33条CMS,记为PRISET3。
第四级: SEM_S的非中心节点含有叶节点义原,例如: SEM_S= (性别值) [modifier] L (动物/植物/团体),此信息结构集中共含有42条CMS,记为PRISET4。
第五级为未包含在前四级内的CMS,例如: SEM_S= (使之是) R [ResultIsa] (万物),此信息结构集中共含有124条CMS,记为PRISET5。
规定优先级数越低,其优先级越高,优先级高的CMS先进入消歧流程,即依次对PRISET1、PRISET2、PRISET3、PRISET4、PRISET5进行消歧。对CMS进行了优先级划分后,就可以对不同优先级别的信息结构集采用不同的消歧方法。
3.2 CMS的消歧方法
由于《知网》知识词典对词语概念项的描述均采用递归层次形式描述,形式化描述后的CMS中的SEM_S也是采用递归层次形式描述,所以可以用图结构表示词语的概念项[7]及CMS的SEM_S,因此信息结构集消歧过程中就是对图结构的处理,可以利用成熟的图理论,结合《知网》和图理论扩展了图理论中的相关定义。
设G1与G2均为概念图,其中G1=
定义1:G1等相容于G2: 若存在双射函数f:V1→V2,对于vi,vj∈V1,
从图等相容的定义易知: 图的等相容性具有自反性、对称性和传递性。
定义2:G1上相容于G2: 若存在双射函数f:V1→V2,对于vi,vj∈V1,
从图上相容的定义易知: 图的上相容性具有自反性、反对称性和传递性。
如图1、图2、图3、图4、图5分别表示概念图G1、G2、G3、G4、G5,由以上定义则有G1≈G2、G1≤G3、G1|≈G4、G1|≤G5.
图1 G1 图2 G2 图3 G3
图4 G4 图5 G5
为了量化概念图G1、G2的相容性,引入相容度的概念。令G1、G2的相容度为com(G1,G2),设在不考虑节点所代表义原意义的情况下: 若G2⊆G1,则G1可能相容于G2,此时com(G1,G2)≥0;若G1⊆G2,则G2可能相容于G1,此时com(G1,G2)≤0;若G1⊄G2且G2⊄G1,则G1和G2不可能存在相容关系,此时com(G1,G2)=0。
计算comVex(v1i,f(v1i))时,当两个节点表示词语时,若表示相同词语,则comVex(v1i,f(v1i))=1,否则comVex(v1i,f(v1i))=0;当两个节点表示义原时,若表示相同义原,则comVex(v1i,f(v1i))=1;若表示的义原不具有子孙关系,则它们是不相容的,所以comVex(v1i,f(v1i))=0;若表示的义原具有子孙关系,那么两个节点的相容度与其相似度有一定关系,即两义原越相似,其相容度越大,所以参照相似度计算方法计算comVex(v1i,f(v1i)),如式(2)所示:
在式(2)中,s(v1i)表示节点v1i所代表的义原;depth(s(v1i))表示义原s(v1i)在义原树上的深度;min取两者的最小值;depthTree表示s(v1i)所在义原树的高度;λ1为调节参数;dis(s(v1i),s(f(v1i))计算两义原的距离。
计算dis(s(v1i),s(f(v1i))时,当s(v1i)是s(f(v1i))的子孙义原时,则dis(s(v1i),s(f(v1i))为s(v1i)在义原树上到s(f(v1i)的最短路径长度;当s(v1i)是s(f(v1i))的祖先义原时,则dis(s(v1i),s(f(v1i)))= - dis(s(f(v1i)),s(v1i)),同时令λ1=-λ1。
若G1⊆G2,则com(G1,G2)=-com(G2,G1)。
以上对图相容性进行了研究,接下来根据SEM_S的构成形式及图理论提出四种信息结构消歧方法,分别为: 词性序列消歧法、图相容匹配消歧法、图相容度计算消歧法及基于实例的语义相似度计算消歧法。设输入短语为phrase,某一信息结构CMS中的语义结构为SEM_S、句法结构为SYN_S,具体消歧方法如下所示。
词性序列消歧法: 若SYN_S的词性序列与phrase的词性序列一致,则该CMS有可能成为较优信息结构,否则不能成为较优信息结构。
图相容匹配消歧法: 主要是通过对图相容关系的定性分析进行消歧,即若phrase中的词图与SEM_S中对应的词图满足一定的相容关系,则该CMS有可能成为较优语义结构,否则不能成为较优信息结构;根据图的相容关系,图相容匹配消歧法可分为图局部等相容匹配消歧法、图局部上相容匹配消歧法。
图相容度计算消歧法: 按照图相容度的计算方法,经过实验验证两个图越相容,则其相容度越大,而两个图的相容度越大,则其语义结构越相似,所以此消歧法是通过计算phrase的概念图与SEM_S概念图的相容度,进而选择相容度较大的n个SEM_S所对应的CMS构成较优信息结构集。因此此方法关键是计算phrase和SEM_S的相容度。根据SYN_S可构造一颗完全二叉树SYN_TREE,并且在构造SYN_TREE时,遵循右子树修饰同一根节点左子树的原则;若把SEM_S中每一词语的概念图看成一节点,则SEM_S的图结构与SYN_TREE在表示节点间的修饰关系方面是一致的;若phrase选取SEM_S作为其语义结构,则phrase的图结构与SEM_S相同;所以计算phrase与SEM_S的相容度,即计算两者图结构的相容度,设phrase中含有m个词语,各个词图组成的集合GS1={G1i|1≤i≤m},SEM_S各个概念图组成的集合GS2={G2j|1≤j≤m},令G2i为SEM_S中心词语的概念图,则G1i为phrase中心词语的概念图,中心词语概念图的相容度对整体相容度影响要高于非中心词语概念图对整体相容度的影响;而关于非中心词语对整体相容度影响与其距中心词语的距离有关,即距离中心词语越近,影响越大;所以GS1和GS2的相容度comGs(GS1,GS2)如式(3)所示:
comGs(GS1,GS2)=com(G1i,G2i)+β2×
(3)
式(3)中,n=|GS2|,com(G1i,G2i)表示概念图G1i和G2i的相容度,按照式(1)计算;λ2为调节参数;disG(G2k,G2i)表示在SYN_TREE中代表G2k的叶节点到代表G2i叶节点的最短路径长度,即表示了非中心词语与中心词语间的距离。
基于实例的相似度计算消歧法: 由语言学规律易知,两个短语的语义相似度越大,其语义结构越相近,所以此方法主要通过比较phrase与CMS附带短语实例的相似度进行消歧。即对于待消歧的每个CMS,先计算phrase与CMS附带例子中每个短语example的相似度,然后选择最大相似度加入相似度比较序列,最后从相似度比较序列中选取n个较大相似度对应的CMS构成较优信息结构集。因此关键是计算phrase与example的相似度,由于可根据SYN_S构造完全二叉树SYN_TREE,同概念图相容度计算分析,phrase与example中词语间的修饰关系与SYN_TREE是一致的;为了使相似度计算与语义结构相关,在合成整体相似度时,参照SYN_TREE的结构进行合成;计算它们概念图的相似度可分为两步:
第一步: 参照文献[8]计算phrase与example对应位置词语概念图的相似度,放入数组simPart中;
第二步: 根据SYN_TREE的结构合成整体相似度,其算法为simTree(SYN_TREE,simPart,a,b),其中SYN_TREE为SYN_S的树结构,a、b为参数,分别表示中心词语与非中心词语在整体相似度计算过程中的权重,a+b=1,a>0.5,则simTree 的基本思想为:
当SYN_TREE.lChild!=null&& SYN.TREE.rChild!=null时,
sim =simTree(SYN_TREE.lChild,sim,a,b)×a+simTree(SYN_TREE.rChild,sim,a,b)×b;
当SYN_TREE.lChild==null&& SYN.TREE.rChild==null时,sim =(SYN_TREE的对应位置词图的相似度)。
3.3 信息结构集的消歧流程
假设输入的短语为phrase,令备选信息结构集为PRO_CMS,较优信息结构集为SUP_ CMS。
首先检测phrase是否在某个信息结构CMS附带的例子中,若在,则把该CMS加入SUP_ CMS,消歧结束;否则按照信息结构集的优先级次序分别进行消歧;对于每一优先级的信息结构集,均先通过词性序列消歧法获得PRO_ CMS,然后进行不同的消歧流程。
PRISET1: PRO_ CMS中的每个信息结构CMS,若通过图局部上相容匹配消歧法,则加入SUP_ CMS;最后若|SUP_ CMS |大于0且不大于n,则消歧结束,否则应用图相容度计算消歧方法对SUP_ CMS进行消减,消歧结束;
PRISET2: 对于PRO_ CMS中的每个信息结构CMS,若通过图局部等相容匹配消歧法,则加入到SUP_ CMS中;最后若|SUP_ CMS |大于0且不大于n,则消歧结束,否则利用图相容度计算消歧法对SUP_ CMS进行消减,消歧结束;
PRISET3: 对于PRO_ CMS中的每一个CMS,若phrase中心词图与SEM_S的中心词图通过图的局部等相容匹配消歧法,其他对应位置的词图通过图的局部上相容匹配消歧法,则把CMS加入SUP_ CMS;最后若|SUP_ CMS |等于1,直接进入PRISET4消歧过程,否则利用图相容度计算消歧法对SUP_ CMS进行消减后,再进入PRISET4消歧过程。
PRISET4: 对于 PRO_ CMS中,若phrase的对应位置的词图与CMS的SEM_S含有叶义原的词图通过图的局部等相容匹配消歧法,其他对应位置的词图通过图的局部上相容匹配消歧法,则把该CMS加入SUP_ CMS;进入PRISET5消歧过程;
PRISET5: 对于PRO_ CMS中的每个CMS,若phrase的每个词图与SEM_S对应位置的词图均通过图的局部上相容匹配消歧法,则把CMS加入到SUP_CMS中;最后若|SUP_ CMS |不大于n,则消歧结束,否则利用基于实例的相似度计算消歧方法对SUP_CMS进行消减,消歧结束。
4 实验与分析
4.1 信息结构消歧举例
实验中参数的设置,参数n表示较优信息结构集SUP_ CMS中CMS的个数,理想状态是n=1,但通过实验发现若令n=1,则消歧效果不是很好,所以根据经验,各参数值如下所示: 令n=3,η1=1.2,λ1=1.8,λ2=1.6,a=0.6,b=0.4。
表1例举了信息结构消歧结果,若|SUP_CMS|>1,则用“√”标注出实际应该选择的信息结构。
表1 信息结构消歧例表
在表1中,对于含有动词的短语例1-10,其消歧结果分为四类。
(1) |SUP_ CMS|=1,并且与实际最优信息结构一致,如例5、7、9;
(2) |SUP_ CMS|>1,且第一个较优信息结构为实际最优信息结构,选择第一个信息结构即完成消歧工作,如例2、4、8;
(3) |SUP_ CMS|>1,但第一个较优信息结构不为实际最优信息结构,但若进一步研究事件的语义角色,利用其进行消歧均可以得到唯一的最优信息结构,如例1、3、10。
(4) |SUP_ CMS|> 1,需要结合事件更深层次的内容或结合上、下文环境进一步消歧,如例6。
对于不含有动词的名词性短语,其消歧结果中所含有的信息结构数大多为1,如例11、12、13、16、17,主要原因有二,一是在于《知网》的知识词典中对名词性概念描述的较详尽;二是在信息结构库中描述名词性短语的语义结构较细致;对于名词性短语如例14,虽然出现了两个信息结构,但这两个信息结构的内在形式是一致的,即其词语间的修饰关系是一致的,所以无论选择哪个信息结构对于例14语义表示的效果是一样的。
对于其他类型短语,如例18,在PRISET1的消歧过程中即可选定对应的信息结构。
4.2 实验结果分析
本实验的实验集由两部分组成,第一部分来自《PFR人民日报标注语料》,从中抽取出符合CMS语义结构的短语8 000个,其中含有动词的短语4 000个,不含动词的名词性短语3 000个,其他种类的短语1 000个;第二部分来自哈工大信息检索研究室语言技术平台的标注语料,从中抽取出符合CMS语义结构的短语6 000个,其中含有动词的短语3 000个,不含动词的名词性短语2 500个,其他种类的短语500个;并对这些短语进行半自动化语义标注。
为了对实验结果进行评价,提出准确率和精确率,其计算方法如式(4)、式(5)所示。
(4)
(5)
实验过程中的主要参数设定如4.1中参数设定,则实验结果如表2所示。
表2 实验结果
由实验结果可知,对于含有动词的短语,信息结构消歧的准确率较高,这是因为在含有动词的信息结构中,SEM_S的语义描述较丰富,并且附带了大量的例子;而精确率相对较低,是因为动词本身语义丰富,有些语义要根据语言使用的习惯特征、语境特征来确定。
对于不含动词的名词性短语,信息结构消歧的准确率较低,主要是因为此种类型信息结构的数量较多,其次名词性短语构成较灵活,再者由于CMS中例子的局限性,使用基于实例的相似度计算消歧也会产生误差;精确率较高,是因为此类型的CMS大都含有一些描述较细致的语义结构,并且附带丰富的例子。
其他类型短语,准确率和精确率较高,主要是因为这些类型的信息结构数量相对少,并且其语义结构描述很细致,所以计算效果较好。
5 结束语
对中文信息结构消歧进行了研究,首先形式化描述了信息结构;接着根据语义结构的构成形式对信息结构进行了优先级划分;然后根据信息结构的特点提出了不同的消歧方法,如词性序列消歧法、图相容匹配消歧法、图相容度计算消歧法、基于实例的相似度计算消歧法;最后设计了消歧流程。实验表明对信息结构消歧的准确率达到了90%以上,为其实际应用奠定了基础。
在下一步的工作中,需要继续完善消歧方法,特别是提高消歧的精确率。例如,研究动词的角色,设计基于角色标注的消歧方法;从语法角度,结合《现代汉语语法词典》,研究基于语法规则的消歧方法;参照韵律信息,研究韵律对消歧的影响;再者从提高算法效率角度,研究高效的消歧算法。
[1] 董振东,董强. 《知网》——《知网》简介[R].http://www.keenage.com.
[2] 董振东,董强,郝长伶. 《知网》的理论发现[J].中文信息学报,2007,21(4):3-9.
[3] 董振东,董强. 关于《知网》——中文信息结构库[R]. http://www.keenage.com.
[4] 董振东,董强. 《知网》——中文信息结构库[R]. http://www.keenage.com.
[5] 董强,郝长伶,董振东. 基于《知网》的中文语块抽取器[C]//全国第七届语言学联和学术会议论文集:234-239.
[6] 董强,郝长伶,董振东. 基于《知网》的中文信息结构抽取[R]. http://www.keenage.com.
[7] 张瑞霞,肖汉. 基于《知网》的词图构造[J].华北水利水电学院学报,2008,29(3): 53-56.
[8] 张瑞霞,朱贵良,杨国增. 基于知识图的汉语词汇语义相似度计算[J]. 中文信息学报,2009,23(3):116-120.