中华人民共和国史本体构建初探
2014-04-03孙辉雷枫
孙辉++雷枫
〔摘 要〕本文借鉴其他历史本体构建的经验,针对中华人民共和国史领域知识的特点,在确定国史本体构建原则的基础上,提出构建国史本体的方法和流程,构建国史本体原型系统,为进一步构建完善的国史本体进行了探索。
〔关键词〕本体;中华人民共和国史;本体构建
DOI:10.3969/j.issn.1008-0821.2014.02.007
〔中图分类号〕G253 〔文献标识码〕A 〔文章编号〕1008-0821(2014)02-0032-05
近年来,基于本体的知识库被广泛应用于知识发现和基于知识的信息资源检索,成为知识服务的主要手段。在农学、医学、军事和科研监测等领域信息资源服务中,本体构建得到充分的重视,例如国内最早开展的农业花卉本体研究[1]和中国医科院基于本体构建重大传染病信息知识服务平台[2]以及南京理工大学的军用飞机本体[3]等,另外,中科院文献中心通过科研监测本体辅助情报价值判断和知识关联呈现[4]。在历史领域,由于知识的时空依赖性、主观性、不确定性、模糊性和争议性,本体建设呈现一定的特殊性。尽管如此,董慧[5]、吴丽杰[6]、彭炜明[7]等在国共合作历史本体、东北抗战史本体、资治通鉴本体方面均做了有益的尝试。领域本体是信息技术与专业知识结合的产物。中华人民共和国史(即当代中国史,简称国史)研究的1949年新中国成立以后的历史,由于历史阶段不同,特定的世情国情使这个阶段的知识呈现不同的特征。本文在借鉴其他历史本体构建经验的基础上,针对国史领域特色,在确定国史本体构建原则的基础上提出构建国史本体的思路和方法,构建国史本体原型系统,为进一步构建完善的国史本体进行了探索。
1 国史本体构建原则本体构建是一项庞大的系统工程,需要领域专家和本体工程师按照一定的原则,在合理的方法指导下,通过便捷的工具加以实现。Gruber[8]于1995年提出本体“明确性”“一致性”“可扩展性”“最小编码倾向”“最小本体化承诺”5个原则,其余学者基本都是在这五原则基础上扩展。本文通过国史本体构建试验,在比较同类历史本体构建经验的基础上认为,除了上述关于逻辑要求的五原则之外,有两个方面尤其要注意。一是本体构建要面向特定的应用目标;二是同一学科的知识在不同时空下有自己特色。1949年以后,我国基本处于国家建设时期,国家重视记史存史,史料内容翔实,记载手段丰富,保存情况完好,该阶段的史料比古代史和近代史的总和还要多,其所包含的历史细节也是以往任何史料无法比拟的。这也是历史学科的特点,越是近期的历史,史料越丰富。面对这么丰富的知识,如果不能设定本体应用目标,构建本体时就会感到力不从心。本文认为,国史本体有以下几方面的作用,一是构建国史知识图谱,通过知识图谱描绘国史的基本脉络,便于普通读者了解国史;二是建立国史概念之间的联系,辅助构建基于本体的主题词表,为基于知识的信息资源建设提供支撑;三是辅助国史研究和编纂,国史本体多维度描述国史知识,将人物、事件、地点、机构等放在一个模型中描述,改变传统的历史叙事模式(纪传体以人物为主线叙述历史,编年体以时间为主线叙述历史),研究人员可以从多种角度来还原历史,还可以借助本体辅助生成大事记和人物年表能编纂成果。这些目标对本体构建有不同的要求。前两个目标主要是满足普及国史和检索国史的要求,本体是粗粒度的知识及其表达,体现了国史的知识轮廓。第三个目标直接面向国史细节,需要细粒度的知识和表达。二者在文本选择、概念关系模型、本体编辑队伍上有很大的不同。粗粒度的本体构建时,可以选择百科类国史工具书和文献统计数据等,其概念关系模型允许包含简单模糊的关系,由国史专业普通研究人员进行编辑;细粒度的本体除了上述文本外,必须通过年谱、传记、日记等翔实的史料建立比较精确的概念关系模型,并由国史专家进行本体编辑。尽管国史历史细节丰富,但由于其时间短,许多方面存在不确定性,这些为构建细粒度本体带来难度。本文重点研究面向知识普及和信息组织的国史本体。基于本体的知识库构建离不开其所依赖的文本。古代史书的叙事内容决定着古代史本体的特色。例如,中国古代是家天下,历史人物之间的血缘关系是古代史本体不能忽视的概念关联;中华人民共和国是现代意义上的国家类型,人物之间的血缘关系不再是历史研究的重点,甚至是可以忽略的。近代史中战争战役频繁,将战争战役作为一个大类并详细设定其属性是近代史本体不能省略的;当代史以国家建设为主要内容,某些战争战役可作为实例放在事件大类中。上述这些时代特色都影响着本体的构建。
2014年2月第34卷第2期现?代?情?报Journal of Modern InformationFeb.,2014Vol.34 No.22014年2月第34卷第2期中华人民共和国史本体构建初探Feb.,2014Vol.34 No.22 国史本体构建方法和流程当前,国内外很多学者基于自身实践提出本体构建方法,如骨架法[9]、评价法、七步法[10]、五步法等。七步法是斯坦福大学医学院提出的基于Protégé本体编辑工具的一种领域本体构建方法,7个步骤分别是:(1)确定本体的专业领域和范畴;(2)考查复用现有知识本体的可能性;(3)列出本体中的重要术语;(4)定义类和类的等级(层次)体系;(5)定义类的属性;(6)定义属性的分面;(7)创建实例。本文在七步法的基础上提出国史本体构建流程,如图1所示。第1步,确定国史本体构建目标:构建支持信息组织和国史知识普及的国史知识图谱。第2步,确定和分析知识来源。基于上述目标,选定国史百科类工具书(如《中华人民共和国国史百科全书》和
图1 国史本体构建流程
《中华人民共和国编年史》等)为国史知识的文本来源,收集国史期刊库中的关键词,作为重要概念来源,组织一支良好的国史专家队伍作为隐性知识来源。对上述知识来源进行分析,对于百科词条中文本,逐句进行分解,提取重要的概念并分析该语句中主体、谓词、客体以及条件之间的关系;对于期刊库中的关键词,通过词频统计和关键词规范化,整理出重要的概念及其规范化表达;通过专家访谈,了解国史的概貌和重要的一次文献和二次、三次文献。第3步至第5步,确定核心概念、确定类的层次并设定类的属性,也就是设计国史本体概念关系模型,是建立国史本体最重要的步骤。通过对知识来源的分析和抽象,参考相关历史领域本体的经验,确定“人物”“事件”“时间”“地点”“组织机构”“历史文献”“理念”“领域”8个大类,其中“理念”主要指国史上党和政府的方针政策的特有术语表达,如“科学发展观”“三个代表重要思想”。对于机构团体,按其性质分为“党的机构”、“政府机构”、“人大机构”、“政协机构”、“重要企业单位”、“重要事业单位”等,为了表示特定历史称谓的群体,如“江青反革命集团”,设立“特殊群体”二级类;对于历史文献,根据重要程度分为“党政文件”“题词讲话书信”“其他出版物”等二级类。各类之间通过属性建立关联,国史本体概念模型如图2所示。表格为本体类及其属性,虚线及其边上的文字代表不同类型的概念之间的关系。例如,“事件”类通过属性“涉及人物”与“人物”类发生关联,“历史文献”类通过属性“起草人”“作者”“报告人”与人物类发生关联。这些属性都是在文本分析的基础上提炼出来的,文本中的出现概率较高的那些“谓词”“条件”,如“出生”“发表”“任命”“在……地点发生”,常常演化成“出生年月”“文献出版机构”“曾任职务”“发生地点”等“属性”。图2 国史本体概念关系模型