APP下载

基于本体的“江海文化”文献知识组织体系构建研究

2015-12-14徐晨飞倪媛钱智勇

现代情报 2015年10期

徐晨飞++倪媛++钱智勇

〔摘要〕运用本体工程思想,以收集到的各种类型“江海文化”研究文献为参考依据,对研究文献的主要元素如作者、文献名、机构、年代等以及文献内容中的知识元如人物、地点、事件、建筑、方言、风俗、非物质文化遗产等进行提取与挖掘,构建“江海文化”文献知识组织体系,以期推动“江海文化”的深化研究以及南通文化的传承与发展。

〔关键词〕江海文化;知识组织体系;本体构建;知识推理

DOI:10.3969/j.issn.1008-0821.2015.10.012

〔中图分类号〕G253〔文献标识码〕A〔文章编号〕1008-0821(2015)10-0062-10

Knowledge Organization System Construction of“the River-and-Sea Culture”

Documents Based on OntologyXu Chenfei1Ni Yuan2Qiang Zhiyong3

(1.School of Management,Nantong University,Nantong 226019,China;

2.Southeast University-Monash University Joint Graduate School,Suzhou 215123,China;

3.Library,Nantong University,Nantong 226019,China)

〔Abstract〕This paper applied the method of ontology engineering to the organization of“the River-and-Sea culture”documents knowledge.To develop the knowledge organization system,the paper extracted the major elements of research literature such as author,document name,agency,year as well as the knowledge element in the content of the document like people,places,events,architecture,dialects,customs and non-material cultural heritage,based on various types of“the River-and-Sea culture”research documents the paper have collected.The paper respected that it will promote the study of“the River-and-Sea culture”and accelerated the heritage and development of the culture of Nantong.

〔Key words〕the River-and-Sea Culture;knowledge organization system;ontology construction;knowledge reasoning

南通东临黄海,南濒长江,地处江海交汇之处,是长江文化和海洋文化的交集点;南北文化在这里相互汇通,江淮文化和吴越文化两大区域文化的在这里碰撞融合,加上南通固有的本土文化,形成了一种独特的“江海文化”。它是所处地域的物质运动、人物活动、意识形态等多方面在千百年的历史长河中积淀与总结而来,具有独特的文化特征、丰富的历史内涵和深邃的人文精神。“江海文化”的内容和形态亦不是一成不变,随着时间的推移,其文化组成因素及组合方式也在不断深化和发展。自21世纪初以来,多位研究学者对“江海文化”的内涵、特点、形态、题材、产业发展等诸多方面展开了探讨与研究,这些研究也赋予了“江海文化”更多更新的文化内涵。这些载体形式各异的研究文献数量众多,文献与内容之间缺乏有效的知识关联。鉴于此,本文提出构建“江海文化”文献知识组织体系的设想,为学者的科研工作以及普通大众的知识普及提供有效支持。

现代知识组织的方法随着信息技术的发展不断改进,传统的语义分类法、主题词法、语义元数据等知识组织方法不足以完全满足数字知识组织的需求。本体是对领域知识的抽象和规范描述,可以准确描述概念的含义并构建丰富的知识关联,具有较高的逻辑推理能力,有利于挖掘概念间的隐含关系。本课题将本体构建作为文献知识组织的技术和方法,不但可对“江海文化”的空间构成与历史演进进行梳理,还可推动“江海文化”研究的深化与文献资源组织方式的创新。

1相关概述

11知识组织

知识组织是指对事物的本质及事物间的关系进行揭示的有序结构,即知识的序化[1]。知识组织体系是知识组织的基础,其本质是以知识组织方法为指导,通过一定的技术手段,将无序的数据或信息有序化,组织形成一个能有效获取知识的网络。在当今的网络信息环境下,知识组织体系被赋予了新的内涵和更高的要求:对概念需要进一步细化,构成的概念体系应该还包含支持对概念的属性、关系等多种性质的组织和描述,还应能满足可视化表示、知识推理和语义检索等功能需求[2]。传统的词汇表类和分类聚类体系等知识组织方法,仅仅提供了同类或同一主题词汇的列表,强调的是概念集的创建和归类,而缺乏对概念及其关系的多方面描述,对组织的知识不能进行网络化和形象化的展示,也难以支持语义推理和知识检索功能。因此,这些方法难以满足现代化知识组织体系的需求。

2015年10月第35卷第10期现?代?情?报Journal of Modern InformationOct,2015Vol35No102015年10月第35卷第10期基于本体的“江海文化”文献知识组织体系构建研究Oct,2015Vol35No1012本体endprint

本体是一种新型的知识组织体系,不仅能准确规范地描述相关概念及其之间的关系,构造丰富的语义关系网络,而且还具有知识推理功能,可以深度挖掘概念之间隐含的知识关系[3]。本体将传统的树形的知识组织体系结构转化为网状的知识结构,加强了不同类之间的关联,促进了知识的集中、共享与利用。本体一般由类(概念)、关系、约束、公理和实例五大部分组成[4]。“类(概念)”是对客观事物的抽象和规范化定义,是具有共同属性的事物的集合。“关系”是概念之间的相互联系,形式上是n维笛卡尔积(R1×R2…Rn)的子集,其包括定义域和值域两部分,概念之间的关系是语义推理的基础。其中“属性”是一种特殊的“关系”(值域为数值或字符串时),它是对类及其内部实例本质和特征的描述。“约束”是关于概念的属性或关系的一种规则。“公理”是一种约束条件,其值始终为真。“实例”是类中需添加的实体。图1展示了本体的结构并列举一个关于江海文化知识本体的具体示例:“人物”和“事件”是将江海文化文献知识中的两个顶层概念,根据实际需求,顶层概念可被划分成不同详尽程度的子概念,例如“史海先贤”是对人物基于年代的一个初步划分,基于不同的人物性质可以更进一步划分为“艺苑大师”和“江海英烈”等子概念;其中“白毓昆”是“江海英烈”中的一个实例,“白雅雨”是其固有的属性,同时也具有参与过“辛亥革命”的性质。

图1本体的组成和一个示例

2“江海文化”文献知识本体构建思路

采用本体构建的方法,对“江海文化”文献进行知识组织是一项复杂的系统工程,需要正确的构建指导方法、步骤和合适的开发工具辅助。目前,由于本体的应用领域众多,不同学科或领域的知识又存在着结构和内容的差异,国内研究学界对新型知识组织体系构建的流程还没有形成统一的认识和标准。本节结合历史文化领域本体构建的特点与方法,制定了“江海文化”文献知识本体构建的思路(主要包括构建方法、构建工具和本体描述语言的选择),并在此基础上阐述“江海文化”文献知识本体构建的设计过程。

21本体构建方法

本体的构建方法是本体构建的灵魂,也是目前本体构建与应用研究的重点。然而本体的构建还没有成熟的理论指导,在具体项目的需求条件下,不同领域的构建者采用的本体构建过程和方法也各不相同,因此目前还没有标准统一的本体构建方法。国外已有一些较为先进的本体的人工构建方法,如七步法、METHONTOLOGY法、IDEF5法、TOVE法和骨架法但其使用的领域不同[5]。通过对上述几种流行的构建方法的特点和适用范围的比较发现,由斯坦福大学创建的七步法[6]适用于领域本体的构建,且较为成熟。因此本文将主要借鉴七步法来实现“江海文化”文献知识组织体系的构建,同时加以修改与补充,最终确定“江海文化”文献知识本体构建的具体步骤,其流程如图2所示。

(1)明确领域本体构建的知识范畴。包含通过需求分析,明确本体构建的知识范畴和目标用户;对领域知识特点分析,明确本体构建的意义。

(2)信息搜集与知识分析。明确本体构建的主要知识来源和文本参考依据,并对搜集到的知识进行整理和分析。

(3)类及其层次等级结构的划分。具体包括:基于前人研究内容和划分方法,确定江海文化文献知识本体的核

图2“江海文化”文献知识本体构建流程图

心类;按自顶向下的原则对进行进一步细分,建立层次等级关系。

(4)“江海文化”文献知识本体的构建。借助本体构建工具构建类;定义本体的属性(包括对象属性和数值属性,定义域与值域等);添加实例;完善类与实例间的关系。

(5)基于本体的知识检索及其可视化。基于构建好的江海文化知识本体实现检索查询并可视化展示。

(6)建立本体函数集和公理集。主要工作为“江海文化”知识本体建立函数集和推理规则等,利用本体推理工具实现江海文化文献的知识推理,挖掘其中的隐含知识。

22本体构建工具与描述语言的选择

本体开发是一项浩大的知识工程,确定了“江海文化”文献本体的构建方法,我们需要选择合适的本体开发工具来帮助完成本体开发工作。目前,在国外已经出现了众多的本体构建工具,典型的包括OntoEdit、WebOnto、KAON和Protégé等[7]。通过对这几种本体开发工具进行比较与试用,发现Protégé[8]可免费获取,且使用简便,同时它支持数据存储、一致性检测和语法检测、支持插件扩展(如可视化组件、推理引擎等)等功能,因此,最终确定采用Protégé作为江海文化文献知识本体的开发工具。

对常用的几种本体描述语言进行比较后,最终采用OWL本体描述语言对“江海文化”文献知识本体进行编码。OWL描述语言提供了大量用于描述属性和类的词汇,具有更丰富的语义表达能力和推理能力[9],其可对所建立的概念层次体系和属性进行形式化表示,便于机器的读取和理解。

3“江海文化”文献知识本体库构建

本节首先对“江海文化”领域本体构建需求进行分析,明确领域知识范畴;对搜集到的文献知识加以解剖和分析;抽取“江海文化”文献中的核心知识概念并确定每个概念的边界,再由前人研究内容以及目标用户需求设定本体的概念层次等级结构。最后,在上述工作的基础之上,定义类的属性及其约束,添加实例,进一步完善“江海文化”文献知识本体的内容。

31确定本体构建领域知识范畴

“江海文化”兼容了齐鲁、荆楚、吴越三大古文化意蕴,包孕华夏大地南、北两个文化大系的色彩,有里下河文化、胡逗洲文化、沙地文化三大文化圈共存共荣的生态环境[10],可以说,其具有丰富的历史内涵和深邃的人文精神。近十几年以来,已有多位学者对“江海文化”的内涵、形态、特征、载体、题材、产业发展等诸多方面展开了研究,且已形成错综复杂的知识网。本体构建领域知识范畴即为前人对“江海文化”研究的各类文献知识综合。endprint

32“江海文化”知识搜集与知识分析

本课题相关资源搜集来源主要有4个方面:第一,各类印刷出版物。如南通地方史志、年报汇报资料、江海文化系列丛书、南通人物专著、南通文化年鉴、中国大百科全书、南通方言词典以及相关报纸杂志等;第二,网络信息资源。利用百度、谷歌等搜索引擎、维基百科、南通政府门户网站、南通档案局、濠滨论坛、江海论坛、南通网等站点进行信息检索;第三,电子文献数据库资源。如期刊论文数据库、会议数据库、优秀博、硕士论文数据库等;第四,相关领域专家的采访与谈话。

笔者通过以上信息源搜集到大量类型各异的“江海文化”研究文献。包括图书47本,地方史志25本,工具书5本,来源于门户网站和论坛的资源394条,在电子文献数据库中主题搜索得到的相关数目整理如表1所示:表1电子文献数据库中的文献数量分布

来源期刊论文学位论文会议论文重要报纸中国知网114271620万方3095414/读秀76222298

从研究文献的主题词分布的角度来看,不同作者描写的侧重点各有所不同。由南通市江海文化研究会编撰的两辑《江海文化丛书》,将江海文化的精华分门别类,每本书都详细阐述了一个主题,它较为系统地反映了南通不同历史时期、独具地方特质的重要遗迹、重大事件、重要人物等;南通市艺术研究所曹琳先生于2002年发表的《江海文化论纲》中首次对“江海文化”的内涵与题材进行了界定与阐述;南通职业大学的丰坤武教授以系列论文以及学术专著的形式对南通江海文化进行了横向解剖和特色探索;黄振平、阚耀平、单澄、栗永芹、骆高远等作者对江海文化的产业开发与发展进行了研究,此外还有大量学者对“江海文化”中提及的代表性人物、南通方言、建筑文化、民俗文化、音乐艺术、非物质文化遗产等展开了深入细致的研究。

对搜集到的“江海文化”研究文献进行分析,其知识来源应包含两部分:其一为“江海文化”各类文献自身内容中蕴含的知识。南通经历了漫长的成陆过程,在不同阶段人们出于不同的原因移民至此,其直接导致文化来源的多样性及相互交融的复杂性。在一定空间范围内,组成“江海文化”的文化“基因”将保持其特性长期共存,但同时随着时间的流逝,组成江海文化的各种文化“基因”的融合形式不断发展,因此,“江海文化”是“变”与“不变”的结合体[11]。我们从历史发展即时间角度和地理演变即空间角度对“江海文化”研究文献知识进行梳理,可把握“江海文化”的发展脉络,并挖掘其不同阶段的人文历史内涵。其二为与“江海文化”研究文献相关联的人、物,或机构及其他内容。“江海文化”依存于独特的地理、自然环境,而且随着时间的流逝不断发展着其历史文化内涵,这些文化特征和人文内涵需要借助一定的载体表现出来。“江海文化”文献中有大量的历史文化人物、事件、地点、建筑及历史文化艺术等,不同时间阶段和不同类型的历史文化是认识南通和“江海文化”的切入点,对这些知识进行有效的组织和梳理,便于我们深入理解“江海文化”内涵,探讨“江海文化”的特征以及传承其优秀传统和人文精神。

33创建核心概念集及其层次等级结构

331确定核心概念集

从“江海文化”文献内容角度分析,“江海文化”是南通的历史积淀,不仅包含其依存的自然环境和地理位置,还包含其特有的人文历史内涵。其中先民文化和戍边文化给我们留下许多文化存遗和边防要址;移民文化体现了人物和语言的交融;士大夫文化养育出一批批名人贤才;“抢滩”文化和市井民俗张扬着南通人的文化性格;戏剧文化将南通曲艺推向了国际平台,此外还有庙会文化、建筑、服饰和饮食文化等等,无不体现出“江海文化”的内涵。按照目前相关政府部门、研究学者及普通大众对“江海文化”知识的需求,对“江海文化”内容知识进行提取与整理,最终确定将“人物”、“地点”、“建筑”“时间”、“事件”、“风俗”、“方言”、“非物质文化遗产”作为“江海文化”文献知识的核心子类。

从“江海文化”研究文献角度分析,“江海文化”研究文献的知识内容主要包含文献的基本信息(如文献题名、主题、发表机构、馆藏机构、发表时间、出版时间、引用时间、引用频次等)和作者的相关信息(姓名、贯籍、职称、机构、研究方向等)。根据构建“江海文化”文献知识本体的实际需要,将上述信息可以主要划分为“文献”、“作者”、“机构”以及“时间”4个核心大类。其中,该部分的“时间”和“江海文化内容知识”中的“时间”指的是同一概念,无须重复构建;同时“作者”属于“人物”类型的一种,可以归于同一核心概念集。因此,只需再添加“文献”和“机构”两个核心子类,即最终确定的核心概念为:“人物”、“地点”、“建筑”、“时间”、“事件”、“风俗”、“方言”、“非物质文化遗产”、“文献”和“机构”。(如图3所示)

图3“江海文化”文献核心概念集

332层次结构划分

(1)“人物”类的划分

南通被誉为“中国近代第一城”,历史上这里人文荟萃,名贤辈出,如范仲淹、文天祥、郑板桥等在这里留下了不朽篇章和逸闻趣事;东吴名将吕岱、北宋大儒胡瑗、明代名医陈实功、明末清初的文学大家冒襄、清代扬州八怪之一李方膺、清末状元张謇,辛亥革命先烈白雅雨等历代名人给南通历史文化增添色彩;而近现代的这里人杰地灵、星光闪耀,神奇蛇医季德胜、电影表演艺术家赵丹、国画大师王个鋎、刺绣艺术大师沈寿在南通发展史上刻下了光辉的篇章;进入新世纪,亦涌现了以国家国务院副总理刘延东、国际级运动健将仲满、国家一级演员郁钧剑等为代表的一大批江海优秀儿女为南通增光添彩,赋予其新的文化内涵。但“人物”类在本文中不仅仅指那些“江海文化”内容中的杰出文化人物,还包含研究“江海文化”文献作者。因此,“人物”类首先可划分为“文献作者”和“文化名人”两个核心大类,之后再根据不同的性质或从不同角度对核心子类进行细分。按时间角度进行划分,可以把“文化名人”进而划分为2个子类:“史海先贤”和“时代精杰”。“史海先贤”按人物性质还可以进一步划分为“艺苑大师”、“中医药家”、“江海英烈”和“实业爱国者”4个子类。为了尽量保持划分的子类目的均衡,我们将“艺苑大师”再进一步细分为“绘画”、“戏剧”、“电影”、“文学”、“技艺”5个子类。“时代精杰”按人物性质可细分为“政界名人”、“军队干部”、“文体明星”和“科技精英”4个子类,其中“政界名人”和“军队干部”都可以细分为“地方”和“中央”2个子类;“文体明星”细分为“文娱明星”和“体育健将”两部分;“科技精英”细分为“中科院院士”、“工科院院士”和“其他科技人物”。“人物”类概念层次体系具体如图4所示。endprint

(2)“地点”类的划分

本文的“地点”概念不同于通用本体中的同名概念,指的是“江海文化”文献中的“自然风貌”和“行政区域”。因此,首先将概念划分成上述两个子集再在此基础上进行细分。“自然风貌”包含南通的文化遗址或名胜,如狼山、剑山、濠河等,将其可以细分为“山川”和“河流”;

图4“人物”层次结构图

“行政区域”根据地域的级别可以划分为“省”、“市”、“县及以下”3个子类,主要用来组织不同概念集可能关联到的地域名称(如图5所示)。

图5“地点”层次结构图

(3)“建筑”类的划分

南通是有名的建筑之乡,旧时的南通建筑是以衙署为中心并围以城墙的传统建筑风格,从近代开始南通深受上海近现代建筑文化的影响,发生了城市空间结构的重大转型。参考丰武坤教授在南通文化特色研究课题中对近代建筑的划分方式,可以把“建筑”类最终划分以下几类:“工业建筑”、“文化教育建筑”、“公共建筑”和“居住建筑”[12]。其中本文中的“工业建筑”主要指的是企业厂房;“文化教育建筑”主要包括“博物馆”、“校舍”、“寺庙”、“书局/书馆”和“影剧院”5个部分;“公共建筑”主要包括“园林广场”、“金融商贸”和“宾馆饭店”3个部分;“居住建筑”主要包括“住宅”和“街道里巷”2个部分。(如图6所示)

图6“建筑”层次结构图

(4)“风俗”类的划分

南通在唐朝是流放之地,因其独特的地理环境,也曾成为避难逃生之地。随着后来各地的移民迁定于此,各地的风俗文化在此相互融合,形成了独具特色的南通风俗文化。传统风俗习惯涉及社会生活的方方面面,在经济生产、贸易往来、衣食住行、婚嫁丧娶等方面,都有各自的风俗习惯,具体来说,主要可从“经济风俗”、“日常生活风俗”、“礼仪风俗”3个方面进行研究[13]。此外,“经济风俗”可继续细分为“农业生产”、“渔业生产”、“手工业生产”、“商业活动”和“民间信贷”5个子类,“日常生活风俗”包含“饮食”、“服饰”和“出行”3个子类的内容;“礼仪风俗”可从“生育”、“婚姻”、“寿诞”、“丧葬”4个子类加以归纳。(如图7所示)

图7“风俗”层次结构图

(5)“方言”类的划分

“江海文化”是一种地域性文化,具有过渡地带文化的显著特征,这种特征可以直接体现在区域方言上。根据方言状况实际调查研究的结果,可将南通“方言”划分为“如海话”、“南通话”、“通东话”和“海启话”4个部分[14]。4个方言小片相互影响而相互差异,我们可以从“词汇”、“俗语”、“谚语”、“歇后语”4个角度加以归纳整理,从而分别对上述4种方言进行分析。(如图8所示)

图8“方言”层次结构图

(6)“非物质文化遗产”类的划分

“江海文化”的地域特征不仅体现在物质文化遗产上,同样也体现在非物质文化遗产上。根据《世界遗产公约》第一条规定,物质文化遗产包括历史文物,历史文化建筑和历史文化遗址,这3类在上文中基本都已涉及并加以整理归类。对非物质文化遗产的分类和研究,主要参照黄振平主编的《江海记忆——南通市第一批非物质文化遗产概览》[15],将南通首批39个市级保护名录划分为“传统医药”、“传统戏剧”、“传统技艺”、“传统美术”、“传统舞蹈”、“传统音乐”、“曲艺”、“民间文学”和“其他类”9个子类。(如图9所示)

图9“非物质文化遗产”层次结构图

(7)“事件”类的划分

“江海文化”文献中记载的大多是军事和经济事件和文化时间,通常从历史发展的阶段加以描述,其中穿插着一些人物、地点等相关信息。从时间角度对“事件”进行划分,以转折性事件为划分界限,可以划分为“南北朝以前事件”、“隋唐五代时期事件”、“宋元时期事件”、“明清时期事件”和“近代时期事件”5个子类。但是这样会导致“近代时期事件”的实例过多,各子类目的实例数目不均。因此,我们该部分不做细分,可以通过与“时间”直接关联,使时间作为另一种导航方式进行直接检索。

(8)“时间”类的划分

这里的“时间”概念与通用本体中的概念相同,因此可以直接添加实例,无须做进一步划分。

(9)“机构”类的划分

从“江海文化”相关研究文献角度出发,我们主要研究的是作者、机构、文献以及时间之间的关系,按照本体构建需求主要划分为“作者机构”和“文献机构”,“文献机构”按属性可进一步划分为“出版机构”、“发表机构”和“馆藏机构”。(如图10所示)

图10“机构名”层次结构图

(10)“文献”类的划分

按照文献研究的目的,从文献的类型对搜集到的“江海文化”相关的研究文献进行细分,主要可以将“文献名”划分为“图书专著”、“地方史志”、“期刊论文”、“学位论文”、“会议论文”、“报刊杂志”、“工具书”和“网络资源”8个子类。(如图11所示)

图11“文献”层次结构图

34“江海文化”本体构建

341构建类及其层次体系结构

选择Protégé本体构建工具,遵循自顶向下的本体构建原则构建“江海文化”知识本体,并利用OWL语言本体描述语言对“江海文化”文献知识本体进行编码,转为计算机可识别的语言并对本体加以存储。最终在Protégé界面中可以查看到如图12所示的整体层次体系图。

图12“江海文化”文献本体层次结构

342定义属性及其分面

属性及其约束与限制确定取决于每个概念自身的特性以及与其他概念集之间的关系。本体的属性分为数据属性和对象属性两种类型。数据属性又称为概念的内在属性,描述的是概念自身特性,其值域只能是某一数据类型,如string、float、int、any等。对象属性亦称为概念的外在属性,描述概念之间的相互联系,可以将不同的类,类与实例相关联,是本体推理的重要语义基础。如“人物”的对象属性“血缘关系”描述了两个人名类实例之间的父子、兄弟、祖孙等关系,“参与事件”将“人物”类和“事件”类相关联,“出生地点”将“人物”类与“地名”类相关联,“出生/去世/任职时间”将“人物”类和“时间”类相关联等等,通过创建这些对象属性可以使相同的或不同的概念联系到一起,概念集以及其相互之间的关系共同搭建起本体的知识网络。表2列举了“江海文化”文献本体中主要属性和关联。endprint

343添加实例

通过对所搜集到的“江海文化”文献知识的整理研究,采用人工评估取舍的方法,最终录入了共880个实例,其中人物类实例220个,事件类40个,地点类23个,建筑类116个,时间类69个,方言类53个,非物质文化遗产39个,风俗类110个,文献类143个,机构类67个。表3列举了“江海文化”文献知识本体中的部分实例。

表2属性关联结构表

类属性关联人物姓名、别称、性别、任职、成绩、出生地点、出生时间、去世时间、血缘关系、创建了、参与事件、创作了人物——人物关联、人物——地点关联、人物——时间关联、人物——文献关联、人物——事件关联地点地名为、曾用名、变更年代、地理坐标地点——时间关联、地点——人物关联、地点——文献关联、地点——建筑关联时间年号、月份时间——人物关联、时间——地点关联、时间——建筑关联、时间——文献关联事件时间名、开始时间、结束时间、发生地点、涉及人物事件——地点关联、事件——人物关联、时间——文献关联建筑建筑名为、又名为、坐落地点、建造时间、竣工时间建筑——时间关联、建筑——地点关联、建筑——人物关联、建筑——文献关联方言语音特征、词汇特征、语法特征、修辞手法、研究分类、分布地区、考证人、考证时间方言——地点关联、方言——人物关联、方言——时间关联、方言——文献关联非物质文化遗产名称、表现载体、个性特征、名录项目、起源于、继承于、传承人为、传承单位非遗——地点关联、非遗——人物关联、非遗——文献关联风俗名称、类型、主要简介、所属地域、记载于、流传于风俗——地点关联、非遗——文献关联文献文献名、作者为、馆藏于、出版机构、出版时间、发表机构、发表时间、引用文献、引用时间、引用频次文献——人物关联、文献——地点关联、文献——机构关联、文献——时间关联、文献——文献关联机构机构名、归属地、馆藏了、出版了、发表了机构——文献关联、机构——人物关联

表3“江海文化”文献知识本体中实例举例

类实例人?物?类冒襄、胡瑗、曹顶、沙元炳、卞之琳、李渔、沈寿、王个鋎、范伯子、赵丹、柳敬亭、蒋煜、范当世、顾贶予、李方膺、陈实功、吕岱、韩紫石、顾公毅、张謇、张佑才、刘延东、邱祖余、陈锦彪、管维炎、印象初、陈若琳、仲满、郁钧剑……事?件?类抗倭斗争、文天祥抗元事迹、明万里领导市民斗争、中共建立、五卅运动、五四运动、如南斗争、如黄斗争、宣泰斗争、白蒲事件、苏中七战七捷、辛亥革命……建?筑?类啬园、有斐旅馆、淮海实业银行、城南别业、濠南别业、天生港电厂、南通苏桑皮革公司、南通力王公司、翰墨林印书局、个鋎艺术馆、南通博物苑、广教寺、更俗剧院、通州师范……地?名?类狼山、剑山、军山、马鞍山、黄泥山、濠河、南通市、启东市、如皋市、海门市、海安县、如东县、崇川区……方?言?类“充人儿墩”、“一步十八个谎”、“翻泡儿”、“吃了蟛蜞说蟹话”、“宝塔落到井里”、“饭熟凑草把”“大圣菩萨借狼山——有家不回(有借不还)”、“强盗烧利市——正好一桌(捉)”、“吹吹卯时风,面孔红彤彤”……非物质文化遗产类杖头木偶戏、南通仿真绣、南通木版画、海安苍龙舞、海安花鼓、吕四渔民号子、海门山歌、梅庵派古琴艺术、南通范式世家诗文、评弹北调、马塘锣鼓、曹瘦脸儿故事、南通民间土布染织工艺、季德胜蛇药制药技艺……文献南通历史文化、南通文化选讲、南通文化研究、江海文化研究南通方言词典、江海流韵、张謇、寺街、范伯子、水绘园、浪五山、濠河、南通土布、唐家闸、南通文化年鉴、南通农村文化遗产保护名录、文史资料:文海星光——南通文化名人、中国近代第一城研究文集、南通县志、江苏、崇川文史、南通史话……机构南通市江海文化研究会、中共南通市委研究室、南通市艺术研究所、南通市工艺美术学会、南通市教育局、南通市地方志编纂委员会、南通大学、南通市图书馆、苏州大学出版社、江苏人民出版社、上海人民出版社、文化艺术出版社、方志出版社……

确定了类的属性及其值域与定义域等约束,则在实例编辑界面可直接添加每个实例的属性关系,具体如图13所示,通过设置这些关系为后续的知识推理做好铺垫。此外,还可在编辑界面中对所添加的实例做附加说明,使本体库的知识内容更加丰富与完整。图13Protégé中的实例编辑界面

35知识检索和可视化展现

在Protégé中打开SPARQL查询面板,通过输入相关查询语言即可查询“江海文化”知识本体中的语义关系。例如查询通过属性“创作了”关联起来的文献及文献作者,其结果显示图部分如图14所示:

图14文献创作关联查询结果

同时利用Protégé中的Ontograf插件可以网状结构图的形式形象化展现父类与子类间的关系以及实例之间的关联。例图15中可以鲜明地看到“江海文化”知识本体中“人物”类与其子类之间的从属关系,“文献作者”的所有实例以及不同类之间的相互关联。

4基于本体的江海文化知识推理

基于本体的“江海文化”知识组织体系构建工作基本完成后,我们可以利用建好的本体库进行知识推理挖掘。本体中通过不同的属性建立了多种多样的联系,有些关系可通过可视化关系图清楚地展现出来,而有些关系却隐藏其中,需要利用一定的推理思维。例如“江海文化”文献知识中的建筑的同区域关系,“水绘园”和“定慧禅寺”归属于不同的子类的实例,但都有坐落于“如皋市”的属性,及两建筑归属于同一地理区域。通过设置推理规则,可以将这种关系直接体现出来。具体的方法即在Protégé中附加Jess推理引擎,通过构建SWRL推理规则,实现“江海文化”文献知识推理。本实例中,判定两建筑归属于同一地理区域的SWRL规则代码如下:

建筑(?x)∧建筑(?y)∧坐落于(?x,?z)∧坐落于(?y,?a)∧sameAs(?z,?a)→同地理区域(?x,?y)

将上述SWRL规则与本体库实例通过SwrlJessTab转换图15可视化关系例图endprint

为Jess规则和实例后,调用Jess推理机进行推理,再将推理后的实例与关系转换为OWL语言添加到本体库中。具体处理过程如图16所示。图16SWRLJessTab编辑处理界面

打开SPARQL查询面板输入以下查询语言,即能推导出所有隐含的同区域建筑。

SELECT ?建筑?同区域建筑 ?坐落地点

WHERE{

?建筑:同地理区域 ?同区域建筑.

?建筑:坐落于 ?坐落地点.

}

部分查询结果如图17所示。

可见,不同的建筑和通过同一地理位置相互关联,通过知识组织和推理有助于发现同一空间区域的建筑分布,对同地域的建筑进行关联分析进而有利于对该地域的建筑特点及建筑历史的研究。

再比如,通过构建相应的推理规则可以整理出那些同年出版或发表的文献,图18是利用SPARQL查询出的同年出版的文献结果。

从时间角度对研究文献进行梳理,有助于发现同一时间域内大多研究者对“江海文化”这一领域的研究重点;同时通过对研究文献相关知识的推理,还可直接归纳出同研究主题的作者、同一作者在不同时间内对“江海文化”的主要研究范围以及作者归属同机构等更多隐含的关系。通过将这些隐性知识显性化,不仅可以丰富“江海文化”知识本体的内容,同时也有助于拓展研究者的研究视角和思路,深化其主题研究。

5结语

本文基于本体工程的相关理论和方法对“江海文化”这一独具特色的地域性文化进行研究,在参考前人的研究内容以及本体构建需求基础上,以“江海文化”研究文献知识为素材,抽取主要概念并对概念的层次结构进行划分,创建不同概念的属性、关系及实例,最终完成了基于本体的“江海文化”文献知识组织体系构建工作,在此基础上实现了“江海文化”文献实例知识的关联分析与推理查询。本研究将有益于推动知识组织方法在地方文化领域的数字化研究,推动地域传统文化的传承与发展。

此外,本体构建研究在国内尚未形成统一的认识和构建标准,其相关概念、属性以及关联规则仍需各领域专家参与协商与界定。本文的局限之处在于,虽参考了大量文献资源但构建过程中仍难免无法精确把握所有的概念分类和属性界定标准。笔者认为,知识组织体系构建是一项需多方智慧合力参与的工作,本文亦是抛砖引玉,希望“江海文化”研究领域的专家学者能加强交流、协作,共同完善本课题研究成果。图17同地理区域建筑的查询结果

图18同年出版的文献查询结果

参考文献

[1]蒋永福,付小红.知识组织论:图书情报学的理论基础[J].图书馆建设,2000,(4):14-17.

[2]李宁,宋文.对于知识组织体系概念以及构建模式的一些思考[J].图书情报工作,2005,49(10):37.

[3]马文峰,杜小勇.关于知识组织体系的若干理论问题[J].中国图书馆学报,2007,(2):13-17.

[4]TRGruber.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition,1993,(5):199-220.

[5]廖作芳.《三国志》历史领域本体的构建与推理研究[D].武汉:华中师范大学,2011:18.

[6]Noy N F,McGuinness D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford:Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report,2001.

[7]刘宇松.本体构建方法和开发工具研究[J].现代情报,2009,29(9):17-24.

[8]Ian Horroeks.OWL:A Description Logic Based Ontology Language.In:Logic programming.Springer Berlin:Heidelberg,2005:1-4.

[9]OWL Web Ontology Language Guide[EB/OL].http:∥www.w3.org/TR/2004/REC-owl-guide-20040210/,2004-02-10.

[10]曹琳.江海文化论纲[J].艺术百家,2002,(1):125-127.

[11]陈金渊,陈炅(校补).南通成陆[M].苏州:苏州大学出版社,2010:江海文化总序2-3.

[12]丰武坤.南通文化研究[M].南京:南京大学出版社,2010:214-218.

[13]冒健.南通文化选讲[M].南京:南京师范大学出版社,2011:151-171.

[14]陈昌海,闫曼,余建华.南通方言分区研究[J].广播电视大学学报:哲学社会科学版,2010,(3):101-105.

[15]黄振平.江海记忆——南通市第一批非物质文化遗产概览[M].西安:陕西人民出版社,2009.

(本文责任编辑:孙国雷)endprint