APP下载

基于知识图谱的香山文化信息组织与检索系统①

2017-09-15陈威宇罗盛亨黄嘉文吴昊驰

计算机系统应用 2017年9期
关键词:香山图谱知识点

陈威宇,姜 赢,罗盛亨,黄嘉文,吴昊驰

(北京师范大学珠海分校 管理学院,珠海 519087)

基于知识图谱的香山文化信息组织与检索系统①

陈威宇,姜 赢,罗盛亨,黄嘉文,吴昊驰

(北京师范大学珠海分校 管理学院,珠海 519087)

香山文化的内涵包含多种元素,内容极其丰富,但是相关研究孤立分散主要原因在于缺乏系统性的信息组织.在概述知识图谱信息组织应用基础之上,提出基于知识图谱的香山文化信息组织思路.利用骨架法构建了基于本体的香山文化知识图谱,建立了香山文化分散研究要点之间的关联.基于知识图谱的香山文化检索系统通过可视化方式展现香山文化中复杂的知识点和知识关系,勾勒出香山文化总体轮廓.基于知识图谱的信息组织在处理领域复杂关系的分析与挖掘上有一定优势,知识图谱检索系统可视化模式丰富多彩、特色鲜明.

香山文化;知识图谱;信息组织;检索系统

香山文化在地缘上是指包括今天的中山、珠海、澳门在内的地域文化.它在本质上集中体现了岭南文化中粤、闽、客三大民系的文化特征,是中原文化、土著文化、西洋文化、南洋文化相互碰撞和不断融合的产物,是相对岭南文化而言的子文化,是岭南文化的重要组成部分[1].2006年首发的《香山文化——历史投影与现实镜像》一书,率先提出了香山文化这一概念[2],社会各界尤其是学术界、新闻界对此给予广泛关注.同年由广东省社会科学界联合会主办“香山文化学术研讨会”[3],86篇会议论文涉及香山文化的基本概念、本质特征、演变轨迹、历史名人、香山文化的传承与创新、香山文化研究的理论与方法等方面.

2006年香山文化概念提出半年即“蹿红”,但随后迅速降温,近几年相关研究越来越少,犹如昙花一现.可见,香山文化“立得住”是做到了,但“推得开”有一定困难,更是没有达到“影响大”的层次.究其原因,主要在于香山文化研究内容分散,缺乏系统性.香山文化的内涵包含多种元素,内容极其丰富,大多数学者从各自研究领域出发,针对香山文化的某一个方面进行研究[4](例如:香山民俗、香山方言、香山买办、香山华侨、香山商业、香山文化),研究内容较为分散,难以反映香山文化全貌.因此,需要通过系统性的研究,利用信息组织技术建立分散研究要点之间的关联,勾勒香山文化总体轮廓,归纳总结香山文化更加全面而宏观的文化精神.

另外,研究香山文化的学者大多数是历史、社会等人文学科领域的专家和教授,研究方法仅限于传统文献调查、实地调研,案例实证分析等等[5,6].本文提出发挥交叉学科的优势,利用数学、信息科学成熟的技术(例如:数据挖掘、信息组织、知识组织、知识推理等)对香山文化进行更为量化的分析和研究,揭示香山文化现象与文化本质之间的更深层次的因果逻辑,为当今大香山经济圈的文化发展提供借鉴.

1 国内外研究现状

2010年初,以Google公司为代表的研究机构提出知识图谱(Knowledge Graph)的概念与实现框架[7].知识图谱以本体(Ontology)技术为核心[8],通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合后的的现代理论.知识谱图特别适合于解决内容关系复杂领域的知识管理问题,在国内外医疗卫生、电子商务、生物化学、国防军事、人文历史等各个领域将有广泛的应用.其中,知识图谱在国内外历史文化遗产保护的典型应用案例较多.例如,CultureSampo[9](芬兰历史知识图谱)是芬兰政府2010年建设的文化公共发布门户网站,它利用本体映射技术和本体推理技术,将来自芬兰20个博物馆、图书馆、档案馆中的素材整合,建立成芬兰历史知识图谱.后前总共容纳了 128,714 件芬兰文化遗产物件,包括博物馆藏品、历史照片、地图、油画、诗歌、古籍、民歌等,还包括276,681个历史事件、人物、地点、时间等抽象文化概念知识.它提供基于知识图谱的查询服务:在文化遗产物件及抽象文化概念知识之间推荐和跳转,查询历史人物之间的知识关联,查询用户地理位置周边的文化遗产物件,以时间轴为线索浏览芬兰重要历史时间及相关文化遗产物件.2012年武汉大学信息资源研究中心与中华书局合作项后“中华史籍分析系统”[10],对二十四史中的人物、时间、地点实体进行了全面标注.该系统自建知识图谱记录总共268491条.知识库构建知识类122个、对象属性32个、数据属性28个,推理属性15个和实例179503个,时空分析人物308个,地图地点标注12736个.Google、Facebook等国外知名互联网公司是知识图谱的倡导者.Google公司已建立了5亿个对象,35亿个事实和关系,足以证明知识图谱技术的可行性.随后,国内百度、搜狗以及复旦大学GDM实验室相继推出了其中文知识图谱,可见知识图谱在中文领域应用的可行性[11].

在此背景下,本文提出以挖掘、研究、弘扬香山文化为主旨,利用现代信息组织技术手段构建香山文化知识图谱及检索系统,不仅仅是对历史进行系统全面的梳理和对历史文化遗产保护,更重要的是力求通过弘扬和传承,对大香山经济圈的经济和社会发展起到促进作用.

2 基于知识图谱的香山文化信息组织

2.1 香山文化知识图谱的主要内容

知识图谱的理论模型主要包含知识分类、知识点,知识属性、知识属性值、知识点之间关联.领域中经常出现的词汇,这些词汇就是知识点.由于知识点很多,需要分门别类组织一下,知识分类可以有多层,最终形成一个树形结构.知识点表达具体个体的概念;知识分类表达抽象分类的概念.为了更深入细致的描述知识点,可以为知识点添加知识属性.知识属性是描述知识点的某个方面.什么样的知识点具有什么样的知识属性,是根据知识点所归属的知识分类来确定的.可以用知识属性来描述某个知识点,并将某个知识属性值赋予这个知识属性,形成一个完整的对知识点的描述.知识属性和知识属性值都是用来描述知识点:知识属性与某个知识分类关联,可以被归属于该知识分类的知识点所共享重用;知识属性值与某个知识点关联,只能和某个知识属性一起组合起来描述一个知识点.知识属性和知识属性值是对知识点的内部特征的描述,而知识关系也是用来描述知识点的,只不过它所描述的是知识点对外关系/关联(与谁关联以及如何关联).知识属性和知识关系有类似的特征:什么样的知识点之间具有什么样的知识关系,是根据知识点所归属的知识分类来确定的.知识关系所关联的对象就是知识点.所以知识关系值,也就是“宾语”(Object)本身就是知识点.即知识关系关联了知识点与知识点.而知识属性可以理解为知识点,与字符串、数值等之间的关联.

将所收集的香山文化知识点进行分类,得到14个知识分类:历史事件、地点(行政区域)、学校、文化遗存、香山人物、组织机构、文学、艺术、时间、称号、职务、饮食文化、香山方言、香山民俗.经过这样的划分,知识图谱的架构体系以及脉络十分清晰,从多维度出发,而且分类细腻,基本涵盖了香山文化的所有内容.这有助于我们能更清晰地研究香山文化.具体来说,山文化知识图谱的框架设计包括以下知识分类:

历史事件:军事事件、政治事件、教育事件、文化事件、社会事件、科技事件、经济事件、自然事件.

组织机构:军事组织、国际组织、工商机构、政府机构、文化教育机构(这个又可分为宗教组织和教育单位)、社会组织、社会群体、经济组织(个体商店和公司企业).

香山人物:世纪伟人、乡贤俊彦、买办家族(唐、徐、莫、郑四大家族)、从商人士、军政要人、华侨华人、思想先驱、文化名家、留学人士、航空翘楚、英烈志士、香山居民.

时间按照具体的时间点和时间段添加子类,以具体的年份作为知识点.地点以行政区域进行子类划分.艺术、文学以作品类型添加子类.学校以在读和毕业分开.香山方言以语系的不同进行划分.香山民俗按照习惯活动、礼节、节日以及艺术进行子类划分.饮食文化以烹饪方式、饮食方式以及具体的美食相关进行子类划分.

如图1所示,香山文化的买办文化板块中,近代中国著名的买办、实业家徐氏家族在中国早期工业化的过程中起到的积极作用:1872年李鸿章委派唐廷枢为总办,徐润、盛宣怀为会办,改组轮船招商总局,徐润统管财务账后、人事大权;1877年招商总局吞并了当时轮船运输业的老大——美国旗昌轮船,增加了码头和船只,扩大了经营,成为能与太古轮船公司抗衡的唯一对手,后来还不断投资大型企业,包括投资张之洞在汉阳创办的湖北铁厂等企业.

图1 香山文化知识图谱信息组织示例图

2.2 香山文化知识图谱构建的基本思路

首先对香山文化资料收集与梳理:香山文化文献资料特别是晚清到民国间香山文献数量之宏大,内容之丰富,在广东省名列前茅,这是大香山经济圈最大的文化资源,是香山文化的根基,也是了解和诠释香山文化的重要依据,只有摸清楚了香山文献的家底,对其有了更深入更真切的了解,才能够对香山文化的含蕴有更准确、清晰的把握和界定,为香山文化知识图谱的构建与挖掘打下基础.作为原始文献资料收集的补充,利用田野考古的形式,深入基层、深入民间调研,包括中山、珠海诸多村庄,深入澳门、东莞、顺德、江门等地,寻访名人故居、名人坟墓,访问知情人士,记录口述史料和真情实感,收集大量第一手资料.

接下来,从收集到的香山文化资料挖掘出香山文化知识分类、知识点、知识属性和知识属性值,最终建立香山文化知识图谱.香山文化的常见的词汇需要按照这种知识模型组织起来,建立起香山文化知识图谱.

最后,本项后香山文化知识图谱服务平台采取MVC模式构建了B/S应用系统.具体来说,后台使用Jena TDB数据库作为知识图谱持久化的工具,利用Jena的RDF API对知识图谱进行读写操作.笔者研发的中间件嵌入到Struts框架作为业务逻辑层,提供知识图谱索、检索、提取和推理等核心功能API.特别在检索部分还使用Lucene对知识分类、知识点、知识属性、知识属性值和知识关系的LocalName进行索,能够实现模糊检索.系统前台使用D3.js工具将三元组转换成结点和边,最终使用Javascript构建出知识图谱检索结果的Graph图.

香山文化知识图谱的构建,是知识图谱构建人员和文化领域专家共同努力的成果.笔者邀请了中山大学的一位历史系教授以及北京师范大学珠海分校的一位研究历史文化的教师参与我们的香山文化知识图谱构建.他们对整合好的香山文化知识图谱原始资料库进行人工筛选和补充,最终建立知识图谱中所有知识点.在这个过程中,他们细致而专业的历史文化理论知识使我们能够顺利地完成知识图谱本体库的构建.

3 香山文化知识图谱应用系统

3.1 香山文化知识图谱构建系统(后台系统)

Protégé[12]软件是斯坦福大学基于Java语言开发的本体编辑和知识获取软件,或者说是本体开发工具,也是基于知识的编辑器,属于开放源代码软件[13].它提供了大量的知识模型与动作,可以创建并操作各种表现形式的本体.Protégé已成为后前使用最广泛的本体论编辑器之一,是一套用于对本体知识进行描述、表达和推理的软件.它拥有一个灵活的架构,支持插件开发,并且提供了一套 Java API供编程人员使用[14].笔者可以利用这个开源软件,实现香山文化知识图谱的构建.基于protégé的香山文化本体库的构建实现如图2所示.最终,香山文化知识图谱构建有110个知识分类(class),其中包括4个父类(superclass)和106个子类(subclass),以及2482个知识点(individual)和67条关系属性(property),经过统计香山文化本体已经包含了3740条本体数据记录.

图2 基于 Protégé的香山文化知识图谱构建

3.2 基于知识图谱的香山文化检索系统(前台系统)

在设计并构建好香山文化知识图谱之后,笔者研发了基于知识图谱的香山文化检索系统,并使用了D3.js工具来实现知识图谱的可视化效果.在研发过程中,笔者利用具名图对香山文化知识图谱中由RDF三元组描述的资源进行四元组拓展,为它们加入时间维度描述,即变成“---