基于关联数据的文物信息语义模型研究
2016-09-03郑明辉湖北民族学院计算机科学与技术系
张 华,李 劲,郑明辉(湖北民族学院计算机科学与技术系)
基于关联数据的文物信息语义模型研究
张华,李劲,郑明辉(湖北民族学院计算机科学与技术系)
针对当前数字文物共享的问题,提出了一个基于关联数据的文物信息语义模型,通过文物信息本体构建实现了各种文物要素之间的语义关联,并为信息共享提供了统一标准,最后用实例验证了模型的可行性。
关联数据;文物信息;本体;唐崖土司城
1 引言
文物是中华民族的一个象征,它具有很高的艺术欣赏及历史研究价值。自从1982年《中华人民共和国文物保护法》出台后,各级地方政府通过设立传统博物馆、文物馆、纪念馆等形式进行文物及资料实体保护,但在资源采集、保护及展示方面受到时间、空间的限制。近年来,随着计算机软硬件技术、多媒体技术、互联网技术尤其是三维虚拟技术、移动互联网技术的高速发展,文物数据库、数字博物馆、虚拟博物馆、网上博物馆、掌上博物馆等各种数字化手段层出不穷,极大地拓宽了文物信息的保护渠道及展示方式。但目前各地数字博物馆普遍还是基于本地数据,其信息组织在数据格式、构建平台及具体技术应用上都存在很大差异,难以实现互通互连,从而削弱了数字化文物资源共享的优势。
为有效解决这一问题,本文针对我国文物信息的特点,在借鉴语义网知识组织方法的基础上,设计了一个基于关联数据的文物信息发布模型,基于该信息模型实现对文物组成要素、各要素之间关联关系的统一语义描述与展示,为文物信息的语义化组织提供了一种有效的方法,从而为实现数字化文物资源共享奠定基础。
2 文物信息化及关联数据现状
上世纪80年代初,我国出台了文物保护法,各地通过传统方式进行信息采集及管理,虽然收集了大量第一手资料,但信息化程度很低。2001年7月16日,故宫数字博物馆网站正式上线,这是我国第一个数字博物馆。同年,国家文物局、财政部联合启动了一项全国性的“文物调查及数据库管理系统建设”项目,这一系列事件标志着国内的文物信息管理上了一个新台阶。据国家文物局数据中心统计,截至2010 年8月31日24时,全国绝大部分省份已顺利完成二、三级馆藏珍贵文物数据的备案工作。[1]建立了以文物数据采集、管理为中心的适合数字化技术要求的标准规范体系,研发了《馆藏文物信息管理系统》、《省级馆藏文物数据管理系统》等系列软件,培养了一批文博信息化专业人才,目前已全面进入以数据整理和应用工作为核心的新阶段。[2]该阶段的主要任务是如何突破这些数据在时间与空间上的限制,打破数据与数据之间的信息壁垒,挖掘这些海量数据中的宝贵知识。传统数据库及信息系统架构的方式已无法胜任,迫切需要新的技术体系来解决。
关联数据作为“通过共享模型,建立数据与数据之间的关联网”,为解决目前传统信息管理缺陷,将文物信息领域所包含的全部知识及其语义关联进行系统、全面的揭示奠定了方法论基础。关联数据(Linked Data)最早由互联网之父Tim Berners-Lee于2006年7月提出,他的思想核心就是构建一个数据与数据互联的大数据网,在这张网中,每个数据点都按照相同的底层规范RDF三元组模型组织数据,然后用一个世界唯一标识URI发布到网上,数据之间通过URI进行互访,从而实现了真正意义上的信息共享。[3]国外在关联数据研究方面一直处在前列,2007年5月由万维网联盟和关联数据社区发起的“关联开放数据”(Linked Open Data,LOD)项目,其中的数据集所涉及的知识领域涵盖了社交、政府、出版物、生命科学等多个领域,2011年9月LOD云中的数据集数量达到了295个数据集,截至目前,数据集已超过1014个;[4]随着开放数据影响的扩大,各国政府及企业也积极加入,美国、英国、澳大利亚、新西兰、荷兰等国家先后建立了政府开放数据;[5,6]纽约时报、英国BBC及全球最大的专业零售商之一的百思买等纷纷将自己的企业数据进行了关联数据发布。[7,8]国内早在2008年就开始关注关联数据研究,如白海燕等针对关联数据构建提出了基于实体文本、图相似和规则的三种自动构建方法;[9]沈志宏开展了基于科技文献、科技数据的关联数据的发布流程及关键技术研究;[10]欧石燕基于关联数据提出语义数字图书馆的概念,并给出了包含元数据层、本体层、关联数据层和应用层的体系模型;[11]朝乐门等采用语义Web编程技术实现面向DBpedia、Yago、FOAF、Freebase等不同关联数据集的知识地图系统等。[12]但总的来说,国内关联数据研究进展相对缓慢,文物文化领域应用相对较少。
3 基于关联数据的文物信息语义模型架构
本研究针对我国文物信息的特点及关联数据的发布流程,提出了一个关联数据驱动的文物信息资源语义组织框架,该框架由4层结构组成,如图1所示。
(1)数据层。文物资源数据层是各种文物信息的来源,包括考古勘察、文保工程、馆藏文物信息、各类文物数据库(文物征集、科技保护等信息库)及各类网上文物信息等。该层数据来源丰富、形式多样,为上层架构提供了基础数据支撑。
(2)语义转化层。关联的基础是数据的规范化、语义化。语义转化层通过本研究构建的基于文物信息的本体模型将数据层提供的各类文物信息资源进行规范化分类处理,将数据语义化,这部分工作主要包括:类和属性定义、URI标识、文物词汇选择以及RDF三元组描述。
(3)数据网络关联层。本层是关联数据的核心层,依据关联边界的不同分为内部关联与外部关联。内部关联主要是文物机构资源集内部的信息关联,外部关联指文物机构资源集与采用不同词汇集的其他外部文物资源集进行信息关联。通过大大小小的内外关联,各种RDF资源通过HTTP URI可以相互访问,从而形成了一张大的语义知识网。
(4)应用服务层。基于数据网络关联层,应用服务层主要提供面向用户的各类应用,如文物信息个性化服务,文物、历史、地理等信息融合应用,文物语义检索,地域文化文物关联服务等。
图1 基于关联数据的文物信息语义模型架构
4 文物信息本体模型
以上语义模型架构数据层的文物来源数据没有统一规范,因此语义转化层需要提供一个描述文物概念、属性、分类之间关系的统一本体模型。在文化遗产领域,国外已经有了一些比较成熟的领域本体模型,如ICONCLASS、TGN、AAT、CIDOCCRM、ABC、ULAN等,相对其他方案,CIDOCCRM历时十多年被众多有影响力的项目广为采用,且能表示动态文物信息,[13]但它在表达人物方面不够灵活,因而本文在CIDOCCRM[14]的基础上结合人物本体Foaf[15]进行构建。
文物一般都具有历史、艺术、科学等方面的价值。比如世界文化遗产恩施咸丰唐崖土司城遗址,除了可观看到的由张王庙、牌坊、衙署区、土王墓等组成的古遗址之外,还有其背后的历史人文背景。“荆南雄镇”牌坊,就是明朝天启三年(1623)明熹宗皇帝为表彰土司王覃鼎率土家军队为朝廷征战立下显赫战功而赐予的。所以定义一个文物除了它的体貌特征之外,还有其历史文化背景资料,包括时间、地点、人物、事件等要素,围绕这五个要素,提炼关键特性,从不同信息渠道抽取数据,最后通过统一模型对外提供查询推理接口。最终构建的本体模型如图2所示。
图2 文物信息本体模型
(1)文物实体。模型中的中心实体,主要描述文物相关的物理信息,包括文物名称、图片、材质、形状、大小、说明等。
(2)人物实体。此处的人指代较广,既可以表示文物的创建者,也可以指历史拥有者,还可以指目前的管理者,其个体信息包含姓名、性别、年龄、照片和所属组织等。
(3)时间实体。代表一个时间段而非时间点,由开始、持续、结束等属性来定义,表示某个特定时期等。
(4)地点实体。主要描述地名、地址、空间坐标等地理相关信息。
(5)事件实体。通过与其他实体关联,描述文物起源、转移、毁坏、修补等历史轨迹。除了以上主要实体外,还有各个实体之间的关系,其中部分关系属性详细说明如下表所示。
5 基于关联数据的文物信息语义模型实现
本文以恩施咸丰唐崖土司城遗址展馆为例,基于上文提出的文物本体及语义模型,将馆藏考古勘察、文保工程、历史文献、文物古迹等数据资料以关联数据形式发布,一方面实现本地数据的语义浏览、查询,另一方面为下一步关联恩施州8县市博物馆数据奠定基础。
5.1源数据整理
目前,馆藏各类资源虽然大部分都实现了电子化,但都是说明、介绍、物品清单等形式,且都以word、excel格式存储,所以首先要以前述文物信息本体模型为指导原则,借助关系型数据库将各类数据资料进行存储,本文采用mysql数据库,在底层建立了数据表,其中核心的五个数据表为:cultrelic、place、person、timespan、event,关系如图3所示。
表 文物实体关系
5.2基于D2RQ的关联数据转换及发布
上述数据存储属于关系型数据库模式,要和前述文物信息本体实现映射,以便在应用服务层通过Sparql查询时,本体查询结果和数据库能保持同步,因此需借助映射平台,目前相关工具软件比较多,例如:D2RQ、Linked Media Framework、Virtuoso U-niversal Server、Pubby等,依据易用性、开源性原则,这里选用D2RQ作为关联数据映射及发布平台。
D2RQ[16]是一个开源软件,主要包括D2R Server,D2RQ Engine以及D2RQ Mapping语言三部分,它通过D2RQ Engine使用一个可用D2RQ Mapping语言定制的映射文件将关系数据库映射成虚拟RDF格式文件,然后通过D2R Server提供对 RDF数据的查询访问接口,以供上层的 RDF浏览器、SPARQL查询客户端以及传统的HTML浏览器调用。
图3 数据表关系
通过D2R,对cultrelic、place、person、timespan、event等五个数据表进行了RDF关系映射,映射示例如下:
5.3咸丰唐崖土司城遗址展馆语义Web系统
通过关联数据发布,最终生成系统界面。通过点击文物,展示目前馆藏信息列表,点击任意文物名称,调出文物详细信息,其中又有事件、时间、地点等链接,依次查看可分别显示具体内容,实现了文物信息的语义互联。
通过SPARQL[17]查询接口,可以自定义查询条件,对建立的语义网进行关联查询,比如查询当前所有文物的名称、前任所有者及用途,并可返回结果。
6 结语
本文提出了一个基于关联数据的文物信息语义模型,并以其中的文物本体为核心实现了各种要素之间的语义关联,最后以咸丰唐崖土司城遗址馆藏资源关联数据发布为例,验证了模型的可行性。
相对于常规的文物管理信息系统建设,本模型特点如下:
(1)基于RDF的底层架构解决了以往本地数据与外界数据信息共享的难点;
(2)以文物本体为中心的组织架构,突破了传统单一信息存储与管理的局限,实现了文物要素之间的语义关联;
(3)为进一步的文物知识挖掘与推理工作奠定了基础。
下一步的研究工作将集中在两方面:一是考察恩施州其它县市文物信息系统,扩展完善本文所提出的语义模型,以实现本州8县市的文物信息关联;二是进一步研究基于关联数据的知识挖掘与推理,看能否从已有的文物信息中找到新的线索,为本州的文化事业提供技术支撑,同时也为其他研究者提供借鉴。
[1]国家文物局[EB/OL].[2010-09-09].http://www. sach.gov.cn/art/2010/9/9/art_98_3197.html.
[2]“文物调查及数据库管理系统建设”项目纪实[EB/OL].[2014-08-30].http://www.capitalmuseum.org.cn/zjsb/content/2011-11/11/content_35981. htm.
[3]Bemers-LeeT.LinkedData[EB/OL].[2013-03-06].http://www.w3.org/Design Issues/Linked Data.Htm.
[4]LODclouddiagram[EB/OL].[2014-08-30].http: //lod-cloud.net/.
[5]ThehomeoftheU.S.Government'sopendata[EB/OL]. [2015-08-21].http://data.gov/.
[6]OpeningupGovernment[EB/OL].[2015-08-21]. http://data.gov.uk/.
[7]BBC LinkedData[EB/OL].[2015-08-21].http: //www.bbc.co.uk//academy/technology/software-engineering/semantic-web.
[8] How Best Buy is Using The Semantic Web[EB/OL]. [2015-08-21].http://www.bbc.co..uk//academy/ technolog.
[9]白海燕,朱礼军.关联数据的自动关联构建研究[J].现代图书情报技术,2010(2):44-49.
[10]沈志宏,等.关联数据发布流程与关键问题研究——以科技文献、科学数据的发布为例[J].中国图书馆学报,2013(2):53-62.
[11]欧石燕.面向关联数据的语义数字图书馆资源描述与组织框架设计与实现[J].中国图书馆学报,2012(6):58-71.
[12]朝乐门,等.面向开放关联数据的知识地图研究[J].图书情报工作,2012(10):17-24.
[13]黄永欣.文化遗产资讯领域中的参考模型[J].图书馆学研究,2012(11):57-61.
[14]ICOM/CIDOC CRM Special Interest Group.CIDOC CRMVersion5.1.2[EB/OL].[2013-12-20].http: //www.cidoc-crm.org/docs/cidoc_crm_5_1_2.zip.
[15]FOAF[EB/OL].[2014-02-22].http://www. foaf-project.org/.
[16]D2RQ-Accessing Relational Databases as Virtual RDF Graphs[EB/OL].[2015-08-21].http://d2rq.org/.
[17]SPARQL1.1 Query Language[EB/OL].[2015-08 -21].http://www.w3.org/TR/sparql11-query/.
Research on Semantic Model of Cultural Relics Information Based on Linked Data
Zhang Hua,Li Jing,Zheng Ming-hui
In order to realize digital cultural relic information sharing,this article puts forward a cultural relics information semantic model based on linked data.The cultural relics information ontology can not only realize the association of each element of cultural relics but also can provide a standard for information sharing.Finally,the feasibility of the model is tested with a case study.
Linked Data;Cultural Relics Information;Ontology;Tangya Tusi Domain
G264.1;G250.76
A
1005-8214(2016)07-0051-05
本文系湖北省民宗委项目“网络中的武陵山区特色信息的检索优化研究”(项目编号:HBMW2013018)的研究成果。
张华(1978-),男,博士,湖北民族学院讲师,研究方向:本体理论及应用;李劲(1973-),男,博士,湖北民族学院教授,研究方向:数据挖掘及信息检索;郑明辉(1972-),男,博士,湖北民族学院教授,研究方向:信息融合及安全。
2015-12-22[责任编辑]徐娜