基于关联数据的科研关系揭示与未来研究
2017-08-15李志姜小函
李志 姜小函
[摘 要] 本文从关联数据的角度,研究科研关系揭示问题。本文从关联数据的研究现状出发,认为基于关联数据的科研关系揭示未来研究重点应从科研实体的识别与抽取、语义描述框架构建、科研实体及关系的本体构建、科研关系揭示服务这四个方面来开展。科研关系揭示实现了海量数字资源中分散的、异构的科研实体转化成遵循统一标准的结构化数据,從而构建一个内容相互关联、多维度的资源体系,将不同学科主题、不同内涵外延、不同属性关系的实体进行识别、标识和链接,从而形成一个庞大的关联数据网络,以便快速、高效、全面地揭示科研关系。
[关键词] 关联数据;科研关系揭示;科研关系网络
[中图分类号] G205 [文献标识码] A [文章编号] 1671-0037(2017)5-28-4
Abstract: From the angle of linked date, this paper studied the scholarly relationship to revel problems.It starts from the present situation of linked date, and believes that the future research about revelation of scholarly relationship based on linked data should mainly follow four aspects: identification and extraction of research entity, construction of semantic description framework, ontology construction of scientific research entities and relationships, and revelation service of scholarly relationship. The scholarly relationship revelation has transformed disperse and heterogeneous scientific research entities in the massive digital resource into structured data following a unified standard,built a content-correlation and multi-dimension resource system, and achieved recognition, identification and association of entities with different subject themes,connotation extensions and attributes relationships, so as to form a huge network of linked data, for revealing scholarly relationship rapidly and efficiently.
Key words: linked data; scholarly relationship revelation; scholarly relationship network
1 引言
当前,学术数字资源已成为信息资源的主流,包含各类期刊、学位论文、会议录、科技报告、图书专著、专利、标准等。在这些数字资源中蕴含着丰富的科研实体,如科研主体(科研人员、科研机构、国家地区等)、科研活动(科学会议、科学实验、科研项目等)、科研条件(科研方法、科学仪器、科研经费、科学期刊等)、科研产出(科研成果、专利、标准等)以及科学文献、科学主题等[1],这些科研实体之间存在着相互交错的多维联系,称为科研关系。科研关系揭示研究有利于增加信息检索的准确性,提高检索效率;有助于构建大型的科研关系网络,展现知识与知识之间的潜在联系,进而更加有效地实现知识导航、智能检索、科学评价、专家识别等深层次的知识服务。如何实现相关实体的有效聚合,深入挖掘和有效地揭示科研关系是科研关系网络构建的基础。
2 关联数据研究现状
2006年,万维网之父伯纳斯-李(Tim Berners-Lee)首次提出关联数据(Link Date)的概念,他认为“关联数据”是一组用于发布、共享和链接网络上的结构化数据的最佳方法。关联数据以RDF(资源描述框架,Resource Description Framework)作为基础,将Internet上分布的异构的、不同形式的非结构化数据转化为具有统一标准的结构化数据,方便用户和机器的阅读与理解,并且利用URI(统一资源标识符,Uniform Resource Identifier)来命名和发布数据实体,然后通过http协议获取这些数据[2]。关联数据是在现有万维网基础上,构建一个能够与世间万物一一映射的数据网络,可以对世界上的任何实体以及它们之间存在的关联关系进行理解和描述,进而形成一个结构化、具有丰富语义且互通互连的知识网络,使用户可以通过计算机网络工具准确、快速、高效地在网络中找到互相关联的知识。因此,关联数据是语义网的一种轻量级的实现技术,它有坚实的技术基础,完整的系统结构,简单高效的发布方式,并且能够为不同类型、不同语言、不同粒度的数字资源动态聚合提供新的研究视角。
2.1 理论研究方面
自关联数据提出之后,国内外相关领域的学者就关联数据本身开展了大量的理论研究。2007 年 Richard Cyganiak人在“Linking open data”项目申请中再次强化关联数据的概念[3],此后关联数据的研究受到了各界的重视。自此,全球互联网大会、AAAI年会和语义万维网等国际会议均有关联数据的主题会议。2011年图书馆信息资源委员会(Council on Library and Information Resources)、斯坦福大学图书馆与学术信息资源中心(Stanford University Libraries and Academic Information Resources)召集技术专家和图书馆相关人员对关联数据在图书馆中的应用所遇到的问题和挑战进行了讨论[4]。国内关联数据的研究始于2008年,上海图书馆的刘炜等人对国外关联数据的文献和著作进行了翻译,并介绍了相关应用。2010年中国科学院的沈志宏和张晓琳梳理和分析了大量文献,介绍了关联数据的原则和技术体系,研究了关联数据的核心技术[5]。2012年中国科学院国家科学图书馆的陶俊对德国柏林自由大学提出的关联数据映射语言R2R进行了深入分析,并与SPAR-QL语言比较,发现推广R2R有助于提升RDF链接创建能力,从而更好地为创建关联数据提供支持[6]。2014年学者游毅按照关联数据的基本原则与聚合机制,通过图书馆MARC书目数据的RDF格式转换、URI资源命名与指向外部数据源的RDF链接实现馆藏元数据的关联数据化与网络关联,提供了一个实现馆藏资源关联揭示的全新模式[7]。同年樊秋妮和张丽萍利用西安航空学院图书馆有效的MARC数据,从网站上收集相关信息并参照FRBR模型进行书目数据分解,利用关联数据来实现书目数据语义化[8]。
2.2 应用研究方面
2.2.1 国外关联数据应用现状。在关联数据的实践推进中,2008年瑞典国家图书馆(National Library of Sweden)最先将本国的国家联合目录发布为关联数据。紧接着,美国国会图书馆(Library of Congress)英国国家广播公司(British Broadcasting Corporation)、法国国家图书馆(La biliothèque nationale de France)和德国国家图书馆(Die Deutsche Nationalbibliothek)等的书目数据也纷纷开放了关联数据服务。2009年作为国际领先的搜索引擎公司Google利用关联数据对视频内容进行标识,对搜索结果摘要中的人物和评论进行RDFa标识,提高了Google的搜索质量,更好地满足了用户的检索需求。2010年万维网协会W3C还专门成立图书馆关联数据孵化小组,鼓励图书馆界将各类文档和数据以关联数据的形式发布到网上,使图书馆的资源能够在和互联网上实现共享[9]。美国国立卫生研究院资助康奈尔大学等机构研发了VIVO平台,利用RDF、OWL、Jena和SPARQL等技术,构建一个广泛适用的科研本体,对科研人员、科研项目、科学数据、科研成果以及文献资源等进行语义化的知识揭示,为科研人员提供关联知识发现服务[10]。英国广播公司BBC(British Broadcasting Corporation)使用关联数据技术进行数据集成,如将音乐网站与维基百科链接,获取音乐人的信息,通过关联数据技术为每个节目建立自己专属的网页和静态地址,使用户体验得到大幅度的提升。此外,还有纽约时报、百思买等纷纷使用关联数据技术发布多媒体、新闻等数据。
2.2.2 国内关联数据应用现状。与国外相比,国内针对关联数据的应用相对较晚。中国科技信息研究所较早关注关联数据,并针对关联数据技术应用开展实践。2008年国家科技图书情报文献中心最早成立了关联数据项目。2010年中国科学技术信息研究白海燕等初步实现了关联数据在书目信息组织中的应用。2011年武汉大学信息资源研究中心马费成等提出一个基于关联数据的网络资源集成框架,设计并实现了以“武汉大学”为基本单位的免费网络学术资源集成實验系统[11]。2012年中国人民大学和清华大学信息研究院的朝乐门和邢春晓等人研究关联数据的跨域共享以及关联数据知识地图的原则、体系、技术等,并在此基础上采用语义Web编程技术实现面向DBpedia、Yago、FOAF、Freebase等不同关联数据集的知识地图系统[12]。2013年中国农业科学院农业信息研究所的鲜国建设计自动批量转化工具,将农业科学叙词表(Chinese Agricultural Thesaurus,简称 CAT)转换为CAT/SKOS关联数据,实现面向农业科研的新型服务[13]。2014年吉林大学崔春等人采用挖掘实体关系为目标的研究路线与方法、发布中文名称规范关联数据、对现有本体进行选择和映射、利用众包方式开展文本分析工作探索了关联数据在提升文化遗产文献的可视性方面的应用[14]。2015年浙江大学丁楠等人研究了关联数据在加强政府信息集成方面的应用,构建了基于关联数据技术的政府信息聚合模型,并通过实例验证了其可行性[15]。2016年上海图书馆的夏翠娟等人以家谱开始,利用关联基于语义万维网的规范控制方法和基于知识本体的知识组织方法以及关联数据技术等实现了面向知识发现的数字人文服务[16]。
2.3 其他方面
同时,还对CNKI优秀博硕士学位数据库中有关关联数据的文献进行了检索,得到博硕士学位论文49篇(检索式为题名=“关联数据”),其中博士论文6篇,硕士论文43篇。这6篇博士论文分别属于计算机系统结构、农业信息管理与情报学专业,研究主要集中在关联数据实现技术、关联数据在知识服务和图书馆建设方面的应用,如表1所示。硕士论文的研究主要集中在关联数据的技术体系和基本原则,以及关联数据在知识服务、图书馆与档案建设、企业、农业与医学等方面的信息服务。
此外,又对全国社会科学规划办公室(简称“社科”)和国家自然科学基金委员会(简称“自科”)的网站进行了检索,得到我国关联数据项目的立项情况,如表2所示,其研究主要集中在关联数据自身的理论研究以及关联数据在图书馆建设、知识服务和政府数据开放方面的应用。自2011年以来,我国一直都有关联数据的专门项目支持,这些项目不仅仅停留在关联数据的理论研究,更多涉及到关联数据的应用,使研究成果更好地为社会提供服务,发挥关联数据的价值与优势。
3 基于关联数据的科研关系揭示未来研究建议
综上所述,关联数据的相关理论研究已经比较成熟,其应用范围正在逐渐扩大。如何利用关联数据已有的理论、方法、工具、规则去识别、揭示和挖掘出隐含的、复杂的、多维的科研关系是关联数据在科研关系揭示方面的又一新的尝试和应用。本文认为,基于关联数据的科研关系揭示是在探讨科研关系揭示概念与内涵,分析科研实体属性与特征,以及科研关系类型、结构与表现形式的基础上重点研究科研实体的识别和抽取、科研关系的语义化描述、科研实体和关系的本体构建,以及科研关系的应用这四个方面的内容,研究框架如图1所示。
3.1 科研实体的识别与抽取
一方面,需要进行科研实体的识别与标注。分析不同科研实体的属性特征,利用基于海量文本统计和自然语言理解来界定科研实体的语义特征,以便识别更细粒度的科研实体。采用命名实体识别研究方面相对成熟的技术和方法,如基于规则的方法、基于统计的方法、基于规则和统计相结合的方法、机器学习与人工知识相结合的方法等,结合海量信息资源所提供的信息,对主要科研实体,如人名、机构、地名进行识别。重点研究基于海量信息资源的篇章结构、科研实体的语义特征以及科研实体之间的邻近度来识别和标注科研实体。另一方面,对科研实体进行归一与规范。对于主要科研实体的规范文档中存在的对同一科研实体的多个名称或不同实体的重名等现象进行消歧和命名规范化处理,采用基于上下文的文本向量聚类方法,并充分考虑文本中词与词之间的关联度及相互的语义关系,通过相似度算法,使其在大规模文献资源中能够自动选择或生成一个最优的命名,实现科研实体命名规则的规范化。在科研实体的识别、标注、描述和命名规则研究基础上,抽取科研实体,形成科研实体的知识库,为基于关联数据的科研实体语义描述奠定基础。
3.2 基于关联数据的科研关系语义描述框架研究
在现有的RDF、SKOS、OWL基础上,针对科研实体及其关系的特殊性和复杂性,构建适用于科研关系的语义描述框架。在对科研实体及其关系特征分析的基础上,利用RDA提供的數据元素定义、属性关系描述、注册取值词表的控制等多种描述手段,定制并设计出不同科研情景下的RDA纲要,构造科研实体及其关系之间的逻辑关系。针对科研实体及其关系的多维性和复杂性,构建多维实体组配知识体系模型,实现与科研实体的关联,实体概念与概念之间、概念与实例之间、实例与实例之间、引证关系、关联关系、共现关系等多方面集成并能将其表征为可扩展的RDF有向网络图,使其具备关联数据集基础。
3.3 基于关联数据的科研实体及其关系本体构建研究
选取骨架法、企业建模法、Methontology和Berneras et a.l等方法中的一种,利用Ontosaurus、Ontolingua、OILEd、Protege、OntoEdit等本体构建工具来对领域知识进行建模,然后从海量数字资源中抽取出科研实体,通过语义表征技术SKOS与OWL的语义递进转换,链接和集成规范数据与主题概念体系的表征,实现科研实体及其关系的语义化描述,从而构建科研本体。在本体构建过程中,要产生一份本体需求及规格说明的文档,这份文档在本体构建完成后有助于实现知识共享。
3.4 基于关联数据的科研关系揭示服务研究
科研关系揭示不仅是理论问题,更是现实问题,其理论研究需要在实践中进行验证。在不同来源、不同结构和不同类型的海量数字资源中,进行科研实体的识别与抽取、语义框架描述、本体构建,配置发布服务器,解析每个实体的URI,根据内容协商原则返回正确的网页描述和RDF描述,使其与外部资源形成关联,在此基础上开展基于面向用户的深层次的知识检索、基于关联数据的智能导航服务和相关知识聚合推送服务等。
4 结语
海量数字资源中存在着大量分散的、异构的科研实体,对用户快速、准确的检索科研信息带来不便。运用关联数据技术进行科研关系揭示将有助于将分散的、异构的科研实体转化成统一的结构化数据并对其进行标识和链接,从而构建一个大型的共享的科研关系网络,最终为用户提供更好的知识服务。
参考文献:
[1] 曾建勋.知识链接及其服务研究[M].北京:科学技术文献出版社,2012.
[2] Linked data FAQ[EB/OL].http://structureddynamics.com/linked_data.html.2015-03-05.
[3] W3C. Linking Open Data[EB/OL].http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenDate.2015-04-05.
[4] 欧亮.斯坦福大学关联数据报告概述[J].重庆第二师范学院学报,2013(3):164-168.
[5] 沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010(11):1-9.
[6] 陶俊,孙坦,刘峥.关联数据映射语言R2R[J].中国图书馆学报,2012(3):100-109.
[7] 游毅.面向馆藏聚合的书目关联数据实现[J].情报理论与实践,2014(8):105-110.
[8] 司莉,李鑫.基于关联数据的科学数据集成与共享研究——以Bio2RDF项目为例[J].图书馆学研究,2014(21):51-55.
[9] W3C Library Linked Data Incubator Group[EB/OL].http://www.w3.org/2005/Incubator/lld/2015-03-05.
[10] 赵雪芹.知识聚合与服务研究现状及未来研究建议[J].情报理论与实践,2015(2):132-135.
[11] 马费成,赵红斌,万燕玲,杨东晨,赖洁.基于关联数据的网络信息资源集成[J].情报杂志,2011(2):167-170,175.
[12] 朝乐门,张勇,邢春晓,张健.数据驱动型知识地图及其关键技术[J].图书情报工作,2012(10):25-29,40.
[13] 鲜国建,赵瑞雪,朱亮,寇远涛.农业科学叙词表的SKOS转化及其应用研究[J].现代图书情报技术,2012(10):16-20.
[14] 崔春,毕强.关联数据在数字人文领域中的应用剖析——以关联爵士项目为例[J].图书情报工作,2014(24):99-105.
[15] 丁楠,王钰,潘有能.基于关联数据的政府信息聚合研究[J].情报理论与实践,2015(7):76-79,85.
[16] 夏翠娟,张磊.关联数据在家谱数字人文服务中的应用[J].图书馆杂志,2016(10):26-34.