APP下载

面向学术文献的语义出版技术研究

2015-12-10李楠孙济庆马卓

出版科学 2015年6期

李楠 孙济庆 马卓

[摘 要] 指出语义出版以其对文献知识内容的结构化发布与呈现成为备受关注的新兴出版模式,通过梳理学术期刊的语义出版实践,总结语义出版应用的发展现状,并在分析语义出版主要技术路线的基础上建立语义出版的技术框架;重点关注学术文献的语义建模问题,归纳代表性的应用模型,并对文献语义模型的未来发展趋势进行展望。

[关键词] 语义出版 语义增强 技术框架 文献语义模型

[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2015) 06-0085-08

Study on the Techniques Used in Academic Literature-Oriented Semantic Publishing

Li Nan Sun Jiqing Ma Zhuo

(Institute of Science and Technology information of East China University of Science and Technology,Shanghai, 200237)(Institute of Scientific and Technical Information of Ji-Lin Provence,Changchun,130033)

[Abstract] Semantic publishing becomes the newly an emerging mode which is renowned for its structured knowledge distribution and presentation for academic literature. The paper summarizes the state of the art development of semantic publishing through analyzing the cases of academic periodicals press,and builds a technical frame based on the main application implementation routes.Moreover,the semantic modeling issue on academic literature is focused on the disscussion, which mainly sums up all the typical application models so far as well as proposes a prospect towards the semantic modeling development tendency.

[Key words] Semantic publishing Semantic enrichment Technical frame Literature semantic model

1 引 言

随着信息技术和大数据环境的发展,数字出版成为融合并超越传统出版的重要出版模式,尤其在科学、技术和医学领域(Science,Technology and Medicine,STM),数字出版进程正逐步加速,数字出版物市场占比不断增大,无论从出版内容、载体形态到呈现方式都日益丰富。然而,在数字出版蓬勃发展的同时,海量学术文献资源在满足科研人员信息需求的同时,也带来了严重的信息过载压力。在这种情况下,用户只能借助文献检索技巧、战略性阅读等方式改善科学探索与知识获取的效率。而作为知识传播的主要媒介机构,信息服务商和出版商则致力于寻求优化科学知识发布和共享的新途径。其中,语义出版凭借其对文献知识内容的结构化发布与呈现成为备受关注的新兴出版形式。

早在21世纪初,语义网概念的兴起就使得语义技术成为焦点,其核心在于为网络资源嵌入机器可读的语义标签以实现网络信息的智能化处理。随着知识本体、自然语言处理等相关技术的发展,在语义检索、个性化推荐等智能化的信息应用服务中语义技术发挥着越来越重要的作用。受其影响,出版机构也开始尝试应用语义技术改进出版流程。2009年,肖顿·戴维(Shotton D.)首次系统地提出语义出版概念,并将其界定为一种语义增强的期刊出版形式[1],通过语义标记丰富出版物的表现形式和知识内容,提高出版物信息的可操作性、交互性和关联性,最终实现智能化出版。语义出版一方面通过增强的出版功能改进传统的知识发布形式,为科研用户提供更加高效、精确的阅读体验,有助于提升科研人员的知识发现与创新效率,因此成为学术出版青睐的新型模式。另一方面,它也为图书馆、信息服务商等机构的服务流程带来冲击。传统信息资源开发与管理模式势必需要适应基于语义出版的信息环境,并在知识组织方法与策略上做出相应调整。因此,语义出版的相关研究已成为近年来国际学术界在学术出版与信息资源管理领域普遍关心的热点问题。

目前国内尚未形成对语义出版技术的系统性研究,本文拟通过梳理和分析国外语义出版的应用实践和研究文献,明确语义出版的基本技术路线,建立语义出版技术体系的基本框架,以期为我国语义出版的研究和实践提供借鉴。

2 学术期刊的语义出版实践

语义出版的价值在于通过出版物内容的语义揭示以及外部资源的知识关联实现学术出版功能的提升。这种通过结构化描述实现计算机理解的方式,使得出版物内容更易于直观呈现,能够显著提高读者的阅读效率。近年来,在英国皇家化学学会(RSC)、爱思唯尔(Elsevier)、自然出版集团(Nature)、美国科学公共图书馆(PLoS)等众多知名学术组织及出版机构的参与和共同推进下,语义出版已经初步实现了从理念构想向实践应用的过渡,研究成果不断涌现。爱斯唯尔开展的“未来的论文”计划(Article of Future)从呈现(Presentation)、内容(Content)、上下文(Context)三方面创新传统的学术文献服务。目前旗下的ScienceDirect平台已经在7个学科领域实现了语义出版原型[2];皇家化学学会RSC最早推出Rich HTML形式的语义出版服务,为平台的部分期刊全文进行语义标注,并通过与多种类型化学及相关领域本体资源的关联真正实现了语义层面的论文知识内容扩充[3];PLoS系列期刊则通过与多种外部信息源及数据集建立链接的方式丰富文献的有机内容,并在此基础上提供了论文级计量分析服务[4]。

2012年,肖顿归纳了语义出版实践的基本形式与功能,认为学术期刊的语义增强主要体现为以下几个方面[5]:① 增强对论文有机内容的描述,如图片、表格、参考文献列表等包含有价值内容的多模态信息的描述;② 增强对论文内容描述的语义标注,如依据领域术语、概念等本体资源识别的命名实体;③ 提供与相关文献等其他信息源的关联,如该文献作者主页、相关学术机构网站等;④ 提供所有参考文献的链接;⑤ 以XLS、CSV等可操作方式提供对文献相关实验数据的访问;⑥ 提供对支持该文献研究的全数据集的访问;⑦ 实现对网络上语义相关文献的信息集成;⑧ 采用通用的数据描述规范发布文献信息,实现开放访问,包括文献题录信息、内容摘要、参考文献题录信息等。

按照处理对象的不同,肖顿的语义增强功能可以分为两种类型:一是对出版物外部特征的揭示,例如③④⑧提供了对基本题录信息、参考文献信息等的规范化描述,并依据这些外部特征建立起与外部资源的链接,丰富出版物的信息内容;二是对出版物内容特征的描述,指对出版物内容和逻辑结构的揭示,例如①实现论文章节、图表等的结构化,②对术语、概念等实体进行语义标注,⑦建立与语义相关文献的关联。第二种类型的功能应用真正体现了从语义层面对出版形式的改变,即语义特征的形式化出版。

针对部分已开展语义出版尝试的期刊或机构,调查上述8种语义增强功能的实现情况,部分结果如表1所示。

调查结果显示:首先,语义出版的学术期刊基本以Rich HTML形式发布,这里借用了网络开发术语“超文本链接标识语言”的概念,用于表示文献内容的发布已不再是简单的文本形式,而是通过超链接方式实现了语义知识的扩展,增强了文献的知识价值;其次,语义出版应用多分布在生物、医药、化学等语义技术应用广泛且实践成果丰富的领域,究其原因,语义出版的实现离不开语义技术以及领域本体等基础知识资源的支持,而上述领域正是学术界语义技术应用研究的高地,因而语义出版起步较早;值得注意的是,调查结果中几乎所有的期刊都实现了①④⑧三项功能,而其他功能则出现明显的发展不平衡现象,也就是说,针对文献的基本题录信息、章节图表等内容结构与模块信息的规范化、结构化描述已成为业界认可的语义出版基本形式,而这些功能仅涉及了部分语义特征的描述,诸如命名实体标注、相关资源的语义集成等深层次的语义化功能则有待于进一步加强。

因此,如果将语义出版应用的发展划分为三个层次(如图1所示):关注外部特征的初级阶段、关注部分显性或半隐性语义特征描述的过渡阶段(浅层语义特征描述)以及全面实现语义特征标引的高级阶段(深度语义特征标引),目前,相关实践尚处于语义出版应用的过渡阶段。当然,在语义增强应用需求的推动下,关于语义出版的应用技术研究也不断深入并取得一定的进展,相信随着知识本体和自然语言处理等语义技术的发展,更多隐性的文献特征将被挖掘出来并实现规范化描述,基础数据、网络资源等更多类型的信息源也将实现语义层面的有效集成。深度语义标引的高级阶段是语义出版应用发展的必然趋势。

图1 语义出版应用的发展阶段

3 语义出版的技术体系

语义出版模式对语义网技术提出了更高的应用需求,相关研究也在不断深入。目前,以本体和关联数据技术为代表形成了两条主要的技术路线。大量研究围绕这两条主线展开,为语义出版技术的发展奠定了坚实基础。而围绕语义出版的功能目标,在传统出版流程的基础上实现对出版物语义特征的深层揭示,语义出版的技术体系则融合了对文献语义特征的知识挖掘以及关联,形成了以“特征描述、特征抽取和知识关联”为主要内容的语义出版技术框架。

3.1 主要技术路线

总体来看,有关语义出版的研究文献总量较为丰富,其中以语义出版应用的实现技术研究为主要方向,形成了两条基本的技术路线。

(1)借助本体技术实现文献对象及其知识内容的语义描述。本体是一种形式化的,对于共享概念体系明确而又详细的说明。因此,在计算机与信息科学领域,本体作为一种重要的用于描述特定领域中的对象,或者描述概念及其属性、关系的工具,成为语义网应用的基础。根据应用目标不同,可以把本体在语义出版中的应用分为文献本体和领域本体两种类型。①文献本体用于描述文献题录、内容、结构、论述等出版对象及其属性,即出版对象的元数据,包括用于描述书目及引用信息的本体(FRBR-aligned Bibliographic Ontology,FaBio;Citation Typing OntologymCito)[6]、应用于出版内容的纳米语义模型Nano-Publication等。目前文献本体的应用能够更为规范、清晰地描述文献的内容及外部特征,已被广泛应用于不同的语义出版实践。例如,2011年欧洲创新药物计划(IMI)资助了为期3年的开放药物学概念三元组仓储(OpenPharmacological Concept Triple Store,Open PHACTS)项目,基于纳米语义出版模型尝试建立试验数据和科学结论的规范语义描述本体,并在大规模生物医药文献集上实现了开放的药物学知识空间[7]。②领域本体是对领域知识中的概念及其属性进行描述,即领域知识的元数据或专业术语集,例如生物学基因本体(Gene Ontology,GO)、一体化医学语言系统(Unified Medical Language System,UMLS)等,主要应用于人工智能与机器理解,因此在语义出版领域的应用也相当普遍。例如,奎拉尔(Queral-Rosinach N)等采用语义科学集成本体(Semantic Science Integrated Ontology,SIO)、美国国家癌症中心术语资源系统(NCI Thesaurus)等进行基因疾病文献的语义标注,并发布了94万个描述规范的人类DNA科学陈述[8-9]。RSC数据库为旗下众多化学期刊论文进行全文语义标注,建立了与生物化学实体本体(Chemical Entities of Biological Interest,ChEBI)、化学方法本体(Chemical Methods Ontology,CMO)等的术语链接[10]。可以说,本体技术在语义出版过程中起着非常重要的作用,因而目前在本体资源较为丰富的化学、生物、医学等领域,语义出版发展更为迅速,而在其他领域则需要着力推进知识资源建设的基础工作。另外,基于本体的自动语义标注问题也是当前研究关注的重点,语义网技术强调对于语义的机器理解,但在已有较为成熟的应用中仍是以人工处理方式为主,全自动的处理方法与实际应用仍然存在差距,也是未来研究的发展方向。

(2)采用关联数据为出版物连接更多外部开放的数据资源提供技术框架,使出版物知识内容的丰富成为可能。传统出版仅体现了文献本身的基本内容,对于语义相关的文献、数据等资源并未涉及,而语义出版技术框架中明确了知识关联的应用需求,关联数据则为这种知识关联的建立提供了一种统一的资源描述框架。语义出版内容的组织、关联和共享都可以通过关联数据得以实现,后者因此成为语义出版应用的热点。米特拉切(Dumitrache A.)通过关联数据建立DBpedia、机构数据以及本体资源与出版物管理系统的链接[11];科罗塞特(Croset A.)提出利用维基百科、DBpedia、科学博客等资源进行集成语义分析[12];奇切斯特(Chichester C.)则为蛋白质知识平台neXtPro的文献数据添加语义注释,描述关于特定蛋白质异形体转录后修饰的结论及其属性,并表示成RDF/XML格式,其发布的neXtPro关联数据集包含了图结构的语义出版单元[13]。事实上,对于语义出版而言,尽管外部数据资源的访问、获取等关联数据消费行为对出版物知识内容的丰裕程度有重要影响,但出版物知识内容的组织和发布才是语义出版质量的根基,知识单元的标引粒度、准确性、完备程度、有效性等则与关联数据的建设有着密不可分的联系。

3.2 语义出版技术框架

上述技术路线仅涉及面向语义出版应用的两个关键支撑技术,反映了近年来相关研究密切关注的热点主题。事实上,根据对语义出版实践的梳理和总结,语义出版的技术体系融汇了知识组织范畴下对文献内、外部特征的挖掘和知识关联的构建等更为广泛的技术内容,其基本技术框架如图2所示,包含特征描述、特征抽取和知识关联三个部分。

为了充分体现学术文献的知识价值,学术出版必须尽可能完备地揭示文献的主题内容。因此,科学、全面地定义学术文献的基本特征是语义出版中的基础问题。而学术文献的基本特征包括外部特征和语义特征两部分:外部特征即文献基本题录项的描述,包括篇名、作者、机构、作者关键词、来源出版物、参考文献等信息;语义特征则需要通过表达文献知识内涵、组成文献主体的语义元素来刻画。这些语义元素的有序组合形成了符合科学规律并具有逻辑关联的知识单元,进而构成文献内容的有机整体。按照表现形式,可以将语义元素分为以观点、假设、事实、结论等科学陈述为基本形式的陈述型语义元素和以图片、表格、实验结果、基础数据等为代表的多模态数据型语义元素两种。上述文献外部特征和语义特征共同构成学术文献出版模型,而在清楚定义文献出版模型的基础上,则可以利用本体、关联数据等元数据解决方案实现文献特征的规范化描述,为语义出版提供标准化的依据。由此形成的学术文献出版模型及其资源描述方案成为语义出版技术体系的基础与核心。

在明确出版目标学术文献出版模型之后,语义出版的内容基本确定。继而需要思考的问题则是如何获取出版内容,即文献特征的抽取问题,这也是语义出版的技术关键。根据文献出版模型的定义,外部特征的抽取可通过对文献题录项信息的抽取获得,一般为结构化或半结构化数据,处理难度较低。但是,近年来对于文献题录信息的抽取研究在新的应用需求下有了新的发展方向,例如:对于参考文献的标引从基本的参考文献题录信息的获取,进而发展到对参考文献的文内位置等上下文信息的自动获取[14];语义特征的抽取即实现文献内部语义元素的识别,针对不同类型的语义元素采用的处理技术也各不相同:对于陈述型语义元素,在文献中多以自然语言论述的方式表达,因此在抽取时必须首先对文献的内容文本进行处理,包括语句切分、句法分析、语义分析等,这往往需要借助文本挖掘、自然语言理解等技术实现对语句特征的抽取,然后进行语义元素类别标注。目前相关研究集中在本体领域,根据对科学论述过程中逻辑组件的特征,人工识别假设、观点、事实、结论等语义元素,尚未完全解决语义元素的自动标引问题;对于数据型语义元素,涉及图片、表格、公式等多模态数据以及文献相关的实验数据集,其处理过程不仅需要考虑文献内容中各类数据的识别和抽取,还要考虑对图片主题、表格信息、公式内容等语义特征的描述,以及这些数据的语义特征与文本内容的语义映射关系,因此多模态信息抽取技术是近年来相关领域关注的前沿热点问题[15]。

关联是知识组织的核心。语义出版将原本处于传统出版之后的知识组织过程前移并融入出版流程,知识关联因此也成为语义出版的重要内容,进一步强化了出版过程中的知识多元化关联和集成效应。特征的描述和抽取过程实现了知识内容的结构化,为知识关联从外部特征显性相关向内部语义特征相关的转化提供了条件。因此,在语义出版环境下知识关联突破作者、机构、关键词、引证文献等传统题录项之间的显性关系构建,综合了题录、内容、数据等多种类型外部特征和语义元素之间的语义连通路径,实现动态、多维的知识关联。知识关联可以分为显性和隐性两种,其中对主题相关度、观点相似性、事实相符度、数据一致性等不同层面知识范式的判定与度量成为语义出版中更为重要的关联形式,而通过语义消歧、关系约简及重构等方式对显性和隐性关联进行融合则成为文献层面语义关联的未来发展方向。

4 学术文献的语义模型研究

学术资源的价值体现于文献中蕴含的丰富的知识单元。语义出版实质上是通过语义描述及标引实现文献知识的结构化、丰富化,以促进资源的知识价值最大化。因此,文献知识内容的语义构建是语义出版技术体系的核心问题,也是学界长期关注的基础理论问题。2014年,鲁伊斯-伊涅斯塔(Ruiz-Iniesta A.)曾撰文对当前可以用于描述学术文献的本体模型进行了系统梳理,将文献本体划分为文档本体、题录和参考文献本体以及科学论述本体三类[16]。本文结合目前领域研究现状,将基于本体的文献语义模型划分为两种:一是面向文献结构的语义模型,包含了对章节等文献结构部件、文献题录信息以及参考文献信息的描述;二是面向文献内容的语义模型,专门用于对学术文献中的研究目标、假设、论据、方法、试验及结论等知识内容进行描述,即描述科学论述信息的本体(Scientific discourse Ontology)。

4.1 面向文献结构的语义模型

在图书情报领域,文献元数据建设一直是研究的重点内容。因此,以传统的元数据模型为代表,相关研究开始较早并且已形成较为成熟的行业规范。近年来在语义网技术的推动下,基于本体的元数据方案不断出现,可应用的本体实例相对较多,其中面向语义出版应用最具代表性的是语义出版及引用本体(Semantic Publishing and Referencing Ontologies,SPAR),该模型为文献标引提供了基本的语义框架。

如图3所示,SPAR是由核心本体、相关本体、神经医学语义应用本体(Semantic Web Applications in Neuromedicine,SWAN)本体[18]、本体设计模式、外部本体5种类型的本体构成的本体集合。其中核心本体包括8个用于描述文献题录和参考文献不同属性特征的本体,如:面向FRBR的书目本体FaBiO;描述章、节、图、表等文档结构部件的本体(Document Components Ontology,DoCO);包含不同引用关系以及类型定义的引用本体CiTO;反映参考文献题录及文内引用特征的本体(Bibliographic Reference Ontology,BiRO;Citation Counting and Context Characterisation Ontology,C4O);以及与出版功能相关的出版角色本体(Publishing Roles Ontology,PRO)、出版状态本体(Publishing Status Ontology,PSO)、出版流程本体(Publishing Workflow Ontology,PWO)。SWAN源自生物医学领域的科学论述过程本体,可用于描述科研过程中的数据组织、提出假设、解释推理及得出结论的整个知识生态。SPAR主要引用了其科学论述元素本体(Discourse Elements)部分。另外,SPAR还引入了书目模型(Functional Requirements for Bibliographic Records,FRBR)和作者及其关系描述本体(Friend-of-a-Friend,FOAF))等作为核心本体的补充。

如上所述,从基本书目题录到参考文献,再到参考文献的题录、引用位置、频次等相关属性,SPAR基本覆盖了科学文献的全部结构性特征,同时SPAR本体集还引入了包括SWAN本体等在内的科学论述过程本体,由此可以反映文献语义建模从外部结构逐步向内容语义发展的趋势。目前各领域正在致力于相关语义模型的完善,并且不断加快SPAR本体的实例化进程,以促进多学科知识资源的共同繁荣。

4.2 面向文献内容的语义模型

本文整理了几种代表性的面向文献内容的科学论述本体构建实例,按照发展历程科学论述本体的研究进展如图4所示,相关研究正逐渐从科学论述的知识单元描述向具有逻辑关联的科学论述过程描述过渡。早期的科学论述本体构建关注对科学陈述中的基本知识单元的描述,例如科学论述本体(Scholarly Interpretation and Discourse,ScholOnto)[19]、科学文献关键信息本体(Core Information about Scientific Papers,CISP)[20]、科学实验本体(Common Ontology of Scientific Experiments,EXPO)[21]等,主要针对科学主张、假设、目标、背景、研究方法、实验、模型、结论等科学论证过程的不同组成部分进行类和属性定义,并应用于领域文献的自动标引。近年来研究则更加关注知识单元之间的逻辑关系即逻辑论证过程。例如科学论据描述本体(Argument Model Ontology,AMO)[22]根据图尔敏(Toulmin)的科学论述理论提出,文献阐述中包含科学主张、背景、依据等相互联系的论述单元,单元之间又存在支持、包含、证实等逻辑属性,由此进行了本体类及其属性的定义。卡洛斯(Carlos H.Marcondes)的文献知识模型[23]则是在识别作者推理模式的基础上,定位文献中所有重要的结论并采用知识表达规范描述这些结论及其关系。在文献本体构建研究的发展过程中,出现了面向语义出版的语义应用模型,增强了对文献论述单元的规范化描述及其真实性的考证,例如,纳米语义出版模型(NanoPublication)强调基本科学结论的描述必须包括出处、支持信息、完整性密钥及唯一标识ID等信息,以反映核心内容及其背景、语境信息,方便知识的集成、推理和发现[24-25]。微语义出版模型(Mircro Publication)则在此基础上更加注重科学主张及其论据的关联特征,通过自然语言陈述、数据、方法、材料支撑、分析、评论等多方面内容形成文献的科学论证链[26]。实际上,国内早在2003年就由温有奎等学者提出了知识元链接理论[27],将科学研究中的知识创新点视为知识元,认为文献是由知识元构成,并在后续研究中系统地论述了知识元的类型、标引方法、本体描述等[28-29]。但由于缺乏成熟的应用环境,中文文献本体构建的应用研究目前更多地停留在理论层面的描述,很少有简单、清晰、规范的应用实例开发,因此相关研究仍有待进一步深入。

上述研究反映学术界早已开始关注学术文献知识解构问题。其中,结构化知识部件的定义和描述一直是研究的重点,近年来也产生了大量从不同视角对文献知识内容进行本体建模的研究成果。然而,学术文献是一个内涵丰富的有机体。一方面文献内容(content)包含了表达科学知识的语义元素及逻辑关系,如文本的观点阐述、论证过程信息等。另一方面,文献也与科研的上下文环境(context)密切相关,如研究环境、贡献与角色、出版环境等。显然已有研究成果并未能完全覆盖上述内容。可以说,目前学界对于文献的这种富语义形态尚未形成系统、一致的认识与定义,构建一种多元化的文献富语义模型成为亟待解决的基础研究问题。

5 总结与展望

传统数字出版流程包括内容制作、资源加工、内容资源管理等环节。在资源加工过程中关注对作者、机构、来源出版物以及参考文献等外部文献特征的揭示和报道。而语义出版则是在此基础上将出版物的加工深度进一步提升到内容层面,借助语义技术实现科学观点、事实等真正有价值的知识单元的生产过程,并致力于在语义层面建立文献之间、知识单元之间的知识关联。通过对语义出版技术的研究,可以得出以下结论:①目前语义出版应用实践正处于浅层语义特征描述的过渡阶段,随着语义技术的发展必将向全面的深度语义化的知识关联与集成迈进。②语义出版应用技术融汇了对文献内、外部特征的挖掘以及多元化知识关联的构建,因此形成了“特征描述—特征抽取—知识关联”三层技术框架,其中文献特征的定义和描述是基础,文献特征的抽取方法是技术关键,知识关联则是语义出版知识增值的体现。③借助本体技术实现文献对象及其知识内容的语义描述是语义出版的主要技术路线,本体工程在语义出版应用中的重要地位不会改变,在未来一段时期内各学科领域的本体基础建设将成为语义出版发展的重要推动力。④面向文献结构的语义模型已日趋成熟,未来将以其在各专业领域的实例化应用研究为主,而面向文献内容的语义模型则有待完善,相关研究正从科学论述的知识单元描述向具有逻辑关联的科学论述过程描述过渡。

总而言之,语义出版应用研究在语义技术、信息科学等领域发展的推动下,正稳步向成熟化和实例化迈进。未来语义出版技术的相关研究将继续以“特征描述—特征抽取—知识关联”技术框架为基础不断丰富和发展。其中,文献的富语义建模研究仍有进一步发展空间,如何实现文献语义特征的自动抽取等问题仍是未来各界关注的重点技术内容。

注 释

[1]Shotton D.Semantic Publishing:the coming revolution in scientific journal publishing[J].Learned Publishing,2009 (22):85-94

[2]The Article of the Future is now live[EB/OL]. [2015-04-24]. http://www.articleofthefuture.com/

[3]翁彦琴,李苑,彭希珺,等.英国皇家化学会(RSC)-科技期刊语义出版模式的研究[J].中国科技期刊研究,2013,24(5):825-829

[4]Shotton D, Portwin K, Klyne G, et al. Adventures in semantic publishing: exemplar semantic enhancements of a research article[J]. PLoS Computational Biology, 2009, 5(4): e1000361

[5]Shotton D . The Five Stars of Online Journal Articles - a Framework for Article Evaluation[EB/OL]. [2015-05-05]. http://www.dlib.org/dlib/january12/shotton/01shotton.html

[6]Peroni, S., Shotton, D. FaBiO and CiTO: ontologies for describing bibliographicresources and citations. Web Semantics: Science, Services and Agents on the WorldWide Web, 2012(17): 33-43

[7]Ratnam, Joseline; Zdrazil, Barbara; Digles, Daniela; et al. The Application of the Open Pharmacological Concepts Triple Store (Open PHACTS) to Support Drug Discovery Research[J].PLOS ONE, 2014,9(12): e115460

[8]Queralt-Rosinach N, Furlong L I. DisGeNET: from MySQL to Nanopublication, Modelling Gene-Disease Associations for the Semantic Web[C]. International School on Semantic Web Applications and Tools for Life Sciences , SWAT4LS. Aveiro, Portugal. 2012:1-4

[9]Queralt-Rosinacha N,Kuhnb T,Chichesterc C,et al.Publishing DisGeNET as Nanopublications[EB/OL]. [2015-05-05].

http://biorxiv.org/content/biorxiv/early/2014/10/16/010397.full.pdf

[10]RSC Publishing (Royal Society of Chemistry 2015). [2015-3-9]. http://pubs.rsc.org/

[11]Dumitrache A, Lange C. BauDenkMalNetz-Creating a Semantically Annotated Web Resource of Historical Buildings[C]. First Workshop on Semantic Publication (SePublica 2011) 8th Extended Semantic Web Conference Hersonissos, Crete, Greece, 2011: 30-41

[12]Croset A C S, Kafkas S, Liakata M, et al. Exploring the generation and integration of publishable scientific facts using the concept of nano-publications[C]. First Workshop on Semantic Publication (SePublica 2011) 8th Extended Semantic Web Conference Hersonissos, Crete, Greece, 2011: 13-17

[13]Chichester C, Karch O, Gaudeta P, et al. Converting neXtProt into Linked Data and nanopublications[EB/OL]. [2015-05-04]. http://www.semantic-web-journal.net/system/files/swj461.pdf

[14]Villegas N M, Tamura G, M€黮ler H A, et al. DYNAMICO: A reference model for governing control objectives and context relevance in self-adaptive software systems[M]. Software Engineering for Self-Adaptive Systems II. Springer Berlin Heidelberg, 2013: 265-293

[15]王睿佳,刘耀.面向科技文献的多模态语义关联特征提取与表达体系研究[J].大学图书馆学报,2012,30(5):71-76

[16]Ruiz-Iniesta, A., Corcho, O. A review of ontologies for describing scholarly and scientific documents[C]. CEUR Workshop Proceedings 2014(1155). 4th Workshop on Semantic Publishing, SePublica 2014. Co-located with the 11th Extended Semantic Web Conference, ESWC 2014; Anissaras; Greece, 2014: 1-12

[17]SPAR-semantic publishing and referencing [EB/OL]. [2015-4-24]. http://sempublishing.sourceforge.net/

[18]Semantic Web Applications in Neuromedicine (SWAN) Ontology[EB/OL]. [2015-04-24]. http://www.w3.org/TR/hcls-swan/

[19]Shum S B, Motta E, Domingue J. ScholOnto: an ontology-based digital library server for research documents and discourse[J]. International Journal on Digital Libraries, 2000, 3(3): 237-248

[20]Soldatova, L., Liakata, M. An ontology methodology and CISP - the proposed core information about scientific papers, JISC Project Report,2007 [EB/OL]. [2015-05-05]. http://ie-repository.jisc.ac.uk/137/

[21]Soldatova, L.N., King, R.D. An ontology of scientific experiments. Journal of The Royal Society Interface, 2006, 3(11):795-803

[22]The Argument Model Ontology (AMO)[EB/OL]. [2015-05-04]. http://www.essepuntato.it/2011/02/argument model

[23]Marcondes C H. A semantic model for scholarly electronic publishing[C]. First Workshop on Semantic Publication (SePublica 2011) 8th Extended Semantic Web Conference Hersonissos, Crete, Greece, 2011: 47-58

[24]Groth P, Gibson A, Velterop J. The anatomy of a nanopublication[J]. Information Services and Use, 2010, 30(1): 51-56

[25]Patrinos G P, Cooper D N, van Mulligen E, et al. Microattribution and nanopublication as means to incentivize the placement of human genome variation data into the public domain[J]. Human mutation, 2012, 33(11): 1503-1512

[26]Clark T, Ciccarese P, Goble C. Micropublications: a semantic model for claims, evidence, arguments and annotations in biomedical communications[J]. Journal of Biomedical Semantics, 2014, 5(1): 28

[27]温有奎, 徐国华. 知识元链接理论[J]. 情报学报, 2003,22(6):665-670

[28]温有奎, 温浩, 徐端颐,等. 基于知识元的文本知识标引[J]. 情报学报, 2006,25(3):282-288

[29]温浩, 温有奎. 主题成因的知识元本体转换模型研究[J]. 情报学报, 2011,30(11):1123-1128

(收稿日期:2015-07-19)