微出版及其应用探析
2018-08-11牛丽慧
牛丽慧
〔摘 要〕本文对语义出版中的一种代表性出版模式——微出版(Micropublication)进行了介绍和分析。首先介绍了微出版物的概念及其本体;然后对微出版的应用现状进行述评;最后,尝试将微出版应用于心理学领域,以一篇心理学科学文献为例对其利用微出版模型进行语义化描述,并在此基础上对微出版的应用特点进行了分析。研究结果表明:微出版模型是一种以论证为基础,对科学文献中以文献结论为论点,以陈述、数据、方法等作为证据的论证过程进行语义化表示的语义出版模型,但微出版模型无法表示对科学文献内的具体组块,需要结合其他概念模型实现对科学文献不同程度的语义化描述。
〔关键词〕微出版;语义出版;知识表示
DOI:10.3969/j.issn.1008-0821.2018.06.013
〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821(2018)06-0086-07
〔Abstract〕Micropublication,a representative semantic publishing mode,was introduced and analyzed in this paper.It first introduced micropublications concepts and micropublication ontology,then it reviewed micropublications current applications.Finally,it applied the model to represent a psychology document and analyzed the characteristics of micropublication.The research showed that as an argument-based semantic publishing mode,micropublication semantically represented the processes of argumentation that took one documents conclusions as argument,takes statements,data,methods,etc.as evidences,but it could not semantically represent concrete chunks,so it was needed to combine other concept models to realize semantic representation for scientific documents in different degrees.
〔Key words〕micropublication;semantic publishing;knowledge representation
在当今大数据时代,随着学术文献的大量增长,科学研究人员需要花费大量时间阅读文献、理解文献内容、抓取文献中的关键信息,难以快速发现科学文献间的知识关联并获得领域概览。这种传统的期刊文献出版方式不但降低了科学信息传播的效率,而且难以满足科研人员对科学信息共享和重用的需求。2009年牛津大学的D.Shotton教授首次正式提出了“语义出版(Semantic Publishing)”概念,受到学术界和出版界的广泛关注。D.Shotton认为语义出版是一种语义增强的期刊出版形式,采用语义网技术对期刊论文中的信息进行语义标注和语义关联,丰富出版物的内容,增强论文的语义,促进知识传播和学术交流[1]。在语义出版思想的推动下,一系列语义出版模型被提出,譬如用于描述生物医学领域中论述过程的SWAN(Semantic Web Applications in Neuro-Medicine)本体[2]、用于描述科学事实和实验结论的纳米出版(Nanopublication)[3]、用于语义化描述论证证据的SEE(Semantic Evidence)本体[4]、用于描述整个出版流程的SPAR(Semantic Publishing and Referencing)[5]系列本体等。其中,实践应用最成熟的语义出版模型是纳米出版模型,它将文献中的科学观点、科学事实和科学结论等断言性信息采用RDF三元组形式进行语义化表示,并独立于科学文献本身进行出版。虽然纳米出版实现了细粒度知识内容的独立出版,能够被引用和追踪,但是读者却无法判断纳米出版物的有效性和价值,譬如,它是否是新的实验结论性知识,它是引用知识还是单纯的假设性陈述。在科学文献中,作者通常是以论证的方式,即通过引用其他文献中的支持或通过实验和数据来证明所提出的科学观点或科学结论,而纳米出版忽略了这种论证过程。在此背景下,哈佛医学院的T.Clark等人于2014年面向生物医学领域提出了一种新的语义出版模型——微出版(Micropublication)[6],引入了表示论证过程的论证框架,增加了支持图谱(Support Graph)和反对图谱(Challenge Graph),支持证据与断言关系的建构,实现了科学文献论证结构的形式化表示,弥补了纳米出版在知识表示方面过于简单的不足。本文首先介紹微出版物的概念及本体内容;然后对微出版的应用现状进行述评;最后,尝试将微出版应用于心理学领域,以一篇心理学科学文献为例对其利用微出版模型进行语义化描述,并在此基础上对微出版的应用特点进行分析,为学者研究科学文献知识资源的细粒度语义化表示提供参考。
1 微出版物及其本体
微出版物是一个以英国哲学家S.Toulmin的推理论证理论为基础,语义化描述科学文献论证过程的语义出版物。T.Clark采用OWL2本体语言构建了微出版物本体,该本体对微出版物进行了规范化说明[7]。在该本体中,核心类是微出版物(Micropublication)、属性(Attribution)、声明(Claim)、陈述(Statement)、数据(Data)、方法(Method)和材料(Material)。这些核心类均属于表达(Representation)类,表达类是人工产物(Artifact)类的子类,人工产物类属于实体(Entity)类。在这些核心类中,微出版物(Micropublication)表示整篇科学文献的论证过程,属性(Attribution)用于说明微出版物、论断等人工产物类的元数据,包括它们的创建者、创建时间和机构等;陈述(Statement)表示科学文献中表述实验结果的陈述句,或引用参考文献的引文句;声明(Claim)是陈述的子类,表示科学文献的科学结论或实验结果,是微出版物主张的核心论断;数据(Data)表示科学文献中描述实验结果的表格或图,是用于支持或反对陈述的论据;方法(Method)是科学文献中的实验方法,用于说明使用何种材料以及如何获得数据,是实验过程的具体呈现;材料(Material)即科学文献中表示实验过程中使用到的实验材料的表达。这些核心类以及核心类之间的支持(mp:Supports)和挑战(mp:Challenges)关系共同构成了微出版物的支持图(Support Graph)或挑战图(Challenge Graph),属性有支持图元素(mp:hasSupportGraphElement)和有挑战图元素(mp:hasChallengeGraphElement)用于表示微出版物与构成支持图和挑战图的一系列表达之间的关系。
此外,为了进一步论证陈述以及规范化表示陈述的内容,T.Clark在微出版本体中定义了限定符(Qualifier)类及其两个子类:参考文献(Reference)类和语义限定符(Semantic Qualifier)类。参考文献(Reference)类用于表示陈述中引用到的参考文献,用支持(mp:Supports)和挑战(mp:Challenges)关系表示参考文献与陈述之间的关系;语义限定符(Semantic Qualifier)类用于表示为陈述中的实体添加的唯一标识符,即采用相关本体或词表对陈述中的实体进行规范化语义表示,譬如,将论断中的实体“Rapamycin(纳巴霉素)”用生物相关的化学实体本体(Chemical Entities of Biological Interest Ontology,简称CHEBI Ontology)表示为〈CHEBI:68481〉,属性“mp:Qualifies”用于表示语义限定符与陈述之间的关系。微出版物本体的主要类和属性如图1所示。
2 微出版的相关研究
目前有关微出版的文献中大部分是对微出版模型本身的讨论。美国南加州大学的RE.Schuler,美国伦斯勒理工学院的G.Nagy认为微出版是描述论述和证据的语义模型[8-9]。荷兰阿姆斯特丹自由大学计算机系的T.Kuhn等从语义表示的组件类型、出版层级、核心元素这3个方面将微出版物与纳米出版物、研究对象(Research Objects)、可执行文件(Executable Papers)、学术化HTML网页(Scholarly HTML)、结构化数字摘要这6类科学出版物进行了比较,比较结果显示:在语义表示的组件类型方面,研究对象和可执行文件二者均可语义化表示元数据、实验数据和程序代码,纳米出版物可语义化表示元数据、实验数据和论断,学术化HTML网页可语义化表示元数据,结构化数字摘要可语义化表示元数据和论断,微出版物可语义化表示元数据和论证过程;在出版单元方面,可执行文件、学术化HTML网页、结构化数字摘要和微出版物均以文章为出版单元,研究对象以项目为出版单元,纳米出版物以陈述句为出版单元;从这6类出版物所包含的核心元素方面分析,它们均包含形式化语义数据,除此之外,可执行文件、学术HTML网页、结构化数字摘要和微出版物还包含自然语言文本[10]。武汉大学信息管理学院的王晓光等对微出版模型和纳米出版模型作了比较分析,分析表明:从二者的核心架构方面分析,纳米出版模型的核心是论断,微出版模型的核心是论证框架;从组件类型方面分析,纳米出版模型包含论断、出处信息和出版信息,微出版模型包含实体、表述、句子、声明、方法、数据、参考文献方法等;从知识单元的语义关系类型方面分析,纳米出版模型包含出处和归属关系,微出版模型的语义关系类型相对比较丰富,包含属类关系、表示关系、引用关系、支持和挑战关系等,从两类语义出版物的表示形式方面分析,纳米出版物由形式化语言表示,微出版物由形式化语言和自然句相结合表示[11]。
相对于关于微出版的理论研究,目前微出版的实践应用非常少,典型的微出版应用只有两个。一个应用是法国南特大学医院的A.Gaignard于2016年将微出版物模型应用于实验过程的语义表示,通过将微出版模型与出处本体(PROV Ontology)、出处—计划本体(Ontology for Provenance and Plans)、Web标注数据模型(Web Annotation Data Model)和相关领域本体相结合,构建了一个挖掘科学工作流中产生的原始实验数据出处的框架——PoeM,该框架旨在将标注的工作流模式和实验标注模板半自动化改写成出处挖掘规则,通过出处挖掘规则将实验过程中产生的实验数据发布为关联性的实验报告,以促进实验过程中产生的原始数据的开放获取和重用。如图2所示为生命科学领域RAN序列实验中实验标注模板的一部分,A.Gaignard利用实验因素本体(Experimental Factor Ontology)语义化表示实验过程中的样本序列(Sample-Sequence)和基因表达检测(Gene-Expression-Measurement);利用微出版本体表示该实验过程中的样本序列(Sample-Sequence)、基因表达检测(Gene-Expression-Measurement)、假设(My Biological Hypothesis)及其邏辑关系;利用开放标注模型将样本序列标注为实验流程的输入数据(Wf-Input)[12]。通过该实验标注模板,可语义化表示RAN序列实验过程中涉及到的声明、数据、材料和方法。
另一个代表性的微出版应用是伊利诺伊香槟分校的J.Schneider等利用微出版物模型和开放标注模型(Open Annotation Model)对美国国立医学图书馆资助的药物相互作用知识库(Drug Interaction Knowledge Base,简称DIKB)中关于药物之间相互作用的声明及其证据进行了语义化表示和标注。图3所示为J.Schneider等采用微出版模型表示的一个科学论证链。科学论断C1“Escitalopram Does Not Inhibit CYP2D6(艾司西酞普兰(一种抗抑郁用药)不会抑制CYP2D6(一种由人类CYP2D6基因编码的酶))”是微出版物的核心,陈述S1支持论断C1,陈述S3反对论断C1,数据D1和方法M1支持陈述S3。通过这种语义化表示方式,对指向同一声明的不同证据作了有效整合,提高了声明的可信度和知识库的利用率[13]。
从微出版的应用现状来看,一方面微出版主要应用于生物医学领域,目前还没有在其他学科领域中展开应用。鉴于许多学科的科学论证过程都具有很大的相似性,这为微出版模型在其他学科领域的应用扩展提供了可能,有必要在此方面进行研究探索。另一方面,在对科学出版物进行语义化表示时,微出版物模型常常要与其他概念模型或本体联合使用,譬如,基因本体、Web标注数据模型等。微出版物模型与领域本体结合使用,可实现对科学文献的论证过程以及文献中领域术语的语义化描述;微出版与Web标注数据模型结合使用,可实现微出版物与原文献位置的关联,方便读者对微出版元素在原文位置的定位。
3 微出版应用特点分析
基于上述对微出版的结构与相关研究现状分析,我们利用微出版物模型对德克萨斯农工大学的LE.Krueger于2010年在期刊《Personality & Individual Differences》(个性与个体差异)中发表的一篇题为《Differences in Acquisition,Not Retention,Largely Contribute to Sex Differences in Multitrial Word Recall Performance》(獲取而非保留词汇的差异导致在多试验词汇记忆表现中的性别差异)的心理学领域科学文献[14]的论证过程进行语义化描述,以具体说明微出版是如何语义化表示科学文献的,同时为了将微出版物中的元素与科学文献中的内容进行对应,我们采用Web标注数据模型对微出版物中的实体进行标注,添加其在原文中的上下文信息,以方便快速查询和定位微出版物元素在原文献中的位置。Web标注数据模型(Web Annotation Data Model)是一个关于资源标注的元数据模型,主要用于为信息资源(称为标注对象)添加评论、注释等标注信息(称为标注体)[15]。
心理学科学文献的语义描述示意图如图4所示,该文献的论证过程对应的微出版物为MP1,从文献中抽取出结论作为该微出版物论证过程中的声明C1,文献结论一般位于文章的结论(Conclusion)部分,在摘要(Abstract)中也有所体现。我们在摘要部分抽取结论,其具体内容及上下文为:
声明的上文[prefix]:“…Even when Controlling for the Influence of Other Individual Difference Variables,Being a Male was Still Associated with Fewer Gains Across the Majority of Trials.”
声明[:C1]:“These Results Suggest that one Factor Contributing to Sex Differences in Recall Performance are Differences in Acquiring New Items Rather than Differences in Retaining Information Across Trials.(结果表明在记忆量中表现出的性别差异的一个因素是获取新词汇的差异,而不是在试验中保留信息的差异。)”
声明的下文[suffix]:“Many Researchers Have Demonstrated that Females Tend to Outperform Males on Verbal Memory Tasks…”
我们采用微出版物本体中的属性“mp:Argues”表示微出版物MP1与声明C1之间的“主张”关系。采用Web标注本体中的属性“oa:hasSource”标注声明C1源自于文章的“摘要(Abstract)”章节,采用数据属性“oa:Exact”标注声明C1的文本内容,用“oa:Prefix”标注声明C1的上文,用“oa:Suffix”标注声明C1的下文。
对声明C1论证支持的证据有:
3.1 实验方法M1
实验方法M1位于文献中的“方法(Method)”章节,其具体内容及上下文为:
实验方法[:M1]:“The Participants Completed the Word List Recall Test of the WMS-III(Wechsler,1997b)Along with Other Cognitive Ability Tests in a Two Hour Session.Vocabulary Ability Was Assessed with the WAIS Vocabulary(Wechsler,1997a),Picture Vocabulary(Woodcock & Johnson,1990),Antonym Vocabulary(Salthouse,1993),and Synonym Vocabulary(Salthouse,1993)Tests.Verbal Episodic Memory Ability Was Assessed with a Story Recall Task(WMS-III Logical Memory,Wechsler,1997b)and a Paired Associates Task Involving Unrelated Words(Salthouse et al.,1996).(参与者两个小时内完成韦克斯勒记忆量表III的词表记忆测试以及其他认知能力测试。词汇能力用韦氏成人智力量表词汇、图片词汇、反义词词汇和近义词词汇评估。言语情景记忆能力用故事记忆任务和包含不相关词汇的联对任务评估。)”
实验方法的上文[prefix]:“…Because the Scaled Scores Have a Mean of 10,and a Standard Deviation of 3,the Sample Can be Inferred to Consist of High Functioning Participants,and this Was Evident Both in the Entire Sample and in Each of the Three Different Age Groups.”
实验方法的下文[suffix]:“Z-Scores Were Computed for the Paired-Associates and Logical MemoryTtests,and These Scores Were Averaged to form a Composite Verbal Episodic Memory Ability Variable…”
我们采用Web标注本体中的属性“oa:hasSource”标注实验方法M1源自于文章的“方法(Method)”章节,采用数据属性“oa:Exact”标注实验方法M1的文本内容,用数据属性“oa:Prefix”标注实验方法M1的上文,用数据属性“oa:Suffix”标注实验方法M1的下文。
3.2 数据D1
數据D1以表格形式呈现,即原文中的Table2。数据D1是通过实验方法M1得出的实验结果,实验方法M1与数据D1之间存在支持(mp:Support)关系。采用Web标注本体中的属性“oa:hasSource”标注数据D1源自于文章的“结果(Result)”章节。
3.3 论据S1
论据S1位于文献中的“结果(Result)”章节,其具体内容及上下文为:
论据[:S1]“These Results are Therefore Consistent with the Conclusion that Sex Differences Appear to be Largely Manifested Through Differences in Gaining New Items Across Trials.(因此,这些结果与以下结论一致:性别差异似乎主要通过在试验中获得新词汇的差异表现出来。)”
论据的上文[prefix]:“…the Qualitative Pattern Was Similar to that with the Proportion Measures and There Was Still a Significant Female Advantage in the Absolute Number of Gains from Trial 3 to 4 and no Significant Sex Differences in the Absolute Number of Losses Across any Trials.”
论据的下文[suffix]:“A Final Analysis Was Conducted in Order to Assess Whether Sex Differences are More Pronounced Among Individuals at Different Levels of Performance.”
我们采用Web标注本体中的属性“oa:hasSource”标注论据S1源自于文章的“结果(Result)”章节,采用数据属性“oa:Exact”标注论据S1的文本内容,数据属性“oa:Prefix”标注论据S1的上文,数据属性“oa:Suffix”标注论据S1的下文。论据S1是对数据D1的分析结果表述,所以,数据D1与论据S1之间存在支持(mp:Support)关系。
通过数据D1、实验方法M1和论据S1共同论证出该论文的结论性声明C1。这些证据与声明C1之间存在支持(mp:Support)关系,如此,文献中的声明C1、论据S1、数据D1和方法M1就作为支持图元素与它们之间的支持关系共同构成了微出版物“MP1”的支持图(SupportGraph),采用微出版本体中的属性“mp:hasSupportGraphElement”表示微出版物“MP1”与其支持图元素之间的“有支持图元素”关系。在原文献中不存在反对声明的表达,所以在微出版物MP1中没有挑战图(ChallengeGraph)。
根据上文微出版在心理学科学文献中的应用,我们总结出微出版的3个应用特点:
第一,微出版的核心是将科学文献中的论证过程进行显性化和形式化表示。微出版通过丰富的概念类型和语义关系类型明确定义了论点(即科学文献中的结论)、论据(即论证结论的数据、实验方法、材料、引文等证据)以及论证方式(即论点和论据之间的逻辑关系),将隐含在科学论文内的逻辑论证过程显性化和明确化,这种表示方式丰富了科学文献的信息内容解读方式,增强了读者对科学文献的阅读理解能力,实现了科学文献在语义层面的形式化出版,是一种有效的科学文献语义增强方式。
第二,微出版实现了跨文献层面的细粒度知识组织。当一篇科学文献中的论据是其他科学文献的结论时,通过论点和论据之间的支持或挑战的关系,能够形成微出版物之间的声明网络(Claim-Network),该网络将不同科学文献中的结论相互关联,有助于知识推理和发现。当论据是对参考文献的引文时,不同的微出版物之间可构成一个引文网络(Citation-Network),相对于传统引文网络而言,该引文网络可以深入到句子之间的引用以及识别引用功能(譬如,引用方法、引用结论等)。
第三,微出版模型与其他概念模型的结合使用可实现对科学文献不同程度的语义化描述。微出版主要用于对科学文献论证过程的语义化表示,但无法对文献的篇章结构及领域术语等的语义化表示,因此需要与其他语义模型相结合使用以结构化表示科学文献。例如,上文中将微出版模型与Web标注数据模型结合使用,实现了微出版物中的元素与原文献中的内容与位置的关联。此外,微出版物中的科学陈述均是采用自然语言句来表示,这种方法有利于作者以微出版物模式表达自己的科研成果,但不利于机器的理解和处理,而纳米出版模型采用RDF三元组形式表示科学论断,可将微出版物中的陈述进行形式化表示,正好可弥补这一缺陷。所以,将微出版模型和纳米出版模型结合利用,将陈述用自然语言和机器可理解的形式两种方式表示,不仅有助于科研用户阅读理解,而且可以更有效地语义描述科学文献。
4 结论与展望
微出版实现了从论证角度对科学文献进行语义化描述,将科学文献看作以作者观点为论点,以陈述、数据、方法等作为论证的证据的论证过程,是语义出版中具有代表性的一种出版模式。但微出版也存在一些缺陷,它无法实现科学文献中具体组块的语义化表示,如单个陈述句、数据集、图片等,同时,单独使用微出版物模型无法与原文进行关联,所以在利用微出版物模型对科学文献语义表示时,通常要与其他概念模型相结合使用。
在下一步工作中,我们拟设计一个综合语义出版框架对科学文献的观点、假设、证据、事实等陈述型语义元素和文字、图片、数据等数据型语义元素进行语义化描述,以实现对科学文献从整体论证过程到局部具体组块的全方位语义化表示。
参考文献
[1]Shotton David.Semantic Publishing:The Coming Revolution in Scientific Journal Publishing[J].Learned Publishing,2009,22(2):85-94.
[2]Ciccarese Paolo,Wu Elizabeth,Wong Gwen,et al.The SWAN Biomedical Discourse Ontology.[J].Journal of Biomedical Informatics,2008,41(5):739-751.
[3]Netherlands Bioinformatics Cenre.Concept Web Alliance[EB/OL].https://www.nbic.nl/about-nbic/affiliated-organisations/cwa/introduction/index.html,2017-10-07.
[4]Blling Christian,Weidlich Michael,Holzhütter Hermann-Georg.SEE:Structured Representation of Scientific Evidence in the Biomedical Domain Using Semantic Web Techniques[J].Journal of Biomedical Semantics,2014,5(S1):1-22.
[5]Peroni Sivio.The Semantic Publishing and Referencing Ontologies[M].Semantic Web Technologies and Legal Scholarly Publishing,2014.
[6]Clark Tim,Ciccarese Paolo N,Goble Carole A.Micropublications:A Semantic Model for Claims,Evidence,Arguments and Annotations in Biomedical Communications[J].Journal of Biomedical Semantics,2013,5(1):1-33.
[7]Micropublication Ontology[EB/OL].http://purl.org/mp,2017-10-07.
[8]Schuler Robert E,Kesselman Carl,Czajkowski Karl.Accelerating Data-Driven Discovery with Scientific Asset Management[C]//IEEE,International Conference on E-science,2017:31-40.
[9]Nagy George.Disruptive Developments in Document Recognition[J].Pattern Recognition Letters,2016,79:106-112.
[10]Kuhn Tobias,Michel Dumontier.Genuine Semantic Publishing[J].Data Science Preprint,2017:1-16.
[11]王曉光,宋宁远.语义出版物的内容组织架构研究——基于纳米出版物和微型出版物的比较分析[J].出版科学,2017,25(4):20-27.
[12]Gaignard Alban,Skaf-Molli Hala,Bihouée Audrey.From Scientific Workflow Patterns to 5-Star Linked Open Data[C]//InProceedings of the 8th USENIX Conference on Theory and Practice of Provenance,2016:44-48.
[13]Schneider Jodi,Ciccarese Paolo,Clark Tim,et al.Using the Micropublications Ontology and the Open Annotation Data Model to Represent Evidence Within a Drug-Drug Interaction Knowledge Base[C]//InProceedings of the 4th International Conference on Linked Science,2014:60-70.
[14]Krueger Lacy,Salthouse Timothy A.Differences in Acquisition,Not Retention,Largely Contribute to Sex Differences in Multitrial Word Recall Performance[J].Personality & Individual Differences,2010,49(7):768-772.
[15]W3C.Web Annotation Data Model[EB/OL].http://www.w3.org/TR/annotation-model/,2017-10-07.
(责任编辑:郭沫含)