APP下载

科技出版资源组织方式及其创新

2015-08-16

新媒体研究 2015年6期
关键词:本体



科技出版资源组织方式及其创新

李弘

电子工业出版社,北京100036

摘要分析了当前科技出版资源组织方式及其存在的问题,归纳探讨了科技出版资源组织方式创新的两种趋势——基于本体的资源组织模式、纳米出版物和知识元出版模式,并阐述了其意义。

关键词科技出版;内容组织;本体;知识元;纳米出版物

20世纪90年代末以来,在互联网技术与现实需求的双重推动下,科技出版经历了一轮数字化变革。但从本质上讲,科技出版的数字化变革并未改变其资源组织方式,主流学术出版商所提供的HTML网页或者PDF文档资源除了将传统纸质印刷版本搬运到数字环境中来以外,改变很少。与此同时,互联网技术的进步也在改变着科学知识交流的环境,科学知识资源呈几何级增长态势,高效、快捷地获取和利用知识资源成为了科研人员日益迫切的愿望和要求。然而,当前科技出版资源组织方式却存在着语义匮乏、线性组织、非结构化数据等问题,使得科研人员较难从海量无序的相关资源中分析归纳出一条科学创新的线索,严重影响了科学交流的效率。为解决这一问题,满足科研人员的需求,科技出版机构正在酝酿着一轮出版资源组织方式的变革。

1 当前科技出版资源组织方式及其问题

科技出版资源组织方式,是科技出版机构在开展科技出版活动中所采用的内容资源组织和存储的方式。当前主流的科学资源组织方式可以从两个维度来看。从个体内容的组织来看,当前的科技出版资源主要以文献为单位进行组织。HTML网页资源或是成为了事实标准的PDF格式文档资源,改变的都是科技出版资源的载体,而其内容组织方式则仍是以传统的专著或者论文形式存在。从海量内容的组织方式来看,当前的科技出版资源组织方式是基于信息的组织方式,即以知识的某些属性特征,如题名、著者、摘要、关键词、出版者、出版时间、参考文献等内容特征为基本单元的组织。

在信息资源规模及其增速尚未呈现爆炸式发展之前,基于文献和信息的科学资源组织方式能够较好地满足科学交流的需要。但是随着技术环境的改变以及科学知识更新换代的加快,科研信息已经越来越呈现出爆炸式增长的趋势,传统的科技资源组织方式显然已经无法适应科研人员方便、快速获取科研信息的要求,以及科学交流发展的需要。这主要表现在以下几个方面。

1)缺乏足够的语义揭示。当前,学术期刊数据库普遍采用元数据,如都柏林核心元数据(DC),来对出版资源进行标识。但这些元数据仅仅只是一个个孤立的词汇,相互之间没有建立语义关联,论文中大量的实体中蕴含的语义关系及其属性,也没有被标识出来。计算机在面对这些没有进行语义标注的信息时,就像人类面对一门用几乎看不懂的语言拟写的文本,是难以处理的。当读者(特别是非领域专家的普通读者)查找相关的资源时,计算机很难提供精准的检索信息,更不用说通过数据挖掘等技术从这些信息中发现隐含的科学创新点。语义信息的匮乏还使得当前出版资源的组织方式停留在静态的水准,无法满足个性化重组和动态更新的需要。

2)组织粒度过粗,难以满足碎片化知识获取需求。在实际研究过程中,研究人员为了深入研究,往往需要完整地阅读某篇文献,但研究人员也很可能只需要了解论文中的某一部分,如其中的一个图表、一个结论或者相关数据等。当前,基于文献的科技信息组织使得研究人员借助搜索工具得到的只能是一篇篇完整的文献资源,研究人员想要获得细粒度的知识信息,必须逐一浏览文献。而且在搜索工具搜索能力不高的情况下,很可能读完搜索到的所有文献还是没能找到所需的信息。由此,不仅影响了科学研究的进度,也降低了科学交流的效率。

3)仅关注内容的线性层面。当前,科技出版物内容呈现的线性化特征较为明显。一般而言,单个科技出版物的内容往往分为若干章,每一章又分为若干节,节里面还有若干段落、句子,其中还会插入图表和公式等。如此,文章的逻辑结构往往隐藏在文章内容中,使得读者很难获取内容深层次的语义信息及内容本身之外的补充信息。但事实上,读者在阅读过程中很多时候需要跳出内容本身的框架,查找相关信息,如论文中相关术语的解释信息、某个观点的补充论证等。这些很可能是这种线性结构的内容本身无法提供的,需要读者自身花费大量的额外时间查找。这不仅增加了科研人员获取科研信息的时间成本,也降低了科学交流的时效。

2 科技出版资源组织方式的创新

良好的资源组织能够极大促进科研人员快捷高效地获取所需的科研信息,当前科技出版资源组织方式的诸多不足阻碍了高效的科学交流的形成,这也促使部分知名科技出版机构思考、探索种种改进之法。在这些探索的过程中,一些新的出版资源组织方法也得以尝试和实验,其中,基于本体的出版资源组织方式、纳米出版物和知识元出版等全新出版模式,得到了极大关注,并显现出了未来广阔的发展前景。

2.1基于本体的资源组织模式

数据的语义匮乏,计算机不能准确识别用户的需求,是致使科研人员无法快速准确找到所需资源的重要原因。这就需要将内容的组织由信息的线性结构层面深入其语义结构层面,从而使得计算机可以像人脑一样理解信息的准确含义,甚至进行自动的推理计算,提升信息的获取效率及精度。而本体则能够描述某一领域范围内的核心概念及这些概念之间复杂的语义关系和属性,为人机交流(对话、互操作、共享等)提供一种语义基础[1]。通过本体来标识资源,建立资源的本体化描述,计算机就能够准确识别内容资源的相关语义信息,进而能够实现对资源的自动化处理。正因此,近年来本体技术被引入到出版资源尤其是科技出版资源的组织过程中来,并取得了积极进展。如英国皇家化学会(RSC)已经将本体技术纳入其语义出版工作计划之中,通过引入生命科学领域的本体对其旗下杂志《分子生物系统》的论文中的重要术语进行标注,实现了当点击论文中出现的这些术语时,就会自动链接到这些术语在本体中的定义等,有效地提高了研究人员资源查找和吸收的效率[2]。

基于本体的资源组织模式,能够推动内容组织由信息深入到信息的语义。通过本体来组织资源,能够赋予资源计算机可以理解的语义信息,建立不同系统、不同应用程序、人与计算机之间相互沟通理解的桥梁,信息与信息之间、信息与人的需求之间可以自动地形成多方位的语义关联。如此,计算机对海量资源找到用户真正所需资源的能力将会极大提高,并进而提高科学交流的效率。正如有学者指出,语义标记之于科技出版,就如同基础设施对于城市未来发展的作用。而本体则是语义标记得以实现的基础工具。因此,探索基于本体的语义标引手段和出版资源组织模式必将是科技出版资源组织模式革新的一个方向。

2.2纳米出版物和知识元出版模式

当前,基于文献的资源组织方式是一种线性的、粗粒度的方式,计算机很难根据人们的偏好自动地完成对它们的重组和复用,严重制约了科学交流的效率。为此,知识管理学界与学术出版界均在尝试打破资源粗糙、线性的组织方式,实现文献资源的细粒度分割与非线性重组。

其中,概念网络联盟(Concept Web Alliance,CWA)就于2009年提出了一种“纳米出版物”(Nanopublication)的新的资源组织形态的概念构想。所谓纳米出版物,按照nanopub网站的定义,是指最小单元的可出版信息:一个可以唯一识别和拥有作者归属的断言[3]。它主要以概念或实体作为基本元素,描述科学文献中的基本结论、科学事实或大量实验数据中的实验结果,并提供唯一标识,描述结论的出处、原文作者、纳米出版物的创建者等背景及语境信息,是科学文献在细粒度上的语义表示、组织和出版形式[4]。纳米出版物可以单独出版、引用、采用标准的格式表示,还可以用RDF图和本体进行序列化表示,由此叩开了机器可读数据和互操作的大门,使得基于海量、异构、分散数据的关联发现变得简单,获得远远超过人类的推理能力。也正因此,纳米出版物自提出之后,已在一些项目中得以应用。如Open PHACTS项目将纳米出版作为用于表示实验数据和科学结论的标准格式;Queralt-Rosinach采用现有本体及可控词汇集将基因疾病数据库DisGeNET的数据由关系数据库转换为纳米出版模式的RDF数据;等等。

目前,对纳米出版物的研究应用主要集中在国外,国内鲜有相关的研究发表,但另一种同样致力于实现细粒度资源表示的方法——知识元出版模式在国内得到了重视。

按照温有奎等人的定义,知识元是具有完整语义的最小的知识组成单位,是构造知识结构的最小元素(基元)[5]。如一段文字、一幅图表、一个公式、一章或一节等。基于知识元的资源组织方式,能够对现有数据中的细粒度知识单元进行表示和抽取,同时建立不同知识元之间以及知识元与原始文献之间的语义链接。这一方面,目前,CNKI已经构建了一个具有一定规模的基于知识元库的知识元搜索平台,能够实现对学术定义、新概念、表格、图片、数字等知识元的直接搜索,并且提供翻译助手、学术趋势、分析、热点统计分析等功能,较好地满足了科研人员碎片化、个性化需求。

纳米出版物模式和基于知识元的资源组织模式突破了文献组织方式粗粒度、线性化的局限,试能够在更细粒度上实现资源的有效组织,提供全方位知识服务。在此种模式下,科研人员将不仅可以获得基于文献的粗粒度资源,也可以获得基于知识元或者纳米出版模式的细粒度资源,极大的增加了信息的可发现性与计算机可读性,增强了知识交流高效率。

3 结束语

从手写到印刷再到在线,人类科学交流的形式几经变革。但是从内容组织的角度来看,过去的几百年来,科研成果一直都是以文献的方式呈现在科研人员面前。数字化浪潮下,信息越来越丰富、内容越来越庞杂,科研人员获取科研信息的过程却变得繁冗不堪。突破纷繁信息的遮蔽,让有价值的信息更精准地被挖掘和发现,成为一个日益凸显价值的新课题。而改变传统线性的、静态的、语义匮乏的文献组织方式,实现内容组织方式的创新正是回答这一问题的关键。有志于此的出版机构已经先行在路途上,尽管长路漫漫,但至少它们已经向我们指明了方向。

参考文献

[1]杜小勇,李曼,王大治.语义Web与本体研究综述[J].计算机应用,2004(10):45-48.

[2]Shotton D,K Portwin,K Graham,M Alistair. Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article. PLoS Computational Biology,2009.

[3]Nano-Publication in the e-science era. http://www.w3.org/wiki/images/4/4a/HCLS$$ISWC2009$$Workshop$Mons.pdf.

[4]吴思竹,李峰,张智雄.知识资源的语义表示和出版模式研究——以Nanopublication为例[J].中国图书馆学报,2013(7):102-109

[5]温有奎.基于知识元的知识发现[M].西安:西安电子科技大学出版社,2009:120.

作者简介:李弘,电子工业出版社副总编。

基金项目:本文系文化产业发展专项资金项目“面向信息技术领域的动态出版平台研发与应用”的研究成果之一。

文章编号2096-0360(2015)06-0069-03

文献标识码A

中图分类号G2

猜你喜欢

本体
基于MFI4OR标准的本体融合模型研究
眼睛是“本体”
多重分割框架下的两类新本体学习算法*
领域本体的查询扩展和检索研究
使用LDA构建预警情报的本体映射依据研究
一种基于社会选择的本体聚类与合并机制
一种基于社会选择理论的本体聚集方法
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
立足音乐本体 开启音乐思维