中国科技期刊语义出版中编辑活动变化趋势
2016-02-15周光睿谢荣秀
■闻 丽 周光睿 谢荣秀
1)中南林业科技大学期刊社,湖南省长沙市韶山南路498号 410004
2)新乡广播电视大学,新乡市金穗大道439号 453000
如何快速从科技期刊众多的来稿中选出具有创新观点和结论的科研成果,在出版后对科技论文所含信息进行有效管理,实现信息的高效利用,已成为备受关注的问题。在20世纪末发展起来的语义技术给这些问题的解决带来了契机。互联网的创始人Tim Berners-Lee在1998年首次提出了语义网(Semantic Web,SWeb)的概念[1]。 语义技术是通过一些语义标签,将信息标识化,主要目的是让纷繁的信息建立有机的联系,其最大的特点是可以实现对大数据的深度挖掘和智能分析[2]。基于语义技术的优势,其应用前景也极为广阔,语义技术在出版中的应用已悄然兴起。语义出版(Semantic Publishing)是借助信息技术对传统数字出版物进行语义标注、语义关联等富语义化操作并形成语义出版物的一系列过程。目前,语义出版技术应用最为广泛的领域之一即学术出版[3]。自2009年以来,国外在语义技术与出版的结合方面进行了有益尝试,并开发了智能PDF阅读终端Utopia及语义出版与参考本体SPAR[4-5]。中国关于语义技术的研究虽然较国外稍晚,但自2009年起,其相关研究逐步进入增长期[6]。语义出版已初步实现了从理念构想向实践应用的过渡,国内部分期刊也开展了语义出版尝试,多分布在生物、医药、化学等领域[7]。中国科技期刊由目前的初级数字出版跨入到数字语义出版的新时代将是必然趋势。
目前,关于语义出版的研究主要集中在相关的标准规范、出版物关联数据集现状、语义出版流程与技术需求,以及语义出版的应用场景等方面[3]。关于语义出版中编辑角色的转变及编辑活动的变化的研究报道较少,仅见2016年潘安等对传统编辑如何从自身出发来应对改变提出的建议[8]。科技期刊专业性较强,编辑多是本专业出身,较难理解语义技术的应用原理、技术路线和应用模式等。但语义出版正在深刻地改变着传统出版的观念和模式,随着全面实现语义特征标引的高级阶段的到来,究竟会给中国科技期刊带来什么样的变化,编辑活动会有怎么样的相应改变,应该是科技期刊编辑们普遍关心的问题。
本文通过分析科技期刊语义出版发展趋势,用较为通俗的语言来表述编辑活动的变化及出现的新内容,让编辑对于实际工作中面临场景有清晰的感官认识。
1 中国科技期刊语义出版发展的方向
1.1 中国科技期刊数字出版信息平台智能化
目前,科研人员通常是通过一些搜索引擎来查找自己所需的信息,但是无论是基于网站分类技术还是基于全文检索技术的搜索引擎,由于用户表达模糊、信息孤立、机械化的关键字匹配、无法进行知识整合等弊端的存在[9-10],仍需用户对一级信息的过滤和组织,且误查漏查的情况难以避免。借助语义技术可以实现轻松分析处理所需信息,使得科技期刊中的信息得以充分利用,实现战略性阅读,获取“宏知识”。
运用语义技术进行出版内容的智能化加工整合,改变了中国科技期刊的传统角色。语义技术能够让中国科技期刊数字出版服务的整合和动态选择成为可能,科技期刊利用语义技术,可以将出版对象从论文扩展到原始数据,将科学出版与知识组织单位由“文献”细化到“知识单元”[11]。语义技术不仅丰富了传统科技期刊的表现形式,提高了内容的可操作性和交互性,增强了同类科技期刊间的关联度,更重要的是创新了出版形式,促使内容更加结构化,信息粒度越来越小,从而更容易被计算机理解和自动集成,有利于信息的再利用和按需重组,实现出版内容的二次深度开发和大规模个性化信息服务。
借助语义技术,实现科技期刊信息的结构化、关联化、混合化、可操作化、可视化,将文章的理解、分析、综述、聚合等活动先于用户完成,使得读者能够以尽可能少的搜索与整理工作,获得最多的可用信息。如,用户想了解2015年全国各个省份油茶的种植面积,无需要查找很多资料,直接搜索即可获得答案,并可链接至原文,而这些答案是源文献作者所不知道的。而且语义搜索更具有生产力,通过使用语义标签可以访问深度互联网,而不仅局限在一个特定的数据库中。如,化学结构数据库ChemSpider,它从美国食品药品监督管理局、京都基因与基因组百科全书等490个独立来源获取数据源,对于化学教学和研究均非常有用,每天被数以万计的各地化学家所应用,目前已成为主要的化学门户网站[12]。
1.2 中国科技期刊数字出版市场服务由“推”转变为“拉”
在语义出版中,中国科技期刊的市场服务形式将由初级数字出版中的“信息推送”转变为用户“拉取信息”[13]。运用语义技术提供智能化、个性化服务,提升科技期刊数字出版在信息消费市场的盈利能力。语义技术与科技期刊的数字出版的结合具有无限的商业价值。随着科技的发展,信息的类型和数量呈现几何量级的趋势增长,读者要在浩淼的文献中进行过滤和筛选,方便快捷地得到自己需要的数据和信息,语义技术是能让这些信息得到充分利用的唯一途径。2012年,爱思唯尔正式发布了医学信息平台ClinicalKey,ClinicalKey就是一个按照用户所想所需进行工作的临床信息平台,能够随时随地根据医生的日程、工作流程和信息需求设计,为忙碌的医生和医学生提供快速准确的答案和深入相关的证据,进而帮助提升医疗质量[14]。可以利用语义技术识别和跟踪读者的兴趣,通过对读者行为的分析,链接至语义相关的文献,并提供获取文章内数据的可行性途径,动态地获取和组织内容,实现用户主动“拉取信息”的个性化服务,让阅读“活”起来,这种增值性知识服务将给读者带来极大便利,可以让无数人产生浓厚兴趣,提升了其在信息消费市场的竞争力,通过增值服务创造新的商业机会[6]。
1.3 中国科技期刊以学科为基础聚类
与目前的编辑出版活动相比,语义出版的工作内容更加细化、丰富和复杂,存在能从事所有工作内容的编辑个体的可能性较小,对于人员较少的中国科技期刊编辑部来说,单个刊物实现语义出版的难度较大[15]。语义出版的实现离不开语义技术以及领域本体等基础知识资源的支持,多刊联合经营,尤其是以学科聚类的多刊联合经营将会加速本学科知识域模型的构建,更有利于期刊的发展。2011年,Open PHACTS项目启动,该项目是当前语义出版物的主要应用实践,其目标是集成不同来源的生命科学和生物医学信息资源,让研究者能够共享利益并提供相关的工具和服务。该项目的建设除了大型的生物制药公司、出版机构参与,还有中小型企业、患者组织、学术界和其他研究机构、医院和公共部门[16]。因为同学科内有更多共用的语义标签,且信息输入越多,模型的智能化程度越高。一种科技期刊就是某学科大树上一根枝条,整棵树就是一个生动的相互关联的知识模型。期刊加入所属学科的联合体,遵循通用数据标准,这些标准最终将成为系统的原生资源,而非引入资源。不同学科的科技期刊共同组成了语义生态系统,加入该系统,以开放共享的标准向人们提供自己刊物的特色内容将成为中国科技期刊发展的一个方向。
2 语义出版时代中国科技期刊编辑活动的变化
随着网络技术的发展,众多科技期刊为了跟上形势,纷纷在网络上发布电子版本,由于编辑部普遍缺少先进的网络技术支撑,多数只是将纸质版的内容简单地搬到网络上。语义出版绝非这么简单,而是涉及出版形式、经营方式、营销模式等多方面,这必将对科技期刊的编辑活动带来一定的影响,会对编辑活动的效率和专业性提出更高的要求,除了传统的文字编校、数字出版平台的操作使用外,也会有新的工作内容出现。
2.1 进行期刊内容的知识标引确保信息提取的精确性
语义出版中最重要的内容是,根据特定的模型及自然语言处理技术,从全文中抽取知识元,并根据知识元的语义关系,构建这些知识三元组,然后采用RDF标准来描述这些知识元及其关系。进而实现整个互联网的知识自动关联。RDF是W3C制定的专门用于资源描述的标准语言,也是目前关联数据(linked data)采用的主要格式之一,在数字出版及其他众多领域中被广泛使用。其他在数字出版领域应用比较多的语言,还有如 Schema.org、Microdata、Microformat、RDFa、JSON-LD等微语义表达方式[2],它们大都通过在网页等文档中嵌入结构化标签的方式在一定程度上实现文档的语义和语义化。语义出版的学术期刊基本是以Rich HTML形式发布,已实施语义出版的期刊基本实现了文献的题录信息、章节图表等内容结构与模块信息的规范化和结构化等浅层语义特征的描述[9]。
为实现期刊内容自动进入人类知识库,需要按国际标准的方式,来对知识进行标引。在语义环境下,对编辑最重要的挑战就是知识的标引,理顺每个知识元的关系,以及对原创知识元的解释等。由于知识单元的标引粒度、准确性、完备程度、有效性等与关联数据的建设有着密不可分的联系,科技期刊内容的组织和发布是语义出版质量的根基。而自动语义处理依赖于实体识别与关联等语义技术的自动化程度,其结果可能存在错误。编辑不仅需要进行传统的文字加工工作,还要进行出版内容的语义标注、抽取领域词汇、建立内容实体间的关联等。看似越来越边缘化的编校工作实际上仍然是科技期刊出版工作的一项重要内容,同时对于编辑人员的专业要求也更高。如人类基因与蛋白质符号的区别仅在于是否使用斜体,若将“IGF1(胰岛素样生长因子1)”误作“IGF1”,则可能影响信息提取的精确性。
2.2 分析作者(读者)“偏好库”明晰编辑活动的目标
在语义出版中,期刊内容可以自动生成可共享、可重用格式的元数据,同样用户网上任何活动的相关信息也是语义网的元数据,这些元数据组成其“偏好库”,而用户也在不断地无意识地完善着元数据。围绕用户群体,从其“偏好库”中发现一些潜在的规律和关系,可以帮助科技期刊的编辑及时动态掌握当前的研究热点,迅速获得各种媒体上对于刊物的反馈信息,从而使得策划、选题及筛选稿件等活动更有方向性,有利于刊物出版方案的精准策划和及时调整,从而拉近刊物元数据与用户系统的距离。
2.3 利用语义出版交流平台加强与用户的互动
由于科技期刊语义出版的市场服务形式为用户“拉取信息”,保持联系将成为编辑人员的巨大优先处理事项。与用户保持联系,让其个人信息及“偏好库”允许开放,这样才能实现“拉”取用户的信息。由于语义网能做到信息的迅速同步,获得信息的用户将以新的方式挑战科技期刊的小编们,用户的注释或反馈能迅速补充到语义网中,成为相关内容的链接内容。语义技术不仅可以增强共享,还增强了交互功能,支持读者参与,届时科技期刊作为学术交流平台的功能得以加强。
2.4 改变论文出版形式缩短出版时滞
语义技术的运用使得信息反馈更加迅速,从而会大大缩短科技论文出版时效的周期,同时时效性也成为刊物生命力的重要体现。滞后的重复研究不再会出现在用户的搜索答案界面中,发表已失去时效性的论文对于期刊自身发展没有任何意义。目前,虽是数字出版的初级阶段,按期出版已逐渐显现其弊端,成为期刊发展的制约因素,“优先发表”这一形式应运而生。在语义出版中,编辑工作主要以“篇”为单位对稿件进行实时处理,甚至可以实现创新观点和结论的单独发表,这样会最大程度上缩短出版时滞。
2.5 结合全媒体技术增强读者的阅读体验
满足人类感官刺激是整个信息产业渴求的新水源,或暴增的新需要[17]。在编辑活动中将语义技术和全媒体技术相结合,将会改变科技期刊通常给人的严肃、呆板的印象。根据学科特点,利用多媒体技术充分挖掘内容的增值潜力,对内容进行全方位、深度加工,充分调动读者的视听等感官对信息的感知能力,增强阅读体验,使产品更贴近读者。例如,若在研究油茶果糖-1,6-二磷酸醛缩酶的功能的论文中,通过语义标签链接该蛋白质的三级结构,利用阅读终端以三维立体的图像来展示,会使得读者更容易理解其功能的发挥机制。因此,“全媒体”意识将会贯穿在选题策划、内容生产、复制加工等编辑活动中,多媒体编辑手段得以充分运用。
3 结语
语义出版已初步实现了从理念构想向实践应用的过渡,国内部分期刊也开展了语义出版尝试,多分布在生物、医药、化学等领域[18],如《作物学报》等。随着语义出版的快速发展,出版形式、经营方式、营销模式等多方面也会随之改变,这必将对科技期刊的编辑活动带来一定的影响,同时对于编辑人员也提出了高更的专业要求。编辑人员不仅需要不断地提高自身的专业素养,还要强化服务意识。语义出版时代的到来给中国科技期刊的发展带来的不仅是机遇,也有挑战,编辑人员有必要认识其发展趋势,从各个方面进行逐步调整和学习,积极应对。
[1]WANG SD,YANG J.Research on the information filtering of OWL text based on semantic analysis[EB/OL].[2016-06-21]http://ieeexplore.ieee.org/document/4680784/? reload=true&arnumber=4680784.
[2]余健仪.当语义技术遇上BI[J].电脑与电信,2009(12):5-6.
[3]徐雷.语义出版应用与研究进展[J].出版科学,2016,24(3):33-39.
[4]Shotton D,Portwin K,Graham K,et al.Adventures in Semantic Publishing:Exemplar Semantic Enhancements of a Research Article[J].PLoS Computational Biology, 2009, 5(4): e1000361.
[5]Wan S, Paris C, Dale R.Supporting browsing-specific information needs:Introducing the Citation-Sensitive In-Browser Summariser[J].Web Semantics: Science, Servicesand Agentson theWorld WideWeb, 2010,(8): 196-202.
[6]王晓光,陈孝禹.语义出版:数字时代科学交流系统新模型[J].出版科学,2012,20(4):81-86.
[7]翁彦琴,李苑,彭希珺.英国皇家化学会(RSC)——科技期刊语义出版模式的研究[J].中国科技期刊研究,2013,24(5):825-829.
[8]潘安,韩敏.语义出版与编辑作为[J].中国编辑,2016(3):47-52.
[9]潘宁.基于语义技术的智能搜索引擎研究[D].北京:北京邮电大学,2009.
[10]彭秀丽.语义技术在知识系统库中的应用研究[J].农业图书情报学刊,2013,25(3):138-140.
[11]Q Yang HW.Towards a Next-Generation Search Engine[M].Heidelberg: Springer Berlin, 2007:16.
[12]AWilliams.ChemSpider-A Combination Platform of Free Chemistry Database,Free Prediction Engines and Crowdsourcing Environment[EB/OL].[2016-09-29]https://www.researchgate.net/publication/236274785ChemSpider-A Combination Platform of Free Chemistry Database Free Prediction Engines and Crowdsourcing Environment.
[13]大卫·西格尔著.管策,译.互联网的语义革命[M].北京:科学出版社,2013.
[14]Elsevier.ClinicalKey[EB/OL].[2016-09-26].https://www.clinicalkey.com/.
[15]刘建朝.学术期刊数字出版与编辑的身份重构[J].编辑学报,2014,26(6):525-528.
[16]The Open phacts foundation.Our goal[EB/OL].[2016-09-29].http://www.openphactsfoundation.org/.
[17]高汉中,沈寓实.云时代的信息技术[M].北京:北京大学出版社,2012.
[18]李楠,孙济庆,马卓.面向学术文献的语义出版技术研究[J].出版科学,2015(6):85-92.