APP下载

面向学术出版的数据增强解决方案※

2021-01-19陈铭徐丽芳

出版参考 2021年11期
关键词:出版商学术内容

陈铭 徐丽芳

摘 要:在技术和科研用户需求变化的驱动下,软件开发咨询公司67Bricks着眼于海量数据及数据技术给学术出版业带来的巨大变化和机遇,帮助出版商从传统的内容提供商转型为数据驱动的内容服务商。在技术理念上,以数据技术和人工智能为核心设计模块化平台,使出版商可以更高效、更可靠地创建和管理内容;在业务模式上,通过协作方式,深度参与学术出版商变革的全流程活动;在市场定位上,以与学术出版商建立长期合作伙伴关系为中心,而不是将自身定位为仅提供技术资源的软件供应商。本文对67Bricks助力学术出版商的相关实践进行总结和评价,以供我国学术出版企业在制定数据驱动发展战略时进行比较和借鉴。

关键词:67Bricks 数据增强 人工智能 数字出版 学术出版

在互联网技术的推动下,数据化、算法化、智能化的巨大浪潮席卷着我们迈入一个前所未有的大变革时代。世界正在迅速发生变化,各行各业面临大规模变革活动。对学术出版而言,现在正是发展、转型、创新的不确定时期,需要非常认真地审视和思考技术和行业的发展走向及战略部署。转型、升级已不仅仅是将期刊、书籍放到网络上的简单数字化活动。而当下的用户,则比以往任何时候都更期待适时或即时的个性化服务。在技术和用户需求变化的驱动下,学术出版企业应依据对用户根本性需求的洞察,重新确立价值主张,整合内容、渠道和技术等各类资源,并在广泛的竞争与合作中积极酝酿和促成一场结构化转型。

67Bricks是一家位于英国牛津的软件开发咨询公司(公司标志见图1)。它着眼于海量数据及数据技术,给学术出版业带来的巨大变化和机遇,并利用人工智能等技术帮助出版商从传统内容提供商转型为数据驱动的内容服务商。[1]其联合创始人山姆·赫伯特(Sam Herbert)认为:“学术出版商并不确知自己的业务在5年及以后会是什么模样,因为数据时代正在改造一切。基于此,出版商越来越意识到,自己需要一个模块化平台来适应这种复杂、不稳定的出版环境。在模块化平台的帮助下,学术出版商可以不断创新、学习和扩展其业务。”67Bricks将数据视为辅助出版商转型升级的核心,并引入产品开发数据成熟度模型(Product Development Data Maturity Model),通过提升出版商的数据成熟度以推动业务创新。[2]此外,它还着眼于长远发展,帮助学术出版商规划其产品路线图,以及在模块化发展的产业生态中找到新的生存位置和发展路径。

一、技术理念:以数据技术和人工智能为核心设计模块化平台

赫伯特起初在一家内容管理系统开发公司工作,并在工作过程中结识了后来成为67Bricks技术总监的伊尼戈·苏尔盖(Inigo Surguy)等技术专家,组建了一支专门从事内容管理和数据增强的技术开发团队。目前,67Bricks有2/3的员工是软件开发人员,专门处理产品开发、平台交付、内容管理和数据增强项目。作为开创者,赫伯特和苏尔盖早在15年前就意识到,自身的技术专长可以很好地帮助学术出版企业理解可用于助力出版的新兴技术,以助其能够准确地洞察科研人员的学术交流需求,并据以打造全新的学术出版技能、开展新型学术出版业务。尤其是随着亚马逊、奈飞(Netflix)、谷歌、维基百科(Wikipedia)等网络服务平台的不断涌现并与大众日常生活、娱乐、工作和学习紧密结合,基于数据处理和机器学习等人工智能技术为用户提供流畅、即时的用户推荐、检索、内容阅读等网络服务已经非常普及。科研人员作为这些网络服务平台的消费者,也已经习惯了此类流畅、高效和定制化的网络服务,因而越来越期望学术出版平台能够提供同样优质的使用体验。基于此,67Bricks认为在某种程度上,学术出版商未来成功与否,取决于它们对用户期望的变化所做出的反应能力,而那些未能适应变化的企业将被抛在后面。

67Bricks在内容处理和数据增强(Data Enrichment)方面拥有丰富的专业知识和高超的专业技术。它开发了数据成熟度模型(见图2),用于测评出版商数据及相关内容产品的成熟度。数据成熟度越高,出版商需要为开发内容和数据资产所付出的努力就越少。通过获取出版商对内容资产的管理和利用情况,可以判断其是处于仅具备文档元数据的原始内容资产阶段,还是已进入拥有用户偏好等元数据的个性化阶段等,亦即可测量出版商的数据成熟度。据此可以帮助其探索下一步的优化路径;应用机器学习、人工智能和自然语言处理等新兴内容处理技术对内容进行分类,为内容添加结构数据、上下文和元数据;制作专门的受控词表,采用领域内预先确认或经过权威认定的术语,组织和整理该领域的知识。这些术语可用于对期刊论文或其他内容进行标记,使编辑和用户能够更加便捷地搜索和获取相关内容;对原始数据进行增强、改进,以便将之转换为有用的信息,从而使数据成为出版商的宝贵资产;合并来自外部权威来源的第三方数据,通过打造灵活的数据结构,将不同数据源的数据收集、整理、清洗、转换后,无缝集成到自身平台中,为用户提供统一的数据视图等数据集成方式。

针对学术出版商的需求,67Bricks通常使用高性能的内容和数据技术构建模块化平台,运用现有技术能力选择最佳编程语言、框架和工具组合,并通过部署到云端等措施确保平台系统的稳健性、高性能和可扩展性,从而使出版商可以在模块化平台上更快、更可靠地创建和管理内容,并进一步了解数据的复杂性和价值所在。例如,它为英国医药学出版社(Pharmaceutical Press)设计的模块化平台用以替代其原有的分散化管理、效率低下、局限性强的旧系统,以帮助出版社员工在一个可交互系统中完成输入、管理和输出药物相关知识内容的工作。[3]出版社旨在建立一个全球药剂师、社会保健专业人员可以依赖的知识体系,业务重点是药物的设计、制造和应用。其旗下的顶尖出版产品——英国国家处方集(the British National Formulary,BNF)以多种格式制作和发布,并在整个英国卫生服务系统中使用。67Bricks开发的新系统允许出版社编辑通过大量使用受控词汇来填充字段,从而创建新内容;系统可结合上下文语境,将从受控词汇表中选择的术语自动生成语法正确的形式(包括时态、单/复数);当用户输入字段和参数时,系统可即时创建人类可读的实时预览语句;系统可为编辑提供必要的反馈,并自动检查它们正在构建的信息,确保写作一致性。英国医药学出版社发布的内容和数据交互中的任何错误都有可能造成患者护理工作上的失误,而那些平台功能可在一定程度上消除出版社业务的主要风险。未来,这一新系统将允许底层数据通过接口传输给各种接收者,并支持將其接入外部系统以支持临床决策等工作。和英国医药学出版社一样,正是得益于67Bricks对数据技术以及机器学习等人工智能技术的运用,与其开展合作的学术出版商才能在内容处理和数据增强上赢得战略优势。

二、业务模式:深度参与出版商变革活动

早在2007年,赫伯特就看到了以增强数据为基础的新型内容产品和服务领域的创业机会。同年5月,67Bricks正式成立。对数据进行增强不仅可以帮助人类和机器理解内容,还可用于支持增强出版产品功能,协助学术出版商从期刊论文、图书等传统静态知识资源中动态、灵活地获取新的使用价值。而这正是科研人员期望从学术出版商那里寻求的价值增值服务。基于此,67Bricks将业务重点定位为通过构建具有内容可发现性、可重用性的平台系统来支持现有和新型商业模式,充分满足出版商、科研人员和作者等的特定需求。为了达成这一目标,67Bricks花费大量时间了解每个学术出版商的发展目标,全程参与出版商的变革活动,并设计和实施灵活的、基于组件的技术架构,以满足出版商当前和未来的需求。

在与学术出版商开展合作时,67Bricks会在变革开展之前就参与其中,帮助学术出版商确定平台系统主要功能范围和优先级排序;在信息搜集阶段,通过研讨会等形式为平臺搭建征集思路;在分析阶段,对解决方案进行原型化设计,以评估方案的可行性。此外,通过对利益相关者和用户(如作者、编辑、产品团队、图书馆员、研究人员等)进行深入访谈,以全面理解出版商业务发展方向,并共同协商如何通过数据技术等工具、手段,来支持学术出版商实现业务目标。在研发阶段,67Bricks以敏捷方式(agile)构建平台系统,即尽可能提前创建好测试系统,让科研人员等相关用户对平台功能进行测试,并提供早期反馈,从而快速推出解决方案和平台系统的迭代版本。这些做法有效地塑造和优化了出版商的信息产品和平台的服务功能。学术出版商也十分认可67Bricks在项目实施过程中的灵活性和敏捷程度。以《英国医学杂志》(British Medical Journal,BMJ)要求其开发的知识库(Knowledge Base)平台为例。[4]该平台实际上是一个定制化编辑制作系统,旨在满足《英国医学杂志》现在和未来创建和管理内容的需求。67Bricks按照敏捷项目管理模式,分为“细化”“构建”两个阶段来实施知识库项目。首先,仔细规划和明确平台功能及其优先次序,改变内容的底层数据结构,使其更加精细。在构建阶段,它在《英国医学杂志》需求尚未完全明确的时候,以在较短周期内研发出可用的平台系统为目标,来帮助《英国医学杂志》相关用户描述自身需求。在迭代过程中,《英国医学杂志》和67Bricks的开发人员共同设计、开发和改良内容模型等关键要素,同时,将用户的需求变更不断加入到项目需求池中,从而丰富和细化平台功能。如图3所示,与《英国医学杂志》原来使用的旧模型相比,改良之后的内容模型对文档对象的结构、型式、要素等进行了统一规范,在编辑内容方面的适用性更强。以《儿童哮喘》(Asthma in Children)为例(见图3),新模型为编辑提供了分割内容、重用内容的功能,且内容粒度可以更加精细。如它允许编辑人员在内容容器(topic container)中定位到“哮喘治疗方法”(Asthma Treatment Algorithm)等任一内容片段进行更改和重用,而不需要根据页数索引,通过阅读长文档来寻找和确定需要重新编辑的位置。

总之,67Bricks通过协作方式,深度参与到学术出版商数据增强变革的全流程活动中,促进出版商对技术工具和数据等业务驱动要素的理解。并且,在平台发布之后,67Bricks会将平台系统的管理权完全交给出版商;如果出版商不具备管理和扩展系统的业务能力,67Bricks则会继续支持平台系统的运行和维护等后续管理和优化工作。

三、市场定位:成为学术出版商的长期合作伙伴

数据作为学术出版领域的新型内容资源和市场要素,不仅可以被开发成服务用户的内容产品,同时还可以是关于用户、业务活动、内容产品的数据资源,并以服务形式嵌入学术出版中。因此它也成为促进学术出版发展的潜在力量。[5]当前大多数学术出版商都在积极开拓和发展数据驱动型业务,67Bricks则以其对如何提取和最大化数据内容价值的深刻理解赢得了许多学术出版商的信赖。

作为学术出版商在数字转型升级时代的支持者和合作者,67Bricks密切关注学术出版商的需求和发展方向。它通过调研发现,许多软件开发服务商虽然面向学术出版商出售现成的技术解决方案,但出版商对软件系统却没有完全的控制权,并且对系统灵活性和敏捷性的要求无法得到满足,最终结果往往是给出版商留下一个僵化的服务平台,无法适应出版商和科研人员不断变化的期望。因此,67Bricks以与学术出版商建立长期合作伙伴关系为中心,积极开拓市场,而不仅将自身定位为提供技术资源和支持的软件供应商。这样的市场定位对双方都是有益的。一方面,发展长期合作关系可以保证67Bricks的业务资源,使其可以适当减少在市场营销上的时间和资金投入;另一方面,对学术出版商而言,长期合作能保证67Bricks投入充分的时间执行项目,更准确地理解出版商组织结构、业务目标、数据和内容资源的特色,从而有助于其开发满足不断变化的用户需求的新产品和服务。以英国皇家化学学会(Royal Society of Chemistry,RSC)为例[6],67Bricks与英国皇家化学学会维持了5年以上的合作关系,并参与了后者多个连续的平台优化项目。随着开放存取(Open Access,OA)格局的迅速变化,67Bricks帮助英国皇家化学学会构建了自动化开放存取系统,以改进和加快其管理开放存取的流程,并结合英国皇家化学学会的系统使用体验、开放存取发展规划和学术出版领域发展态势,灵活扩展系统功能。例如,67Bricks建议英国皇家化学学会在系统中同时处理开放存取许可和非开放存取许可的期刊论文,以避免必须根据期刊论文是否为开放存取论文而分别进入2个独立系统,对论文进行许可管理。随着英国皇家化学学会和67Bricks磨合得越来越好,新系统带来的效果十分显著。例如,越来越多的科研人员通过改进后的开放存取流程无缝获取文章;选择和签署许可证的过程从3周缩短到3分钟;专门管理开放存取的工作人员由2名全职人员变成0.3名。正是由于67Bricks更倾向于成为学术出版商的长期合作伙伴,帮助出版商在技术能力上实现稳定的内部增长,它收获了越来越丰富的客户资源,如威利(Wiley)、牛津大学出版社(Oxford University Press)、德古意特出版社(De Gruyter)等。此外,对学术出版商而言,与其将自身与软件服务商提供的软件产品进行一次性绑定,也许不如与67Bricks长期合作以换取模块化平台在功能上的持续改进,因为后者显然是一种更具成本效益的首选方案。

四、结语

如今,已有多家学术出版商将数据技术和人工智能视为业务拓展的必要手段。尤其是随着开放存取等学术出版模式的兴起亦即Plan S等计划的实施,学术出版领域内的经济资本、内容资本、知识资本数量分布和结构发生了变化,开放存取出版或许将在未来几年内成为科学界和学术出版领域的主流形式。[8]而随着开放存取不断普及,学术出版商需要通过对内容和数据等资源进行激活、配置与耦合,使其成为具有较强价值性、系统性和协调性的增强出版产品,或将其整合为模块化平台,从而保护和提升自身盈利能力。[9]未来,学术出版领域发生的技术变化将会更加深刻和多样,并将持续处于复杂变动之中。因此,无论是67Bricks这类站在出版商身后的软件开发服务商,还是直面机遇和挑战的学术出版商,都必须认真审视技术背景之下的“变”与“不变”,积极借助技术的力量,在学术出版的广阔版图中找到立足之地。

参考文献:

[1]67Bricks.Information products for the data-driven world[EB/OL].[2021-09-23].https://www.67bricks.com/.

[2]Herbert S.The road to data maturity - Why publishing has to stay relevant in the digital age and why it needs to start now[J].Information services & use,2019,39(04):1-6.

[3]67Bricks.Case study:Drug interactions at Pharmaceutical Press[EB/OL].[2021-09-23].http://www.67bricks.com/index.php/case-study-drug-interactions-at-pharmaceutical-press.

[4]67Bricks.Case study:BMJ Best Practice, Knowledge Base[EB/OL].[2021-09-23].http://www.67bricks.com/index.php/case-study-bmj-best-practice-knowledge-base.

[5]徐麗芳,陈铭.媒介融合与出版进路[J].出版发行研究,2020(12):20-30.

[6]67Bricks.Case study:The Royal Society of Chemistry Open Access System[EB/OL].[2021-09-23].http://www.67bricks.com/index.php/rsc-case-study.

[7]肖超.学术出版场域变革与欧美学术出版机构的差异化策略[J].出版科学,2020(6):109-117.

[8]Aspesi C,Brand A.In pursuit of open science, open access is not enough[J].Science,2020,368(6491).

[9]Herbert S, Surguy I.67Bricks-helping publishers survive in the modern digital age[J].Insights,2019,32(01).

(作者单位系武汉大学信息管理学院出版科学系;武汉大学数字出版研究所)

猜你喜欢

出版商学术内容
内容回顾温故知新
如何理解“Curator”:一个由翻译引发的学术思考
主要内容
七成软件出版商转向云服务
学术
创新需要学术争鸣