APP下载

构建出版行业数据服务体系提升出版行业数智化水平

2022-09-05黄先蓉李若男

出版与印刷 2022年3期
关键词:智化数据服务体系

黄先蓉 李若男

随着人工智能(artificial intelligence,英文缩写AI)技术的不断发展、出版行业对数据资源开发利用的不断深入,出版融合在经历了以“互联网+”产品和服务创新转型为核心的数字化阶段后,逐步进入以大数据、人工智能驱动的数智化时代[1]。在数智化时代,要运用智能技术和大数据,重构传统出版产业,促进出版业的数字化、网络化、智能化发展[2]。

基于出版行业数智化对数据的大量需求,出版行业数据服务逐渐受到广泛关注,同时得到国家政策的大力支持。2021年12月,国家新闻出版署发布《出版业“十四五”时期发展规划》,提出“推进出版产业数字化和数字产业化,大力提升行业数字化数据化智能化水平,系统推进出版深度融合发展”,并强调“构建出版行业数据服务体系,开展面向政府、企事业单位和个人的数据服务”[3]。在政策的大力支持下,出版机构纷纷投入数据服务平台建设等项目,并研发出与数据服务相关的阶段性成果,为出版行业数智化建设注入了较大力量。值此之际,有必要对出版行业数据服务与出版行业数智化建设等相关问题进行研究,以探索进一步的发展路径。

一、出版行业数据服务的界定与实践

厘清出版行业数据服务的基本内涵与现实状况,是确定本文研究对象的基础。

1. 出版行业数据服务界定

数据服务(data service,英文缩写DS)是“数据即服务”(data as a service,英文缩写DaaS)思想的具体技术实现。“数据即服务”思想源自20世纪90年代互联网高速发展以来广受欢迎的“一切皆服务”(X as a service,英文缩写XaaS)趋势,是一种数据使用方式上的思想转变,即数据服务化,主要是指数据提供者将数据本身与数据处理过程封装成可重用的数据服务,帮助数据消费者方便、及时地从多源异构的数据源中获取数据价值[4]。基于此,可以对“出版行业数据服务”作出界定:在市场经济环境下,由出版行业数据服务商收集、处理、分析、加工出版领域真实数据,并向政府、行业协会、出版企业和个体用户等数据接收者提供相关便捷式服务,帮助其进行判断、决策,旨在利用数据这一数字资产来提高出版业务创新的敏捷性[5]。

一般情况下,出版行业数据服务可分为四大类:一是内容数据服务,主要提供出版机构在长期发展的过程中所积累的体量庞大、权威专业、承载着人类各领域科学文化知识的内容资源,这些内容数据是出版行业所特有的数据,也是知识服务的基础;二是用户数据服务,主要提供用户人口属性数据(用户认证信息等)、用户关系数据(粉丝数、关注数等)、用户交互行为数据(转发、分享、下载、点赞、收藏、阅读工具、阅读方式、阅读时长、阅读偏好等);三是市场数据服务,主要提供产品数据(传统出版物数据、网络出版物数据、作者数据、选题数据、版权数据等)、机构数据(政府与行业协会数据、出版企业的利润与业务范围等)、从业人员数据(教育经历、职业经历、职称与代表作品等)、市场行为数据(产品交易、营销发行数据等);四是政务数据服务,主要提供政府在综合办公、市场监管、公共服务过程中产生的数据,包括政策法规、标准信息、财务数据等。

2. 出版行业数据服务实践

随着出版行业数据服务这一新兴服务形态在我国逐渐兴起,相应的出版数据服务实践越发增多。

一般情况下,出版物生产商、分销商等出版市场主体在主营业务外往往也会进行数据服务。例如,商务印书馆为用户提供在线网站和数据库服务,即用户通过检索便可获得书名、作者、出版商、当前价格、国际标准书号(International Standard Book Number,英文缩写ISBN)以及商务印书馆系统内的库存量等动态更新的数据。

除此之外,随着Web服务、大数据等技术的进步和用户需求的增加,以北京开卷信息技术有限公司为代表的一类专门进行出版数据服务的第三方公司逐渐出现在出版行业数据服务市场。这类公司在数据服务实践过程中,不断促使出版行业数据服务的内容与形式趋于多样化,主要体现在以下两方面:一方面,提供的数据多来源于国内外不同出版行业企业,从而形成了覆盖面较广的数据资源集合,扩充了出版行业数据服务内容;另一方面,除了为客户提供综合性数据信息检索服务等一般性业务外,还会为客户提供量身制定的个性化数据服务,丰富了出版行业数据服务形式。

二、出版行业数据服务发展与出版行业数智化的逻辑关系

出版行业数据服务发展与出版行业数智化之间具有十分密切的联系。出版行业数智化建设过程中所产生的数据累积、沉淀,是出版行业数据服务发展的基础;与此同时,出版行业数据服务的持续发展,也会赋能、助力出版行业数智化建设。其内在逻辑如下。

1. 业务生产数据:基于数智化建设的出版行业数据沉淀是数据服务发展的基础

出版行业数据资源的积累往往源自出版业务实践。出版行业数智化建设所带来的万物互联、业务协同等转型、发展,可以促进出版行业形成良好的数字生态,进而推动规模化的出版行业数据沉淀。这主要体现于以下两个方面:一方面,出版行业数智化可以促进更多高价值数据的产生和汇集,例如移动用户数据与线上交互行为数据等数据种类都是传统出版行业所不具备的;另一方面,为实现数智化转型,许多出版企业往往自发地将集成、处理后的部分数据进行共享,形成一定程度上的开放式数据生态,进而加速出版行业的数据积累。而数据要素作为继土地、劳动、资本、技术、知识之后的新型生产要素[6],是驱动出版行业数据服务发展的核心要素[7]。若无数据资源,出版行业数据服务将成为无源之水。因此,在一定程度上,出版行业数智化建设对出版业务的转型升级所带来的数据沉淀,为出版行业数据服务发展提供了基础。

2. 数据反哺业务:出版行业数据服务的发展有助于出版行业数智化建设

数据在出版业务中不间断生产的同时,也在数字世界一直监测、洞察出版业务。而出版行业数据服务在本质上就是对数据进行科学利用,以此让数据反馈出版业务,并优化出版业务,进而实现“数据反哺业务”[8]。具体而言,出版行业数据服务商利用大数据算法及算力对出版行业数智化后不断累积而成的“数据池”进行分析和挖掘,并将这些数据应用、流转于出版领域的研发、生产、销售等环节中,以实现数据要素与出版企业的劳动、资本、知识、技术、管理等其他传统生产要素的深度融合,并协同发力,生成多要素合成效应,促进出版业务模式、管理模式、商业模式的创新,进而实现供给侧结构性改革。

值得注意的是,数据反哺出版业务后,出版行业将进一步产生更符合需求的数据,实现数据的再生产与业务的再优化,从而形成出版行业数据与业务的闭环,并不断推进出版行业数智化。在这一闭环运行过程中,出版行业数据服务不断发挥着积极作用。由此可知,在一定程度上,出版行业数据服务的持续发展将有助于出版行业数智化建设。

三、出版行业数智化对数据服务提出的新要求

目前,我国出版行业数智化正值发展的关键阶段。基于出版行业数据服务发展与出版行业数智化的内在逻辑关系,我国出版行业数据服务有必要进一步发展,以更有效地推动出版行业数智化建设。

1. 当前出版行业数智化的新趋势、新业态

当下,出版行业数智化正不断通过“AI+数据智能化应用”颠覆人们的思维习惯、变革出版业务,促使出版业呈现出许多新趋势[9]。首先,出版行业数智化将进一步解放并发展出版生产力。出版行业可以利用各类数据进行流程的智能化改造,以提升出版效率与出版质量。其次,出版行业数智化使人类不再是出版物的唯一作者。由于语言文字处理的形式规范性和逻辑可操作性,人工智能将在对内容数据及作者行为数据等进行深度学习的基础上,实现与人类合作或单独完成作品创作,例如微软小冰曾于2017年5月创作了“人类历史上首部人工智能灵思诗集”《阳光失了玻璃窗》[10]。最后,出版行业数智化转型将促使知识服务更加贴近用户。出版企业通过对用户数据库进行大数据挖掘建立用户模型, 从而更具变革性地创造出服务于个体的“私人知识资讯秘书”。

相应地,出版行业数智化的新趋势催生出不同的出版新形式,进而创新出许多出版新业态,如云出版、协同出版、按需出版、众筹出版、社交出版、数字教育出版等。这些新业态在发展过程中往往会形成差异化的商业模式,进而衍生出更多出版新业态,如协同出版中的Webook在线协同写作出版平台[11]、中文在线集团的协同出版服务[12]等,数字教育出版中的网易云课堂、电子书包等[13]。

2. 出版行业数智化要求构建出版行业数据服务体系

从发展趋势来看,出版行业数智化将有一个很好的前景,但在进一步发展的过程中仍旧存在许多现实问题。除却人工智能技术应用上的难点,数据孤岛现象导致的数据应用困境是出版行业数智化建设过程中的最大瓶颈。

究其原因,主要是出版行业数据服务发展不足、尚未形成体系,导致目前的数据服务工作无法与出版行业数智化较好地对接、适配,更无法成为出版行业数智化的良好助力。一方面,出版行业数据服务体系构建所需的基础数据库建设较为滞后,且其所承载的数据缺乏完整性、及时性与准确性。多年来,出版行业历史数据缺乏系统收集,且数据时刻保持更新迭代,使得出版行业数据收集工作存在较大难度。与此同时,目前出版行业内尚未形成通用数据标准体系,众多出版行业数据服务商的数据标准难以统一,因此出版行业数据兼容性差,造成数据收录工作人力成本过高和工作量的重复浪费,阻碍出版行业数据的集成、整合。另一方面,出版行业缺乏高效、统一的数据交易机制,使得整合后的数据无法在出版业内通畅传递,更无法实现数据的充分应用与科学服务。例如,处于下游的社交网站、电商、互联网公司等虽然拥有中上游出版企业所需的用户多方位属性和行为数据等,但往往由于需保障商业优势等原因而未将这类已整理完备的数据与中上游出版企业共享,使得出版企业因难以对用户个性化需求进行深入分析而影响其业务运营与规划,同时也导致出版行业不同市场主体从不同的数据需求出发,重复建立数据交易机制,增加了出版行业数据服务健康有序发展的难度。

综上所述,从现实层面出发,必须逐步建立起出版行业数据服务体系[14],以统筹大数据与小数据、内部数据与外部数据,促使碎片化的海量数据统一融合、赋能业务、价值落地,进而推动我国出版行业数智化转型,同时支撑国家数据强国的建设和发展。

四、面向数智化建设的出版行业数据服务体系构建探索

基于出版行业数智化对数据服务发展提出的新要求——构建出版行业数据服务体系,应明确出版行业数据服务体系的功能定位与总体架构设计,并聚焦四个抓手,以进一步落实出版行业数据服务体系构建。

1. 面向数智化建设的出版行业数据服务体系的功能定位

数据服务在不同领域中起到的作用并不完全相同[15],因此分析数据服务的功能定位、明确数据服务的工作重点是构建出版行业数据服务体系的重要环节。基于出版行业数智化的数据服务体系构建目标、出版行业数据服务实践情况、目标用户特点及需求,可以从“汇好数据、管好数据、用好数据”三方面出发,将出版行业数据服务体系定位为“数据资源集成中心”“数据管理中心”和“用户服务提供中心”三大功能中心。

首先,作为出版行业数据资源集成中心。数据资源是出版行业数据服务的基础,只有基于系统整合且及时更新数据资源的数据服务,才能促使出版行业立足于对出版现象、出版业务、出版业态等的全面了解,进一步推进数智化建设。

其次,作为出版行业数据管理中心。数据管理是出版行业数据资产有序运营的保障。基于多源、复杂、海量数据资源的不断汇集,出版行业数据服务体系必须打造规范统一的数据管理体系,提升数据资产管理能力,进而更好地激发、增加数据服务对于出版行业数智化的价值。

最后,作为出版行业用户服务提供中心。用户服务是贯穿于出版行业数据服务体系建设始终的核心使命,出版行业数据服务商应尽可能为用户提供多样化的数据服务,包括建设数据服务空间、最新数据资源推送服务、面向不同目标受众的特定领域数据专题服务、定期发布数据分析产品、进行数据资源宣传推广等,以助力出版行业数智化建设。

2. 面向数智化建设的出版行业数据服务体系的总体架构

在明确出版行业数据服务体系功能定位的基础上,笔者认为出版行业数据服务体系架构应包含数据基础设施层、数据采集层、数据预处理层、数据综合计算与分析层、数据应用服务层五个部分,具体如图1所示。基于总体架构,出版行业数据服务体系可以更高效地提供出版行业数智化建设所需的更高质量的数据服务。

图1 面向数智化建设的出版行业数据服务体系总体架构

(1)数据基础设施层

数据基础设施层是支撑出版行业数据服务体系正常运行的基本保障,由软件设施(电信网、互联网、物联网三网融合)和硬件设施(服务器、数据存储设备和数据安全设备等)组合构建而成,主要承载数据的存储、运算、调度和通信等任务。

(2)数据采集层

就出版行业数据服务而言,其资源起点在于数据采集。数据采集的结果,是形成数量庞大、虚拟化的数据资源池,这是出版行业数据服务体系的首要前提。数据采集的途径大致有两类:一是存量数据的获取,主要采取纸质产品形态转化的手段,对出版企业既存的知识资源进行数字化、碎片化,以获得所需的内容数据;二是增量数据的采集,是指出版机构通过日常生产经营、网络抓取等方式,获得的各类数据[16]。值得注意的是,出版行业数据采集工作既要重视采集政策文件、出版行业资讯等纵向数据,还要关注对不同出版领域的内容数据、用户数据、市场数据等横向数据的采集。

(3)数据预处理层

尽管采集的出版行业数据规模较为庞大,但数据质量并不完全符合出版行业数据服务体系建设的要求。因此,数据预处理是数据综合计算前必不可少的步骤,主要包括数据清洗、数据标准化和数据标引。其中,数据清洗是一种用于提高数据质量的重要方法,主要是对重复数据、缺失数据、异常数据、数据逻辑错误等进行检测和处理。数据标准化即对原始数据的格式、分类方式、编码系统、精度等进行规范化处理,使之符合一致的标准,以保证数据的统一性。经过清洗和标准化后的数据,要进行数据标引,即依据学科知识体系和行业应用知识体系对海量数据进行知识化标引,为数据综合计算与统计分析提供可能性和便利性。

(4)数据综合计算与分析层

数据综合计算与分析层,是数据服务体系的重中之重,主要是对标引后的数据进行云计算和统计学分析。关于云计算,出版行业数据服务提供商往往通过运用相关软件和技术将复杂计算框架融合在一起,实现对数据统一的调度、管控和计算,从而产生二次数据。云计算后,需要根据后续不同的数据服务目标,设计动态数据获取、匹配分析、决策预案推演等不同的数据分析模块,并配以相应的数据建库、数据可视化、用户数据分析、多因子关联分析、主题分析、过程仿真模拟等管理操作与统计学分析(见图1),以实现量化数据中的不确定性,厘清、挖掘数据所反映的复杂信息和规律,进而为优质的数据服务提供依据。

(5)数据应用服务层

出版行业数据服务体系构建的最终目标是为用户提供丰富多彩的数据应用服务。从服务模式角度看,数据应用服务层主要包括用户自选服务系统、精准推送服务系统和用户定制服务系统。其中,用户自选服务系统即出版行业数据服务商通过规划设计自身的数据服务业务体系与服务业务流程,以供用户对数据服务的挑选。精准推送服务系统,即在上述用户分析等统计学分析结果的基础上,实现对用户画像的刻画与解析,并将在智能监管中匹配到的数据推送至相应用户端,实现对目标用户的精准投送。用户定制服务系统,即用户可以根据自己的需求对数据分析、订阅推送、排版界面等服务进行专属定制。上述三类数据服务是数据个性化服务的未来发展趋势,将为出版行业数智化建设不断赋能。

3. 聚焦四个抓手,落实出版行业数据服务体系构建,助力出版行业数智化

基于上述出版行业数据服务体系的功能定位与总体框架设计,可以从以下四个抓手切实推进现实层面的实践,全面落实我国出版行业数据服务体系构建,助力出版行业变革,提升出版行业数智化水平。

(1)树立数据思维,指引出版行业数据服务体系建设方向

约50年前,美国管理学家、统计学家戴明(Edwards Deming)曾有一句名言:“除了上帝,任何人都必须用数据说话。”[17]2015年8月国务院发布的《促进大数据发展行动纲要》提出,要建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制[18],这将推动建立社会整体的数据思维和数据文化。同样地,出版行业也要树立数据思维,以给予数据服务体系构建一定的方向指引[19],并推动数据服务体系更好地助力出版行业数智化建设。具体而言,出版行业应树立以下三种数据思维。

一是数据价值思维。我们应清晰地认识到:数据是一种资产,它具有许多显性价值和隐性价值,能够为出版行业数智化建设注入力量。

二是数据共享思维。出版行业的数据孤岛现象是普遍存在的,体现为出版行业上下游企业之间、出版传媒集团不同企业之间、同一出版企业不同部门之间的数据信息不互通。为打破出版行业数据孤岛现象,需要实现数据共享,使出版行业内部数据流动起来,并与外部数据融合,提升数据利用效率。值得注意的是,数据共享并不意味着数据获取免费,数据共享实现的关键在于数据利益机制设计。

三是数据应用思维。数据的价值不在于拥有,而在于应用。如何利用数据驱动单位内部的业务流程和产品研发才是出版行业数智化的关键所在。

(2)建立多元机制,保障出版行业数据服务体系正常有序运行

出版行业数据服务体系的正常运行,是政府、出版企业与个体用户进行行为决策的重要依靠,也是保证出版行业数智化建设持续性、科学性、创新性的关键。与此同时,根据系统学观点,机制是保证系统运动有序的程序和力量的总和[20]。因此,我们应该建立多元机制,以保障出版行业数据服务体系正常有序运行,进而助力出版行业数智化。

具体而言,出版行业数据服务体系的多元机制大致可从两方面进行构建。一方面,要建立存在于不同流程中的运作机制,主要包含数据基础设施供应机制、数据采集机制、数据预处理机制、数据综合计算与分析机制和数据应用服务机制,分别对应出版行业数据服务体系总体架构中的不同层。另一方面,要建立贯穿全流程的辅助机制,主要指数据利益分配机制、数据标准规范机制、数据安全治理机制、数据服务质量管控机制、技术创新应用机制、数据型人才智力支撑机制、数据政策法律保障机制等。上述辅助机制的建立对于提高各主体间的利益协调性、数据的流动性与安全性、数据服务的科学性与高效性具有重要作用。

(3)实施平台化战略,提升出版行业数据服务体系效果

近年来,平台模式因其广泛的适应性、较强的操作性以及良好的资源整合与配置能力,越发被业界所采纳,衍生出众多行业平台化趋势,即以数字平台为信息整合中心协调行业整体运营。由此,我国出版行业数据服务体系也应积极主动地“拥抱”平台化,以此为战略,提升出版行业数据服务效果,进而推进出版行业数智化建设。

在出版行业数据服务体系平台化建设战略的具体实施过程中,可从以下两个关键点着手开展。一是构建多元化数字平台矩阵。数字平台矩阵可谓是平台化建设的基础,应从两个方向加以推进:从横向的出版领域出发,构建出版专业领域数据平台、出版教育领域数据平台、出版大众领域数据平台等;从纵向的出版业务流程出发,构建出版行业数据交换集成平台、数据计算平台、数据服务平台等,作为后端资源组织单元、中端处理单元和前端作战单元。二是为不同平台设计可协同运作的数字系统,连接不同的个体、组织、企业和平台,形成“点—线—面—体”立体式的平台架构模式,使平台上的每个组织和个体都能在广泛连接的基础上,形成网络效应,高效协同合作,有效提升出版行业整体的数据服务能力。

(4)推进场景化应用,实现数据服务体系对出版行业数智化的高效赋能

场景化应用是出版行业数据服务体系实现数据价值最重要的推进模式。只有不断推进场景化应用,将数据贴近场景、贴近业务,满足出版行业数智化转型过程中所产生的对数据的层出不穷的场景化需求,并优化具体业务决策,促使数据真正发挥其潜在价值,才能实现数据服务体系对出版行业数智化的高效赋能。

从出版行业数智化建设的实际场景化需求出发,出版行业数据服务体系主要可以应用于选题策划、产品生产、发行与市场推广等业务场景。针对选题策划业务场景,出版企业可以利用数据服务体系对实时热点、读者在线评论、电子书阅读量等海量数据进行抓取、挖掘和分析,实现对热门主题、读者阅读偏好、读者消费行为、产品销售情况等的大规模、长期追踪,形成不断动态变化、随时可导出的市场调研报告,结合自身出版优势协助决策者确定选题。针对产品生产业务场景,出版企业可以利用数据服务体系定制与选题相关的数据库,借助人工智能对数据库中的海量数据进行反复迭代学习,迅速而高产地编制出诗文集、绘本等作品,并借助全息投影、增强现实、智能语音等技术,优化作品的内容呈现形式和消费体验,进而产出高质量产品。针对发行与市场推广业务场景,出版企业可以利用数据服务体系实时追踪市场发行量和用户阅览趋势,判断作品的市场反响,并随之调整当前产品价格和营销策略。

五、结语

目前,我国出版行业正处于数智化转型升级中。面对发展数据服务这一出版行业数智化转型的核心举措之一,出版行业虽然需要考虑数据服务发展过程中数据泄露等风险,但其最大的风险是止步不前,错失良机。出版领域各相关企业、协会应该把握机遇,顺势而为,落实《出版业“十四五”时期发展规划》,构建出版行业数据服务体系,用大数据思维推动出版行业的智慧智能服务,实现出版行业数智化水平的持续提升。

猜你喜欢

智化数据服务体系
电子证照重构山西道路数智化体系
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
沙冒智化的诗
基于数据中台的数据服务建设规范研究
沙冒智化的诗
构建体系,举一反三
数据服务依赖图模型及自动组合方法研究
闪闪发光的少女
“曲线运动”知识体系和方法指导