数据赋能学术出版知识服务精准化

2022-09-05覃周亚

出版与印刷 2022年3期

覃周亚

一、问题的提出

知识服务是基于知识资源或知识产品，根据用户的需求和使用场景，在用户解决问题的过程中，提供能够有效支持知识应用和创新的行为。[1]学术出版知识服务是针对用户的学术性和知识性需求，借助数字信息技术实现知识内容的搜寻、组织、分析、重组，以融入具体知识使用场景，并最终实现知识增值和创新的服务。[2]2017年《关于深化新闻出版业数字化转型升级工作的通知》提出“要积极创新知识服务模式，面向不同终端、采取不同方式，实现精准的多形态知识服务供应”。[3]学术出版知识服务是提高国家学术发展水平和学术影响力的重要基础，而精准化的学术出版知识服务则是回应现实关切，落实“把论文写在祖国大地上”的迫切要求，为学者提供精准化的知识服务是学术出版发展的目标和必然趋势。

面对科学研究和学术出版的现实需求，以及大数据、云计算、物联网、区块链、人工智能等新一代信息技术发展带来的新机遇，数据作为一个重要的生产要素进入学术出版知识服务领域。本文所说的“数据”并不仅指大数据或大数据技术，而是新一代信息技术背后的算法和数据基础。数据赋能是通过创新数据的运用场景、技能和方法来获得或提升整体能力，实现数据赋能价值的过程。[4]从学术出版知识服务实践来看，尽管出版机构掌握了大量的数据资源，但是对数据赋能的认知不足，导致利用数据和算法提升学术出版知识服务精准性的实践操作存在问题，数据资源的价值未能得到充分发挥，数据赋能的效果有限。

以往研究多以学术出版流程为研究视角，遵循“现状—问题—策略”的研究逻辑。比如，研究技术对学术出版知识服务的影响：提出人工智能技术推进智能化知识服务，从而为科研提供精准化的服务；[5]提出借助语义技术实现学术知识抽取和内容深度聚合，进行学术资源的个性化智能推荐，实现个性化、定制化的精准学术知识服务。[6]研究学术期刊知识服务：提出学术出版内容与学科领域发展相呼应是建立以学术出版服务为导向的精准推送机制的重要基础；[7]通过分析读者的搜索数据了解读者关注的话题，以实现精准推送，形成良性供需循环。[8]这些研究缺乏从数据赋能视角深入探讨学术出版知识服务精准化。本文从学术出版知识服务精准化需要解决的问题入手，结合学术出版知识服务的特性，揭示数据赋能学术出版知识服务精准化的内在机理，并提出实现学术出版知识服务精准化的路径，助推学术出版发展和学术强国建设。

二、学术出版知识服务精准化的困境

学术出版知识服务精准化的本质是知识服务供给方与需求方能够实现供需匹配。具体来说，学术出版知识服务供给方要解决好“为用户提供什么样的学术知识服务”和“如何提供用户需要的学术知识服务”这两个问题。差异化需求是学术出版知识服务精准化要破解的问题，这一差异不仅体现在异质性用户的个性化需求，还体现在同一用户在学术研究生涯不同阶段的需求变化。因此，本文从供给方和需求方的视角分析学术出版知识服务精准化面临的主要困境。

1. 知识服务供给：服务内容与服务类型双重困境

学术期刊是学术研究成果的重要载体，也是学术出版知识服务的重要内容资源，学术期刊发表学术论文，本身就是学术出版知识服务的一种模式。近年来，学术期刊积极探索内容精准推送服务，虽然在一定程度上提升了学术期刊的传播范围和服务能力，但普遍存在精准度不高、服务模式单一、读者地位不够突出、媒体融合度有待提升等问题。[9]包括期刊、图书、数据库等在内的学术出版产品，基本都实现了以数字化形式面向读者，但大多还处于对纸质内容“搬运”的阶段，没有做到学术出版内容整合，没有建立起完整的知识关联体系，在数字内容的细粒化标引方面也存在不足，难以满足用户细化的内容需求，学术出版知识服务还处于浅层阶段。由于知识服务模式不够成熟，出版机构在学术出版知识服务内容建设方面找不准重点，在内容加工与组织上不必要的消耗过多，为用户提供了很多不相关的内容，用户真正的需求却没有得到满足，供需不匹配。

目前学术出版知识服务主要提供的是科研辅助工具服务和科研写作服务，服务类型较为单一，而用户的学术研究需求还包括科研数据服务、科研成果发表服务、科研成果传播服务以及尤为缺乏的科研学术交流服务，[10]单一的服务类型无法满足用户多样化的学术研究需求。学术出版知识服务不能精准对焦用户的细化需求，不利于知识内容资源的生产，以致无法实现学术出版知识服务生态的良性循环。

2. 知识需求识别：用户细分与需求甄别不准

首先，用户群体细分不到位。目前学术出版知识服务把服务对象统称为用户，对用户没有进行精确细分，难以掌握不同类型用户的确切需求，对学术出版知识服务发展造成一定困扰。学术出版知识服务主要为各类科研机构提供基于专业学术研究需求的服务，用户主要是高校师生和科研院所的科研人员。将用户划分到高校师生和科研院所的科研人员这一层次还很难实现精准化知识服务，因为不同层次、不同学科背景的教师、学生及其他科研人员的具体知识需求存在很大差异，因此还要根据不同群体用户的特点和学术成果样态进行细分，建立精准用户画像，并实时追踪其所处的科研环节，及时为其提供科研项目申报、立项、开展和结项，学术资料搜集，学术论文写作等环节所需的学术信息和科研工具。其次，隐性知识需求甄别困难。如果用户能够直接精准地表明自己的需求，往往有助于实现精准的知识服务，但实际情况是用户很多时候难以准确表述自己的需求，有时甚至不知道自己存在某一知识需求，即无法判断自己的隐性知识需求。学术出版知识服务主体虽然已从过去的被动服务转向主动服务，但目前所开展的服务大多是单向模式[11]，对用户潜在和动态需求把握有困难，加之沟通渠道不完善和反馈机制不健全等，使得原本就难以识别的隐性需求甄别难度更大。

三、数据赋能学术出版知识服务精准化的内在机理

数据是智能化的基础，算法则赋予数据新的生命力，在数智化时代，数据和算法成为学术出版知识服务精准化的重要影响因素。数据赋能学术出版知识服务的本质在于通过新一代信息技术进行数据获取、集成、挖掘、分析、利用和反馈，并在此基础上对知识服务工作进行诊断、评价、预测与决策，使学术出版知识服务更精准、更科学、更高效。数据赋能正形成一套以数据思维为基础的知识服务逻辑，为学术出版知识服务提供新的管理模式、生产动力和推广路径，并切实提高学术出版知识服务的资源管理效率、服务供给质量和营销传播能力。（见图1）

图1 数据赋能学术出版知识服务精准化的内在机理示意图

1. 数据思维建构学术出版知识服务新逻辑

人是生产力中最活跃的要素，科学技术推动生产力发展，首先影响的是人。数据赋能学术出版知识服务，首先影响的是知识服务人员，使人与人之间信息趋于互联共享，决策方式也从过去的经验决策转向数据决策。数据赋能不仅影响了人的工作方式，更影响了人的认知。在数智化时代，信息获取更便捷、数据更庞大繁杂、跨学科知识需求激增，为适应这些变化，知识服务人员越来越意识到要转变传统业务理念，首先要统一知识服务认知问题，深刻了解知识服务前沿理论和应用现状，并以此为前提做好学术出版知识服务业务发展的远景规划。

面对海量知识信息，由于渠道限制和个人信息获取能力限制，用户在科研各环节的资源获取难免存在滞后性、粗糙性和狭隘性等局限性。这就要求出版机构从服务理念、组织架构、制度设计等方面建构学术出版知识服务新的服务理念和行动逻辑，主动、准确、及时、完整地契合用户的学术知识需求。学术出版知识服务人员要逐步建立起数据思维，更新的服务思维会促使出版机构重新思考管理模式，使组织结构从科层制组织结构向扁平化、去中介化、网络化的组织结构调整，因为在数智化背景下，坚持高沟通成本和低信息效率的传统组织形式将会出局[12]。扁平化的组织结构赋予一线编辑、营销宣传和技术专员更多的权利，打破了部门与部门间的数据孤岛和上级与下级间的隔阂，突破了传统学术出版知识服务聚焦于科研辅助工具服务和科研写作服务的局限性，使市场响应能力显著提升，而市场感知能力和动态监测能力的提升使出版机构能够及时把握用户需求，从单一业务类型向更丰富的业务扩展，增强了决策的前瞻性和精准性，使学术出版知识服务决策从经验主导向数据支撑方向升级。

2. 技术赋能提高学术出版知识服务资源管理效率

数字化知识资源是学术出版知识服务的基础，对数字化知识资源进行管理是提高学术出版知识服务效率和质量的必然要求。目前主要有存量资源、在制资源和增量资源这三种知识资源。[13]出版机构普遍存在对纸质存量资源转化不充分、不注重在制资源存储和管理以及对增量资源挖掘不足等问题。技术赋能改变了出版机构在学术知识资源管理上的尴尬境地。首先，在存量资源转化和在制资源建设方面，出版机构依托计算机应用技术、计算机网络技术和信息存储技术等将纸质学术出版产品转化为数字化形式保留下来，并对学术出版过程中产生的碎片化和体系化的知识内容进行标引、加工，奠定了学术出版知识服务的资源基础。随着资源量的增大，原有技术难以满足学术出版资源转化和建设的需求，云计算的应用解决了学术知识资源存储的问题，人工智能技术实现了对学术知识资源的自动化整理和批量处理，极大地提高了知识资源管理效率。其次，在增量资源挖掘方面，通过新一代信息技术进行网络抓取，可不断丰富学术知识资源库，技术应用越成熟的出版机构在学术出版知识服务市场竞争中越具有竞争力。最后，在资源安全方面，区块链技术凭借“去中心化、信息公开透明、安全可靠、追根溯源、开放共识”等特点，在数字资源管理和流通方面表现出极高的优越性，对学术出版知识服务资源的版权管理和使用安全具有重要意义。总之，技术赋能使资源覆盖广度不断提高，资源覆盖深度不断扩展，资源更新效率不断提高，同时也增强了资源间的互联互通，提高了学术出版知识服务资源管理效率。

3. 数据要素化推进学术出版知识服务供需平衡

由于数据收集工具和技术的限制，过去只能获取有限的数据，这些数据在知识服务决策中发挥的作用也非常有限，信息不对称导致学术出版知识服务供需之间难以达到平衡。而新一代信息技术的发展能够实现多维数据采集，极大地提升决策的科学性和及时性，破解供需之间的屏障。

数据作为新一代信息技术的底层基础，能够不断提升技术的智力内涵，技术作用于学术出版知识服务实践，进一步提升了知识服务的智能化程度。学术出版知识服务用户数据主要遍布在其科研历程中，而科研足迹往往在互联网和终端设备中有迹可循，这些数据反映了用户在科研中的具体需求，通过采集这些与科研过程相关的可计算、多维度数据，可以对用户进行精准画像，并进一步对用户属性进行数据化表征，从而获得结构化的数据，再基于这些数据进行建模，以精准探析用户当下需求并预测潜在需求。数据挖掘和关系挖掘是确保学术出版知识服务精准化的重要手段，利用技术追踪用户科研足迹，对其在科研过程中于平台留下的数据进行挖掘和分析，尤其是关注科研行为与行为之间的关系，能够准确聚焦科研过程中不易被发现的隐性需求，使用户的隐性需求显性化，从而减少无效供给，实现供需平衡。

4. 算法优化驱动学术出版知识服务精准营销

算法在学术出版知识服务各环节都扮演着重要角色，算法本质上是寻找数据规律并进行预测的过程。在学术出版知识服务营销推广方面，算法能够帮助营销人员进行科学判断，使营销宣传“智能增强”，使营销人员能够突破自身能力限制，达到最佳的营销效果。基于自然语言处理与机器学习算法，采用文本分析技术可以对用户在知识服务平台和虚拟学术社区的反馈文本内容进行分析，以了解他们的确切需求。人工神经网络算法可以将用户分成不同的类别，并预测用户在不同科研环节的需求，为进一步提供学术出版知识服务提供决策支持。而在营销推广中最常用的协同过滤推荐算法，对同一学术研究领域的用户推荐相似用户曾使用过的知识服务内容，可促进其对同一学术领域研究现状的感知。大数据时代，算法处理数据的数量级越来越大，为了增强算法解决问题的能力，技术人员对算法的有关性能不断进行优化，以提升服务性能和用户体验。算法优化提高了学术出版知识服务营销的精准性，不仅能够定位用户群体属性，判断用户需求，还能根据用户需求精准挖掘知识服务的卖点，挖掘不同类型知识服务产品的市场潜力并进一步推动学术出版知识服务的精准营销。

值得注意的是，算法在提供高效的决策支撑时，本身也存在一些隐蔽风险，如采集用户数据导致的侵犯隐私权问题；使用算法产生的相关伦理问题；算法的结果是基于数据统计的相关关系，难以获得理论性解释；等等。因此，学术出版知识服务不仅需要正确处理好算法使用的伦理问题，还要不断优化算法，以提高算法的有效性、透明性和可控性。

四、数据赋能学术出版知识服务精准化的实现路径

学术出版进行精准化知识服务的目标是聚焦科研用户，主动契合用户学术知识需求，在扩大用户数量的同时增强用户对知识服务品牌的黏性。基于对数据赋能学术出版知识服务精准化所处的困境和内在机理的研究，笔者认为实现学术出版知识服务精准化要解决“数据从哪里来、怎么来”“数据如何使用”“算法如何应用”这三个问题。内容数据库与用户数据库建设是学术出版知识服务精准化的基础，学术出版知识服务全要素是精准化知识服务的驱动资源，对其整合应用是实现精准化知识服务的核心所在，算法参与学术出版知识服务全过程是知识服务精准性落地的关键。（见图2）

图2 数据赋能学术出版知识服务精准化的实现路径示意图

1. 内容数据库与用户数据库建设

数据赋能的前提是要有数据，学术出版知识服务的数据主要分为内容数据和用户数据两类，来源于学术出版活动和用户个人的科研过程。实现学术出版知识服务精准化是一个双向的过程，一方面是将可能有价值的学术知识资源和知识服务业务推送给用户，另一方面是用户主动表明需求，出版机构尽力去匹配和满足用户需求。因此，要加强对内容数据和用户数据的管理，建设好内容数据库和用户数据库是实现精准化知识服务的第一步。内容数据库的内容来源于传统学术出版和数字化的学术出版。传统学术出版包含学术著作和学术专著、学术期刊、学术论文汇编、学术会议录以及大学及以上程度的教材和参考书、学科工具书、学术随笔等。[14]数字化的学术出版包括各类电子学术期刊、电子学术图书及专业数据库平台等。按照系统的方法对学术内容资源进行分类组织，构建起学科内容体系，体系分层越多，粒度越精确，越有利于后续为用户提供精准化的学术出版知识服务。

用户数据库包含用户的基本属性、行为日志、发表文献和社交活动四种类型数据。[15]具体来说，基本属性包括用户年龄、性别、学历、专业背景、职称等基本信息，其中尤以专业背景和职称等与科研学术关系最为密切的信息为重；用户行为日志是对用户碎片化的科研相关浏览行为进行爬取，分析用户关注的学术领域、兴趣偏好和潜在学术需求；发表文献是对用户已有学术和科研成果进行分析，从而掌握其研究领域、研究动向、研究能力以及与他人的合作关系等；社交活动是用户在社交媒体发表言论、转发、点赞等行为数据，这些信息具有较强的即时性。

2. 学术出版知识服务全要素整合应用

学术出版知识服务全要素指的是供给侧和需求侧的各个要素，具体来说，供给侧的要素包括出版机构所具备的软硬件设施、资金、人才、技术、知识服务平台以及内容资源等。需求侧的要素指的是与用户学术科研需求相关的、动态变化的要素。如何应用相对静态供给侧要素匹配动态变化的需求侧要素，以精准对接用户的科研学术需求，是学术出版知识服务的难点与重点。

学术出版知识服务要素是精准化知识服务的驱动资源，将要素数据化是应用要素的第一步。数据赋能的核心过程在于通过新一代信息技术对数据化的全要素进行整合应用以实现精准的学术出版知识服务。一方面，要通过数据进行全局决策。学术出版知识服务是一张很大的网，参与主体众多，用户群体也各有特点，因此，出版机构要明确自身的市场定位，通过分析已有用户数据，整合自身资源条件，形成涵盖产品研发、技术应用和市场运营等内容的完备的学术出版知识服务战略规划。另一方面，要基于要素变化动态调整业务。实时监测需求侧要素变化，对不同时段、不同来源的需求侧要素进行分类整合，根据需求侧要素的变化及时调整学术出版知识服务业务内容，精准对接不同用户、同一用户不同时段的学术科研需求。

3. 算法参与学术出版知识服务全过程

算法参与学术出版知识服务全过程是数据赋能的重点，也是实现知识服务精准化落地的关键。一是算法参与学术知识资源管理。学术知识资源是出版机构开展知识服务的基础，从学术知识资源获取、学术知识资源组织到学术知识资源应用，算法的参与使学术出版知识服务过程更高效。为实现资源价值最大化，要利用算法对学术知识资源进行筛选、关联、加工和整合，以达成具有增值价值的学术知识资源，更好地对接用户的需求。二是将算法应用于学术出版知识服务成效评估，推进知识产品和服务优化。以大数据、人工智能等为核心的新一代信息技术可以对学术出版知识服务的全过程进行追踪，因此能够对知识服务质量和知识服务效果进行评估。例如，通过算法抓取与用户满意度相关的数据，包括用户在知识服务平台反馈区的留言、知识服务使用频次、知识服务使用时长、用户规模等，以初步判定用户对其体验的知识服务的情感偏向。通过进一步分析用户具体的科研足迹数据，则能精准定位到知识服务哪个具体的环节有待改进，从而推进学术出版知识服务产品和服务升级。

五、结语

在以大数据、云计算、物联网、区块链、人工智能等新一代信息技术为核心支撑的数智化时代，数据赋能对于学术出版知识服务精准化具有重要意义。分析数智化时代学术出版知识服务精准化的困境，以及数据赋能学术出版知识服务精准化的内在机理，是对数智化时代出版业转型升级的有效探索。未来，出版学界和业界需要共同关注的是如何将数据赋能的价值最大化，这不仅需要理论研究，更需要在学术出版知识服务的实践中慢慢摸索，走出一条具有中国特色的学术出版知识服务道路，助推学术繁荣、文化繁荣。