基于知识组织的企业文档深度聚合模式研究

2022-02-11邱杰峰展超凡李喆

北京档案 2022年1期

邱杰峰展超凡李喆

摘要：知识组织相关技术的出现，为企业文档内容的深度聚合带来了新的契机。通过对比三种企业文档聚合模式，本文得出目前利用知识组织技术进行文档深度聚合的必要性与合理性。此外，本文还提出了企业文档深度聚合模式，从高效化知识抽取，到概念化本体构建，再到关联化知识聚合及最终实现的智能化知识服务，对企业文档资源的内容聚合展开探究，进而为企业文档深度聚合及知识管理研究提供一定的理论基础与实践导向。

关键词：知识聚合本体构建知识组织企业文档管理

知识经济时代，如何融合新兴数字技术和企业内部知识资源已成为企业成功与否的重要因素。企业大多数显性知识资源都以文件、档案的形式存在，被统称为企业文档，是企业生产经营活动的真实记录。[1]文件是档案的前身，档案是文件的归宿，所谓“文件”和“档案”，只是文件运动过程不同阶段的表现形式[2]，文档一体化逐渐成为企业档案管理发展的必然趋势[3]。现阶段，企业文档资源已基本实现数字化管理，但现有的企业文档组织利用方式较为单一，知识聚合程度较低，大多数企业文档只支持普通查询，开展文档知识的深度聚合已成为未来研究与实践的必然趋势。[4]因此，本文以企业文档资源作为主要研究对象，对文档内容组织层面的三种聚合模式进行分析与比较，从总体方法论角度设计企业文档深度聚合模式，对如何实现企业文档资源的内容深度聚合展开探究。

企业文档聚合最初是对企业内部实体文档进行整理与集成，也就是对文档进行初步整理与排列，达到用户查找和获取文献的目的。[5]其研究对象为文档原件（一般为实体文档），聚合粒度较粗，属于传统文档聚合模式，最具代表性的是企业档案馆内基于文献编目的企业文档聚合模式。基于元数据的企业文档聚合模式将研究对象从文档本身深入到文档内容层级，关注信息片段的整合。但以上两种聚合模式仍是在文档形式特征层面对其进行整理与排序，并不能实现对文档内容知识的组织与检索。文档资源深度聚合主要体现在运用一系列知识组织技术对资源内容进行语义聚合，关注文档中知识元的聚合，以真正实现细颗粒度的文档知识聚合。文档聚合模式演化过程如图1所示。

（一）基于文献编目的企业文档聚合模式

文献编目大多以传统印本的实体文档作为研究对象，依据特定的著录格式和规则，对文献信息的形式与内容特征进行描述、标引并使其有序化。[6]比较常见的如企业文档中的目录编制与排序，因此，这种聚合模式又被称为文档整序工作。其外部特征的描述及内容实质的揭示都相对比较浅层，适用场景也基本是传统纸质文档的归档工作。在企业的现阶段应用中，该模式主要用于部分纸质文档库的编码与存储，然而其聚合维度的单一与聚合粒度的粗泛渐渐不能满足企业日益增长的文档知识挖掘需求。

（二）基于元数据的企业文档聚合模式

面对结构形态各异的企业数字文档资源，傳统编目方式显得力不从心。而元数据用来描述、标引数字资源相对灵活，企业通过参照各类相关元数据标准，描述文档资源的主题、内容特征，并通过对描述性元数据、结构性元数据和非结构性元数据进行加工与集成使其格式化后存储，将其作为文档聚合的基础。基于元数据的企业文档聚合模式通过细分描述对象的揭示程度，为数字资源的深度聚合奠定基础。

（三）基于知识组织的企业文档聚合模式

基于知识组织的企业文档聚合是一个相对比较宽泛的概念，包含多种具体的聚合模式，如基于本体[7]、基于关联数据[8]、基于主题模型[9]和基于知识图谱[10]及复合模式[11]来实现文档资源的深度聚合。该模式通过揭示文档资源语义内容目标实现细粒度聚合，以客观方式呈现文献资源的网络结构，并以可视化方法展示聚合结果，最终实现面向用户需求的知识服务。具体来讲，该模式通过构建各种类型的企业文档知识库，在语义和知识层面上细粒度地描述文献知识内容，以实现资源深度聚合。

综上所述，三种文档聚合模式在对象、目的、方法、描述维度、描述颗粒度和应用层面均有不同。从表1可以看出，三种文档聚合模式呈现出与时代发展相契合的演进态势。基于知识组织的企业文档聚合模式已成为企业文档未来发展的必然趋势，理由如下：其一，该模式适应当前数字化时代对于数字文档的大量应用需求，可以实现由实体文档向数字文档模态演变；其二，为满足日益增长的文档利用需求和适应文档数量的急剧增长，该模式从单一描述维度逐渐向多维度乃至立体化的维度演变，对文档内容的描述粒度也在不断变细；其三，在应用层面，该模式更加趋向于文档知识的服务与利用，由消耗成本转为创造价值。

企业文档管理具有比较严格的规范与管理制度，其文档格式、元数据信息、存储方式等大多实现了统一化。另外，以企业文档资源作为深度聚合的数据基础，具有非常好的实践效果。在梳理现有企业文档聚合模式并进行对比分析之后，本文根据企业文档资源特点和实际业务场景需要设计基于知识组织的企业文档深度聚合模式来组织和关联知识节点，进而推动企业内部知识的整合与知识网络的形成。对于具体聚合模式，我们采用自底向上的整体设计思路，从文档资源的“抽取”“表达”“聚合”“利用”四方面阐述文档数据如何经过高效化知识抽取、概念化本体构建、关联化知识聚合以及智能化知识服务转变为文档知识，从而实现文档的表示结构化、组织知识化、利用智能化，如图2所示。

（一）高效化知识抽取

知识抽取作为企业文档深度聚合的第一步，是指从原始数据集中发现和识别出命名实体，形成结构化数据。这是知识聚合中最为重要和基础的部分，其抽取的质量对后续的关联聚合和知识服务步骤影响重大。企业在生产运行过程中形成了大量的文档相关数据，其存在形式包括数据库、扫描PDF、Word文档等。针对企业内部的结构化业务数据、半结构化版式文档及非结构化文本数据，该模式具体采用实体识别与排歧、关系事实抽取、图像分割识别等技术，针对不同类型的文档，从篇章目录、段落结构、表格数据、语句语义等不同层次对文档内容中所包含的知识实体与关系进行解析和抽取，利用语义解析深度挖掘其中的知识关系，实现文本内容的识别、转换及抽取，形成规范化的数据三元组。

（二）概念化本体构建

本体构建作为企业文档的整体概念框架，是关联化知识聚合的基础。某一领域的企业文档其本体模型相对固定，因此有针对性地选取某一领域内的文档作为本体构建的研究对象，具有典型性。本阶段作为模式设计的重点模块，在对所选企业相关领域知识充分调研理解的基础上，根据企业实际业务流程的工作需求，同时考虑相关本体复用，对海量的企业文档进行细粒度的文档内容解析，从而提炼出文档中的核心概念表达，抽象形成普适性的领域本体，实现企业文档的分类与组织。具体而言，我们可以采用“自顶向下”的本体构建方式，通过术语提取、本体概念学习、本体关系学习及规则制定等步骤，依照专家领域知识在本体编辑器中进行领域知识本体的预先编辑，最终形成企业文档的知识模型。

（三）关联化知识聚合

知识聚合的实质就是本体模型实例化的过程，即参照所构建的本体模型，将本体概念对应文档实例内容进行填充与关联，从而实现细粒度、关联化的知识聚合。具体而言，此阶段根据本体构建阶段所构建的文档知识模型与知识抽取阶段所抽取的数据三元组进行链接与对应，使文档知识模型概念都有相应的实例数据映射匹配。与此同时，本阶段会将形式非结构化的、知识内容杂糅的文档数据转变为“实体-属性-关系”的知识三元组数据，使文档数据按照特定的本体概念进行重新组织，达到多维度知识聚合效果。此外，本阶段还会将文档资源数据和知识三元组数据分别存储至非结构化数据库与图数据库中，使企业内知识实现由离散的文本化存储到连续集中的数据库存储转变。

（四）智能化知识服务

本阶段会根据企业的实际生产运行业务场景整理出相应业务需求，并对如何实现相应业务需求的技术要求与知识要求进行分类整理，通过业务场景构建来实现用户群需求分析，进而有针对性地提供知识服务。例如，在生产业务中多需要具体参数查询，企业则可以根据需求设计文档自动问答服务应用，将用户自然语言问句转换为图数据库可理解的查询问句，有效提高参数查询效率；在运行业务中，多需要相关文档的推荐服务，企业则可以在用户搜索中使用查询推荐技术，根据历史查询记录构造有效查询，以实现个性化查询推荐；而在维修業务中多需要数据可视化呈现，企业设计知识地图应用可以使用户对文档知识内容形成整体总览效果，进而提高文档知识检索和知识管理的效率。

本研究在对比传统基于文献编目的企业文档聚合模式、基于元数据的企业文档聚合模式及基于知识组织的企业文档聚合模式之后，设计了企业文档深度聚合模式，并以企业文档资源为研究对象，经过高效化知识抽取、概念化本体构建、关联化知识聚合到最后的智能化知识服务，对如何实现企业文档资源的内容深度聚合展开探究。但由于时间、精力及数据获取问题，笔者对于本文所提出的企业文档深度知识聚合模式并未在企业中广泛开展实证研究，但相信未来随着研究的深入，该聚合模式将在各行业领域文档实际管理中进行改进与尝试，其普适性与智能性将得到大大提升。

*本文系国家档案局科技项目“核电文档AI中台建设研究”（项目编号：2020-X-044）的研究成果之一。

参考文献：

[1]刘慧琳，刘敬仪，黄健.基于知识库的企业文档智能服务模式探究[J].北京档案，2021（9）：22-26.

[2]刘汉青，张伟.企业文档一体化的实践分析及思考[J].办公室业务，2011（12）：4-5.

[3]冯静.知识管理环境下企业文档一体化研究[J].中国管理信息化，2018，21（17）：160-161.

[4]魏扣，李子林，郝琦.档案知识聚合的实践模型构建研究[J].北京档案，2018（8）：7-10.

[5]赵蓉英，王嵩，董克.国内馆藏资源聚合模式研究综述[J].图书情报工作，2014，58（18）：138-143.

[6]赵悦，富平.数字资源与传统文献元数据整合[J].国家图书馆学刊，2007（2）：63-65.

[7]何超，张玉峰.基于本体的馆藏数字资源语义聚合与可视化研究[J].情报理论与实践，2013，36（10）：73-76.

[8]王涛.基于关联数据的馆藏信息资源聚合研究[J].图书馆学刊，2012，34（8）：44-46.

[9]王萍.基于概率主题模型的文献知识挖掘[J].情报学报，2011，30（6）：583-590.

[10]卢恒，张向先，尚丽维，郭勇.基于知识图谱的网络社区学术资源深度聚合框架研究[J].情报理论与实践，2021，44（1）：180-187.