基于会计档案的知识图谱研究与应用
2023-09-26程清洁朱仲友吴建琳陈胡嵘国网安徽省电力有限公司
程清洁 朱仲友 吴建琳 陈胡嵘 国网安徽省电力有限公司
引言
在档案数字化的推进过程中,数字档案馆以及智慧档案馆的建设成为当前档案管理模式下新的发展方向,档案管理模式亦趋向于数字化与网络化,档案管理系统正从信息管理模式向知识管理模式转变。在人工智能技术的支撑下,档案管理逐渐向关联数据、语义组织方向发展,核心技术从以数据库存储和XML 数据为标志转向了以知识库和语义技术为核心,知识图谱[1][2]正成为档案管理领域的重要支撑技术。
一、建设思路及设计原则
(一)建设思路
基于五大类会计档案实体(原始凭证、会计凭证、账簿、报表、其他),全面梳理构成档案的所有关键要素,抽取实体与要素间,实体间以及要素间的关联关系。从实体和要素两个维度,以图谱技术为支撑,利用可视化工具,构建全量会计档案知识谱系模型,分层、立体描绘出数字会计档案知识资源及其载体,并以关键节点与链路相结合的方式进行表达。通过最底层要素还原业务管理的流程环节,实现在任意节点均可查询全局结构化数据,在关键节点检索全量非结构化文件。
(二)设计原则
基于会计档案的知识图谱[3][4]关系遵循以下原则进行设计:
1.统一设计原则
制定统一设计方案,按照要求完成适应性调整、测试工作。
2.适用性原则
设计基于会计档案的知识图谱关系模型,模型需兼顾全局展示、局部重点展示、穿透展示、拖动、旋转、缩放等各类型的查阅场景;设计基于会计档案的知识图谱实例查询,查询结果需能根据关系,展示查询关键字所贯穿的全业务链条价值信息,充分考虑各单位、各岗位人员的应用场景及查阅范围。
3.延续性原则
数据抽取完全来源于会计档案,方案设计充分利用统一的标准和系统功能,并在此基础上进行业务与功能扩展,为后续业务发展提供可延续、可扩展空间。
(三)术语与定义
知识图谱:知识图谱是基于会计档案数据结构生成的,是对档案结构化数据关联关系的可视化展示。包括实体、属性和关系。
实体:具体事物、主数据、数据库中的表。
属性:事物的特征、主数据的特征、表字段。
关系:事物与事物或主数据间建立的关系。
知识抽取:把数据从不同的数据源中抽取出来,然后按一定的规则展现在知识图谱应用平台上。
知识映射:知识抽取之前,要把数据源的信息通过映射的过程,将其定位的具体某个实体,实体属性或者关系上,这一过程称之为知识映射。
数据清洗:知识图谱构建过程中,知识抽取后,需要对抽取的数据进行某些规则的转换,这个过程称之为数据清洗。
归一消歧:知识图谱构建过程中,某些实例或者关系会存在重复的关系,对这些重复的数据通过某些规则去重,这一过程称为归一消歧。
(四)会计档案中的实体、属性、关系内容描述
1.原始凭证
主要包括业务分类、原始附件清单(系统单据、有结构化信息的影像件、扫描生成的电子文件)。
系统单据是一个具体事物,单据上填写全部为结构化信息,其中有特征如日期、编号、数量、金额、备注等即是事物的属性(基本属性),特征本身也是一个事物或者主数据(实体)的如采购订单、项目、合同、供应商等,则将系统单据实体与其建立关系(关系属性)。
有结构化信息的影像件也是一个具体事物,且档案中有表存放结构化信息,结构化信息中特征如开票日期、编号、金额等是事物的属性,特征本身也是一个事物或者主数据(实体)的如购买方信息则与单位建立关系,如在多个业务分类下都有增值税发票,则与业务分类建立多条关系。
扫描生成的各类电子文件均是具体事物,但是具有共同特征,即类型名称、ID、影像地址。因此可以统一为一个“原始凭证影像文件”实体,而它的实例数据则是增值税发票、合同或协议等各类扫描件,不同的影像文件属于不同的业务分类,则与业务分类建立关系。
2.主数据
属于公用实体。经济业务核算中,非原始附件,但是原始凭证上会填写的信息,具有多个特征的,且查询实例时还可根据填写的内容找到其对应的特征,如根据单位找到单位对应的纳税人识别号。因此主数据作为实体,其独有内部特征作为属性,其特征中还包含其他主数据的,如载体维度上对应有核心维度(项目对应业务活动),则将两个主数据建立关系。
3.会计凭证
主要包括凭证主信息、凭证类型及凭证分录。
4.账簿
主要包括单位、账期、账户、期初方向、期初余额、借方发生、贷方发生、期末方向、期末余额等。其中,单位是实体则建立关系,账期是各账簿、各报表等多处都需要用到的会计期间,包括会计年度和账期,也可抽离为实体,与科目汇总表建立关系,后续还可与报表建立关系。其他则是属性。
5.报表
主要包括报表期间、报表单位、报表项目(横向纵向结合)、报表单元格公式、报表(单元格)取数结果;期间包括关联会计年度和账期。
6.其他
主要包括会计档案保管清册、银行余额调节表、会计档案鉴定意见书、纳税申报表、会计档案移交清册、银行对账单、会计档案销毁清册及银行流水信息。
(五)整体数据需求
1.数据接入及存储需求
以会计档案管理体系为唯一的知识谱系数据来源,接入包括原始凭证、记账凭证、账簿、报表、其它五大类的数据关系及实例数据。数据接入采取从会计档案数据库直接接入的方式,通过知识映射中间组件,转化为数据模型为图模型的知识谱系。
2.数据质量
数据质量方面,档案馆的数据内容要涵盖五大类会计档案知识图谱要素里面规划的内容,如未涵盖,在实例图谱查询时则只能显示数据模型,不能显示具体数据。
二、总体技术架构
知识图谱应用平台提供本体管理、图谱管理、图谱构建等功能;知识图谱应用平台有超级管理员和用户两种角色,超级管理员可以管理用户所创建的图谱;用户可以实现创建图谱、导入数据、映射数据、构建图谱、会计档案关系模型查阅、会计档案关系查询等功能。
(1)技术路线:知识图谱应用平台以自然语言处理技术为支撑,对多源异构数据进行知识抽取、知识表示与融合、知识存储、知识建模与推理、知识计算等功能,为会计档案关系模型、会计档案数据查询等基于图谱的应用需求提供支持。
(2)创建图谱:用于管理系统创建的面向具体业务的知识图谱,如创建会计档案知识图谱。
(3)图谱设计:针对会计档案知识图谱进行Schema 设计,即定义会计档案知识图谱中的“实体”和“关系”。
(4)我的数据:为知识图谱配置基础数据源,可直接从会计档案中获取。
(5)图谱构建:基于Schema 选择基础数据源进行图谱构建,支持“数据清洗”和“归一消歧”等操作实现对会计档案知识图谱的手动调优。
(6)会计档案关系模型:模型包含五大类会计档案中存在的“实体”(如合同、发票、供应商、银行回单、记账凭证、明细账、资产负债表等),以及形成会计档案中各实体的关键要素即实体的“属性”,整合业务链条的会计档案电子文件和流转信息,建立起实体与实体、实体与属性、属性与属性之间的联系及“关系”,构建会计档案知识图谱的关系模型,并以立体形式展现。展现形式概述如下:①关系模型全局视角:在首页以展示会计档案中实体与实体间的关系。②关系模型局部视角:通过选中点击定位或搜索定位,定位到某个实体,可展示其与其他实体的内在和外在关系。③穿透查看:支持定位到某个实体后,穿透查看该实体的所有属性信息。④提供对模型的缩放、拖拽、旋转等动态的交互效果方便查看。
(7)会计档案关系查询:接入会计档案的实例数据后,基于前期建立的会计档案关系模型,提供实例数据的检索查询,如输入供应商名称,则可展示出会计档案中所有和该供应商建立关系的实例数据,及该供应商相关的全业务链条的价值信息。
三、图谱构建流程
梳理形成会计档案的关键要素,还原业务管理的流程环节,串联相关单据信息、版式文件、信息内在联系,整合业务链条的会计档案电子文件和流转信息,并以关键节点与链路相结合的方式展示图形化知识图谱。
(一)图谱设计
图谱设计之前,要结合供电企业的业务特点,完成经济业务现状梳理,按照五大类会计档案信息完成各类档案间的实体、属性及其关联关系的整理。知识图谱要基于要素之间的关系来构建图谱数据模型,可以在系统以表格或者图的方式实现实体、实体基本属性、实体关系属性的添加。
(二)基础数据导入
基础数据是有可能或许应用到的基本常识类数据,比如地理位置、规章制度等。
(三)安徽档案馆数据到图谱设计知识映射
安徽档案馆的数据都已存入关系型数据库,数据之间的依赖关系也是以关系型的数据表来做关系建立的,所以需要有一个映射过程来把二维表的数据映射到图关系上。知识映射包括实体映射、属性映射及关系映射。
1.实体映射
实体映射的过程就是把二维数据库的某张表映射到图谱设计的某个实体上。
例如,图谱设计有个实体用户,数据库有个表NECP_UMC_XTYHXX,那就要有一个用户-NECP_UMC_XTYHXX 的映射过程。
2.属性映射
实体映射完后,比如用户-NECP_UMC_XTYHXX,那表里面属性字段要映射到图谱设计的基本属性,比如用户(姓名)-NECP_UMC_XTYHXX(YHMM)。
3.关系映射
关系映射是把二维表的关系映射到图谱设计的某个具体关系上,二维表的某个关系可能关联到2 张表,也可能关联到3 张表。
(四)图谱构建
图谱构建的过程则是把数据导入的基础数据和数据库映射的数据,都构建到知识图谱当中,供后续知识图谱应用。
(五)关系特性推理补全
关系特性是知识图谱推理的重要基础,如“所属角色”这个关系和“拥有用户”是互为可逆的关系,比如用户A-管理员-角色这样的关系知晓了,是可以推理出角色-拥有用户-用户这样的逆关系。此过程就是利用关系特性的对称性、逆关系的设置达到关系推理的过程。
(六)数据清洗
数据清洗是某些抽取到的数据在知识图谱中要一个转换的过程,比如非法字符过滤,数字转换等。
(七)归一消歧
归一消歧的过程是对多个数据源的抽取到的实例有可能重复了,需要去重复的一个过程,如用户信息,可能来自多个表,则需要对重复的用户去重。
四、应用成果
(一)低代码构建图谱设计
以原始凭证、记账凭证、账簿、报表、其他资料为核心,编制完成企业经济业务核算现状报告,厘清会计档案实体559 个,要素5505 个以及它们的联系,基于拖拉拽方式利用图谱设计灵活构建实体要素关系。
(二)全链路关系模型可视
利用可视化渲染技术,将图谱设计的图关系通过图视觉方式展现,结合图路径搜索、聚合算法、中心点算法、连通子图计算等技术推理数据关系。利用3D 技术,拖拽、缩放等交互方式,提升图的可视效果,形成五大类会计档案全链路网状结构知识图谱。
(三)场景式关系数据溯源
以数字会计档案馆数据为基础,丰富图谱的知识内容;以逻辑关系链接为基础,分析、构建、绘制知识载体联系;以智能技术为支撑,完成建模、抽取、融合、存储、计算与检索,构建体系化会计档案知识谱系,挖掘最小档案知识单元,实现场景式数据溯源,满足企业数字化管理需求。
五、应用价值
(一)将会计档案数据沉淀为数据资产
基于会计档案的知识图谱研究不是简单的数据梳理和统计分析,而是将会计档案知识映射到向量空间参与计算,用深度学习挖掘隐藏关系,实现数据价值,惠及企业管理。
(二)推进电力企业财务管理智能化发展
通过知识图谱技术重塑关键要素的排列组合方式以及更深层次的数据加工,进一步挖掘电力企业会计档案价值,推进业财管理智能化发展。
(三)应用人工智能技术提高查询效率
基于建立的会计档案关系模型,基于会计档案的知识图谱应用中接入会计档案实例数据可提供数据的快速、全业务检索,展示该数据全业务链条价值信息,助力企业数字化转型。
结语
知识图谱技术应用于会计档案管理,可以推进企业业务信息链与财务价值链的深度融合,挖掘业务信息与财务信息强关联性,为数据治理提供便捷基础,将信息管理应用向知识服务发展。基于会计档案的知识图谱,可以为大数据开放应用提供支撑,实现财务基础信息价值,为经济社会的发展创造价值、传递价值。