基于大数据挖掘的制造业企业核算本体方法

2022-05-23郭星明

智能物联技术 2022年1期

张颖，郭星明

（浙江经济职业技术学院，浙江杭州 310018）

0 引言

进入大数据时代，工信部发布的《“十四五”信息化和工业化深度融合发展规划（2016-2020 年）》[1]催生了制造业企业大规模的物联网和互联网应用，也随之产生了海量的物理数据和网络数据，这些都为“两化融合”的进一步推进打下了良好的基础。纵观各类应用，大数据挖掘已在各行各业逐步发挥越来越重要的作用，比如理财分析、社交网站、天气预报服务等。就社交网站来说，可以通过分析网站历史记录（如点击记录、活动记录等）揭示用户使用习惯及其潜在关系[2]，为网站的市场运营决策服务。

对于制造业企业来说，大数据挖掘利用迫切需要找到一个切入点。企业根本的经济目标是利润。在大数据时代，随着企业中各种物联网设备和互联网应用的大规模投入使用，生产经营数据量呈爆发性增长，通过大数据挖掘处理和提取利用，高效、直接及至近乎实时地分析和利用这些海量数据，发挥其蕴含的巨大潜在价值，指导企业增盈减损，稳步提升核心竞争力，是应该的和可能的。

欲解决制造业企业中大数据对利润核算分析的关键作用，需要解决的重要问题是:

（1）如何捕捉在不同位置、异构系统中实时产生的大规模数据；

（2）如何使捕捉到的数据结构化、可视化和可理解；

（3）如何使异构系统中的数据指标体系无缝对接企业的核算体系；

（4）如何根据企业的个性化特征构建利润核算体系。

由于大数据产生的5V 特点：Volume （大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）和Veracity（真实性），使得上述问题极具挑战性。

1 相关研究

1.1 大数据挖掘方法的相关研究

当前，对大数据的研究主要集中在不同类型数据的高速并行处理（如针对批量数据处理的MapReduce[3]框架、针对交互式数据的Spark[4]系统、针对流式数据处理的Dremel[5]系统以及针对图数据的Pregel[6]系统）、大数据分析应用（如个性化推荐[7]、软件分类[8]、基因选择[9]）以及大数据处理基础技术[10]等方面，但将大数据和企业利润核算进行对接和管理的研究甚少。目前，企业的大数据应用和企业的核算通常是两张皮运作，甚至还需要依靠人作为“搬运工”来解决网络大数据的“誊抄”（可能会借助于Excel 等工具）和会计核算系统的“录入”工作，效率十分低下，信息孤岛现象明显，与国家“两化融合”的要求相去甚远。

1.2 本体中间件方法研究

面向管理信息系统的本体有六元组[11]、五元组[12]、四元组[13]、三元组[14]、二元组[15]等多种分析方法。其中，三元组的本体中间件[14]借鉴了其他领域中间件的研究方法和本体论工程的研究成果，将管理信息系统归纳为三元组，将领域业务知识与表及表的谓词演算相分离，然后运用数学集合空间的运算和数理逻辑的推导，完成并构造了一个基于管理信息本体需求的、与具体领域知识无关的，但又可以通过知识集映射领域需求的、通用的管理信息系统中间件构件平台[16]。本文的研究方法采纳了三元组本体分析方法。

1.3 企业核算方法研究

受国家财政部条例制约，自1994 年税制改革以来，我国制造业企业的会计核算制度一直在规范会计信息系统的标准化建设[17]。这种现象有利于各类商品化的会计账务处理软件稳定推行，一些有实力的企业也籍此进行了 “现代集成制造大系统平台”建设，实现了财务业务一体化[18]。但对这些企业以及更多的中小型企业来说，实现大数据时代资源的共享对接和个性化需求，以及成本费用的精准控制，尚在探索中[19-20]。作为会计账务处理软件，原始异构系统和柔性制造系统的数据共享和核算分录还无法实现智能高效的自动生成[21]。

2 问题建模

2.1 三元组模型

按照三元组理论，制造业企业的核算管理信息系统可以描述为如下三元组：

三元组S={U，T，P}是一个管理信息系统。其中U 为制造业企业核算领域的本体知识及需求的集合，也可称企业核算业务；T 为二维关系表集合，简称表；P 为针对T 而不针对U 的谓词演算逻辑集合，也可称为核算功能。

关于企业核算管理信息系统，上述表述的一个重要意义是实现了企业核算管理信息系统的业务与功能的分离。在三元组S 中，二维关系表T 是企业核算管理信息的载体，它的值域构成无限循环集合，见表1。

表1 二维关系表本体T 的值域表Table 1 Value range of the two-dimensional relation table ontology T

U 是会计核算领域特征的直接体现，它的值域构成无限不循环集合，见表2。

表2 会计核算知识及需求本体集合U 的值域表Table 2 Value range table of accounting knowledge and requirement ontology set U

P 通过对T 的静态描述（定义）和动态处理（演算）实现会计核算领域的信息本体处理需求。根据二元关系的定义，在数据库的关系代数中，专门的关系运算包括选择、投影、连接和除四种，分别以Γ、Σ、Π、Δ 四个符号表示。因此，P 是一个基于二元关系操作的有限集合。

选择操作：

Γ（T）∈T={T|tij；i=1，2，3，…，m；j=1，2，3，…，n；∀t∈T，st.γ（t） =true}。 γ 为选择条件。

投影操作：

Σ（T）∈T={T|tij；i=1，2，3，…，m；j=1，2，3，…，n；∀t1，t2，t3，…，tk∈T，st.tij=Σtl}。 Σ 为降维操作。

连接操作：

Π（T1，T2）∈T={T|π（tij）=true；i=1，2，3，…，m；j=1，2，3， …，n；∀t1∈T1，t2∈T2，st.t1=t2}。 π 为连接条件。

除操作：

Δ （T1，T2）∈T={T|tij；i=1，2，3， …，m；j=1，2，3，…，n；∀t1∈T1，t2T2}。 Δ 为除操作。

为进一步阐述异构信息系统之间的变换关系，引入关系运算M，用于对表集T 进行描述，其逆运算M-1则为抽象运算。

描述操作：M（U，T，P）⊆S={U，T，P}，M∈P。 M操作运用知识集U 赋予T 和P 以领域的意义，从而完成一般意义上的管理信息系统。显然，其逆运算应该是抽象运算：

抽象操作：M-1（{U，T，P}） =M-1（S） ={Φ，T，P}。显然，经过抽象的管理信息系统不再含有领域意义。

由于P 是针对T 而不针对U 的谓词演算逻辑集合，因此描述操作M 和抽象操作M-1可以简化为：

简化后的描述操作：M（U，T）⊂S= {U，T}，M∈P，称R={U，T}为状态集。

简化后的抽象操作：M-1（{U，T}）=M-1（R）= {Φ，T}～T。

{Φ，T}和T 存在等价关系，所以有时就进一步简化表示：

M（T）⊂S={U，T}，M∈P。

M-1（{U，T}） =M-1（R）=T。

2.2 形式化描述

按照上述三元组模型，基于大数据挖掘的企业核算信息系统S 可以形式化地描述如下：

S=M·Δ·Σ·Π·（Γ·M-1（S1），Γ·M-1（S2），Γ·M-1（S3）， …）

其中S1，S2，S3，…为各个异构系统，可以来自于物联网、互联网等多个数据源，如图1 所示。

3 中间件设计

3.1 平台架构

大数据时代的企业管理信息系统都是基于云服务的，因此企业核算系统的后端数据采集触角应当延伸到底层的传感器物理设施层（I），而前端服务则应面向企业决策层（S），中间是由中间件组成的各个服务构件，如图2 所示。

3.2 软件架构

对大数据背景下的企业核算系统的本体研究，其意义在于可据此构建一个面向大数据挖掘和企业核算的中间件软件平台，并形成高效、长周期、个性化和可持续完善的系统生命周期，以回应动态性、多样化、多源性和不确定性的企业信息化需求特征。中间件平台的设计框架如图3 所示。3.3 构件组成

三元组研究的价值在于可以据此构建一个通用的、基于大数据的企业核算系统的本体中间件，而基于谓词演算逻辑（功能）集合P 的构件开发则可使T 表的推演以及U 与T 之间描述和抽象等得以顺利地实现。

U 与T 之间描述和抽象一般通过静态元数据标引加以实现，其又可分为表格标引和表栏标引，根据企业核算和大数据特征，静态元数据标引集可如表3 所示。

表3 静态元数据标引指标概览Table 3 Overview of static metadata indexing indicators

而T 表推演的谓词演算属于动态元数据标引，其标引集可如表4 所示，一个可能的构件组成及其应用如表5 所示。

表4 动态元数据标引集Table 4 Dynamic metadata indexing set

4 企业核算本体推演

4.1 顶层设计

基于三元组的企业大数据核算工作流程是十分清晰的，如图1 所示。但是，在实际应用中，由于数据更为多样、动态和不确定，要动态、在线、自动地顺利完成此核算过程仍然是一个极具挑战性的课题。为解决这一问题，前述中间件提供了更为便捷的解决方案。在这一中间件平台上，大数据挖掘和核算工作可以在线调用和动态组装，并且构件的粒度大小能够保持在可以和业务相映射的程度。此举极大提高了企业核算效率，也为大数据时代的制造业应用开辟了一条新的思路。

4.2 大数据采集

大数据采集和挖掘是企业核算转型升级的必由之路。对于制造业中直接与核算相关的大数据，其来源一般是控制计量设备、互联网络以及其他异构系统，形式可能是流式非结构数据，也可能是半结构数据，或者是异构数据，为和企业自身的核算系统对接，必须要对其作结构化迁移挖掘。

异构数据可能是无序的和无结构的，但是挖掘的目标必须是有序的和结构化的。对于企业核算来说，下列状态集R=（U，T）是核算的必然要素和前提：

收料大数据：｛日期，[供应单位代码或名称]，材料代码或名称，数量，单价或暂估价，金额，签收人，[备注]｝

领料大数据：｛日期，领用部门代码或名称，材料代码或名称，数量，签发人，[备注]｝

投料大数据：｛日期，生产部门代码或名称，产品代码或名称，产出量，所耗材料代码或名称，数量，操作人，[备注]｝

能耗大数据：｛日期，生产部门代码或名称，能源代码或名称，耗用量，单价，金额，能源管理员，[备注]｝

成品入库大数据：｛日期，生产部门代码或名称，产品代码或名称，入库量，签收人，[备注]｝

成品出库大数据：｛日期，购货单位代码或名称，产品代码或名称，数量，单价，金额，签发人，[备注]｝

上述大数据中的数据项指标，除了“[]”中的信息对于核算是可有可无的，其他项目都必须关键存在，否则核算将无法进行。这些关键数据项可以通过特征抽取等方式从大数据源中挖掘而得。

为便于后续谓词演算，上述状态集经抽象后得到的T 表依次为：

其中，i=1，2，3，…。显然，这些表和业务无关。而它们又是和业务存在着解释、赋予等描述性的关系。因此，描述和抽象是自然存在的关系，不再一一推导。

借助于上述中间件，这些数据的迁移和挖掘有多种途径，如表5 中的“|R…；”，其中间件应用平台的界面如图4 所示，这些参数是可以在线定义、保存和自动执行的。

表5 基于谓词演算集的构件组成Table 5 Components based on predicate calculus

从图可见，借助ODBC （Open Database Connectivity）技术和流技术，几乎可以实现任意字符的数据挖掘，并使之成为结构化的数据表。如果借助图形和音视频分析软件，此中间件还可实现图形、音频、视频等信息的数据挖掘。特殊情况下，迁移挖掘可以是反向进行的，即向其他异构信息系统发送所需要的信息。

4.3 数据整理

对于进入企业核算的任何数据，均应经受会计人员的审核和未来的审计。因此，大数据集须进一步整理为适合人们阅读理解的界面形式，并需要按国家财政部门的要求格式规范打印存档。其中涉及到许多界面形式的要求（见表3）和阅读习惯，有时需要从多个采集表中连接、筛选、转换而成，可借助上述构件方法，对大数据集作进一步的处理。以某化工企业的投料为例，其投料单的界面形式如图5所示。

这一界面显然和大数据采集而得的数据形式有较大的差别，且符合我国管理模式的风格。以构件表述的整理过程见表6。

表6 大数据整理谓词演算的构件表述集Table 6 Component representation set of predicate calculus for big data sorting

4.4 核算推演

可以在经整理的原始表集T=｛MR，MS，BM，EB，PI，PO｝基础上，作进一步的谓词演算推演，以逐步完成材料核算、车间核算、成本核算、费用核算、收入核算，最终实现利润核算。这些核算涉及到的重要状态表集如下：

材料核算MA：｛月份，材料代码或名称，期初数量，单价，金额，收入数量，单价，金额，领用数量，单价，金额，耗用数量，单价，金额，期末数量，单价，金额，[备注]｝

车间核算CA：｛月份，产品代码或名称，工时，产量，材料代码或名称，用料量，损耗分摊量，[备注]｝

成本核算VA：｛月份，产品代码或名称，产量，产品总成本，材料代码或名称，用料量，损耗分摊量，单价，金额，[备注]｝

费用核算FA：｛月份，产品代码或名称，分摊费用金额，[备注]｝

收入核算HA：｛月份，产品代码或名称，销售数量，单价，金额，[备注]｝

销售核算SA：｛月份，产品代码或名称，期初数量，单位成本，金额，生产数量，单位成本，金额，销售数量，单位成本，金额，期末数量，单位成本，金额，[备注]｝

利润核算PA：｛月份，产品代码或名称，销售收入，销售成本，毛利，[备注]｝

这些表的核算推演关系如图6 所示。以成本核算为例，基于构件表述的整理过程见表7。

5 实施情况分析

5.1 开发效率分析

本体开发方法优于一般开发方法的最大特点在于能够很好地实现原型开发思想，即符合人们思想认识的渐进性，以及需求不甚明朗和经常处于变动之中的情形。自2011 年以来，本课题的本体中间件（VC For API 开发工具+MSSQL 或ORACLE 数据库）就分别应用于多个行业企业，极大地提升了软件开发效率，如图7 所示。

图7 中，一个中型规模制造业企业的企业核算系统开发天数，由原来的平均一年缩短到现在的平均30 天；开发团队人数由原来的10 人左右，缩短到现在的2～3 人；全部程序共35 万代码行的更改量由原来的5 万行，缩短到现在的不足五百行。整体效率提高了三倍。

5.2 应用效率效果分析

本体开发方法将功能和业务分离，于是目标系统的开发就成为原型的二次定义，许多功能可以在现场定制，极大地改善了与目标用户之间的需求沟通。特别是一些简单系统的维护，可以授权用户自行解决，对于延长系统的生命周期有十分重要的意义。同时，系统的灵敏性也有所增强，企业可根据市场波动和高层决策及时主动调整系统需求，并在短期内加以实现，可以抓住有利时机，为企业争取更多的利润空间。系统应用效果如图8 所示。

图8 中，企业应用信息系统之后，岗位管理人员数从20 余人下降到7 人；借助系统实现了平面化管理，库存和资金周转的天数也从90 天以上大幅缩短到20 天左右，企业外延市场扩张和内涵挖掘并举，利润也有显著的增长。5.3 异构资源共享

近年来，随着两化融合的逐步推开，基于大数据挖掘的企业核算本体中间件日益显现了灵活、高效的特点。迄今为止，系统已与银行对账、财税申报、工业控制、员工考勤、工资发放等多个政府部门、中介机构实现对接，还和其他财务软件实现了信息资源共享，如图9 所示。

6 结语

随着两化融合的深入，企业管理信息化必然要和工业信息化发生全方位的交融，海量的数据无疑为管理效率的提高和利润的挖掘带来新的机遇。抢抓这种机遇，正确应对复杂多变的市场，及时作出科学合理的经营决策，需要灵活、高效的系统软件的有力支撑。为此，本文设计了一种面向大数据挖掘的企业核算本体中间件，通过本体抽象，实现业务和功能的分离，并构建了灵活通用、又有适当粒度的功能构件，以原型定义、在线调用、动态组装的方式，有效解决了用户需求的及时响应。一段时间的应用情况也表明，这样的中间件及其开发方法是十分适应制造业企业，特别是中小企业的信息化应用发展的，具有明显的优越性。