基于关联规则算法的医院财务信息自动处理系统

2022-08-17郭霏霏

自动化技术与应用 2022年7期

郭霏霏

（首都医科大学附属北京世纪坛医院，北京 100038）

1 引言

医院财务信息处理量日益增多[1]，构建财务信息处理系统对于缓解财务配置与合理规划医院有限的运行经费、有效地发挥医院财务核算与管理有着很大的作用[2-4]。对信息进行自动化处理时，通常借助数据挖掘、信息自动处理处理财务信息，财务信息冗多种杂，传统方法在财务信息处理存在上存在信息处理精度低的问题，为此，相关学者进行改进。曹纳提出一种基于支持向量机的企业财务风险预警系统[5]，通过SVM 算法的划分财务风险等级，根据财务风险等级划分结果，对财务风险进行防范，能够有效实现财务信息预警，但是对财务信息的处理精度较高。赵男男基于改进C4．5算法的高校财务预警系统设计[6]，通过改进C4．5算法对财务数据进行分类，根据财务数据的状态进行分块，构建财务信息决策树，实现财务信息预警，此方法能够有效实现信息异常监测，解决财务信息风险，但是此方法操作繁杂导致运行时间长。为此，本文提出一种基于关联规则算法的医院财务信息自动处理系统，目的是建立起统一的收费项目，达到业务数据关系梳理的目的。

2 系统结构总体

财务信息处理的功能是在完全符合基础核算的基础上，达到财务集中、全面预算、财务报告、资金管理的全面统一的效果，协助医院财务处理由从会计核算型向决策型转变，最终达到医院财务收支的有效控制与合理利用的目的[7]。与此同时，系统还需要满足简单易于操作的需求，借助财务信息处理系统的功能需求设计如图1所示的总体结构。

由图1可知，财务信息系统的组成部分包括初始设置管理模块、日常财务管理模块、以及用户管理模块等等；初始设置管理模块包括录入初始数据、平衡校验等；日常财务管理模块包括凭证处理、转账记账等。

图1 总体结构图

2.1 数据采集服务器

利用采集服务器向被测关键网元设备发送采集数据信息，同时对被测关键网元设备发送回的原始数据进行接收，之后再把数据向汇总分析服务器传送，执行数据分析操作[8]。数据采集服务器启动时，首先将载入数据库中现有的关键网元设备信息，信息是依靠汇聚分析服务器的GetNetUnits接口获得到的。

数据采集服务器结构图如图2所示。为了隐藏功能实现的细节，在数据采集服务器中，首先定义关键词变量，这是关键网元设备对应的插口。启动数据收集服务器时，初始化的主要对象是初始化测试目标字典。数据采集服务器将采用协议将测试数据发送到关键的网元设备，务必确保每个设备对象，达到实时依据设备信息得到该设备的插口对象的目的，更有助于系统监控和控制测试业务。其他关键变量代表汇聚分析服务器的服务，客户端变量是数据采集服务器和汇聚分析服务器之间进行通信的变量，并调用汇聚分析服务器接口，实现数据采集服务。

图2 数据采集服务器结构

2.2 数据存储设备

数据存储器的主要性能体现在在存储容量和读写速度这两个参数信息上，所以在对内存的基本结构进行设计时，务必要对这两个参数指标进行考虑。为了兼顾并且适应这两个参数指标，需设计存储器整体结构。芯片的结构设计要满足存储阵列中的每一个存储单元达到精确的控制的标准，保证各电路节点的负载电容容量不能过大，不然可能影响到芯片的运行速度。因晶片上的器件的加工方式是按照平面形式，所以存储器芯片的设计通常情况下是借助将大量的存储器按照二维阵列排列完成，之后在阵列中间加入一列选择线。图3是存储列阵结构图。在芯片对某个地址的数据信息进行读取时，选取存储单元对于连接的列选择线时，需激活该操作，同时，与字线相连接的存储单元也会启动，读数据传送到它们所相连接的的行数据线上，该数据线称为位线，存储单元读或者是数量与位线相等。这使得只需控制字段便能够控制操作激活任意一列存储单元的目的得以实现，进而能够一次性读取或者是录入数据。此种连接方法，把同一个行存储单元的数据线、同一列的存储单元信号线分开采用并联的方式，尽管增加了节点电容，但是阵列的线性增加能够提高容量，而电容的增加和延迟的增多是一个维度上的线性增长，所以，倘若存储器的规模很小，伴随容量的增多，速度将会随之慢慢下降；若存储阵列的规模继续增大，速度持续下降，存储阵列的损耗的弊处可能超过容量的增加所带来的好处时，就需要停止增加阵列的容量。

图3 存储列阵结构图

在存储器阵列中，针对列的选择线，往往把存储器地址线的部分数据位译码连接到列的选择线上，进而达到地址对存储器单元列的控制的效果；针对行数据线，某些存储器借助把所有的位宽读取进芯片寄存器逻辑，以实现能够快速地达到连续地址读写的目的，然而其他的存储器则对全部的行进行分组操作，每次只需要把其中一组位线与外部相连接，进而达到存储芯片的按字节随机地址读写的目的。在数据线的处理方面，以逻辑角度，可直接把一个存储阵列的全部单元的输入、输出数据线并联，形成数据总线，增加控制线数量使得所需的存储单元能够正常工作。但是，倘若将全部的存储单元直接连接，那么会造成很大的电容负载，使得读写操作延迟变大，偏离存储器设计的要求，所以在对数据总线进行处理时，通常情况下是先按照存储阵列的维度进行连线，形成若干个中间的总线，之后再依据操作地址选取其中一条总线与芯片总线进行连接。

2.3 信息自动处理平台

信息自动处理平台采用集群系统，分布式中间件作为数据存储和计算平台采用无共享体系结构数据处理程序部署在每个节点之上数据保存在分布式文件系统中。信息自动处理模块构图如图4所示。

图4 信息自动处理模块构图

由图4可知，信息自动处理平台通过信息数据交换模块、信息自动处理模块、可视化结构、视图变换、数据可视化引擎、以及人机交互界面、等完成信息的自动处理进程。信息自动处理平台为大规模并行数据处理提供运行环境，它的工作原理是把作业过程分成若干个小的任务分区，各个任务处理是在不同的分区进行，数据存储在对应的磁盘中，在信息自动处理阶段之前，会对磁盘数据执行预处理操作，在主存中把输入数据转换成键值对格式的形式。

3 软件部分

3.1 信息挖掘设计流程

数据挖掘过程能够看作是数据分析与知识发现的过程，借助海量数据隐含的、有价值的和可利用的规则与规律，之后借助发现的规则或规律进行辅助决策。数据采掘的内涵是从海量的不完全的数据中选取涵盖有用知识的一个过程，数据源可以由数据仓库充当，一个或者是若干个数据库用于存储的数据的供应。这个服务器是以用户提交的数据挖掘请求为基础的，在数据源中对有关数据进行提取。资料预处理的任务是在资料来源中国对资料进行提取以及资料清洗，用于资料挖掘过程。借助兴趣度阈值，把模式评估模块同数据挖掘模块结合，达到所需的模式。可视化接口模块支持用户进行系统交互，达到对指定数据进行挖掘的目的，信息挖掘设计流程图如图5。

图5 信息挖掘设计流程

3.2 关联规则算法

在信息挖掘流程作为支撑的背景下，借助关联规则算法，为系统提供基本数据信息。关联分析也称关联挖掘，属于一种简单、实用的数据分析方法。从严格数学的理论角度分析，关联分析技术不是特别复杂，只要将海量数据信息放在一起，通过运算便能够发觉数据间的关联性与相关联的物理量信息，体现出一个参数或者一组参数同事件间的联系。为了更好的发觉交易数据库中不同类别信息之间的关联性，在信息处理阶段需要能够更好地完成对应的分析处理任务。

倘若支持度support(x)超出给定的某一个阈值，则将它称之为频繁项集；蕴含的规则是support(x→y)的支持度通过x与y同时出现的事务数和N的比值表示；置信度confifence(x→y)是由蕴含规则(x→y)的支持度与项集x的支持度support(x)的比值表示。蕴含规则x→y的支持度与置信度借助以下式子计算：

公式(1)中：σ(x)代表x出现的频次，σ(x y)代表X与Y同时出现的频次；

公式(2)：support(x)代表项集X支持度，σ(x)代表x出现的频次，σ(x y)代表X与Y同时出现的频次；confifence(x→y)代表蕴含规则(x→y)的支持度和项集x的支持度support(x)之比。

通过以上发现交易数据库中不同类别信息之间的关联性，使信息处理阶段能够更好地完成相应分析处理任务。关联规则算法流程图如图6所示。

图6 关联规则算法流程图

3.3 财务信息处理流程

在数据挖掘的关联规则算法与数据挖掘过程的基础上，通过财务信息处理流程，完成对信息的自动处理，财务信息处理流程如图7所示。

从图7可以看出，通过原始凭证汇总表得到原始凭证，将所有科室的原始凭证获取收集、储存作为之后的记账凭证，而记账凭证分为现金日记账与银行存款日记账；将原始凭证经由用户交互界面，得到各类明细账，将得到的原始凭证信息以及各类明细账信息下发到用户的主机中，形成会计报表；同时，将银行存款日记账形成科目发生余额表，执行总分账之后最终也能形成一份会计报表。之后将得到的全部会计报表能够提供给医院领导进行随时的提取与查看，依靠以上的步骤，完成医院财务信息处理系统的设计任务。