APP下载

基于改进C4.5算法的高校财务预警系统设计

2019-11-11赵男男

韶关学院学报 2019年9期
关键词:财务数据预警系统决策树

赵男男

(广东海洋大学 寸金学院,广东 湛江524094)

当前一段时间,很多发达国家将高校管理作为提升教育技术发展的一个主要任务,纷纷建立属于自己的高校财务管理体系,并总结了大量的经验[1].然而在国内,仍有很多高校财务管理系统在进行财务预警系统设计时,面对着海量的财务数据,无法分析数据属性特征和数据间存在的因果关系,使得财务预警出现了较大的误差,进而影响了高校财务状况管理的稳定性[2].在这种情况下,如何设计出精良的高校财务预警系统成为了国内外教育管理领域需要解决的重点课题,也引起了诸多相关学者的关注[3].

现阶段,在高校财务预警系统设计中经常用的算法有很多,并且也积累了一定的研究经验.文献[4]面对海量财务数据信息,将并行机制引入到决策算法中,并优化改机制,利用改进后的决策并行机制设计财务预警系统.该算法预警的响应性较高,但是存在数据属性冗余较多的问题.文献[5]总结高校财务状况识别的最优体系,建立不同类型的预警模型,进而完成对高校预警系统的设计.该算法预警鲁棒性较好,但是有效的进行财务数据属性分类,存在预警误差大的问题.文献[6]将神经网络引入到高校财务预警中,利用神经网络的构造能力和搜索能力完成对预警系统的设计.实验表明,该算法具有一定的预警精准性,但是存在预警过程较繁琐,耗时长的问题.

面对上述问题,笔者提出一种基于改进C4.5算法的高校财务预警系统.仿真证明,该算法具有较高的预警精度,在高校管理中的应用价值较高.

1 高校财务数据预处理

高校财务预警系统实现过程中,对财务预警是最终的目的,而实现这个目的的关键就是决策算法,财务数据是最根本.为了更好的提升数据的采集质量,为预警系统设计打下扎实的基础,首先就要组建一个财务数据的仓库.财务仓库作为预警系统的核心,其创建根本是要严格掌握不同类型财务数据的特点和具有代表性的变化规律,使其可以为各种财务报表分析和配备相匹配的数据状态,更是做出合理判断的一个重要凭证[7].

图1列举了财务数据仓库体系的流程图,组建数据仓库需要数据挖掘库和其各种应用工具、数据整理、初始数据源.

图1 财务数据仓库体系

传统财务预警系统设计之初,财务仓库实现的过程中,不同类型部门、各种需要财务支出的项目要建立系统的账本,致使了很多财务数据的混淆,不同类型的数据杂合在一起,包含了大量的噪声和残缺数据,数据内容也杂乱无章表现出冗余,没有规律性.这些数据是不能用于对财务状况的分析.此外,很多财务信息呈现的状态也较为模糊,稀疏混乱,难以用于财务状况判别[8].且初始数据中含有的部分数据是与财务状况决断毫不相关的,需要消除.综上所述可以说明,对数据的预处理是财务预警的关键环节.

数据采集的过程就是对多种类型数据源的整理,数据预处理则是将不同类型数据如异构、噪声、缺失、非结构和半结构化数据的统一整理,以便在数据较为复杂多变的情况下,对财务数据进行更好的整合.其中,在数据采集过程中,会将NoSQL作为中间的模型.在高校财务系统中,存储了多种海量的复杂财务数据,而NoSQL的最大优势是:第一,可以应对海量数据的多种存储方式;第二,对各种类型的数据源进行分批的采集、交换和存储;第三,可以有效的保持数据结构在数据存储中和仓库中形式的一致性.图2为NoSQL中间件模型体系结构图.

图2 基于NoSQL中间件模型体系结构

数据采集的主要步骤为:(1)数据初始源:数据融合是需要将不同类型的初始数据融合在一起,其过程是需要清洗不同结构的数据,消除冗余,以最大程度保证数据的可利用性和可靠性;(2)数据融合:将能够表现相同状态的数据融合在一起,建立数据一致性制度,并使其变成具有最大保留价值的信息集合;(3)归档存储:对将生命周期较为薄弱的数据进行变换归纳,长时间保留在学校财务数据的中心,为数据的检索和检测提供依据.

2 高校财务预警系统的优化设计

2.1 高校财务数据样本的分类

C4.5算法的优势在于可以以最快速度对海量数据进行分类,并可以发现数据的分布特性和其价值信息,并且可以将迭代的过程规范在最小的范围内,能帮预警决策作出更有效的分析.C4.5算法核心原理是,将整个数据训练集定义根节点,进行有序的区分,并分为很多个不同类型的小的集合,定义为根节点中的最外层的子节点,由此在深化,衍生为一个决策树,最大的特点就是较为迅速,精度较为优良.但是在高校预警系统设计的应用过程中,会面对海量的数据项属性,也就是说会形成一个很庞大的决策树,但海量预警数据中存在很多不均匀数据,缺失数据,当面临这些数据时,其分类的准确率会迅速下降,在反复排序和扫描后会延长系统的运行时间[9].在实现高校财务数据样本分类的过程中,假设,独立的某个数据属性会有多个取值,并且没有概化操作标识,并且容易被任意属性代替其深度概念,则应从信息列表中,将其剔除.如果,高校财务状态信息表内的基础建设投资支付情况、校办资产风险、基础建设资金投入状态及其高校自身筹集经费的年递增趋势等部分数据有很多取值,并且不能在其取值区域内搜索到概化操作标识的属性,那么就应该及时剔除.如果,样本整体的数量是S,属性的取值范围为R,概化标识符的属性由d′de,则利用删除财务数据样本中的冗余属性:

在式(1)中,e′j代表财务情况的描述,e″et代表数据属性种类.

制定选取数据属性的标准,利用信息增益最大为选取制度,选取数据属性后将其作为训练阈值,进行训练集的重新分类递归调用,将全部的例子归纳在相同的属性类别中,对组建的树进行修整.实现过程为:若∂′se是属性冗余度的最大值,在样本整体数量S内含有数量为m的类型样本ci,那么将si定义为样本类型的数量,采用式(2)得出整体信息熵:

在式(2)中,任何一个独立样本pi归类ci的百分比,可以用来预测.

之所以要进行职业体育新模式教学项目的设计,旨在做好学生职业劳动和社会发展相适应的身心素养的培养,保证职业体能的开展、职业竞争能力的培养以及职业保健能力的训练等都是有针对性展开的。

假设,一个x属性有数量为v的取值{X1,X2,…,XV},并且,Sj中有多个S内的样本,这部分样本具有的明显特征是,在x内的值是Xj(i=1,2,…,v),则将该属性定义为财务数据属性分了的阈值,可利用式(3)计算得出:

在式(3)中,子集Sj中包含Cj的样本数为S1j.

2.2 高校财务预警系统的优化设计

将熵的物理概念定义为衡量热力系统的没有规则的程度.将熵的含义繁衍到信息论中,依据熵的不稳定性,对C4.5算法进行改进,定义数据测试属性阈值,对全部数据属性的实体进行归类,衍生出一个决策树对数据属性测试程度进行预测,也由此实现对所有财务数据状况实际空间的归类.在衍生决策树的过程中,数据分类的标准是要选定一个属性,并且要促使子节点中的数据类别具有统一性.如果任意个独立节点内的数据具有类值均分度,则该节点为熵.

将全部数据信息剔除冗余后的信息分布程度定义为“信息熵”,即:

在式(4)中,随机样本是Ci的百分比为(Pi).

信息增益是定义独立数据属性在进行分类中包含的信息量的大小,该值影响了决策树衍生时所选取的节点,其值也大则对分类的作用就越大,相反其作用就小[10].独立的属性会通过计算信息熵来选取样本分类属性,利用式(5)计算A分枝获取的信息增益:

在式(5)中,给定样本S理想的信息熵为I(S1,S2,…Sm).

在衍生决策树的时候,重要的一个环节就是对节点的归类,将衡量节点的优劣标准就是信息增益率,在上述形成的信息熵和其增益的公式中,信息熵和增益的百分比就是信息增益率.而相互对比的是以单位为属性上的信息量.

信息增益就是在数据集以最小子集为单位时,变量值包含的误差.为了降低这种误差,利用式(6)计算出信息增益率:

利用式(7)得到增益率:

当决策树被衍生后,修减树是最关键的环节,以提升在对数据属性分类时期树的效果,剪枝时候,会剔除较多的子树,其目的就是得到更优质的性能,并且能够降低决策树的繁琐性.利用子树替代法进行改进C4.5算法的剪枝,其制度就是比较子树预测误差和任意子叶预测的误差,假设,叶子的错误率低于子树,则用叶子代替树.在衍生决策树后,需历经决策树,搜索出很多路径,并且不同的路径要对应不同的特征,将整个大树的表达规则生成后,发现最具有价值的子集,将规则集存储在设定的文件中,由此实现高校财务预警,即:

3 仿真实验证明

实验是以高校财务预警为结果,建立财务预警分析流程,见图3.

3.1 评价指标的设计

为了证明提出的改进C4.5算法的高校财务预警系统设计方法有效性,需要进行一次实验,在Mat-lab7.1环境下搭建高校财务预警系统设计实验仿真平台,实验数据来源于某高校2015-2016年财务状况.采用其中百 分之四十的数据做为训练数据,将剩余的百分之六十的数据定为测试数据,将预警精度做为主要评价指标来定义改进C4.5算法进行高校财务预警的整体有效性,将传统的C4.5算法做为对比算法,采用预警拟合优度做为客观评价指标来定义不同算法进行高校财务预警系统设计的整体优越性.假设,由∂″代表训练集整体样本数量,f′eg代表部分子集,则利用式(9)计算出预警误差:

图3 预警系统流程图

在式(9)中,s′sui代表单叶的误差比,h′drf代表信息杂乱度,则 e′def值越小,算法的预警精度就越好.

如果,s′sf代表样本分类最大表现度,代表样本分类属性数量,则利用式(10)计算出预警拟合优度:

在式(10),E′代表信息增益最大值,e′def代表变量取值,则 K′S值越高,算法的预测精度就越高.

3.2 本文算法的预警误差测试

利用本文算法进行高校财务预警系统设计,测试本文算法进行高校财务预警误差,测试结果见图4.本文算法进行高校财务预警系统设计预警的误差始终控制在较低的范围内,可以满足高校财务预警对其精度的需求(见图4).

图4 本文算法预警度对比

3.3 不同算法预警拟合优度对比

分别利用传统算法和本文算法进行高校财务预警系统设计,对比不同算法进行高校财务预警的拟合优度,对比结果见图5.利用本文算法进行学校财务预警的拟合优度要高于传统算法,这是因为采用本文算法进行学校财务预警时,引入Shannon的信息论,改进了选择测试属性的规则,保证了本文算法进行学校财务预警的整体优越性(见图5).

图5 不同算法预警的拟合优度对比

4 结语

在现阶段的国内高校财务管理中,还有部分高校对财务管理存在很多弊端,比如项目实现的速度过于迟缓,导致在规定的情况下,资金还有余额,并且拨款时间间隔较大,但在年底时却加大拨款的次数和频率,以至于产生满溢状态,影响了高校财务管理的稳定运行.

笔者利用Shannon的信息论对C4.5算法进行改进,并利用改进的C4.5算法设计出新的高校财务预警系统,利用决策树时刻掌握财务的最新状况,在一定的情况下,对其发出预警信息,对拨款状态及时把控,并监督有关的项目进程,实现辅助管理高校财务的目标.高校管理过程较为繁琐,要建立相关的制度和调配方向,在明确基本方向的基础上,对实现的具体步骤要有所监督,并对实现的内容要有所评价,同时高校财务管理本身也要做到实施前对其进行规划,实施中对其财务进行掌控,实施后对其进行评价的路线.而在其中,本文提出的改进C4.5算法可以较大程度的利用积累的信息资源,对高校的财务状态进行精准预测.

猜你喜欢

财务数据预警系统决策树
民用飞机机载跑道入侵预警系统仿真验证
一种基于CNN迁移学习的井下烟、火智能感知预警系统
一种针对不均衡数据集的SVM决策树算法
基于ZigBee与GPRS的输电杆塔倾斜监测预警系统
决策树和随机森林方法在管理决策中的应用
2018上市公司中报主要财务数据(8)
2017上市公司年报主要财务数据(6)
2017年上市公司年报主要财务数据(1)
2018上市公司中报主要财务数据(3)
桥、隧安全防范声光预警系统