数据挖掘技术在高校预算编制中的应用综述
2014-04-29李硕周董
李硕 周董
[摘 要] 2013年以来,全新的《事业单位会计制度》和《高等学校会计制度》相继出台,高校经济运行体制在新制度指导下,开始由粗放式管理模式逐步转变为精细化、透明化的管理模式,产生了对高校办学成本进行分析的要求。在高校预算编制过程中,如何从上年度预算执行情况中获得对新一年预算编制工作有指导意义的,有利于高校管理层决策的知识,成为当前高校预算管理研究的一个方向。将近年来兴起的数据挖掘技术应用于高校的预算管理工作中,是一个不错的选择。本文对高校预算工作现状和数据挖掘技术在预算编制中的应用进行探讨。
[关键词] 高校预算;数据挖掘;财务管理;DM;KDD
[中图分类号] F232;G475 [文献标识码] A [文章编号] 1673 - 0194(2014)19- 0034- 03
1 高校预算管理现状
作为高校运作的经济命脉和神经中枢,我国高校预算管理的改革正在逐步深化,高校预算管理工作由最初的“资源配置”功能逐步转化为“资源配置”与“目标控制”并重[1]。“资源配置”是实施预算管理的原始动力,而“目标控制”则是预算管理优良再循环的重要基础。目前,随着高校体制改革的推进,高校预算管理工作中的“目标控制(管理)”功能已经愈发得到高校管理层的重视,但是在实际的预算编制中,高校基本上还是采用基数―增长的预算编制方法[2]。这种方法简便易行,但实质上是预算编制人员在默认上年预算合理的基础上根据上年财务收支工作中累积的经验和本年概略的发展目标制订一个粗糙方案,是一种缺乏科学性、公开性、公平性的非量化的预算编制方法。究其原因,是现有的预算执行体系缺乏一种有效的、可靠的辅助决策机制,难以产生科学可信的可供管理层和预算编制人员参考的预算执行分析报告,预算编制工作的质量只能依赖于本级预算编制人员和下级预算单位相关人员的工作经验和职业道德,对于高校决策者来说,这样的预算管理机制是模糊的,不规范的,难以掌控的,不利于高校形成健康的运行体制,也不利于高校制订长远的发展规划。只有通过信息化手段,运用某些特定的方法,从高校预算执行过程中形成的海量数据里,提取和精炼高置信度的关联数据,对预算编制工作进行强有力的支撑,才能形成科学合理的高可靠性的预算编制方案。
目前,我国高校预算管理和会计核算的职能并没有分离,同属于财务部门。高校财务部门普遍应用的商业化财会电算化系统是基于高校一般会计核算需求设计开发的,在《事业单位会计制度》和《高等学校会计制度》的框架内,财会电算化系统围绕会计核算的基本职能来运作,在提供管理决策支持方面的功能是微弱的,同时由于会计电算化数据相对单一、孤立,丰度低,在记录高校经济活动的过程中偏重于合法性,无法全面准确地从成本效益的角度反映高校包括教学、科研、行政、后勤各类机构的运作特征,进而导致无法提供有效的信息来满足决策层的管理需要。那么,应用数据挖掘技术,对与高校经济活动相关联的数据进行科学的分析、处理和展现,是目前比较可行的方案。
2 数据挖掘技术介绍
近年来,信息技术在生产生活中的应用呈指数级增长,各行各业在实际工作中积累了巨量的应用数据,这些数据中蕴含了许多有价值的规律和知识,被称为“知识金矿”。由于缺乏强有力的数据分析工具,这些宝贵的知识财富只能混杂在大量的冗余数据中,慢慢地流失自己的价值。数据挖掘(Data Mining,DM),也被称为知识发现(Knowledge Discovery in Database,KDD)技术,就是从大量的、异构的、模糊的、有噪声的应用数据中发现并提取浸没在其中的有价值的、可靠的知识信息和模式的数据处理过程。数据挖掘技术是涉及多学科的技术集成,包括数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理以及空间或时间数据分析[3]。
数据挖掘的过程由数据预处理、数据挖掘、模式评估、知识展现这4个可以互相迭代的步骤来完成,其中数据预处理步骤包括对数据的清洗、集成、选择、转换等操作,模式评估质量则依赖于支持度、置信度等客观度量的选择和制定,知识展现过程就是使用可视化技术向用户提供易于理解的知识发现结果。
3 数据挖掘技术在高校预算管理中的应用
基于数据挖掘技术对规律和知识发现的强大能力,将数据挖掘技术和高校的财务预算编制工作结合起来,不仅有利于使财务人员从繁杂的财务数据中解脱出来,减少财务工作人员在高校运作和科研方面知识的短板对预算编制工作的负面影响,同时也给高校管理层提供了清晰、可靠的决策参考。基于数据挖掘技术的预算3.1 预算数据预处理
高校在预算编制过程中涉及的数据种类繁多,在目前高校管理系统暂未进行有效整合的现实环境下,各部门基本按照归口上级部门的要求,应用纵向体系下安排的MIS系统或者各分属行业应用自己符合行业标准的通用管理系统,包括教务管理系统、人事管理系统、财务管理系统、科研管理系统、国有资产管理系统、后勤集团下属各行业管理系统等。这些MIS系统使用各种数据库管理系统(DBMS)来进行业务支撑,包括ACCESS,MS SQL Server,Oracle,InterBase等,有些数据甚至只是一些表格文档、Web页面、平面文件(Flat File)等,这些数据只要和高校预算编制工作有关,就需要通过数据预处理的流程载入预算编制的数据仓库中。
对于能够支持某种标准数据接口规范(比如ODBC)的DBMS,我们只需要在数据预处理工具(Extraction-Transformation-Loading,ETL)中指定源数据类型就可以了,一些符合数据格式描述的平面文件,也可以通过安装平面文件提取插件(Flat-File Extraction Plug-in,FEP)来辅助完成,一些缺乏数据形式但是具有数据意义的平面文件,则需要进行人工处理,至少符合ETL标准后通过ETL工具载入预算数据仓库。
当然,在各类预算相关数据载入预算仓库之前,应通过ETL提供的数据清洗工具对数据进行清理,如果不能满足本校预算编制规则,则可以通过一些易于二次开发的工具,比如Potters Wheel编写定制的数据清理程序。数据清理的过程主要包括缺失值处理和降噪处理。处理缺失值的方法一般采用回归、决策树、或者贝叶斯推理的方法来生成一个最可能的值来填充(需注意空值和缺失值的区别)。降噪处理主要通过分箱、回归、聚类等方法去除噪声数据,通过这两步处理后,待处理数据将变得完整和平滑。
将“光滑”的数据载入预算数据仓库后,可以根据预算编制的约束条件对数据进行集成、变换、规约、分层等处理。
在数据集成的过程中需要注意到实体识别(比如,不同MIS系统中关于教工编号的表达)和冗余(比如两个字段,一个是月基本工资,一个是年基本工资,这两个数据中的一个即为冗余数据)问题。
数据规约操作可以以极为微小损伤的方式高度压缩数据量,在大大提高数据挖掘效率的同时产生相同(或几乎相同)的分析结果。主要方法有数据立方体聚集、属性子集选择、维度规约、数值规约、离散化和概念分层产生等,譬如,一些预算项目编制时需要参考上年度整年的支出情况,有些预算项目编制时需要根据高校特征(暑假开学、寒假开学、招生季、拨款规律)等,这些预算编制时无需逐月参考上年数据,可以使用数据立方体聚集的方法压缩数据,有些属性,比如教工电话号码等,对预算编制无意义,可以使用属性子集选择的方法过滤数据,如果某些数据经过编码重构之后对信息表达无损的,可以使用维度规约的方法(数学方法)等。
通过数据预处理,将预算编制需要的相关数据转换成适合挖掘的数据形式后,我们就可以开始从这些数据矿藏中挖掘“知识金矿”了。
3.2 预算数据挖掘
高校预算编制的过程中需要涉及具有多种特性的支出、收入项目,需要根据这些项目的特征选择合适的数据挖掘方法,主要的数据挖掘方法及其在预算编制中的应用如下。
3.2.1 分类分析
分类分析的方法就是按照预算项目的特征设定分类模式,按照分类模式将待分析数据划分为不同的种类,在给定这些数据分类标示符之后,按照类别仅进行分析和汇总,从中提取出有价值的规律和知识。
这种方法在预算编制决策中可以应用于不同办学层次收入分析,不同层次人才的科研经费获取能力分析,不同专业招生能力分析,不同类别科研项目经费支出分析等。
3.2.2 回归分析
回归分析的方法反映了某一事务的属性值在时间维度上的变化特征,形成一个变量或属性间的函数关系,主要研究的是随着时间变化的趋势,研究这个趋势可以对未来属性值的变化进行预测,以及发现时间维度上这些数据之间的关联关系。
这种方法在预算编制决策中可以应用于专业设置趋势分析(对于专业设置相对灵活的职业教育类高校的预算编制工作尤其重要),能源耗用分析等。
3.2.3 聚类分析
聚类分析的方法是将一组数据对象分成类(簇,Cluster)的过程,使得同一个簇中的数据具有极高的相似性,而不同的簇之间的数据对象具有高度的相异性。适用于事先没有已知的类别划分,需要在分析过程中形成相似数据聚合并得到簇的数量和特征。
这种方法在预算编制决策中可以应用于某些项目核算的科目支出账的分析,比如差旅费支出特征,专利费支出特征,项目往来账分析等,从中获取不同的项目在科目支出方面可能的规律。
3.2.4 关联规则
关联规则的分析方法是分析数据项之间存在的关系的方法,即分析某一事务中数据项的出现或者变化与另一事务中某一数据项的出现或者变化是否具有内在联系的方法。应用这种方法常常能够找到看似无关的数据之间潜在的有趣的关联关系。
这种方法在预算编制决策中可以通过对收入和支出数据之间关系的分析,找到其中内在的规律,比如可以试着分析科研经费收入的变化和业务招待支出之间在科研经费预算流程中是否有某种关联,就业经费支出和学费收入之间在一般收支预算执行过程中是否有内在的联系等。
3.2.5 变化和偏差分析
变化和偏差分析方法用于分析分类中的反常实例和模式的例外,通过分析实际结果与预测之间的偏差找到潜在有趣的规律,常常用于风险分析。
这种方法在预算编制决策中用于对高校上年度预算执行情况中发生的规则外情形进行分析,比如偶发的大型支出,比如限制或禁止点招之后对学校收入的影响等。
3.3 数据挖掘结果的模式评估
在选择以上5种方法对合适的数据进行第一次挖掘之后,我们要对挖掘出来的知识进行评估,评价其对预算编制工作是否有用。评价基于4条标准,即是否易于理解,是否能在另一组相似数据上再现,是否具有潜在价值,是否是全新的知识。在模式评估中存在一些模式兴趣度的客观度量,包括支持度和置信度两种评价方法,定义为:
support(A=>B)=P(A∪B)
confidence(A=>B)=P(A|B)
其中支持度(support)的意义即在事务中A项和B项同时出现的概率,信任度(confidence)即在事务中出现事务B的同时,也出现事务A的概率。
使用支持度和信任度对模式进行评估后还要根据需要人工对挖掘成果进行主观评价,根据模式评估结果对数据挖掘的有效性进行改善,对数据进行重新挖掘或者改用其他方法进行挖掘。 4 预算数据的数据挖掘举例
使用分类分析中的决策树算法对高校不同专业的招生能力进行分析,有利于高校适时灵活地进行专业调整,提高招生指标的完成度,获取更多的财政拨付资金。
决策树算法是通过构造决策树来发现数据中蕴含的规则,一般分两步来进行:第一步,根据已知领域知识构造决策树,第二步,根据模式评估效果对决策树进行修剪。经过这两步的操作,产生新颖的知识。
专业设置决策树生成步骤如下:
(1)按已知的招生不足和招生足对数据进行初始分裂
(2)按已知的学科分类比如社会科学类和自然科学类专业进行第二次分裂。
(3)再按专业细分分别对社会科学类和自然科学类专业进行再次分裂。
(4)生成决策树。
(5)根据模式评估对分类方法进行改进或者对决策树进行修剪,根据需要从步骤1重新开始。
生成决策树的例子如图3 所示。
图3表明,职业教育型高校专业设置应以实用和就业为导向,减少纯理论性专业的设置,提高招生效率,在财政资金拨付以招生人数为基准的情况下,只有这样才能获得充足的预算收入,具体的量化指标依赖于对数据的挖掘,需根据兴趣度对决策树进行判断和修正。
5 结 语
随着新的《事业单位会计制度》和《高等学校会计制度》的出台,全面预算和绩效预算成为高校预算改革的目标,科学应用数据挖掘的方法,对高校运作过程中产生的海量数据进行多角度、多维度的分析,形成清晰明确的管理决策信息,有利于高校在预算编制工作中做到兼顾公平与效率,使预算更好地服务于高校长远规划,为高校的科学发展提供坚实可靠的数据基础。
主要参考文献
[1]陆媛.高校预算绩效评价的理论研究及绩效指标体系设计[J]. 技术经济与管理研究, 2006(1).
[2]张宽. 我国高校预算管理体系研究[D].湘潭:湘潭大学, 2010.
[3][加]Han J, Kamber M. 数据挖掘概念与技术[M]. 第2版.北京:机械工业出版社,2007.