大数据背景下数据挖掘在高校固定资产统计中的应用研究

2015-12-26陈永峰

河北软件职业技术学院学报 2015年2期

关键词：系部决策树类别

陈永峰

（河北软件职业技术学院，河北保定 071000）

大数据背景下数据挖掘在高校固定资产统计中的应用研究

陈永峰

（河北软件职业技术学院，河北保定 071000）

目前我国大部分高校对固定资产实行账物分管的归口管理模式，易造成固定资产实物流动中的失联或者丢失。而数据库管理只是对数据库中已有的数据进行查询等简单统计，通过这些数据获得的信息参考价值不高。隐藏在数据背后的对领导决策有价值的东西，需要分析统计出来。数据挖掘技术可以智能分析数据，从中挖掘统计出有价值的信息，帮助决策者做出正确的决策。

大数据；数据挖掘；固定资产；统计

伴随着高校办学规模的不断扩大，高校固定资产急剧增加。如何对高校现有固定资产管理系统中大量数据进行集成，资产怎么分类，资产如何分配，资产如何投资，怎样形成对管理者有价值的决策信息，是值得我们深入思考和解决的问题。本文以高校固定资产数据为分析对象，采用数据挖掘常用算法对资产数据进行统计研究。

1 基本概念

1.1 数据挖掘

数据挖掘（Data mining，简称DM）是一门新兴的学科，诞生于20世纪80年代。从技术层面分析，数据挖掘就是一个数据处理过程，即从数据中提取知识、提取有价值的信息的过程，而这些数据是海量的、无规则性的、复杂性的、随机性的、模糊的。从商业角度分析，数据挖掘就是从数据中提取、分析一些潜在的规律和价值，从而获得辅助商业决策的有价值的信息，这些信息通常以知识、规则等形式来表现。数据挖掘是以数据库、人工智能、数理统计、可视化四大支柱技术为基础的统计技术。数据挖掘存在很多算法和方法，一个数据挖掘算法或者方法一般分为三个部分：输入、输出和处理。其中，各种类型的数据为数据挖掘算法的输入；有价值和规律的知识为数据挖掘算法的输出；具体的搜索思路和方式方法为数据挖掘的处理过程。

数据挖掘通过各类适合的算法从海量数据中进行抽取，分析出辅助决策的关键性数据。

1.2 数据挖掘的常用方法

数据挖掘常用的方法有分类、遗传基因算法、聚类以及变化和偏差分析等。

（1）分类。分类是数据挖掘的基础。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类。

（2）遗传基因算法。遗传基因算法是一种由生物进化衍生而来的学习方法，通过对当前已知的最好假设变异和重组来生成后续的假设。

（3）聚类。聚类是把一组物理或抽象的数据集按照相似性和差异性分为几个组，使得属于同一组的数据间的相似性尽可能大，不同组中的数据间的相似性尽可能小。

2 固定资产大数据系统

2.1 系统特点

系统必须能实现固定资产的入帐、启用、借用、维修、封存、报废、损坏、标签打印等操作，可以用附件形式保存入帐凭证和相关证据，也可以保存二维码图片。后台数据库类型、版本不限。

系统为每个固定资产设置采购部门、使用部门属性，用于区分固定资产的所有权、使用权和管理义务人。同时为每个固定资产设置物理位置属性，方便对固定资产的跟踪管理。

2.2 系统功能

系统由主数据和固定资产管理两个部分组成。主数据部分存放系统所需要的一些基础数据，由系统管理员进行维护。固定资产管理部分为固定资产管理过程中需要使用的各个模板，由用户直接操作。

2.2.1 主数据部分

（1）来源类型。表示高校取得固定资产的来源渠道。

（2）位置分类。存放固定资产的位置类型，一般根据该位置的风险程度和特征区分。

（3）物理位置表。存放各单位、系部、人员所有可能存放固定资产的位置名称，以树型表示。

（4）折旧方法。即高校可能采用的固定资产折旧方法。

（5）资产类别。根据某个标准对固定资产进行分类，以树型表示。

（6）资产状态。表示固定资产状态是否良好以及能否使用，包括在用、维修中、封存、已损坏等。

2.2.2 固定资产管理部分

（1）入帐和启用。用于初始取得固定资产时，对资产进行登记并分配给特定部门。

（2）折旧。每月对固定资产计提折旧计算。

（3）调拨申请。当某个固定资产从一个部门转移到另外一个部门使用时，需要按照调拨流程进行审批。

（4）维修记录。当固定资产需要送至校外某处进行维修或者保养时，需填写此表。

（5）资产损坏。当发现固定资产损坏时，使用此表来评估损失额，追查原因，追究责任。

（6）丢失。当固定资产丢失时使用。（7）报废。当固定资产报废时使用。

（8）出入库。包括出库和入库两个模板，两者共用一个数据表。对于长期闲置的固定资产，可以将其移入资产管理部门仓库封存起来，待需要使用时再移出。

（9）标签打印。打印固定资产标签以及二维码。

（10）资产位置转移。当某个资产在同一个使用部门内部进行位置转移或者责任人转移时使用。

2.3 大数据维护

2.3.1 资产类别的维护

资产类别由类别编号、类别名称、上级类别编号构成。资产类别根据类别编号的位数而自组织成一个树型，1至4级代表的编号位数分别为4、2、2、2，即W001010203中的W001代表1级，01代表2级，02代表3级，03代表4级。当新增资产类别时，须正确填写该类别的编号。

2.3.2 物理位置表的维护

物理位置表由位置编号、位置名称、上级位置编号、类别、备注构成，物理位置表根据位置编号以及上级位置编号而自组织成一个树型。当新增的资产类别不是根节点时，须正确填写该位置的上级位置编号。高校可以根据情况自主设置物理位置表。

2.3.3 入帐与启用

高校初始取得固定资产后，需要首先进行登记，登记完毕后才能分配给相应的单位、系部使用。这个过程在系统中用入帐和启用流程来控制。

在入帐阶段用户需要填写资产编号、资产名称、规格型号、制造商、价格、使用年限、采购部门、使用部门、折旧方式、资产类别、备注、单价、厂家、二维码、入账凭证、取得方式、数量、资产类别代码、顺序号、责任人、物理位置。其中资产编号由两部分组成，前半部分为资产的顺序号，后半部分为资产的类别编号。在启用阶段用户需要填写启用日期、状态、物理位置、启用凭证。

2.3.4 折旧

用户可按需要每月、每学期、每年对固定资产计提一次折旧。用户可以通过列表选择某些固定资产，然后输入相应的折旧额。折旧需要进行审批。审批通过后，系统将自动更新相应资产的累积折旧额。

2.3.5 借用

当某部门从另外一个部门借用固定资产时，将发生使用部门、责任人以及物理位置的变动，此时需要进行审批和数据的更新。该流程需要资产所有权部门、当前使用部门和借入部门三方签字盖章。

2.3.6 资产损坏

当发现固定资产损坏时，需要对损坏程度进行评估，对损坏原因进行调查，追究相关人员的责任。用户可通过资产损坏申报表完成申报工作。该申报表经审批通过以后，系统自动将该资产的状态更新为“已损坏”。

2.3.7 维修记录

固定资产损坏以后，管理人员可以根据评估结果决定报废该资产或者进行维修。如果还有修复的价值，用户可以填写维修记录表，交相关人员审批后送至维修地点进行维修。当用户完成送修操作以后，系统自动将该资产的状态更新为“维修中”。当维修后返还时，用户需要选择维修的结果，系统按照所选择的结果更新资产状态。

2.3.8 报废

当某个资产需要报废时，用户需要首先填写申请表，待审批以后，系统将更新资产状态。

3 数据挖掘在固定资产统计中的应用

3.1 分类方法中的决策树算法在资产分配统计中的应用

3.1.1 决策树

决策树别名为判定树，为一种类似于二叉树的树结构。树中的每个节点（叶子除外）对应于训练集中一个非类别属性的测试，节点（叶子除外）的每一个分枝对应属性的一个测试结果，每个叶子节点则代表一个类。从根节点到叶子节点的路径形成分类规则。

3.1.2 决策树的建立

决策树的建立包括建树和剪枝。决策树自上而下以递归的方式构造整棵树。我们以通用的Shang-Xia决策树构建递归算法。算法大体为：SX_Tree由给定的训练集数据产生一棵决策树，输入节点n1，数据集D1，分割方法FG，输出以节点n为根节点的基于数据集D1、分割方法FG的一棵决策树Procedure SX_Tree（n1，D1，FG）。

（1）创建节点n1；

（2）在D1中计算FG来求解节点n1的分割标准；

（3）if（节点n1满足分割条件）；

（4）选择最好的效果将D1分成D2、D3；

（5）创建节点的子集n2、n3；

（6）SX_Tree（n1，D1，FG）；

（7）SX_Tree（n1，D1，FG）；

（8）endif；

（9）end。

由算法可以看出，分割方法FG是决策树算法的关键。根据分割算法的不同，决策树算法可分为两类：基于信息熵的方法和最小基尼指数方法。

3.1.3 决策树算法在资产分配统计中的应用

笔者所在学院现有一批联想一体机，拟分配到各个系部机房和公用机房使用，因为一体机数量有限，满足不了计算机类专业系部专业机房和实训中心公用机房的更换需求，只能按照计算机类专业系部专业机房、实训中心公用机房对一体机的计划使用效率、课程配套程度做定位，通过决策树的分析后，一体机分配到使用效率高、课程安排急需的机房。通过对大数据系统中的各计算机类专业系部机房、实训中心公共机房一体机的使用情况进行整理，得出一体机状况统计表。

以决策树算法为例，给该学院的一体机分配方案找出一个可行的决策树算法。

算法流程如下：

（1）从训练集中随机选择一个包含正例和反例的子集；

（2）用建树法使当前子集形成一棵决策树；

（3）对训练集（不含窗口），所有例子使用所得决策树进行类别判定，找出错判的例子；

（4）算法流程如图1所示，其中PE、NE分别为正例集和反例集，PE、NE共同组合为训练集。

图1 算法流程图

决策树算法第一步针对数据表计算各个属性的信息，并将属性从大到小排列，首先假设以上各属性的信息相等；第二步建立决策树，首先按位置建立决策树，得到数据的第一次分组，然后以同样方法按规模、配置分组，得到数据的第二次分组和数据的第三次分组。根据完整的决策树，分配小组可以得到以下分配规则：

（1）配置一般的一体机在规模较大的系部机房使用效率高；

（2）配置一般的一体机在规模一般的系部机房使用效率高；

（3）配置高的一体机在规模较大的公用机房使用效率高；

（4）配置高的一体机在规模较一般的公用机房使用效率高。

从以上四条规则我们可以推断出以下分配原则：把配置一般的一体机大部分分配给系部机房使用，把配置较高的一体机分配给公用机房使用。最终我们利用决策树和导出的四条规则对购买的一体机如何分配、利用作出评估。

3.2 数据挖掘在固定资产投资中的应用

固定资产使用信息存在于学校全体师生和各职能部门、系部。为此，我们建立了一个拥有全院所有固定资产和师生信息资料的数据库，数据库是通过对师生发放调查问卷以及各职能部门、系部配合提供信息等建立起来的。经过数据挖掘了解了全院师生的需求，并以此为内容向他们发送征求意见表，征求他们为资产采购部门提出的合理化建议。对于这些来自各种渠道的数据，通过计算机进行数据录入，采用数据挖掘中三类算法和其他必要的信息处理技术手段进行处理，从中得到固定资产的利用价值信息。

通过数据挖掘技术，完成了对学院资产的所有相关信息的管理和统计，理清了全院、各系、各职能部门和单独个体占有的各类资产数量、价值、位置等情况，并对资产信息进行了分类汇总和统计分析。学院资产使用者和管理者掌握了所管辖的资产信息，为各类资产的购置和合理分配提供了决策支持，便于校领导从全局上把握资产信息，加强成本核算，对固定资产进行系统的规划、建设和管理，助力于学校的全面发展。

［1］张永斌，马玉书.数据挖掘技术在出砂预测中的应用［J］.西部探矿工程，2003（1）.

［2］［美］Anand Rajaraman，Jeffrey David Ullman.大数据——互联网大规模数据挖掘与分布式处理［M］.王斌，译.北京：人民邮电出版社，2012.

［3］丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究［D］.合肥：合肥工业大学，2012.

［4］鲍军鹏，张选平.人工智能导论［M］.北京：机械工业出版社，2010.

［5］邓纳姆（Dunham，M.H.）.数据挖掘教程［M］.郭崇慧，田凤占，靳晓明等，译.北京：清华大学出版社，2012.

［6］程军锋.Web数据挖掘研究［J］.重庆三峡学院学报，2013（3）：43-45.

Application Research on Data Mining in Statistics of Fixed Assets under the Context of Large Data

CHEN Yong-feng
（Hebei Software Institute，Hebei Baoding 071000，China）

At present,some colleges and universities implementfixed assetaccountsand centralized management model,But database management is just for a simple query statistics on the data already in the database which does not have a very high reference value.Valuable information which is helpful for decision hidden in the data should be analyzed.Data mining technology can analyze database data intelligently,dig valuable information from data,and help the decision maker to make the right decision.

Big data;data mining;fixed assets;statistics

TP311.13

1673-2022（2015）02-0006-04

2015－03－10

2014年度河北省统计科学研究计划项目“大数据背景下数据挖掘在高校固定资产统计中的研究”（2014HY15）

陈永峰（1980-），男，河北保定人，讲师，主要研究方向为计算机应用、数据挖掘。