APP下载

基于数据挖掘的结算备案管理系统设想*

2012-07-10陈宏伟

武汉交通职业学院学报 2012年4期
关键词:数据仓库备案数据挖掘

陈宏伟 陈 佳

(1.武汉交通职业学院,湖北 武汉 430065;2.武汉纺织大学,湖北 武汉 430073)

为加强对建设工程竣工结算的管理,规范工程计价行为,维护建筑市场正常秩序,防止拖欠工程款、拖欠农民工工资,根据《中华人民共和国合同法》、《中华人民共和国建筑法》,全国各省(市)、自治区及新疆建设兵团建设行政主管部门均出台建设工程造价备案管理办法,要求依法必须招标的建设项目,在竣工后由建设单位申请竣工结算备案审查。以武汉市为例,该市建设工程竣工结算备案审查需提交以下资料:1.报审单位按要求进行填写下列表格并加盖印章:(1)《武汉市建设工程竣工结算备案表》;(2)《武汉市建设工程施工合同备案表》;(3)《武汉市建设工程价款结算支付证明表》;(4)《武汉市建设工程竣工结算审查备案指标表》;(5)《建设工程竣工结算备案审批表》;2.施工许可证;3.施工合同、补充合同、补充协议;4.招标文件及投标书;5.工程结算书(含桩基)、造价咨询报告及《武汉市建设工程项目造价计价监管通知书》(含电子数据);6.造价工程师和造价员证。

不难看出,备案内容中包含大量工程造价管理相关基础数据,随着建设项目的不断增加,可积累海量工程信息及造价数据。如果能借助计算机对这些数据进行合理的大规模分析和比对,可加强对建设市场工程造价的全过程控制和管理,同时为政府部门制定政策提供有力依据。

开发基于数据挖掘的竣工结算备案管理系统(以下简称“CSRMS”),结合数据挖掘技术对竣工结算备案管理系统中的数据进行分析,对于提高造价管理水平有非常重要的现实意义。

1 CSRMS基础理论

1.1 数据挖掘

数据挖掘是从大量数据中提取或“挖掘”知识。它利用分类、关联性、序列分析、群集分析、机器自我学习及其他统计方法,从数据库的庞大数据中找出隐藏的、未知的,但对经营管理十分有用的信息。造价管理部门收集的历史数据量很大,要分析起来相当困难,而利用数据挖掘工具,可从庞大的信息中提取有用的信息,以客观的统计分析方法快速而且准确地找出有关部门需求的管理信息,得到快速、正确的造价指标分析,有助于把握市场变化趋势和加强监管等,以利于更好的规范建设承发包市场。

1.2 数据仓库和联机分析技术

数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。它是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业决策所需信息。数据仓库也常常被看作一种体系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化和启发式查询、分析报告和决策制定。

联机分析处理(OLAP)是以数据库或数据仓库为基础的,其最终数据来源与OLTP一样均来自底层数据库系统,但由于二者面对的客户不同,OLTP面对的是操作人员和底层管理人员,OLAP面对的是决策人员和高层管理人员,因而数据的特点与处理也明显不同。OLTP系统管理当前数据,通常这种数据太琐碎,难以方便地用于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同粒度级别上存储和管理信息。因此,这些特点使得数据容易用于见多识广的决策。

2 CSRMS设计与模块分析

2.1 系统框架

以数据仓库为基础的整体解决方案如图1所示。图中设计的DSS将数据库、模型库及方法有机地结合在一起,并以面向对象的方式进行存储,较好地协调了数据、模型和方法三者之间的关系,使整个系统形成一个有机的整体,从而提高了系统的综合性。整个过程从下至上开发,分为底层基本信息、数据仓库、知识库、模型库、方法库、数据挖掘引擎和图形用户界面。

图1 CSRMS框架

底层基本信息:从OLTP应用中获得各种信息,并存储在相应的信息库中。可以在这些数据上进行数据清理和集成。这里,可以从已有的联机事务系统中收集各种需要的信息,即从运作系统中筛选数据,将数据加载一个操作型数据库。比如:工程量数据、项目基本信息、招投标信息、变更数据、合同数据等,这些数据都各自存储加载在操作型的信息库中。

数据仓库:对数据库进行清理、集成和转换,得到PCBA数据仓库;这里,在操作型数据库中动态过滤和转换数据,在适当的群集层次上将数据仓库加入到企业范围内的逻辑数据仓库中。比如:将工程量数据、项目基本信息等中重要的信息集成,筛除不必要的信息,并建立信息之间的关联。可以采用一些著名厂商的产品,如Carleton的Passport,Prism Solutions的Enterprise/Access和ETI-EXTACT工具集。

知识库:这是领域知识,用于指导搜索或评估结果模式的兴趣度。这种知识可能包括概念分层,用于讲属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据)。如:概念分层“年—月—日”和“专业工程造价—桩基工程—合同价”等这些领域知识。

模型库:这是根据领域知识建立的各种模型,可以协助挖掘引擎进行挖掘。

方法库:由方法程序库和方法字典组成。它是存储方法模块的工具,由各种通用性和灵活性都比较强的,且可用来构成各种数学模型的算法程序组成。即在造价系统中在不同地区或时间上工程造价的计算公式。如:专业工程造价=桩基造价+主体工程造价+……

数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析。用户可以采用已有的各种工具作为数据挖掘的引擎,如:挪威的WEKA,其中包含“决策树”等多种功能模块。

模式评估模块:该部分使用兴趣度度量,并与挖掘模块交互,以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。这里将该模块集成在挖掘模块中,如:WEKA的关联分析模块集成到兴趣度测量模块。

图形用户界面:该模块在用户和挖掘系统之间通讯,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。这里,采用Excel数据透视表来进行数据分析。

2.2 系统流程分析

CSRMS采用三层结构利用造价备案库进行造价控制:(1)业务层:工程造价备案发起方提出网上申报申请,将备案所需资料上传,待工作人员审核通过后,对备案工程的项目名称、工程内容、招投标文件、工程量清单、答疑文件、竣工结算书等资料进行收集,建立造价数据库;(2)控制层:提供数据分析和处理功能,它将工程造价数据库中的数据进行分类、整理,并且根据不同需要构建不同的模型,管理人员运用系统工具软件即可实现造价数据统计查询、造价指标测算分析和造价对比分析的功能;(3)决策层:掌握造价市场变化趋势,了解变更、材料价格变化趋势对工程结算价格的影响。

3 CSRMS关键技术分析

3.1 确定主题域

考虑到竣工结算的形成过程和所包含的项目,对原有分散的数据库系统分析,确定项目造价数据库原型的基本主题为工程造价反馈控制[1]。该主题的属性信息包括:项目基本信息、各阶段的造价文件(估算、概算、预算、结算)、变更调整、材料信息价、审核价格等。

3.2 多维数据模型的创建

本文针对CSRMS系统建立多维雪花模型(如图2)。这里,有一个事实表“造价事实表”和多个维表。事实表包含属性有:时间ID,专业工程造价ID,备案价ID和工程造价金额。时间ID连接到时间维表;专业工程造价ID和备案价ID分别连接到专业工程造价维表和备案价维表。而专业工程维表包含桩基工程ID和主体工程ID,因此,专业工程维表中的桩基工程ID和主体工程ID连接到桩基工程维表和主体工程维表,而这两个维表又包含合同价ID和审核价ID,因此又分别与它们建立关联。

图2 多维数据立方体的雪花模型

3.3 多维数据模型上的OLAP操作

在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些OLAP数据方操作用来物化这些不同视图,允许交互查询和分析手头数据。因此,OLAP为交互数据分析提供了友好的环境。

上卷:上卷操作或者通过沿概念分层向上攀升,或者通过维归约,在数据方上进行聚集。例如,沿着年度<月份<日期定义的时间维的概念分层向上,在中心数据方执行上卷操作。

下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。沿着日期<月份<年度定义的时间维的概念分层向下,在中心数据方执行下钻操作的结果。这里,下钻由时间维的分层向下,由年度层到更详细的月份层。结果数据方详细地列出每月的总造价,而不是按年度求和。

切片和切块:切片操作在给定的数据方的一个维上进行选择,导致一个子方。对维时间的切片操作,它对中心数据方就可使用条件时间=“Q1”选择工程造价金额数据。切块操作则通过对两个或多个维执行选择,定义子方。

转轴:是一种目视操作,它转动数据的视角,提供数据的替代表示。

4 系统实现应考虑的问题

竣工结算备案可以采集海量工程造价相关基础数据,通过规范数据采集过程建立数据仓库,采用数据挖掘技术从庞大的信息中提取有用的信息,以客观的统计分析方法快速而且准确地找出有关部门需求的管理信息,有助于提高造价管理水平,能更及时的发布造价市场所需要的指导信息。在竣工结算备案管理系统建设中应考虑的问题:(1)鉴于开发和利用信息资源是一项动态的长期工程,政府有关部门应根据目前的实际和未来的发展趋势,进一步展开调研,提出科学合理的体系架构。(2)坚持统一规划和规范组织的建设原则,根据发展所需,及时制定适用的政策措施,以规范信息资源建设涉及到的方方面面,保障开发利用的有效性。(3)兼容市场上各大造价软件,形成统一的数据采集与应用规范,建立运行分析指标体系,为常规性运行分析奠定基础[2]。(4)为与造价人员、造价咨询企业监管系统对接以及同其他备案系统共享数据留下接口。(5)解决备案资料公布所产生的法律效力问题。(6)抓好队伍建设和人员培训,以保证实现开发与利用的统一,使系统能够发挥其应有的效益。

[1]赵璐,丁烈云.基于数据挖掘的工程项目投资控制系统[J].施工技术,2009,(5):111-114.

[2]李秋芳.关于建设工程造价成果文件备案的思考[J].广西城镇建设,2007,(8):100-101.

猜你喜欢

数据仓库备案数据挖掘
探讨人工智能与数据挖掘发展趋势
关于备案建材事中事后监管的实践与思考
基于数据仓库的数据倾斜解决方案研究
让备案审查制度全面“动起来”
我省高校新增备案和审批本科专业名单
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践