数据挖掘技术在工程造价领域的综述
2022-04-14金春月孟云桃何洁
金春月 孟云桃 何洁
(上海市机电设计研究院有限公司,上海 200040)
随着科技的进步,以大数据、云计算、BIM、人工智能等为代表的新技术得到了广泛地发展和应用。面对“大数据”浪潮的冲击,建筑工程领域还停留在通过人工方法和工具对数据进行简单录入、查询、更改、统计、输出。人工统计方法工作内容繁重极易出错,且无法从海量数据预测未来趋势,不能给决策者提供有利的数据支撑。因此通过数据挖掘技术从工程历史造价数据中挖掘出数据间隐含规则,并应用于实际工程管理,已是大数据环境下工程造价管理研究的主流,也是工程造价管理的必经之路。
目前、国内在数据挖掘技术的理论研究和应用层面都有了一定数量的研究,但总体还处于探索阶段。大部分数据挖掘技术的综述集中在计算机、中医与中西医结合、工商管理等领域,尚无专题总结建筑工程领域数据挖掘技术和应用的文献。鉴于以上现状,需填补国内针对建筑工程领域数据挖掘现状的综述文献的空白。
本文从技术层面和应用层面对文献进行分类。前者列举和总结了数据挖掘技术在工程造价方面的关键技术,包括数据分类技术、数据建模技术;后者总结了数据挖掘相关应用。在此基础上讨论了现存的问题和未来发展方向。
1 数据挖掘技术现状分析
数据挖掘技术通过计算机等信息处理工具对海量的、不完整的数据信息进行针对性地分类、整理、清洗、提炼,高效地把隐含在信息中的数据关系挖掘出来,为项目的投资决策、方案比选、限额设计、可行性研究、以及投标决策等提供可靠依据,并准确快速地预测工程造价信息。
在中国知网(CNKI)以“数据挖掘”和“造价数据挖掘”为关键词进行检索,文献类型包括学术期刊与学位论文,时间区间从2011年到2020年,得到文献数量如图1。
由图1有不难看出,每年有几千篇关于数据挖掘技术的文章在中国知网发表,但针对工程造价的数据挖掘文献每年只有二三十篇,仅占数据挖掘总文献数量的0.4%左右。可见近几年数据挖掘技术在我国有了飞速发展,但在工程造价领域数据挖掘技术的相关研究及应用还处于起步阶段。因此需要加强工程造价领域数据挖掘力度和数据利用深度。
图1 中国知网的文献数量
2 技术层面综述
在进行建筑工程造价数据挖掘时,若将不同类型、不同地区的工程造价信息简单地杂糅在一起,会使计算出来的造价指数失去本身的指导价值。因此数据挖掘首先通过数据分类技术,把预处理好的工程造价信息根据项目需要进行分类,并从数据源中收集与目标项目相关的数据信息,将其转化为满足挖掘算法需求的形式,然后依据之前选定的数据挖掘算法,采用相应工具从准备好的工程数据中提炼出感兴趣的价值信息和知识并进行展示。
数据挖掘技术的主要流程包括数据采集、数据预处理、数据分类、数据建模技术。其中最核心的技术是数据分类技术和数据建模技术,其相关文献如表1所示。
表1 关键技术相关文献
2.1 数据分类
建筑工程项目特征指繁多,包括定性特征值和定量特征值,且数据差异性较大。在大数据环境下,直接对类型多样的数据特征值进行学习,会影响预测结果的准确性。因此依靠有效的数据分类技术对海量、多源、异构的工程项目数据信息进行合理分类是数据挖掘的重要技术前提。数据分类技术大体包括聚类法分类和决策树法分类。
2.1.1 聚类法分类
K-means聚类法是把空间内的点分成K类,将距离函数做为研究数据相似度的衡量标准,通过算法对数据样本进行分类解算,测算不同分类数据的距离,并迭代找到距离最近的分类和点,往复迭代直到找到最优解为止。K-means聚类法具有释放性强,收敛速度快,聚类效果好等特点,但需要提前确定聚类数K值。聚类数K值的取值对聚类结果有较大的影响。模糊C均值聚类法是在聚类法的基础上融入了模糊数学理论,解决了分类过程中非此即彼的问题,因此在分析正态分布数据的聚类有较好的效果,且能处理高维数据信息。
2.1.2 决策树法分类
决策树是通过已知的训练数据建立决策树,并利用建好的决策树对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程。内部节点表示数据属性上的判断,分支代表一个数据判断结果的输出,叶节点代表一种数据分类结果。建设工程数据因为包含了大量的连续性属性,因此采用传统的决策树分类方法进行计算将面临非常大的挑战。C4.5算法能对分类树进行剪枝优化,且能对连续性属性进行离散化处理。除此之外,针对高维小样本数据或有很大一部分特征遗失的数据,随机森林算法也可以维持较好准确度,且能平衡数据集的不平衡误差。
2.2 数据建模
BP神经网络算法具有智能学习能力,可以对建筑工程造价成本与其影响因素之间的关系进行非线性拟合,但人工神经网络的结构复杂,追求最小误差会导致出现“过拟合”现象,且降低模型的泛化能力。
总而言之,根据不同的要求实施适宜的护理干预措施十分重要,对降低泌尿外科医院感染具有积极作用,且进一步改善预后。
支持向量机(SVM)利用核函数,将低维空间数据映射到高维特征空间,并在高维特征空间构造线性判别函数来实现原空间中的非线性判别函数。支持向量机(SVM)摆脱了高维数的冗余,使其算法与样本维数无关,并实现了较好的推广能力,但实际应用中核函数的选择还没有得到很好的解决。近些年各学者在支持向量机(SVM)的基础上进行的不同程度的改进,均取得了良好的效果,详见表1。
3 应用层面综述
工程造价管理贯穿于工程建设全过程,充分挖掘历史工程造价信息并合理应用到工程建设中,将对工程造价管理产生明显效果。所考察的文献中,有相当数量的文献分析了工程建设各种环节中的数据分析应用,归纳至表2。数据挖掘技术不仅可以应用于造价估算、 工程审核阶段, 赵平还通过数据挖掘技术分析工程造价与控制策略的智能匹配关系。
表2 应用方案相关文献
此外,有些学者还研究了基于数据挖掘技术的工程造价信息平台架构及管理,并进一步提出数据标准、可视化挖掘等问题。
4 讨论及展望
随着数据挖掘的不断发展和对数据挖掘技术的不断探索,许多研究者做出了技术上的贡献,也取得了一定成果。
在上述调研中发现,相较于其他领域,数据挖掘技术在工程造价领域还处于初级阶段,既表现在相关研究深入程度不足和缺乏成熟规模的应用案例,其原因如下。
1)数据挖掘深度比较浅。大部分学者的研究集中于造价指标、造价影响因素为代表的单一因素分析为主。工程造价信息除了造价指标外,还有材料的价格、综合单价、建筑工程造价指数、建筑工程消耗量指数、建筑工程费用指数等有价值信息。深入挖掘和提炼信息间隐含关系,将大大提高工程管理效率。
2)工程造价历史造价数据分享困难。因工程造价信息有较大使用价值,不同参与方为获得超额利润,拒绝分享有价值的信息。工程造价信息主管部门虽然会定期发布工程造价信息,但指数发布效率较低,且大部分是建安工程信息,市政工程、电力工程等专业的数据信息较少,无法满足数据模型的多专业、多方面的验证需求,基础数据急需系统性管理与维护
3)各地区造价信息主管部门未颁布统一的工程造价信息标准。各地区造价行政主管部门发布的工程造价指数体系的测算方法、测算标准不统一,主要体现在发布形式不同、费用构成不同、编制范围不同。因此在利用工程造价数据时,需对原始数据需进行复杂的数据清理才能能输入到数据模型中并加以利用。
4)针对实际问题的研究方法比较基础,数据挖掘技术在工程造价领域的应用研究仍然比较少,在平台开发和算法实现方面有待提高,
5)需进一步优化数据挖掘模型的准确度和泛化能力,保证海量数据的有效利用,加快我国信息化技术的快速稳定发展。
针对以上问题,展望数据挖掘技术在工程造价领域的发展,将包括但不限于以下几点。
1)进一步优化工程造价指标的数据挖掘算法,提高算法的有效性及准确率。并进一步扩大数据挖掘范围,如:材料价格、综合单价、主要材料消耗量等信息。
2)建筑工程造价指数测算过程中需要采集大量的、不同地区、不同类型的工程造价信息。开发适用于企业的数据挖掘工具,并以特定形式有偿共享造价数据,提高工程造价数据的共享积极性,使各企业和造价相关人士能主动录入准确、完整、真实的工程造价数据,形成信息共享产业链,做到全国范围内的工程造价信息的互联互通,实现工程造价数据的真正共享。
3)建议由政府相关部门牵头,进一步完善全国范围内的工程造价信息标准,包括但不限于信息编码标准、数据采集标准、数据存储标准、数据计算标准等。统一的数据标准可大大降低后续数据处理的人力与财力成本,提高数据挖掘效率。
4)建立全国统一的工程造价数据信息采集平台和工程造价信息指标指数发布系统,由工程造价相关行政主管部门定期向社会发布建筑工程指标指数,并定期对信息采集系统和指标指数发布系统进行数据维护,优化工程造价信息的数据化管理及控制效果。
5)在数据分析及模拟过程中,需要对工程造价信息进行可视化的开发研究,并应用于数据的分析、统计、预测。可视化设计可以按照人的思维关联模拟,从不同角度观察和分析数据,便于人机交互的实现及应用效果的提升。
5 结语
本文考察了有关造价领域数据挖掘文章,列举了数据挖掘关键技术,概括总结了数据挖掘的应用方向。最后讨论了造价领域数据挖掘技术现存问题和今后的发展方向。未来的研究如果能解决这些问题,突破这些关键技术和障碍,将带来巨大的效益。