APP下载

基于Apriori的装配式建筑质量影响因素分析

2022-03-22李唐振昊尤筱玥

关键词:项集置信度装配式

李唐振昊,尤筱玥

(1.同济大学经济与管理学院,上海 200092;2.同济大学中德工程学院,上海 201804)

装配式建筑于上世纪50年代开始在我国发展,并于70年代达到繁荣期,但是由于理论、技术及工业化程度的限制,于80年代中后期又逐渐淡出公众视线[1]。近年来,随着“劳务荒”问题的显现和对“低碳、节能及环保”的需求,装配式建筑以其“节能减排”[2]和“劳动集约”[3]等特点又逐渐成为焦点。同时,我国在设计标准化、构件生产工厂化、施工机械化等方面的长足发展,也为装配式建筑规模化发展打下了坚实的基础。2016年起,国家层面陆续出台多项促进装配式建筑发展的文件和政策,为装配式建筑的发展营造了良好的环境。2016年2月,中共中央、国务院发布《关于进一步加强城市规划建设管理工作的若干意见》[4],其中明确指出要推广装配式建筑,争取在10年内使装配式建筑占新建建筑的比例达到30%。2017年3月,住房城乡建设部印发《“十三五”装配式建筑行动方案》[5],提出到2020年全国装配式建筑站新建建筑比例要达到15%以上。2020年8月住建部等部门印发《关于加快新型建筑工业化发展的若干意见》[6],提出要加大装配式建筑扶持力度,同时需要建立评价标准,引领行业不断提高装配式建筑的品质。然而,具体的评价指标并未在相关文件中有所体现,装配式建筑的质量评价仍缺乏系统、权威的标准。

质量研究一直是国内外学者研究装配式建筑的关注热点之一。Chang等[7]从项目管理的角度,构建了3个维度15个指标的质量评级体系,通过研究指出“质量规划”是影响最显著的维度;吴水根等[8]采用模糊综合评价方法对施工阶段的质量进行全面综合评价;常春光等[9]利用鱼刺图法归纳出装配式建筑在施工阶段的质量影响因素,并分析出4个主要的质量影响因素。基于已有研究可以看出,现阶段国内还未形成具有完整体系的权威性强的装配式建筑质量评价体系。随着“推动高质量发展”成为“十四五”期间经济社会发展的主题[10],推动装配式建筑的质量评价体系建设势在必行。因此,为了确定相应的评价指标,装配式建筑质量的影响因素分析至关重要。关联规则挖掘是数据挖掘领域中重要的研究方法之一[11]。Apriori算法是使用最广泛的关联规则挖掘算法,该算法最初是由Agrawal等[12]提出的基于频繁项集的经典关联规则算法。在此之后基于Apriori算法的研究逐渐成为热点。John等[13]运用Apriori算法分析工作日与休息日的交通事故成因;姜东民[14]等运用Apriori算法筛选出装配式建筑安全事故承灾体脆弱性评价指标。利用Apriori算法不仅可以探求影响事物的因素,还可以直接探索各影响因素间是否存在关联。为充分地挖掘影响装配式建筑质量的因素及其之间的潜在相关关联关系,本文采用Apriori算法分析装配式建筑质量的影响因素进行相关研究。

本文采用数据挖掘的方法,在已有关于装配式建筑质量的文章中提取相关因素,利用Apriori算法生成频繁项集,通过控制最小支持度和置信度,得到筛选后的关键指标并进行分析,为装配式建筑的项目管理提供有效参考,并为后续装配式建筑的质量评价体系建设提供有力的依据。

1 研究方法

1.1 定义

Apriori核心思想是用先验知识预测数据的关联规则,通过计算支持度和置信度发现频繁项集,从而找到关联规则[15]。其中,支持度是对关联规则重要性的衡量,表示项集同时在所有事务中发生的概率。例如,项集A与B的支持度为包含A与B的项数与所有项数之比:

置信度是对关联规则准确度的衡量,表示规则的可信程度,即数据的条件概率。如项集A发生B也发生的概率,为包含A与B的项数与所有包含A的项数之比:

频繁项集是指支持度大于或等于某个阈值的项集,若频繁项集包含k个项,则称为频繁k项集。

1.2 基本思路

Apriori算法作为一种发现频繁项集的算法,用来从事务数据库中挖掘出满足最小支持度阈值和最小置信度阈值的关联规则。

设Lk为频繁k项集的集合,Ck为候选k项集的集合。扫描数据库,得到候选1项集C1及其支持度,若其支持度低于最小支持度,则进行剪枝去除非频繁项集,得到频繁1项集L1;若两个项集相同项为{a1,a2,…,an-2},不同项为an-1和bn-1,则两者连接得到候选集:{a1,a2,…,an-2,an-1,bn-1},通过该方法对得到的频繁1项L1集进行连接,得到候选2项集C2及其支持度,以此类推进行迭代,直到无法得到频繁项集为止。其中,针对每个频繁项集Lk产生其所有非空真子集Sk,若频繁项集Lk的支持度与非空真子集Sk的支持度比值大于等于最小置信度,则产生强关联规则。具体实现流程如图1所示。

图1 Apriori实现流程图Fig.1 Apriori implementation flowchart

2 研究过程

2.1 数据来源

通过知网主题栏搜索关键词“装配式&质量”,得到“发文量-年份”可视化分析图(图2)。从中可以看出,自2016年起关于推广装配式建筑的各类政策颁布后,相关研究的数量显著攀升。

图2 以“装配式&质量”为关键词“发文量-年份”可视化分析Fig.2“Output-year”visual analysis chart with“Assemble&Quality”as key words

随着技术进步和管理提升等现象,发表年份较早的文章所阐述的装配式建筑质量问题,现阶段可能不具备代表性。同时,发表年份较近的文章也会涉及到先前文章中所提到且仍存在的装配式建筑质量问题。为此,通过在知网中以关键词检索“装配式&质量”,并限定发表时间范围为2018年至今,共检索得到160篇文章。在对内容检视后剔除2篇无效文章,共计有效样本文章158篇(编号为P1-P158)。从中提取装配式建筑的质量影响因素作为研究样本,形成文章与其包含的装配式建筑质量影响因素表,见表1。

2.2 数据预处理

对原始数据的处理与分类需要确立相应的指标。本文采用5M1E分析法作为确定分类指标的科学方法,人(man)、机(machine)、料(material)、法(method)、环(environment)以及测(measurement)6大因素可视作影响项目工程质量的主要因素[16]。基于“5M1E”的一级指标,并结合表1的质量影响因素,可将二级指标进行分类并标号如表2所示。

表1 筛选文章与其包含装配式建筑质量影响因素(部分)Tab.1 Selected articles and their included impact factors on quality of prefabricated building(Partial)

表2 影响因素的一级指标及二级指标编号Tab.2 Numbering results for first level indicators and second level indicators of impact factors

随后,将样本文章P1-P158中的评价指标与表2中的二级指标进行逐一比对,并按照原文中因素出现的顺序,形成如表3所示的有效样本分析数据。

表3 预处理后的算法相关事务数据(部分)Tab.3 Preprocessed algorithm related transaction data(Partial)

2.3 参数设置

主要设置的参数为最小置信度和最小支持度,原则上好的关联规则一般同时具有较高的最小支持度和最小置信度[17]。最小支持度的设置值越大,表示筛选出的项集出现频率越高,可以节省数据挖掘的时间,但是容易造成隐含的非频繁特征项被忽略;最小支持度的设置值越小,则会产生更多的频繁项集而增加数据挖掘时间。最小置信度的设置值越大,表示筛选出的结果关联性越强,但若设置过高会导致无法得到足够的有效规则;相反,最小置信度的设置值越小,会造成产生大量无效规则,导致数据挖掘时间增加[18]。在初始设置时,可将最小支持度和最小置信度的值设置偏小(如最小支持度设置为3%~5%,最小置信度设置为30%~50%),以获得较多的规则,之后再进行有针对性的筛选和分析[14]。

3 结果分析

首先,将最小支持度设置为3%、最小置信度设置为50%,得到初步结果;随后以此为基础,通过调整和设置不同的最小支持度和置信度,直至得到所有影响因素的支持度,并最终得到如图3所示散点图。

若设置最小支持度为0.1,则在图中支持度大于0.1的所有影响因素构成频繁1项集,且影响因素的支持度越大,表示该影响因素在数据集中出现的概率越大。从图3结果可以看出,大多数影响因素的支持度低于0.15。一方面,该结果与选取的样本量较大有关,样本量较大,影响因素分布较为分散,则在总的样本中出现的概率较低;另一方面,由于过去研究中不同研究人员所选的评价角度不同,专家提供的个人认知存在差异,对于影响装配式建筑的因素认定也会有较大的差异,导致大多数装配式建筑质量影响因素在大样本量的情况下出现概率较低。该结果也体现出本研究的必要性,通过大数据的方法,减少人为因素对研究结果的影响,找寻事物间的相关关系,从而得到更加具有普遍性的规律。

图3 不同影响因素的支持度输出结果Fig.3 Output of“Support”on different impact factors

此外,图3还反映了5M1E的6大因素对于装配式建筑的质量影响程度不同。从图中的分布可以看出,“机”与“测”因素所包含的影响指标的支持度大多分布在底部,表示该板块因素出现的概率较低,也进一步证明本文所选取的样本文章认为“机”与“测”所包含因素对于装配式建筑质量的影响较小。这可能是因为随着经济的发展、机械设备产业的技术进步及建设工程法制法规的健全,大多数装配式建筑项目均能够配备齐全的机械设备,并且保障机械设备极少出现故障;同时,测量仪器虽然仍然存在一定的缺陷,但在工程精度的需求下,现有测量方案能够极大弥补仪器的不足,确保装配式建筑的质量。较为特殊的是,“环”所包含的因素支持度两极分化较为明显,支持度较高的环境因素为构件运输和堆放环境,显示出这两项因素不仅对装配式建筑质量影响显著,同时出现概率远高于其他环境因素,需要在质量管控时重点关注。此外,“人”与“料”因素所包含的影响指标的支持度大多分布在中部,表明“人”与“料”的因素出现概率适中,所筛选的样本文章认为该板块的影响因素与装配式建筑的质量之间为显著影响关系。“法”因素所包含的影响指标的支持度大多分布在上部,说明“法”的因素出现概率较大,表明所筛选的样本文章认为该板块的影响因素对于装配式建筑的质量有极为显著的影响。这也反映出,管理制度与工艺技法对于装配式建筑的质量控制有着极为重要的作用。因此,在装配式建筑的实际工程建设过程中,需要制定细致的工程管理条例,并严格按照制度要求完成构件设计、生产、运输以及现场施工等环节;此外,提升构件的制作工艺以及优化现场施工技术等,也是保证装配式建筑质量的关键所在。根据图3结果,在选取最小支持度为0.15且最小置信度为0.5时,得到如表4所示关联规则输出结果。

表4 关联规则输出结果Tab.4 Result of the association rule

以表4第一行数据为例,D8为因素A1的关联因素的置信度为0.51,该结果表示若因素A1导致装配式建筑的质量问题,有51%的概率因素D8也伴随发生。同理,以影响因素D2为例,其同时具有三项最小置信度在0.5以上的关联因素,D1的置信度为0.93,D8的置信度为0.52,E2的置信度为0.52。该结果表示,该结果表示若因素D2导致装配式建筑的质量问题,有93%的概率因素D1伴随发生,D8或E2伴随发生的概率同为52%。这同时表明,D2因素的出现导致的质量问题,可能并不是由单一因素导致的,是多个复合因素共同作用的结果。

置信度输出结果有利于项目方通过控制关联规则的前者因素来降低关联因素可能带来的质量问题,有效把控装配式建筑的质量。此外,对于存在直接监控困难的影响因素,可以利用强关联规则间接把控。例如,表4中D1是D2关联因素的置信度为93%,D1是E3关联因素的置信度为82%,若D2在实际工程中无法直接监控,则可以通过D1和E3的监控情况,来间接确认D2的状态。若D2和E3同时导致质量问题,则D1也有极大概率发生,在控制影响质量因素时也应将其考虑在内。

进一步观察图3和表4所示结果可以发现,D8的影响因素不仅具有较高的支持度,在关联因素中出现的频率也最高。D8影响因素是构件生产企业的标准化程度,该因素直接影响预制构件的生产质量,而构件是装配式建筑的构成核心,构件质量直接影响装配式建筑的质量,因此会有较高的支持度。表4中以D8为关联因素的影响因素有:施工人员安装熟练度(A1),施工人员吊装熟练度(A5),构件现场堆放规范程度(D2),施工企业管理标准化程度(D7),构件制造工艺流程成熟度(D9),构件堆放的环境(E2),构件运输的环境(E3)和构件质量检验准确度(F1)。该8项影响因素造成的质量问题均与构件的质量有密切关系,因此会与D8产生密切关联。以施工人员安装熟练度(A1)为例,施工人员安装熟练度过低,可能会导致构件在安装过程中受损,从而影响装配式建筑的质量,若构件本身质量较差,则受损概率更高,若构件质量较好,如构件缺陷较少或构件强度达标,则在安装中受损的概率将大幅降低,因此构件生产企业的标准化程度(D8)与A1有密切关联。由此可见,提升构件生产企业的标准化程度,将有效提升构件质量从而提升其他因素的容错率,降低装配式建筑的质量安全风险。因此,通过Apriori寻找关联关系的方法,可以为影响质量因素的合理评价及管理措施的制定提供有效参考。

4 结语

采用Apriori算法进行数据挖掘,在关于装配式建筑质量的158篇文章中提取相关因素,通过控制最小支持度和置信度,得到筛选后的关键指标并分析其关联性。研究发现,通过大数据的方法,可以减少人为因素对装配式建筑质量影响因素分析的干扰。通过寻找影响因素和装配式建筑质量的相关关系,发现在各类影响因素中,“法”所包含的影响因素普遍支持度较大,表明所筛选的样本文章认为该板块的影响因素对于装配式建筑的质量有极为显著的影响。同时采用强关联规则的关联分析方法,发现构件生产企业的标准化程度(D8)具有较高支持度和出现频率。在装配式建筑的全过程中,提升构件生产企业的标准化程度将有效提升构件质量并降低装配式建筑的质量安全风险。通过Apriori强关联规则的关联分析方法可以为影响质量因素的合理评价及管理措施的制定提供有效参考。

作者贡献声明:

李唐振昊:数据分析,论文撰写。

尤筱玥:学术指导,论文修改。

猜你喜欢

项集置信度装配式
基于数据置信度衰减的多传感器区间估计融合方法
装配式建筑设计中BIM技术的应用
基于哈希表与十字链表存储的Apriori算法优化
装配式EPC总承包项目管理
一种基于定位置信度预测的二阶段目标检测方法
装配式建筑EPC总承包管理模式研究
Sp-IEclat:一种大数据并行关联规则挖掘算法
含负项top-k高效用项集挖掘算法
装配式环保装饰技术的应用及发展前景
校核、验证与确认在红外辐射特性测量中的应用