基于控制语句自动获取的建筑工程质量表象与对应原因分析*
2022-11-09张明媛刘运鹄周光毅
张明媛,贺 凯,刘运鹄,周光毅
(1.大连理工大学建设工程学部,辽宁 大连 116024;2.中国建筑第八工程局有限公司东北分公司,辽宁 大连 116021)
0 引言
建设工程项目的质量安全水平对我国国民经济发展与人民生活幸福具有直接影响。由于建筑工程行业固有的危险性,质量安全事故频繁发生,使国家财产遭受巨大损失,人民生命安全遭受巨大威胁[1]。以2020年12月应急管理部公布的6起建筑施工领域质量安全事故典型案例为例,6起事故共造成77人不幸身亡、68人受伤。建筑工程质量问题是现今工程事故研究分析中的重要命题。因此,有必要深入研究建筑工程质量。
GB 50300—2013《建筑工程施工质量验收规范》作为指导建设单位、施工单位、监理单位等多个项目参与方完成工程验收的规范性文件,从质量验收规范入手开展研究是有效减少工程质量事故的基础,能从质量监管角度为建筑业高质量发展做出贡献[2]。建筑工程质量管理在一定程度上能预防质量事故的发生,但现有质量验收规范中的控制语句未经过系统分类整理,如何从海量建筑信息中较为快速、准确地定位质量问题产生原因,特别是,目前的质量原因分析过程是由专家阅读质量报告的方式进行推断,如何将这一人工过程进行自动化实现,并将质量表象问题与背后的施工技术方案进行对应,从施工源头查找质量问题产生原因,提高管理效率并及时为其他工程实施提供技术方案的优化参考,保障施工质量,避免施工问题发生,是当前建筑质量管理领域所面临的重要问题。
Zhang等提出基于自然语言处理与本体技术的信息转换方法,即利用建立好的语义映射规则和冲突解决规则将建筑规范的部分章节转换为可用于规范检查的逻辑句子[3];Le等提出了基于规则的合同风险自动提取模型,并将其应用于建筑信息的检索研究中[4];胡海盟利用自然语言处理技术对建筑工程质量验收规范进行预处理,并使用正则表达式完成抽取分析[5];胡云忠等基于本体,开发出工程质量管理规范检索系统[6];魏然等实现了自然语言设计规范条文向计算机语言的转换,为建立基于BIM的建筑专业施工图合规性自动审查系统奠定基础[7]。现有工程质量自动化实现研究内容具有以下共性:①一般自动化研究方法基于设计、施工图纸合规性审查等展开,针对建筑工程质量原因分析的自动化研究较少;②均围绕建筑信息展开,各类自动化实现方法仍停留于理论研究层面,缺乏对实际工程中质量检查工作环节的指导。
为弥补工程质量原因自动化分析研究应用的空白,本文结合Python等数据挖掘工具,构建建筑工程施工质量控制语句库。结合实际工程质量检查报告文本文件,依据报告中质量问题出现频次及频率,将梳理出的15类质量问题表象集中划分为渗漏、裂缝、外保温问题3项子类,并通过实际工程项目施工质量检查情况,总结质量问题表现形式,即质量问题表象;建立问题表象-质量控制语句对应关系,为后续自动化实现质量文本分析提供关系模型。
为建立工程质量问题产生原因与质量问题表象的正确对应关系,本文邀请业内技术质量专家进行访谈,建立质量控制语句与质量问题表象关系库。质量问题的发生是由于未遵守某些质量规范所表述的工作内容。以从质量规范中提取的质量控制语句为基础,将质量问题对应的技术措施分解到分部分项工程,既能明确质量问题的产生原因,同时又能明确未来工程施工质量管理工作中需重点加强监管的细节,从原因分析和操作控制两方面共同提升工程质量管理效率。技术路线如图1所示。
图1 技术路线
1 质量验收规范文本集建立
1.1 质量验收规范集建立
结合本文实际研究对象——混凝土结构建筑工程,规范内容的选择以混凝土结构分部分项工程为主。规范文档不局限于GB(国家标准)正式文件,本文将GB/T(国家标准/推荐)、JGJ(建筑工程行业建设标准)、JGJ/T(建筑工程行业建设标准/推荐)也纳入规范集的数据收集与建立过程。最终共选取GB 50204—2015《混凝土结构工程施工质量验收规范》等35部相关工程规范,建立质量验收规范集。
1.2 质量验收规范文本格式转换
由于获取的建筑工程施工质量验收规范均为PDF格式,且包含计算机无法识别的水印及图片信息,因此,需进行验收规范文本格式转换。同时为降低无关文字对文本处理精度的影响,在转换过程中将英文摘要、英文目录等信息人工删除。经高精确度的文本识别转换后,各质量规范条文转变为计算机可二次处理的TXT格式,为质量验收规范文本处理工作提供便利。
2 质量验收规范文本集处理
2.1 jieba分词
jieba中文分词库作为Python第三方中文分词库,利用中文分词库确定各汉字间的关联程度,将关联程度较大的汉字组成词语,生成分词结果。jieba分词共支持3种分词模式:精确模式、全模式、搜索引擎模式[8]。3种分词模式特点及适用范围如表1所示。
表1 3种分词模式特点及适用范围
精确模式能实现对语句最精确的切分且不存在冗余数据,适用于高精度的文本分析工作,符合本文的文本处理要求。因此,使用jieba分词精确模式,完成质量验收规范文本分词操作。
2.2 去停用词
停用词是指在信息检索过程中,为实现提高工作效率及节省存储空间的目的,在对文本进行分析处理前过滤对文本内容影响较小的字词及符号等,被提前过滤掉的内容称为停用词。
在通用的“哈尔滨工业大学停用词库”“四川大学机器学习实验室停用词库”“百度停用词表”等基础上[9],根据实际需要,添加“建设工程、规划”等建设领域通用但与质量问题关联度不高的词汇,形成本研究使用的停用词表,如表2所示。
表2 停用词
2.3 关键词提取
在自然语言处理中,关键词作为表述文本中心思想的词语,常被用于检索文本信息、文本系统分类等工作。关键词提取是文本信息挖掘的领域分支,其对文本检索、摘要生成、情感分析、文本聚类等研究提供便利。关键词的精准与否将对规范语句处理效果产生直接影响。
从计算机算法角度来看,关键词提取算法共分为两类:有监督关键词提取算法、无监督关键词提取算法。有监督关键词提取算法需人工标注语料库,通过训练学习等多种方式判断词语的重要程度;无监督关键词提取算法无须以人工方式标注训练集,提取效率高,但提取效果与有监督算法相比较差。由于有监督算法需耗费高昂的人工成本,因此,选择适用性较强的无监督关键词提取算法。
TF-IDF作为常用的无监督关键词提取方法,基于统计学原理,将词频(TF)与逆向文件频率(IDF)进行相乘,产生并保留高频词汇,从而获取规范文本关键词,具备操作简单、词频统计严谨的特征。计算如式(1)~(3)所示[10]:
(1)
(2)
TF-IDF=TFw·IDFw
(3)
该方法使用优势明显,经算法分析后,词语的重要程度与出现次数成正比,与词语在语料库的出现频率成反比,区分能力较强,适合文本分类。综上,采用TF-IDF法提取质量验收规范文本关键词,用于后续规范语句处理工作。
3 质量控制语句获取
3.1 质量控制语句提取
质量验收规范由大量质量控制语句构成,共同保障工程施工质量。作为规范文本的核心内容,在已获取关键词的基础上,使用re正则表达式,实现控制语句提取。
正则表达式是对字符实现规则操作的逻辑公式,使用前需事先完成规则字符串的构建。其能对1个或多个规则字符串进行文本搜索匹配,获取用户需要的文本内容,具有逻辑性强、灵活度高、功能性好的特点。re模块作为处理正则表达式的模块,二者共同为质量控制语句提取工作提供技术支撑。
目前,Python中常用处理正则表达式匹配的有search,split,sub,findall等函数,具备实现字符串的查找匹配、分割、替换等功能。其中findall函数能在文本中获取所有匹配的规则字符串,并以列表形式输出对应结果。该函数工作原理正适用于提取质量控制语句,因此使用re.findall完成质量控制语句提取。
3.2 质量控制语句分类
建筑工程施工工序包含大量分部工程,每个分部工程中又涵盖了更为细致的分项工程。各分项工程的精确划分直观展现出建筑物施工技术流程,能使专业施工与管理人员更有针对性地完成工程施工与质量验收工作,保证建筑物施工质量良好。
利用re正则表达式,将质量控制语句依据分部分项工程进行分类梳理,为质量问题分析提供便利,能实现质量问题产生原因的快速分析。经过对规范文本中的全部信息进行初步筛选,剔除与规范文本关键词关联度不高的语句,并在此基础上对控制语句进行分项工程分类,形成质量控制语句库,有效减少质量控制语句基数数量。将分类后的语句应用于后文专家访谈环节,依据分项工程分类结果,专家可优先对与质量问题关联度高的分项工程开展分析,提高原因分析工作效率与结果准确度。
4 实证分析
混凝土结构建筑主要承重构件为钢筋混凝土,具有坚固耐久、承重能力强、消耗建材少、投入成本低等特点,是当下最普遍且常用的建筑结构形式[11]。鉴于混凝土结构建筑的普适性与常见性,选择混凝土结构建筑开展质量问题实证分析。
4.1 混凝土结构建筑工程质量验收规范文本集的建立与处理
根据第1,2节所述方法,共选取35部工程规范建立质量验收规范集,使用Python 3.7编写jieba分词、去停用词与TF-IDF关键词提取方法的代码。运行程序后总结提取出“混凝土、浇筑、钢筋、施工、模板”5个文档关键词。
4.2 混凝土结构建筑工程质量控制语句获取
在获取文档关键词的基础上,编写re正则表达式代码实现质量控制语句提取与分类操作。将质量控制语句依据混凝土结构分部工程进行分类,划分为钢筋工程、混凝土工程、模板工程、现浇结构工程、预应力工程、装配式结构工程6项分项工程。
经程序运行及结果整理,共提取质量控制语句398条。其中,钢筋工程83条,混凝土工程213条,模板工程66条,现浇结构工程6条,预应力工程17条,装配式工程13条,分类结果如表3所示。
表3 混凝土结构建筑工程质量控制语句分类结果
经筛选后获取的质量控制语句存在数量过多、精度不高的缺陷,为进一步提高语句提取精度,利用文档关键词进行二次提取。以混凝土工程为例,第一次提取分类结果共获取213条语句。基于此分类结果,使用“浇筑、钢筋、施工、模板”4个关键词进行二次提取。
程序运行后,混凝土工程第二次语句分类结果共获取136条语句,相较首次提取结果共计过滤77条语句,有效实现精度的提升。以此类推,分别对其余5项分项工程分类结果进行二次提取,共获取241条语句。
上述操作能有效减少语句基数数量,建立的质量控制语句库实现了从繁杂的文本集中筛选出与规范文本关键词关联度较高的语句的目的。
4.3 混凝土结构建筑工程质量问题表象梳理
选取37家工程单位的63份混凝土结构建筑工程质量问题报告作为分析样本,运用统计学方法对其质量问题完成初步分析,具体质量问题及频率统计如表4所示。
表4 混凝土结构建筑工程质量问题梳理及频率统计
研究发现,渗漏与裂缝问题在工程质量问题中占比高达56%。渗漏与裂缝问题将对建筑物后期使用功能产生较大影响,作为工程质量问题的频发项目,需持续跟踪检查,加强质量风险管理。
地下室是典型的混凝土结构建筑工程。地下室常见的工程质量问题集中在因混凝土结构裂缝、接缝相关原因导致的渗漏、裂缝。结合质量检查报告,汇总整理多个项目存在的地下室渗漏问题表现形式,如图2所示。
图2 混凝土结构建筑工程质量共性问题
4.4 地下室渗漏质量问题产生原因分析
以地下室渗漏问题为例,结合已建立的质量验收规范集,探讨由于混凝土结构存在裂缝、接缝等情况导致地下室产生渗漏问题的原因。邀请业内5名技术质量专家进行地下室渗漏质量问题访谈,包括总工程师1名、质量总监2名、技术负责人2名。根据已建立的质量控制语句库,专家从中遴选出与地下室渗漏质量问题产生关系最为密切的若干控制语句,将控制语句与质量表象产生的背后原因建立关联。至此,建立了一套地下室渗漏的“质量控制语句(质量规范)-质量表象(渗漏)-质量问题原因”的对应关系自动化检测条目。根据专家访谈结果,地下室渗漏质量问题可能由101项原因造成,如表5所示。
表5 地下室渗漏质量问题产生原因
研究结果表明,地下室渗漏质量问题的发生是多个分项工程因素共同作用的结果。其中,混凝土工程施工对地下室渗漏问题的影响最为显著,从混凝土材料生产、运输浇筑、现场施工管理、施工缝后浇带留设、浇筑振捣养护及冬期施工等多角度出发,共归纳70项具体原因。由于所选取的施工规范关注于混凝土主体结构工程浇筑过程产生的裂缝,故对防水层等材料施工过程造成的裂缝暂未考虑。
4.5 小结
1)以地下室渗漏为例进行质量问题原因的文本分析研究,其他工程质量问题原因分析过程与之相似。通过建立“质量规范(质量控制语句)→质量问题表象→质量问题原因→质量控制(质量保障规范技术措施)”这一闭环的自动化质量分析框架,可形成工程质量“表象-原因”关系库,为最终真正实现大规模的基于人工智能的工程施工自动化质量检测、分析与预防提供基础。
2)对比国内同领域研究成果,胡云忠等基于本体,针对建筑质量管理规范进行建模研究[6],在一定程度上完成规范文本整理工作,而本研究实现规范文本自动化处理,能够在短时间内筛选处理大量质量验收规范文本数据,提升文本挖掘效率;潘杏等提出基于LDA的地铁施工安全隐患排查要点挖掘方法[12],运用自然语言处理技术归纳整理出34项安全隐患要点,而本研究以地下室渗漏为例,总结6类101项潜在原因,分析结果更为全面,且与工程实际控制标准相关,弥补实际工程质量检查环节应用的空白。
3)提出的研究方法框架,不仅适用于地下室渗漏质量问题,同样适用于建筑工程项目中其余质量问题。借助计算机Python编程手段,实现大规模、自动化处理质量规范文本,有效提高语句获取效率。在此基础上,探寻具体质量问题与其诱发原因之间的关联,深入挖掘各质量问题背后的潜在原因,将质量管控提前至实施前期,避免或减少工程质量问题带来的损失。
5 结语
通过自动化提取控制语句的方式,建立了质量控制语句库。同时,依据实际工程质量检查报告,归纳梳理了质量问题表象。借助专家访谈方式,构建质量控制语句库与质量表象间的关联,探寻质量问题背后的产生原因。从而形成了一套较为完整的工程质量问题分析框架,为实现自动化、高效地开展质量原因分析和质量管控工作提供全新的思路。
1)依据各分项工程提前加以划分,借助Python编程,将与实际工程质量问题具有强相关性的分项工程语句进行自动化筛选、归类,能有效减少质量控制语句库中语句数量,达到精炼语句库的目的。解决了现有工程规范涵盖多种分部工程,语句数量较多且种类繁杂的问题。从而进一步提升质量问题原因分析的工作效率与结果准确度,实现较为快速、准确地定位质量问题产生原因的目的。
2)利用提出的“质量规范(质量控制语句)→质量问题表象→质量问题原因→质量控制(质量保障规范技术措施)”自动化质量问题原因分析框架,以地下室渗漏质量问题为例开展实证分析。通过将这一框架应用于其余工程质量问题,能逐步建立起更加全面的工程质量问题“表象-原因”关系库,优化质量管控与监督体系,提高工程质量管理水平,弥补实际工程质量检查环节暂未使用自动化方法的空白。
本研究对实际工程施工环节的考虑并不全面,如未充分研究地下室渗漏质量问题中由于外设防水层施工而产生的裂缝。在后续“表象-原因”关系库的建设中,将不断丰富完善各类质量问题。同时,为进一步提高工程质量问题的分析效率,也将继续优化质量控制语句语义分析和质量问题产生原因判定方法,最终实现基于施工技术文件的质量问题自动化检查与分析过程,为“双碳”需求下的智慧施工提供质量保障。