基于关联规则的水利工程建设质量安全监管数据挖掘与分析
2018-12-15黄黎明肖久红佘春勇吴阳锋
黄黎明,肖久红,佘春勇,吴阳锋,张 帅
(1.浙江省水利水电工程质量与安全监督管理中心,310012,杭州;2.浙江财经大学信息管理与工程学院,310018,杭州)
一、背景和意义
随着我国经济的快速发展以及国家实施积极财政政策,水利工程基础设施迎来了投资和建设高峰期。但由于水利工程施工周期长、建设难度大、涉及面广,导致质量和安全问题时有发生,影响了人民群众生命财产安全。因此,加强水利工程建设质量与安全监管工作,改进监管工作方法,提升政府监管水平,显得尤为重要和紧迫。
浙江省水利水电工程质量与安全监督管理中心作为省级水利工程质量与安全监督单位,依托信息化移动技术在全国率先推出了水利质量安全监督移动平台。经过一段时间的运行,该平台积累了大量责任主体、工程质量抽检、事故调查处理、监督处理依据等工程监管数据,但数据间的相互关联性和模式还没有被挖掘出来,历史监管数据无法为后续监管工作提供有效指引。因此如何利用数据挖掘技术对现有水利工程监管数据进行分析、挖掘并准确分析潜在的风险模式和规律,以实现监管高效化、工具智能化、管理创新化,是目前水利工程建设质量安全监管工作中急需解决的难题。
关联规则分析作为数据挖掘的重要方法之一,被广泛运用于商务、政务、金融、医疗等领域中。本文以浙江省水利工程建设质量安全监管据为对象,运用R编程语言和Apriori关联规则分析算法,对监管数据中的主体单位类型、工程等别、工程类别、技术问题等属性进行了深度关联规则挖掘,并根据关联规则挖掘结果对易发生技术问题的水利工程有关属性进行了分析,最后结合实际情况对如何加强水利工程质量与安全监督管理提出了建议。
二、国内外研究现状
近年,随着新一代信息技术的不断发展,从海量数据中提取隐含的、具有潜在价值的信息或规律的数据挖掘技术,在诸多领域得到了广泛应用。关联规则分析作为数据挖掘的重要方法之一,成为国内外许多学者研究的热点。Qodmanan等学者提出了一种基于遗传算法的柔性关联规则挖掘方法,该方法采用多目标适应度代替支持度和置信度来评价规则。Beiranvand等学者提出采用多目标粒子群优化算法和多目标透视求解数值关联规则挖掘问题。国内学者方匡南、谢邦昌就缺失数据处理问题,提出了利用聚类和关联规则挖掘出关联性来填补缺失数据。刘帅、杨英杰等人提出了一种基于改进模糊遗传算法的关联规则挖掘方法,拓宽了关联规则的挖掘范围,提高了算法效率。
针对政府安全监督管理问题,国内学者研究成果较为突出。韩红旗提出了在水利工程管理中使用数据挖掘技术,建立一个适合水利工程管理的模型。晁凤英、杜树新提出运用数据挖掘方法发现食品安全检测数据中隐含的关联规则,为食品安全监管提供了决策支持,提高了监管效率。王艳亮提出了利用数据挖掘技术建立包括监管部门、矿山企业及基层职工三层结构的矿山企业安全监管信息系统模型。区晶莹等学者认为数据挖掘技术可以从大量农产品质量安全监督数据中提取有效信息,从而为政府监管决策服务。
综上所述,学者们的前期相关研究为本文研究奠定了基础,将关联规则挖掘技术与水利工程建设质量安全监管相结合以获得潜在的、有价值的风险模式和规律,是提升水利工程建设质量安全监管工作效率和水平的有效手段。
三、本次实验的数据来源和方法
1.数据来源
本次实验数据来自浙江省水利水电工程质量与安全监督管理中心,共21 000条记录。数据中包含了主体单位类型、工程地点、工程等别、工程性质、工程用途、工程类别、建设状态、总投资、问题描述和技术问题共10个属性。
2.Apriori关联规则
本次实验采用Apriori算法进行关联规则挖掘。Apriori算法是一种经典的通过生成布尔型关联规则频繁项集以发现关联规则的数据挖掘算法,其过程可以分为两个步骤:
(1)通过迭代检索出数据库中的所有频繁项集,项集支持度不低于设定的最小阈值。
(2)利用频繁项集构造出满足最小置信度的规则。
Apriori算法包含了支持度、置信度和提升度三个重要概念。
假设I={i1,i2, …,im} 是m个项(item)组成的集合。关联规则是形如“A=>B”的蕴含式,其中A和B满足A∈I,B∈I,且:
①支持度 (Support):表示项集{A,B}在总项集I中出现的概率,即P(A∪B),如公式1所示。其中,num(A∪B)表示含有项集{A,B}的个数,num(I)表示总项集的个数。
②置信度(Confidence):表示在含有A 的项集中, 含有B 的可能性,即条件概率P(B/A),如公式2 所示。其中,P(A)表示A 总体发生的概率。
(3)提升度(Lift):表示含有 A 的条件下,同时含有B的概率与B总体发生的概率之比,如公式3所示。Lift>1表示A与B正相关,Lift=1表示A与B相互独立,Lift<1表示A与B负相关。
四、本次实验设计与分析
1.数据预处理
为了提高实验的准确度,挖掘出对水利工程监管工作人员有辅助决策作用的关联规则,首先去除了存在错误输入和空缺的数据记录。同时根据工程项目所在地,将工程地点归类为浙江省11个地级市。根据数据分布情况,将“总投资”属性的值离散化为“小规模”“中规模”和“大规模”3 个等级,以符合关联规则挖掘的数据类型需要,如表1所示。最后根据“问题描述”属性对技术问题进行合并归类,共划分为50个问题类别。表2和表3分别部分列出用于关联规则数据挖掘的技术问题类别描述和实验数据。
2.实验结果与分析
分别指定50类问题作为规则的后项,然后通过编写R语言程序并调用arules程序包Apriori关联规则算法进行数据挖掘,以找出工程属性与工程所存在技术问题之间的关联性规则。为了保留更多关联规则供后续挑选,设置最小支持度和最小置信度分别为0.003和0.1。考虑到挖掘出的关联规则中以涉及问题40(施工用电不规范)和问题46(安全警示标志设置不符合规范要求)的规则居多,本文针对这两类问题的关联规则进行重点分析。
图1是以问题40和46为后项的关联规则散点图。X轴和Y轴分别代表支持度值和置信度值。图中的每一个小方块代表一条关联规则,小方块的颜色代表提升度值,颜色越深,提升度值越大。由图1可知,大部分关联规则的置信度处在0.15~0.3之间,提升度大多高于1.5,表明挖掘出的关联规则具有一定的实际指导意义。图2是以问题40和46为后项的部分关联规则的可视化图。图2中,圆的大小代表支持度值,颜色代表提升度值。圆越大表示支持度值越大,圆的颜色越深表示提升度值越大。从图2中可以看到“{工程类别=农水,工程用途=灌溉,工程地点=衢州市}=>{技术问题=46}”规则的支持度大且提升度高于2.5,表明衢州市用于灌溉的农水类工程出现 “安全警示标志设置不符合规范要求”问题的可能性很大,在进行水利工程质量监管时要重点关注。
表1 “总投资”类别的范围区间设定
表2 技术问题类别描述(部分)
表4展现的是从挖掘结果中筛选出的部分具有代表性的关联规则。其中规则1的提升度高达2.5649,表明相对于其他工程,金华市用于防洪的河道类工程出现 “砌块施工不满足设计及规范要求”问题的概率显著提升。其原因可能是用于防洪的河道类工程采用砌筑工艺易出现砌筑未按照施工方案施工、土方超挖欠挖和伸缩缝设置不符合设计要求等问题。规则4和规则6是同类工程出现不同技术问题的关联规则。通过比较支持度值和置信度值,可以看出嘉兴市农水类工程的施工单位出现 “安全警示标志设置不符合规范要求”问题的概率更高,监管工作人员针对该类工程进行监管时,要予以特别关注。实际分析中看到,规则6的提升度略大于1,表明该规则几乎没有实际应用价值;而规则4的提升度达到1.6879,表明该规则具有较好的实际应用价值,能为水利工程建设质量安全监管提供指导意义。
表3 实验数据(部分)
图1 以问题40和46为后项的关联规则散点图
图2 以问题40和46为后项的关联规则可视化图(部分)
五、结 语
本文采用关联规则挖掘方法和Apriori算法探究水利工程各种属性与可能存在技术问题之间的隐含联系。借助挖掘出的关联规则可以有效辅助政府部门加强水利工程建设质量安全监管工作,提高监管效率。如针对嘉兴市农水类工程施工单位,水利监管人员需要重点检查“工程安全警示标志设置是否符合规范要求”问题;针对杭州市新建引调水类工程,水利监管人员需要重点检查工程是否出现“施工用电不规范”问题。
表4 实验结果中具有代表性的关联规则(部分)
本次实验过程中仍存在一些局限性。例如,由于浙江省水利质量安全监督移动平台运行年份不长,获取的数据量有限,导致挖掘的关联规则准确度有待提升。在后续的研究中,将考虑把关联规则挖掘与启发式算法或其他数据挖掘技术相结合,以进一步提升数据挖掘的精度和准确度。 ■