APP下载

基于Apriori关联规则算法的消防大数据分析

2020-05-26孙可心

今日消防 2020年1期
关键词:实例关联频率

孙可心

摘要:本文以消防大数据平台为基础,利用Hadoop程序模块,展开消防大数据分析,研究Apriori关联规则算法模型;并且提出了基于Apriori关联规则算法视角下,分析消防大数据之间的内在关联,力图挖掘火灾发生因素之间的关联,最大程度地减少火灾发生。

關键词:Apriori;关联规则;消防;大数据平台

1引言

在社会经济发展进程中,城乡一致性建设步伐稳定前进,伴随着消防力量式微,给消防部队防火作业与灭火工作发起了新挑战。在消防信息化建设水平日益提升的科技时代背景下,国内消防数据以惊人之势迅速翻倍。消防数据的有效采集、科学存储、数据资源的综合利用,成为当务之急。

2Apriori关联规则算法模型

第一,消防大数据集合,将其中1阶项数据集合全部筛选出来;依据预先设定的最小值aiR,甄别1阶项中的频繁数据项集合,以最小值支持度阀值为参考,标记为I1;重复上述操作,计算2阶候选集C2;筛选满足条件的2阶频繁数据项目集合,标记为I2;重复统计数据,直至标记的数据项目集合IK-1,其所对应的候选集为Ck,候选集中的所有项目集合支持度均小于min,即频繁项目集合不再产生。

第二,在数据不断重复迭代过程中,候选项目数据集合、置信度判断分析,二者在进行时,涉及到两个概念:连接、剪枝;Apriori算法的核心性质为:任意一个项目集合属性为频繁,其中所有子集的属性为非空、频繁;连接是指Ik生成CK-1候选集时,采取的是Ik自身连接方式,连接条件为:K项集合中,k-1项之前的数据相同,从第K项开始不同;其中自身连接是构成长度最大的项集,利用已知频繁项集数据系统,实现减少计算量,获取高概率的频繁项集。在连接过程中,非频繁候选项集的处理工作,应用的是剪枝概念;剪枝是处理非频繁项子集的关键操作。

第三,推导强规则。针对每个频繁子集I,筛选其项集中的非空真子集;l与子集l之间的形成的关系为:I=I-I;计算规则R的置信度:conf(R):sup(I)/sup(I);如若conf(R)值、置信度最小值,二者之间的关系为前者不小于后者,则认定R为强规则。

3基于Apriori关联规则算法的消防大数据分析方法

3.1消防云上搭建Hadoop大数据cluster

在省级消防数据系统云端上,利用云管理工具开辟计算空间,开辟数量为3;在三个节点空间上,安装JAVA数据工程,配置工程运行所需的环境变量,搭建工程环境,具体使用的是:javaverslon 1.8.0141,安装版本为Hadoop 2.7.3。为数据工程配置集群文件,为其提供数据基础性文件内容,辅助其良好运行:etc/hadoop/core-site.xml,etc/hadoop/slaves.etc/hadoop/hdfs-site.xml,etc/hadoop/yam-site.xml,etc/hadoop/mapred-site.xml。启动Hadoop程序,查找进程运行机制,确定主节点yuhl位置,主节点包含:ResourceManager、SecondaryNameNode、NameNode;非主节点进程有:DataNode、NodeManager;搭建好主节点与非主节点的运行程序,完成消防云大数据环境搭建。

3.2Apriori算法实现

在Apriori的算法基础上,结合MapReduce模型;MapReduce是一种编程模型,用于大规模数据集的并行运算,大规模数据集的数据大小为:1TB,此编程模型实现了至少1TB数据集的并行运算,具有计算高速率、数据准确性的特征;Stringterms[]=value.tostring().split(“,”);在C++、java编程语言中,String类是不可更改的,具有绝对的稳定性,如若采取措施试图改变String类,将成立新的String类对象;编程中利用String类,来保障消防云系统上数据的绝对稳定性与精准性,防止数据恶意更改现象发生,减少人为操作失误,每一次数据更改操作,在系统中均有详实记录,实现了消防数据的智能管理。

第一次计算输入map的关键词key为“火灾标识”,value值代表的是“火灾因素”,值之间以逗号向分隔;输出新的标识key为“火灾因素”,value值取值1,输出计算结果;采取re-duce计算方式,输出火灾因素标识为key;将value作为求和数据,剪去小于aiR数据(aiR在上文中提及为:最小支持度阀值);计算分析火灾因素之间的关联关系。其中reduce方法,是编程中的累加器,依据条件输出结果;对于不符合条件的项目,依据方法配置的具体内容,给予反馈;它是一种具有个性化设置的编程方法,有利于消防数据云平台实现个性化管理;小于min数据值,编写不符合条件时,直接排除数据的语言程序;此方法具有超强智能的数据处理机制,适用于消防大数据分析。

3.3大数据实例分析

某省消防云大数据平台中,详实记录了消防出警的全部过程,比如:实施受理、出警人数、灭火市场等数据;从中抽取近3年的火灾数据,时间段截取2013年1月至2017年6月;利用火灾数据,建立大数据实例集;考虑到数据的保密性质,将火灾因素以数字代替,一方面有利于数据分析,另一方面维护消防数据安全,保障国内社会经济稳定发展;火灾因素数据为1,2,3,4,5;火灾类型名称的数据为D100,D200,D300,D400;min值定为0.5。

数据分析,因素1出现频率为2次,因素2出现频率为3次,因素3出现频率为3次,因素4出现频率为1次,因素5出现频率为1次;数据实例集为:C1:{{1}:2,{2}:3,{3}:3,{4}:1,{5}:3};实例集所对应的Support支持度值分别为:0.5、0.75、0.75、0.25、0.75;剪去小于min=0.5的数值,最终得出的数据集合为F1:{{1}:2,{2}:3,{3}:3,{5}:3}。

在F1数据集基础上,开展第二次计算;输入数据因素1和2,二者共同出现的频率为1次;输入数据因素1和3,二者共同出现的频率为2次;输入数据因素1和5,二者共同出现的频率为1次;输入数据因素2和3,二者共同出现的频率为3次;输入数据因素2和5,二者共同出现的频率为3次;输入数据因素3和5,二者共同出现的频率为2次;即数据实例集为C2:{{1,2}:1,{1,3}:2,{1,5}:1,{2,3}:2,{2,5}:3,{3,5}:2};实例集C2支持度为:0.5、0.75、0.75、0.75;C2支持度數值均大于min值,即数据集为F2:{{1,3}:2,{2,3}:2,{2,5}:3,{3,5}:2}。

C3为第三次扫描,共同出现的数据因素:2、3、5,则实例集C3:{2,3,5}:2,C3的支持度为0.5;得出的关联关系为:频r率值为2时,数据因素3的支持度d为0.5,置信度f为0.66;r=3,数据因素2的d=0.5,f=0.66;r=3,数据因素5的d=0.5,f=0.66;r=5,数据因素5的d=0.5,f=0.66;r=2,数据因素2的d=0.75,f=1;r=5,数据因素2的d=0.75,f=1;r=2,数据因素2的d=0.75,f=1;r=2,数据因素3、5的d=0.5,f=0.66;当数据因素出现3、5时,出现数据因素2的d=0.5,f=1;当数据因素出现3时,同时出现数据因素2、5的d=0.5,f=0.66;当数据因素出现2、5时,出现数据因素3的d=0.5,f=0.66;当数据因素出现5时,同时出现数据因素2、3的d=0.5,f=0.66;当数据因素出现2、3时,出现数据因素5的d=0.5,f=1。

3.4实例分析

假设f的最小值为0.8,则:①数据因素2、5的同时发生概率p为0.75,发生因素2时,间接发生因素5的概率p1为1;②2、5同时发生p=0.75,先发生因素5,间接发生因素2的p1=1;③2、3、5同时发生p=0.5,先发生因素3、5,间接发生因素2的p1=1;④2、3、5同时发生p=0.5,先发生因素2、3,间接发生因素5的p1=1。由此可知,火灾数据因素之间存在关联关系,应加强防护措施,减少火灾带来的经济损失。

4结语

综上所述,引起火灾的数据因素较为复杂,涉及因素广泛,比如气象、建筑属性、人员习惯等,如若将诸多因素共同例入Apriori关联规则算法的实例项目集合中,需要更为专业的技术给予支持,来完善项目集合,寻找火灾因素的关联关系。

猜你喜欢

实例关联频率
处理器频率天梯
振动与频率
奇趣搭配
拼一拼
智趣
一类非线性离散动力系统的频率收敛性
试论棋例裁决难点——无关联①
完形填空Ⅱ
完形填空Ⅰ
概率与频率