APP下载

基于人工智能数据预测模型的对比

2020-02-05石昀邓世权

电子技术与软件工程 2020年7期
关键词:向量火灾森林

石昀 邓世权

(凯里学院 贵州省凯里市 556011)

1 引言

人工智能由McCatgthy 等人于1956年首次提出,经历上世纪50-60年代的人工智能发展初期、上世纪70-90年代的人工智能发展中期(瓶颈期),直至21 世纪,随着新技术的出现,计算机软硬件性能的不断提升,各种现实世界中的问题得到不断的解决,人工智能取得了长足的发展。各种人工智能相关技术被广泛应用于医疗、卫生、教育、工业、金融等各个领域[1],[2],[3]。通过人工智能结合大数据与云计算等技术,各领域的业务数据被得以有效利用,在运用人工智能算法为各行各业提供坚实有力的数据分析作为业务分析的有效支撑的同时,人工智能还深刻的影响着人们的生活。如淘宝、京东、苏宁易购中的购物推荐功能,如智慧社区、智慧城市、滴滴出行、共享单车等无不体现着人工智能技术已经深入到了各行各业,其在各行各业的应用领域也在不断的加深[4],[5]。人工智能算法对于不同业务领域中的数据,在进行业务数据分析从而进行发展决策分析时,往往会因为算法预测精准程度、算法执行效率、算法执行时间等指标上的不同。同时,对于不同的算法模型,通过调整、优化参数以及选择不同的核函数等情况时,往往会对算法的优劣起着不同的效果。因此对于特定领域的业务数据选择相对更有优势的算法模型会对行业发展提供数据支撑起着重要作用。文献[6]通过使用KNN(K Nearest Neighbour)算法[7],结合回归算法对非参数预测模型回归算法进行改进并应用于KNN 算法中,经过真实交通流量数据进行状态预测分析,从而对短时交通流量起到了较好的预测效果。文献[8]通过利用全局和局部最优解的方法来对蚁群算法[9]进行改进使得蚁群算法在执行效率以及算法稳定性上得到了较好的改进。文献[10]中针对海量数据集提出大规模数据及关联规则挖掘算法(disk table resident fptree growth),并在此基础上通过基于平衡树的索引来降低数据挖掘过程中的内存消耗,提高了数据挖掘的效率。文献[11]中提出一种基于AHP(层次分析法)[12]的频谱资源分配效果评价算法,并通过代码仿真验证层次分析法对频谱资源分配评价效果较好。上述文献均从不同的角度说明了针对不同业务领域的数据,在利用人工智能相关算法进行数据分析决策时采用不同的人工智能算法对业务数据进行分析所产生的效果是不同的,且不同的人工智能算法在对业务进行数据分析时,由于所面对的行业领域不同的原因,算法执行效率、算法执行时间、误差率等指标所反映出来的算法优劣性也是不同的。

2 研究背景

本文通过选取几种常用的人工智能数据预测模型算法,通过UCI 公开数据集网站(https://archive.ics.uci.edu/ml/about.html)中提供中部分行业领域公开数据集中的部分数据作为训练样本集及测试样本集,对支持向量机算法(Support Vector Machine)[13]、相关向量机算法(Relevance Vector Machine)[14],人工神经网络算法(BP)[15]、深度神经网络算法(Deep Neural Networks)[16]、长期短记忆网络算法(Long Short Time Memory)[17]以及Ba-BP[18]等算法模型在不同的业务数据领域中,各自的算法执行时间、误差率等指标进行分析比较,验证不同的算法模型各自分别适用于对不同的业务数据领域中的数据进行模型的预测以及分析。

3 数据预测模型对比实验设计

通过使用UCI 公开数据集网站中的建筑物能源效率数据集(Energy efficiency Data Set)、森林火灾数据集(Forest Fires Data Set)分别作为支持向量机算法、相关向量机算法、人工神经网络算法、深度神经网络算法以及BA-BP 算法模型中。首先,考虑到实验中所用到的各数据集中的属性取值范围均不相同,因此需要对上述建筑物能源效率数据集、森林火灾数据集中各项数据进行归一化处理,通过归一化处理,使得数据集中各项数据取值范围映射到相同的取值范围内。使得采用min-max[19]方法对森林火灾数据集进行归一化处理。min-max 方法归一化公式为:

其中,xnormal为归一化后各数据集中的数据项的值。x 为实际值,xmax为各数据集中的最大值,xmin为各数据集中的最小值。

建筑物能源效率数据集如表1 所示,其中:建筑物能源效率数据集共有768 条数据,每条数据共有13 个属性,X1 为相对紧实度,取值范围为[0.62,0.98]。X2 为表面积,取值范围为[514.5,808.5]。X3 为壁面积,取值范围为[245,416.5]。X4 为屋顶面积,取值范围为[110.25,220.5]。X5 为总高度,取值范围为[3.5,7]。X6为朝向,取值范围为[2,5]。X7 为房屋玻璃面积,取值范围为[0,0.4]。X8 为玻璃面积分布,取值范围为[0,5]。Y1 为加热负荷,取值范围为[6.01,43.1]。Y2 为制冷负荷,取值范围为[10.9,48.03]。

表2:森林火灾数据表

表1:建筑物能源效率数据表

表3:建筑物能源效率归一化数据表

表4:森林火灾数据集归一化数据表

森林火灾数据集如表2 所示,其中:森林火灾数据集一共有517 条数据,每条数据有9 个属性。FFMC 为FWI 系统中的FFMC指数,取值范围为[18.7,96.2]。DMC 为FWI 系统中的DMC 指数,取值范围为[1.1,291.3]。DC 为FWI 系统中的DC 指数,取值范围为[7.9,860.6]。ISI 为FWI 系统中的ISI 指数,取值范围为[0,56.1]。temp 为温度,取值范围为[2.2,33.3]。RH 为相对湿度,取值范围为[15,100]。wind 为风速,取值范围为[0.4,9.4]。rain 为降雨量,取值范围为[0,6.4]。area 为火灾中森林的烧毁面积,取值范围为[0,1090.84]。

利用公式(1)进行归一化后,对于建筑物能源效率数据集选取前728 条数据作为数据预测模型的样本集,后40 条作为预测模型的测试集。归一化后的建筑物能源效率数据集如表3 所示。

利用公式(1)进行归一化后,对于森林火灾数据集选取前500数据条作为数据预测模型的样本集,后17 条作为预测模型的测试集,min-max 归一化后的森林火灾数据集中各项数据如表4 所示。

数据归一化后,将样本集代入预测模型中进行训练,计算出训练执行时间以及平均相对误差[20]。平均相对误差计算公式为:

4 结论

上述实验中,各预测模型算法性能上呈现出较大差异,RNN与DNN 预测模型对于小样本数据而言,算法执行时间以及相对误差率均不及相关向量机预测模型、人工神经网络预测模型以及支持向量机预测模型。同时,对于相关向量机模型、人工神经网络模型、支持向量机模型来说,这3 种模型中,在预测模型的算法执行时间上,相关向量机预测模型在算法执行时间上优于人工神经网络模型以及支持向量机预测模型。而在相对误差率上,支持向量机预测模型的相对误差率接近相关向量机预测模型。

猜你喜欢

向量火灾森林
向量的分解
聚焦“向量与三角”创新题
哈Q森林
哈Q森林
掌握火灾逃生知识
哈Q森林
向量垂直在解析几何中的应用
哈Q森林
向量五种“变身” 玩转圆锥曲线
离奇的火灾