基于云计算环境下气象数据挖掘技术的研究
2018-03-17胡丽娜
胡丽娜
(黑龙江工业学院,黑龙江 鸡西 158100)
随着互联网技术的发展,庞大数据中隐藏着很多价值信息,为了在大量的数据中找到其存在的规律,技术人员必须采用数据挖掘技术,从而有效预测未来的发展趋势。气象数据在国民经济建设与科学研究过程中具备十分重要的价值,应用十分广泛,可为基础的地面与高空气象提供更多的参考资料,且很多灾害资料与雷达气象资料中蕴藏着气象规律,可有效预测气象。因此,在提取价值气象数据的过程中,应用云计算与关联规则挖掘技术具备十分重要的作用。
1 云计算与关联规则挖掘技术
当前对云计算并未形成公认,其具备高度可靠性、虚拟性、可拓展性、分布性以及资源聚合性等特点。基于云计算主要指的是结合各个服务器的资源,通过虚拟技术将开发的服务与网络计算扩展至每一个服务器,从而实现超级计算的功能。当前关联规则挖掘技术应用十分广泛,其可以有效发现事物数据库各个属性之间的关联,随着关联规则挖掘技术的深入研究,工作人员改进优化了技术算法,包括FP-Tree 算法等。
2 基于云计算及关联规则挖掘技术的气象数据挖掘
在本次研究中,首先,技术人员准备硬件与软件环境,并开始进行算法实验。第一步应利用一个磁盘与两台服务器搭建实验环境,且实验采用三节点集群方式,利用weiUbuntu 12.04 版的操作版本,并在服务区中采用虚拟3台PC 机。同时,应在Hadoop 平台版上搭建集群,且采用完全分布模式搭建Hadoop 环境,并在后期考虑Hadoop 集群的装备配置。具体步骤为:配置Hadoop 运行环境,并通过修改配置文件启动或关闭集群。为了便于后期的开发与调试工作,在完成之后配置基于Eclipse 的Hadoop 应用开发环境,在实现远程操作的基础上,在Eclipse 集成环境中测试与编译代码,提升开发效率。整个过程中做好集成环境与插件类型的选择工作,在完成准备工作后便开始部署Hadoop。第二步则开始进入正式的实验阶段,技术人员应做好数据的准备工作,利用中国地面国际交换站的气候资料数据集寻找气象数据局。平均风速、平均气温、平均相对湿度、降水量以及小型蒸发量属于收集资料内容,应根据上述资料完成数据的挖掘与预测工作。同时,技术人员在遵循气象数据关联规则的基础上,离散化相关数据,并将属性转化为布尔型,之后挖掘关联规则。
其次,开始进行本次实验,在使用Eclipse 平台的基础上利用Java 语言编写FP-Tree,并将待挖掘的数据上传至Ha-doop 分布式文件系统,做好相关文件的标注工作,之后找到运算结果。之后将挖掘数据进行统一,了解程序的运行状态,在完成程序运行后通过保存的文件获得试验结果。之后改变各个参数反复完成试验,提取获得实际数据的挖掘结果,做好气象数据的预测工作。同时,挖掘期间应考虑数据的大小问题,大数据为集群性测试的关键因素,为了确保算法结果的准确性,应在单机环境与分布式环境中完成大小不同数据的试验工作,对相同数据进行支持度的试验,对同组数据根据Mab 数大小的不同试验。最后,应充分了解气象数据中气象结果的预测作用,在本次实验中,技术人员收集了各种真实数据信息,但利用信任度与支持度的关联规则挖掘无法有效判断预测结果的真实性,对此还应考虑计算规则相关性问题,计算时间同时出现可能性与各个事件完全独立性可能性的比例,当比例小于1 时,呈负相关,无意义。当结果等于1 时则代表事件相互独立,当结果大于1 时,呈正相关,有意义。
3 结 语
当前我国气象事业正处于不断发展的过程中,对天气预报具备十分重要的意义。对此,相关工作人员应利用云计算与关联规则挖掘技术在海量信息数据中挖掘更多有价值的信息,提升算法效率,增强气象数据的可用价值。本次研究虽然获得了一定的成效,但依然存在很多亟待改善的地方,需要更多学者投入其中,完善理论与实践基础。