信息挖掘在航空探测数据处理方面的应用
2012-10-17陈玮丽张文建
陈玮丽 张文建
华北电力大学 北京 102206
0 前言
航空物探在地质研究、生态治理、短缺资源的探测,有着广泛的应用。目前主流的航天探测技术主要有四种:航空磁测技术、航空电磁测量技术、航空能谱测量技术、航空重力测量技术。
1 数据挖掘技术概况
1.1 数据挖掘技术现状
重要信息的挖掘方法由以下3个环节构成:(1)资料内容的搜集,(2)数据信息的挖掘发现,(3)数据挖掘的结果展示,数据挖掘可以与用户智能交互,数据挖掘主要是根据分析每个重要信息,从广泛的数据中寻找其中的规律的技术,资料的搜集是从与其相关联的数据源中筛选有价值的数据并处理成用于数据挖掘的数据集;数据信息的挖掘发现是用某种特定的算法,将数据集所含的规律找出来;数据的规律表示是以用户可接受的方法将找出的规律呈现出来,数据挖掘是一个多学科的交叉领域,这些学科包括数据库技术、机器学习、统计学、模式识别、信息检索、神经网络、基于知识的系统、人工智能、高性能计算和数据可视化等,数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、和演变分析等。
典型的数据挖掘如图1所示。
图1 典型的数据挖掘
1.2 数据挖掘分析技术的应用
数据挖掘是一门交叉学科,随着数据库和互联网路的发展,在金融、通信、等许多领域得到广泛的应用,其应用领域在不断拓展。
几个典型的应用,如(1)预测功能:通过对大量资料中走向的分析,对将要可能发生的事件进行预测对客户群体进行科学准确的预测。(2)客户群体价值判断作用:根据对客户的价值判断,发现单位的优质客源,提高经济运行效率,降低成本。(3)智能跟踪:通过对已有的数据资料进行研究判断,找出其中的异常点,对可能发生的情况进行预测。(4)复合型营销:根据对资源和服务结合的营销策略的分析,准确定位货物间的组合销售方案,设计复合销售策略。例如,在零售业进行消费者消费情况分析,根据结果对货架重新摆放,从而提高销售量等。(5)针对性服务:对个人的消费案例进行分析,发现其特定的消费习惯,可有针对性地设计方案销售。(6)数据库的直接销售:一般来说,向客户随机发出大量直销邮件,可能仅有不到 1%的反馈信息。但是依据小规模邮件直销的结果内容,数据挖掘能够建立一个科学的方案,找出其中可能做出响应的个人,将响应率提高到10%,甚至更高从而削减了成本,提高了销量。(7)提升工作效率:通过对日常工作数据判断,找到优化解决方案,提高效率。(8)创新探索:通过对丰富的无规则的科学实验数据进行分析,发现其中规律,发现未知现象。(9)对象的划分例如,银行业将客户分成不同的群体,向其提供不同的个性化投资产品。
综上所述,数据挖掘能够高效的处理分析复杂数据,并能够科学的实现智能交互,能够很好的解决目前航空航天资料内容多、查询难度大、分析困难、利用率低的难题。
2 数据挖掘技术引入航空物探数据库系统的设计思路
2.1 航空物探数据库系统概况
航空物探数据库系统使用到的主要工具见表1。
表1 开发和设计工具
各个部分的功能模块见表2。
表2 功能模块
以上内容为系统开发的工具组成部分。
目前航空物探的系统能够实现航空物探数据的数据入库存储、实时检查和查询三大功能。但是其查询和存储效率相对较低。比如,系统对大字段数据的读写速度慢。当一次处理的数据量达到上百兆时,系统处理时间达数分钟。
2.2 数据挖掘在数据库中的引入
2.2.1 数据挖掘算法
数据挖掘方法中受到认可的方法包括决策树算法、传算法、聚类算法、关联规则等。
聚类算法是一种功能强大的资料管理算法,这种算法具有可扩展项能、分析有损数据、可处理的维度数更高、对于资料数据的记录顺序不敏感、能够被解释、兼顾约束条件、高智能交互特点,充分利用数据之间的关联度进行分类处理,实现良好的交互功能,聚类算法主要包括基于密度的方法、层次聚类算法、分割聚类算法、基于网格的方法等等。
其他算法如下数据挖掘算法汇总表3。
表3 数据挖掘算法汇总
2.2.2 数据查询推荐系统的建立
航空物探数据查询推荐系统就是通过分析用户查询的资料得出学习其中经常被查询和关注的内容并进行记录,为每个用户建立一个档案资料库,在以后的查询过程中为其提供智能服务,向其推荐其可能关注或感兴趣的信息的系统。根据实验分析得出次查询推荐系统能够很好地向用户推荐所需信息数据,在短时间内解决资料查询问题,帮助用户方便准确查询到所要查询的信息,提高数据查询效率,降低查询时间。
2.3 数据挖掘算法在查询系统中的应用
由数据挖掘算法汇总表 3,可清晰看出,各种算法都有其优缺点,结合算法自身特点及资料的查询的实际需求,本方案数据查询智能交互系统的设计思路将主要引入数据信息挖掘中的数据预处理技术,关联规则挖掘,分类分析,聚类分析等关键技术算法,本方案重点研究数据挖掘关联规则技术和聚类分析技术在的应用。
2.3.1 数据中挖掘关联的规则
关联规则在本系统中的应用:(1)充分利用挖掘数据间的相关性,同时结合用户查询的历史记录,向用户推荐相内容,提高了信息的使用效率,即促进信息数据间的关联;(2)组织相关数据进行搭配;(3)根据用户的查询模式及查询的历史记录将用户进行合理智能划分。从而动态调整数据链接,给各类用户提供更为满意快捷的选择,实现了数据人性化查询交互。
下面可以根据一个3个环节对此问题进行分析介绍:
第1个环节:在进行数据查询上,用户想查询航空物探电磁测量技术。系统可以根据对关联规则的挖掘结果电磁测量技术和重力测量技术放到一个列表,向客户推荐,提高数据的利用效率。根据系统进行数据挖掘得到的信息:关注电磁测量技术用户有51%关注重力测量技术。
经调查许多用户都会受到这种导向的影响,这样就大大提升了资源的使用效率及用户的搜索难度。
第2个环节:更进一步分析,根据对若干个例1中关联规则挖掘。这样可增加用户对于此类信息的兴趣,帮助用户理解数据。
第3个环节:为查询的用户智能提供N种的数据相关。第一步:当用户使用本系统时进行实名登记注册,其每次进行数据查询就会产生一系列数据记录,根据该历史查询数据记录,根据关联规则算法从Database中找出所有满足最小支持度threshold和最小置信度threshold的关联规则,智能划分出用户尚未查询但可能感兴趣的数据内容的信息,根据概率中置信度算法找出其最可能感兴趣的对信息内容题目进行整合,向用户智能提供N种最可能感兴趣查询的。
2.3.2 聚类分析的引入
对用户的查询消息记录进行聚类计算,将具有相似查询习惯的用户划分为一类,将具有最相关查询记录的用户划归到同一个类中,根据同一个类中用户的信息内容向其更好更准确到位地推荐要查询的信息内容,也可动态地进行信息列表的调整,从而提供更高效的服务,对于数据资料的管理人员,可根据不同簇中用户的特征,制作不同的信息查询列表,比如:消费者M去网上购物淘宝,购买家具,买了床和床垫两种商品,同时可能还会浏览一些家用电器等日常生活用品,当消费者 M再次进入此查询系统时,系统就会通过 M的查询历史记录在页面下方提示其可能感兴趣的信息,这样便于用户查询,缩短了查询时间。同时系统可以根据用户的查询记录将其查询习惯进行归类划分成簇。
3 总结
目前数据挖掘技术在互联网领域应用较为广泛和成熟,如网上购物等等,其良好的使用效果得到业内人士越来越多的重视。
通过将数据挖掘算法,对客户每次查询进行记录,根据记录可以分析出对其有价值的部分,当其登录时会自动有列表显示其可能感兴趣的信息列表,进一步大大缩短了数据查询的时间,显著提高了资料的使用效率。实现了数据在条件下的资料查询的简单化、快捷化、人性化的处理。
随着信息量的逐年不断增加,数据挖掘技术和其算法必然会得到不断的拓展和完善,将数据挖掘技术引入到航空物探资料管理查询当中具有良好的前瞻性和实用性。随着技术的不断完善,定会更好的服务航空物探事业。
[1]万建华,熊盛青,范正国.西方国家航空物探技术的若干进展[J].物探与化探.2000.
[2]卢俊峰.野外航空物探资料预处理问题的讨论[J].地质找矿论丛.2003.
[3].薛典军.航空物探信息服务系统需求规格定义.中国国土资源部航空物探遥感中心.2003.
[4]韩家炜,堪博.范明,孟小峰,译.数据挖掘:概念与技术[M].(2 版).北京:机械工业出版社.2007.
[5][美]Charles Petzold.C#Windows程序设计(M).北京大学出版社.2002.
[6]邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工程与设计.2005.
[7]薛洁,刘希玉.数据挖掘技术与网上购物推荐系统[J].网络安全技术与应用.2011.