数据挖掘的前期准备
2013-04-29管军伟
管军伟
无线电管理各类数据库标准的制订,科学地定义了数据模型。网格化监测等项目的推广,加强了数据的时空关联属性,数据世界描述现实世界的能力明显增强。然而,传统的数据分析技术已无力应对当今的海量数据。令人庆幸的是,专用于破解此类难题的数据挖掘技术已枕戈待旦。在整个数据挖掘过程中,近80%的时间都是在准备数据,可见,前期准备对数据挖掘具有重要意义。
数据挖掘(Data Mining,简称DM)是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。数据挖掘融合了数据库、统计学、人工智能等学科的知识,能够提供多种功能:概念描述——根据数据的微观特征来表征数据集;关联分析——揭示事物之间的依赖或者关联关系;预测分析——根据历史数据和当前数据,预测未来数据;聚类分析——发现内在的规则,识别出紧密相关的观测值组群;异常检测——识别出特征显著不同于其他数据的观测值。
严格地说,数据挖掘是数据库知识发现(Knowledge Discovery in Databases, 简称KDD)的一个步骤(如图1所示),但在实际中,两者通常被等同视之,笔者也循例统一使用“数据挖掘”一词加以表述。
数据挖掘一开始就是面向应用的,它封装了相关学科中复杂高深的理论和技术,大幅降低了应用门槛。然而,成功的数据挖掘并非一蹴而就,需要从几个方面着手准备:
正确认识数据挖掘
一般来说,数据挖掘处理的数据规模都很大,挖掘出来的结果是不确定的,只有结合领域知识才能判断其价值。数据挖掘既要担负发现潜在规则的任务,还要应对新数据的管理和规则维护。规则的发现基于大样本的统计规律,当置信度达到某一阈值时,就可以认为规则成立。
显而易见,数据挖掘不同于传统的决策支持系统。传统的决策支持系统通常是先建立一系列的假设,然后通过数据查询和分析来验证或否定假设,最终得到自己的结论,它在本质上是一个演绎推理的过程。而数据挖掘是按照给定的算法,自动地对数据进行归纳、分析和推理,从中发掘出潜在的模式,它在本质上是一个归纳的过程。
认识数据挖掘应避免走向两个极端。有的人认为数据挖掘一无是处。事实上,数据挖掘已经被广泛应用于金融、保险、通讯、商业、制造、体育、医疗卫生等领域,且成效明显;也有的人认为数据挖掘无所不能。事实上,数据挖掘只是一个帮助人们从海量数据中去发现各种假设的工具,至于假设是否正确,还需放到实践中去验证。
熟悉领域业务
普遍认为,数据挖掘在某领域的成功不能期望于通用的辅助开发工具,而应该是数据挖掘概念与特定领域业务逻辑相结合的纵向解决方案。也就是说,数据挖掘不可能在缺乏指导的情况下自动地发现规则,这也是数据挖掘为何没有在特定领域被广泛应用的主要原因之一。
跨行业数据挖掘过程标准(Cross-Industry Standard Process for Data Mining,简称CRISP-DM)是业界广为认可的数据挖掘方法论,它将数据挖掘过程分为六个阶段(如图2所示):“业务理解”是从业务的角度理解需求,定义问题;“数据理解”从现行的应用系统入手,深入了解和认识数据;“数据准备”选择与要探索问题相关的数据子集并清洗数据;“建模”即结合业务选择算法、调整阈值,建立挖掘模型;“评估”在实际中检验挖掘的结论,重点考虑是否符合目标;“部署”会获得的知识以便于用户使用的方式重新组织和展现。业务研究贯穿了整个数据挖掘过程,它也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问。
深入认知数据
一直以来,人们给予数据研究的关注较少。然而,它是最基础的工作,整个数据挖掘过程中有近80%的时间都是在准备数据。数据的价值在于正确的解读,如果不能正确选用数据,就无法保证挖掘的有效性。对数据的认知应当结合具体业务,包含两部分内容:
一是认知数据的属性。它关系到后续算法的选择以及挖掘行动的成败。数据属性可细分为外部属性和内部属性。外部属性是指数据的来源、可获取(访问)性、可理解性以及对业务工作的体现程度;内部属性是指数据的结构、属性值类型以及属性间的关联等。
二是认知数据的质量。它关系到数据挖掘的效率以及挖掘结果的可靠性。一般来说,基于各种各样的原因,数据的质量大都不高,因此,数据挖掘的大部分精力都耗费在如何提高数据的质量上。数据质量有多种考量方法,可以简单地认为它是反映数据对特定应用的满足程度,包括完整性、一致性、准确性和及时性等指标。
就无线电管理的数据而言,各类数据库的标准对数据实体、实体属性、实体间的关系都有完备的数学建模,因此,数据具有良好的属性,总体上质量较高,但也存在一些诸如数据拼写错误、数据值无效、记录重复等实例层面的缺陷,需要结合业务采取针对措施来加以清洗。
选择适用的算法
算法(Algorithms)是数据挖掘的核心,也是业界学者研究和贡献最多的领域。数据挖掘的算法较为齐全和成熟,同一问题可以用不同的方法解决,同一方法又可以用不同的算法来实现,例如分类功能就可以有多种算法来实现(如下表所示),它们各有优劣。
常用分类方法比较表
总之,算法的选择必须谨慎,每种算法都有各自的适用场景,所以必须紧密结合业务,根据挖掘的任务和数据的情况来加以选择。算法并非越高深的越好,适用的才是最好的。它的评估标准包括挖掘的有效性、可靠性及运行效率等指标。同时,算法的使用应当灵活,成熟的算法多为普适设计,而特定领域的挖掘任务有其特定的约束条件,因此照搬算法未必能够圆满解决问题,往往需要根据实际情况调整或者改进算法,必要时也可组合使用多种算法。
虽然数据挖掘的结果是不可预期的,但是基本的应用方向是可以预想的。比如可以挖掘频谱监测数据,尝试应用概念描述功能以探究频谱的时间、空间和频率特性;也可以尝试应用序列模式挖掘来帮助鉴别非法信号和查处干扰等等。数据挖掘的前景必将精彩纷呈。