对统计学领域数据挖掘研究的反思
2010-03-22韩兆洲
安 康,韩兆洲
(暨南大学a.经济学院;b.教育学院,广州 510632)
数据挖掘的正式研究始于1995年在加拿大召开的第一届“知识发现和数据挖掘”国际学术会议,由此,数据挖掘一词很快流传开来。数据挖掘是一门交叉学科,它汇聚了统计学、数据库、人工智能、计算科学等不同学科和领域,近年来受到各界的广泛关注。
数据挖掘与统计学有着密切的关系。数据挖掘的出现为统计学提供了一个新的应用领域,同时也对统计学的理论研究提出了挑战,数据挖掘的出现无疑将推动统计学的发展。近年来,国内的许多统计学者从统计学视角对数据挖掘进行了理论及应用研究,取得了一定的研究成果。
1 统计学领域对数据挖掘研究的现状
研究现状,涉及数据挖掘在统计学界的研究成果、研究阶段和研究内容三个方面。
1.1 研究成果
2009年cssci收录统计学专业期刊共4类,分别为《统计研究》、《统计与决策》、《统计与信息论坛》、《数理统计与管理》。从研究成果看,就笔者所能收集到的资料以及期刊网统计,至少有:关于译著1部——《统计学习基础:数据挖掘、推理与预测》,专著6部,核心期刊文章85篇,其中发表在权威期刊《统计研究》上的文章14篇,发表在期刊《统计与决策》上的文章45篇,发表在期刊《统计与信息论坛》上的文章15篇,发表在期刊《数理统计与管理》上的文章11篇。历史地看,这些成果对于数据挖掘在统计学中的研究都发挥着不同的作用。韩明2001年在《统计研究》上发文《数据挖掘及其对统计学的挑战》,文章第一次指出数据挖掘对统计学提出新问题,正式吹响了数据挖掘进驻统计学研究领域的号角。张尧庭教授和谢邦昌教授是真正将数据挖掘引入统计学研究的引路人,2002~2003年他们合作的3篇文章发表于 《统计研究》上,此时的研究仍是将数据挖掘引入统计学的阶段,以他们为核心的学术团队对于数据挖掘在统计研究的贡献体现在两方面:一是明晰了数据挖掘的概念;二是介绍了数据挖掘的简单规则和方法。薛薇2002年也在《统计研究》上发文《基于统计数据的OLAP数据挖掘技术》,目的是介绍数据挖掘的基本方法。朱建平教授是数据挖掘在统计研究方面的主力军,朱建平教授及其团队一直以数据挖掘作为研究方向,在2004~2008年间,共发表数据挖掘研究方面相关文章15篇,其中6篇发表于权威期刊《统计研究》,建立了较完整的数据挖掘的方法和知识体系。文章不仅包括了对数据挖掘的理论介绍,而且还探讨了对数据挖掘技术的统计学改进。
1.2 研究阶段
从发展时期上来看,数据挖掘研究在统计学中的应用也经历了以下几个阶段。(1)初始阶段(2001~2003年)。在这个阶段国内数据挖掘初露端倪,这段时间相关研究论文不多,仅有10篇研究文章刊发,研究内容主要从宏观上对数据挖掘技术进行描述。(2)激增阶段(2004~2005年)。这阶段研究论文有显著增长,有33篇研究文章刊发。2003年的发文量比前3年的发文量总和还要多,2004年发文量达到了20篇,这说明学术界开始重视数据挖掘的研究。研究内容也呈现出多样性,既包括数据挖掘技术方法研究,也包括数据挖掘的应用研究。(3)应用阶段(2006~2007年)。这阶段共有18篇研究文章刊发。从学术研究的角度分析,数据挖掘的研究正逐渐走向成熟并开始向其他领域渗透。
1.3 研究内容
从研究内容看,迄今为止有关数据挖掘的研究,内容主要集中在以下四个方面。
第一,对数据挖掘概念的界定。数据挖掘的概念在表述上虽仍存有不同,但是内涵上基本达成一致。对数据挖掘通行的定义是:数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。
第二,数据挖掘的功能和任务。数据挖掘的程序及功能已基本达成共识,可概括如下:(1)数据总结。通过对数据的总结,实现对原始数据的总体把握;(2)分类。找出一个类别的概念描述,根据数据的属性将数据分派到不同的组中;(3)关联分析。对两个或多个取值重复出现且概率很高的数据项建立起关联规则;(4)聚类分析。按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合;(5)预测。利用历史数据找出变化规律并用此模型来预测未来数据的种类特征等;(6)序列发现。从与学习任务相关的一组数据中提取出表达该数据集总体特征的特征式。
第三,对数据挖掘的方法技术改进。数据挖掘的传统方法技术包括了关联规则挖掘、神经网络方法、可视化技术、粗糙集方法等,许多统计学者从统计学的视角对这些数据挖掘方法提出改进。刘云霞、曾五一提出一种基于可辨识矩阵的离散化方法,该方法既能够反映“区间内的一致性和区间之间的差异性”的原则又能够较好地克服Chi2算法的不足。朱建平、谢邦昌从统计学的角度对数据关联规则挖掘进行了剖析,并利用相应分析方法,对关联规则A—>B进行了“提升”。来升强、朱建平提出用粗糙集方法选择出最优子空间,并利用等价关系的属性集产生分类的大型数据聚类方法。朱建平、张润楚在探讨事务性数据库的压缩问题时,将统计思想与Rough集理论相结合,提出了一些新方法以达到数据库压缩的目的。殷瑞飞、朱建平基于Q型因子分析的基本思想,结合对应分析方法,建立了一种适用于大型数据库聚类的方法。李金昌、徐雪琪在提出数据挖掘存在质量问题时,提出了处理数据挖掘质量问题的一系列方法。朱梅红提出了数据挖掘中抽样技术方法的应用。刘云霞提出了基于似然比假设检验的连续属性离散化方法。谢佳斌、金勇进提出采用放回的、与样本单元权数大小成比例的再抽样方法实现“事后”自加权设计,以使得后的子样本可以直接采用数据挖掘算法进行分析。
第四,对数据挖掘应用技术的研究。数据挖掘的应用研究是最活跃的研究领域之一。目前,数据挖掘的研究领域已遍及包括金融业、电信业、营销业、零售商、制造业、医疗保健、制药业等各行业。朱顺泉对房地产业上市公司的统计数据进行挖掘,不仅辅助企业透视企业财务状况,做出合理的投资决策,而且各上市公司可以根据自己的营运等级,找出问题所在,修正自己公司的经营模式;王维佳应用数据挖掘对电信客户流失进行分析预测,及时的给电信运营商提供决策依据,保障电信服务业达到以客户为中心;刘京军在信用管理领域应用数据挖掘,不仅对信用申请者申请的接受与否进行分类和判断,而且对顾客的行为计分以及利润模型进行了研究;张俊妮采用某个给顾客直邮产品目录的公司的真实数据,讨论了如何使用数据挖掘方法对历史数据进行分析,从而提高直邮的营销效率;丁文捷应用数据挖掘技术研究分析服装企业生产过程形成的近百万条人体量体数据、销售数据,从而为服装投产号型决策提供依据;高雷使用数据挖掘的方法,在历史数据中探讨了政策和股市走势之间的深层关系。王建仁通过建立银行数据仓库,运用数据挖掘技术进行银行客户关系管理。
2 统计学领域数据挖掘研究兴起的原因
2.1 社会支持
社会经济的向前发展使得统计学领域呼唤数据挖掘。传统的统计分析技术都基于较完善的数学和统计理论,预测的准确度较高,但传统的统计方法对统计数据要有规模限制,而且对数据的质量要求比较严格,如果数据不满足这些条件,则需要运用一些方法进行相应处理。但随着社会的进步,社会经济出现了一些新现象,我们在信息社会中面临着浩如烟海的数据,这些数据数量庞大,而且分布状态难以把握,因此在对这些数据处理时,很难预先假定好试验方法和抽样方法,传统的统计学显得无所适从,因此传统的统计学呼唤着数据挖掘。数据挖掘针对的正是这些大量、巨量、超巨量的数据,正如数据挖掘定义的那样,数据挖掘是从大规模数据中找出隐藏其中的有意义、重要的信息或模式的探索过程。数据挖掘技术的目标就是从大量的数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。
数据挖掘的兴起还同计算机硬件、软件的发展与数据库技术的推进密不可分。计算机硬件的高速发展给数据挖掘研究的推进提供了技术上的可能性,统计软件的发展也促进了数据挖掘研究在统计领域的崛起,SAS、MATLAB等主流统计软件都包含有数据挖掘功能,国内马克威软件、Qstat软件也都将数据挖掘功能融入其中。这些都为数据挖掘在统计领域的展开提供技术支撑。数据库技术的发展是数据挖掘研究兴起的另一主要原因。通常大规模的数据是以数据库形式保存的,因此可以认为数据库技术是数据挖掘的起点。自20世纪80年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数据库系统。这些推动诸如扩充关系模型、面向对象模型、对象-关系模型和演绎模型等先进的数据模型的发展。包括空间的、时间的、多媒体的、主动的、流的和知识库在内的数据库系统百花齐放,同数据的分布、多样性和共享有关的问题被广泛研究,异构数据库系统和基于WEB的全球信息系统也已出现,并成为信息产业的主力军。
2.2 学术支持
社会的发展和技术的进步促进数据挖掘研究的展开和深入。国内渐渐形成了数据挖掘研究的良好学术氛围,具体表现为:(1)数据挖掘已成为我国统计学科的一个新的生长点,许多大学在本科阶段开设了相关课程,在硕士阶段设立了相关研究方向;(2)统计学研究的两个主要学术阵地中国人民大学和厦门大学建立了专门针对数据挖掘的学术机构,2001年中国人民大学统计学院成立了数据挖掘中心,这是国内较早开展数据挖掘应用和理论探索的团队,也是在统计学领域较早研究数据挖掘应用的组织。2007年厦门大学计划统计系成立数据挖掘中心(简称DMC),推进了数据挖掘在统计领域的研究发展;(3)一些著名的统计学者开始表现出对数据挖掘的持续关注,尤其值得一提的是朱建平教授和谢邦昌教授。朱建平教授及其领导的团队培养了大批的博士、硕士研究生,谢邦昌教授是统计领域数据挖掘的引路人,他对国内统计领域的数据挖掘一直保持高度关注;(4)学术杂志开辟的专栏与学术研讨会进一步推动了数据挖掘的研究。厦门大学计划统计系主办的国际金融数据挖掘研讨会和中国人民大学统计学院主办的中国数据挖掘与商业智能研讨会已经形成一种长效机制,一些杂志也开辟了相关的研究专栏,这些都有利于统计学领域中对数据挖掘的研究。按照特里·库珀的观点,判断一个学术领域研究是否成熟的标准主要有三条:存在着一个对该领域长期感兴趣的学者群体、有连续性的出版物来推动理论的发展、在大学职业教育课程中设立学术性的课程。以这三个标准衡量,尽管数据挖掘的研究在我国还有很大差距,但已有了长足进展。
3 统计学领域数据挖掘研究的定位
3.1 研究内涵
在统计领域开展数据挖掘研究,我们先要回答两个关键问题,第一个关键问题是:“数据挖掘与传统统计学的联系何在?”它们之间的联系非常明显,统计学和数据挖掘有着共同的目标:发现数据中的结构。正因为目标上的相似,因此,统计学和数据挖掘的研究内涵也体现出了诸多相似性。在传统统计学研究中,虽然统计学基于的正统的理论基础无可替代,但传统统计学可以为数据挖掘提供非常有参考价值的框架,很多数据挖掘的算法原理都是统计学中相关方法的影子,数据挖掘在延伸和扩展传统统计学方法基础之上,融入了多领域的思想、工具和方法,这些领域包括数据库管理、计算机科学、人工智能、模式识别、运筹学等。统计学和数据挖掘内涵上的相似难以掩盖内涵上的一些细微差别,事实上,数据挖掘所关注的某些领域和统计学家所关注的还存有很大不同。数据挖掘关注的是积累大规模的数据,以方便从数据中有效地找出关系,挖掘出所含有的“有意义的信息”,而统计学关注的如何模拟出数据的结构,从而进行准确的统计推断。
3.2 研究对象和方法
我们面临的第二个关键问题是:“数据挖掘与传统统计学的区别何在?”,这便涉及到数据挖掘的研究对象。统计学和数据挖掘研究目标的相似使得有些统计学家担忧数据挖掘时代的到来会不会使得传统的统计学面临危机,这样的想法其实大可不必。事实上,虽然它们的目标相似,但研究对象却不尽相同。如上文所言,传统的统计学以概率论为基础,主要通过预先设计的试验方法或抽样方法获得数据,以保证这些数据满足一定的概率模型,然后再根据数据进行统计推断。数据挖掘恰恰相反,它常常可以得到数据总体,在这种情形下,统计学的推断就没有价值了,数据挖掘的本质是从总体中通过技术和实验方法发现非预期但很有价值的信息,数据挖掘过程的本质是实验性的。这与确定性的统计分析和统计推断是不同的。
在研究方法上,统计学和数据挖掘也不尽相同,统计学在采用一个方法之前先要证明,而不是象计算机科学与机器学习那样注重经验。有时候同一问题的其它领域的研究者提出一个很明显有用的方法,但若不能被统计学家证明(或者现在还没有证明),统计学界将不会采用,统计杂志也倾向于发表经过数学证明的方法而不是一些特殊方法,简言之,统计学需要的是确定的方法。而数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度,数据挖掘更多的是利用先进的工具进行试探发现,方法上的不同并不意味着数据挖掘工作者不注重精确,其实数据挖掘非常注重精确,只不过精确产生于实验之上,产生于实验准则之中。正是由于统计学的方法先验和准确性,而且其对推理的侧重,统计学的核心问题仍是在观察了解样本的情况下去推断总体。而数据挖掘的主要目的是发现,它不关心统计学领域中的在回答一个特定的问题之前,如何很好的搜集数据,数据挖掘本质上假想数据已经被搜集好,关注的只是如何发现其中的秘密。总之,统计学的核心是模型,数据挖掘的更重要的是准则。
4 统计学领域数据挖掘研究的趋势
4.1 数据挖掘应用领域研究将深入化、全面化
数据挖掘真正引起人们的普遍关注应该起始于该技术在各种行业领域中的应用,尽管数据挖掘应用方面的论文统计数相当可观,涉及领域相当广泛,但我国的数据挖掘应用尚处于起步阶段,大规模地运用数据挖掘技术尚不普遍,只是个别企业或部门零星地运用数据挖掘技术。在国外,数据挖掘技术已经在金融、电信、零售、医疗、科研等行业领域内发挥了巨大的作用。一些世界著名的厂商也纷纷致力于数据挖掘工具的开发,这其中既有统计软件界元老SAS、PSS,也有数据库巨头Oracle、IBM。数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力,且这种趋势正在以前所未有的速度继续向前发展。而我国对数据挖掘技术的应用仍处于起步阶段,即使有少量行业、企业将数据挖掘技术应用到生产生活之中,也只是局限于数据挖掘中最基本的几项功能,大规模、深层次的应用数据挖掘技术的时代还没有到来,因此,笔者认为,未来数据挖掘研究的一个着重点便是应用领域的研究。
4.2 空间数据挖掘
空间数据挖掘是近几年兴起的交叉边缘研究学科,它把数据挖掘研究的视域扩大到空间数据库,这也使得数据挖掘技术更加贴近于应用。因为空间数据具有的独特特点使得空间数据挖掘比传统数据挖掘更为困难,因此研发高效的空间数据挖掘技术是当前空间数据挖掘面临的主要挑战,笔者认为这也是未来数据挖掘的热点之一。
4.3 Web数据挖掘
万维网是一个巨大的、分布广泛的全球性信息服务中心,它包括新闻、广告、消费信息、金融管理、电子商务等各种各样的信息。不仅如此,还包含着丰富的结构化数据,如动态变化的超链接信息以及对于Web页面的访问和使用的信息等,这为数据挖掘提供了丰富的资源。然而,与传统的数据库数据相比,作为数据挖掘数据源的Web数据有着自身显明的特点,诸如超大的数据规模;复杂的数据结构;动态的数据形态;扩大的数据干扰等,这也对基于Web的数据挖掘方法研究也提出了新的要求。笔者认为这也是数据挖掘未来的研究方向。
4.4 图像挖掘和视频挖掘
随着网络技术的发展和计算机性能的提高,数码相机、监视相机、卫星遥感系统的应用越来越广泛,涌现出大量的图像数据和视频数据。从数据的转化、同步、连续数据流的管理到图像数据的检索受到普遍关注,如何用数据挖掘的方法智能地从图像和视频数据库中挖掘出尽可能多的有用信息也是学界探讨的一个热点,但图像数据挖掘不同于普通数据库和数据仓库的数据挖掘,挖掘对象的复杂性使得图像数据挖掘理论和技术发展缓慢。因此,笔者认为图像数据挖掘必将成为研究的一个方向。
4.5 数据挖掘语言的标准化
数据挖掘研究至今,仍没有一套标准化的语言,这使得在进行数据挖掘研究时,不兼容的现象频繁出现,因此,对数据挖掘语言进行标准化也是当务之急,在未来的数据挖掘研究中,也应当作为重点内容。
4.6 数据挖掘中的隐私保护和信息安全
Web上存在着大量电子形式的个人信息,加上数据挖掘工作能力的不断增强,对隐私和数据安全构成了威胁,保护隐私的数据挖掘方法的进一步发展是显而易见的。这需要技术专家、社会专家和法律专家的共同协作,提出隐私的严格定义和形式机制,以证明数据挖掘中的隐私保护性。
[1]朱世武,崔嵬,张尧庭,谢邦昌.数据挖掘运用的理论与技术[J].统计研究,2003,(8).
[2]朱建平,张润楚.数据挖掘中事务性数据库的压缩及其应用[J].统计研究,2004,(1).
[3]刘云霞,曾五一.数据挖掘中基于可辨识矩阵的连续属性离散化方法[J].统计研究,2007,(4).
[4]韩明.数据挖掘及其对统计学的挑战[J].统计研究,2001,(8).
[5]来升强,朱建平.数据挖掘中高维定性数据的粗糙集聚类[J].统计研究,2005,(8).
[6]朱建平,谢邦昌.数据挖掘中关联规则的提升及其应用[J].统计研究,2004,(12).
[7]李金昌,徐雪琪. 数据挖掘质量问题探讨[J].统计研究,2004,(7).
[8]刘云霞.数据挖掘中基于似然比假设检验的连续属性离散化方法[J].统计与决策,2007,(4).
[9]朱梅红.数据挖掘中抽样技术的应用[J].统计与决策,2007,(8).
[10]丁文捷.基于量体数据挖掘的服装投产号型决策[J].统计与决策,2007,(9).
[11]王建仁,高海燕,董琳.数据挖掘在银行CRM中的应用[J].统计与决策,2007,(5).
[12]刘京军.数据挖掘技术和信用风险管理[J].统计与决策,2007,(1).