APP下载

层次聚类算法在气象客户细分中的应用

2015-11-23巨晓璇邹小斌刘春敏

河南科技 2015年11期
关键词:细分气象聚类

巨晓璇 邹小斌 屈 直 刘春敏

((1.陕西省气象服务中心,陕西 西安 710014;2.西安理工大学经济与管理学院,陕西 西安 710054)

专业气象服务是指除公益气象服务之外的,为满足国民经济的不同生产部门对气象服务的具体需求而开展的有针对性的气象服务,属于有偿气象服务的范畴,因此具有很强的市场交易特征。专业气象服务的客户包括农林、保险、电力、交通、能源、政府、媒体、军队等诸多行业的企事业单位。气象科学技术,现代卫星遥感技术,计算机技术等技术的发展提高了专业气象服务商品的生产质量,而现代通信技术的发展使得气象服务信息的传播变得越来越便捷,气象服务组织和客户的沟通与互动的成本越来越低廉,交易费用的降低使得专业气象服务的“客户定制化”成为可能。互联网技术和现代通讯技术的结合可以实现专业气象服务的电子商务化—让气象服务组织在整合内部资源的基础上实现与客户的互动。气象服务组织可以发挥自己的专业特长,把气象信息加工成为指导企业生产和客户商业活动的决策,在满足客户的个性化需求的基础上促进气象信息服务市场的形成与发展。另一个方面,在中国经济的转型时期,我国气象服务组织将面临很大的挑战。产权保护的滞后,制度约束,气象服务信息的不对称,国外气象机构的加入所导致的市场竞争,气象信息商品的特殊性等等因数,将成为我国气象服务组织不得不克服的障碍[1]。“未雨先筹”,利用以往积累的大量的客户交易数据与信息,采用数据挖掘的手段,来分析陕西专业气象客户的行为,用以指导专业气象服务的营销,不失为一个好的尝试。

陕西省气象服务中心坚持“科技支撑、项目带动、行业突破”的专业气象服务发展思路,不断拓展专业服务领域,通过大项目实现规模效益,确保专业服务实现突破发展。服务领域涉及农林、油田、电力、水利、交通、林业、天然气、煤炭、旅游、商业、建筑、保险、公安等14个行业,100多家用户。近年来,专业气象服务收入逐年增长的同时(如下图1所示),积累了大量客户交易数据,为数据挖掘提供了条件。

图1 2008-2013年陕西省全省专业气象服务收入

自从客户细分的概念出现以来,不同的专家学者提出了各种不同的客户细分方法,宏观上主要包括人口统计细分、生活方式细分、行为细分和利益细分等四种[2]。行为细分法又可分为RFM分析法、客户价值矩阵法、聚类分析、人工神经网络分析法[3]。国外的学者把改进的Bays方法以及Booting方法应用于KDD以及KDD与数据库的结合方面取得较好的效果,而国内的KDD技术研究一般集中在对国外的算法改进和方法的实际应用方面[4]。

聚类分析是客户细分的一个重要研究方法。在数据挖掘领域,人们已经提出了很多聚类算法,他们可以分为如下几类:顺序算法、层次聚类算法、遗传聚类算法、、基于网格的方法和模糊聚类算法等,这些算法对于不同的研究对象各有其优缺点[5]。顺序算法和层次聚类算法是最常见的两种聚类技术。顺序算法具有较高的执行效率,而层次聚类算法的聚类效果更符合观察结果,所以在实际中运用更为广泛。

我们运用层次聚类算法来对专业气象客户细分的原因基于以下两点:一是我们在整理数据时发现客户群之间的特征具有明显的层次性,但是层次之间又有一定联系。二是层次聚类算法是通过将数据组织为若干个组并形成一个相应的树形结构来进行聚类,更能帮助我们认识客户之间的区别与联系,同时还具有算法简单、快速而且能有效地处理大数据集的特点。

1 层次聚类算法的原理

聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照它们在性质上的亲密程度在没有先验知识的情况下自动进行分类。层次聚类算法与k-means聚类算法不一样,它不产生单体聚类,而是产生层次聚类,每一个类包含(或包含于)另一个类中,最后形成一个类似树形的聚类结构。这种算法通常应用于社会科学和生物学等领域,计算机科学与工程领域也经常应用层次聚类算法[6][7]。依据聚类方向的差异,层次聚类算法又可分为合并算法和分裂算法[5]。合并的层次聚类算法是一种自低向上的聚类策略,首先将每个对象作为一个类,然后合并这些原子类为越来越大的类,直到所有的对象都在一个类中,或者某个终结条件被满足。分裂的层次聚类是一种自顶向下的策略,与合并的层次聚类相反,它首先将所有对象置于一个类中,然后逐渐细分为越来越小的类,直到每个对象自成一类,或者达到了某个终结条件,例如达到了某个希望的类数目,或者两个最近的类之间的距离超过了某个闽值。层次化聚类方法尽管简单,但如何恰当地选择合并或分裂点,是个很困难的工作,这样的选择是非常关键的,因为一旦一组对象被合并或者分裂,下一步的处理将在新生成的簇上进行,已做的处理不能被撤销,聚类之间也不能交换对象。如果在某一步没有很好的选择合并或者分裂的决定,可能会导致低质量的聚类结果。而且,这种聚类方法不具有很好的可伸缩性,因为合并或者分裂的决定需要检查和估算大量的对象或簇[8]。层次聚类算法又可分为合并算法和分裂算法,层次合并算法的代表是AGNES算法。层次分裂算法的代表是DIANA算法。

2 层次聚类细分客户的实证研究

2.1 数据的处理分析

2.1.1 研究所需的数据

以2008-2013年陕西省专业气象服务客户为调查对象,调查统计的范围包括客户名称、所属行业、合作金额(万元/年)、合作项目名称、气象服务内容、气象服务的期限(短期、长期)、气象服务的精度要求、有无长期合作意向等八个方面的数据信息,收集了陕西省气象服务中心、咸阳市、安康市、延安市、渭南市、铜川市、宝鸡市、汉中市、商洛市、杨陵区等十个区市的专业气象服务客户的数据信息,统计样本171个。

2.1.2 层次聚类因子指标的选取

在客户细分过程中,人们最关注的两个方面:一是客户的贡献率,二是客户的忠诚度。因此在层次聚类因子指标的选取上,我们选择了累计合作金额来评价客户的贡献率。度量客户的忠诚度的依据来源有两个调查,一是气象服务合作的期限,二是有无长期合作意向,通过统计得出6年内气象服务机构与各个客户的合作年限,以累计合作金额和合作年限作为层次聚类的因子。

2.1.3 数据处理[9]

由于不同的指标数据具有不同的量纲,这些数据放在一起直接进行聚类,会压低甚至排除了某些数量级很小的因子的作用,故需对数据进行标准化处理,处理的方式如下:

式中,n是样本总数, 是第i个样本的第j个指标值, 标准化后的数据。

①采用欧式距离计算各客户之间的相似性系数,并按一定的阈值标准,以相似性系数最大化为原则将客户特征最为相似的归为一类。

②将最为相似的两个客户归为一类后,利用“类平均法”计算该类型与其他尚未归类的客户或类型间的相似度,合并两类的结果使得所有的两两项对之间的平均距离最小。

③继续(2)的思路和方法,直至将所有客户归并为同一大类。

④利用客户相似性系数的一定阈值标准。并根据具体情况进行校对,最终确定客户细分的结果。

2.2 客户细分的结果

通过SPSS软件完成上述层次聚类的过程,通过对客户聚类层次的进一步分析,结合客户的具体实际情况,专业气象客户可以分为以下八类。

2.2.1 长期合作的大客户有5个,它们是陕西省公路局、西安铁路局、西北电网、长庆油田、华商报。累计合作金额70万元以上,主要分布在电力能源、交通领域。服务内容以气象预报为主,要求预报精度高。其中能源电力有中长期气象预报需求。这也从另一个方面印证了气象对电力能源和交通行业的影响最大,相关性最强[10]。

2.2.2 长期合作的中型客户有12个,它们是省天然气公司、西安市供电局、延长石油、延安市环保局、延安市公路局、安康市工务段、安康富强机场、西安市防火办等、合作金额在20~50万元之间,主要分布在能源、交通、农林领域,媒体和政府部门各一个。服务内容以气象预报和气象预警为主。要求预报预警精度高。

2.2.3 长期合作的小型客户。合作金额20万元以下。这类客户数最多,有81个,分布范围也是最广,包含了能源,民航、水利、交通、保险、农林、矿业、医药、媒体等十多个行业。这类客户合作的金额虽然少,但客户忠诚度高。

2.2.4 短期合作的大项目。合作金额至少在40万元以上项目有7项,包括卤阳湖石化项目气候影响评价项目、宝汉高速汉中管理处气象信息化建设项目、榆林市水务局气象预警建设项目、宝鸡市国土局的《宝鸡地质灾害防治应急指挥信息系统》建设项目等等,合作内容主要是以项目建设为主。其中与榆林市水务局气象预警建设项目达到120万元,主要是建立气象监测预报预警以及气象信息共享机制。服务内容主要是利用气象部门的专业特长,帮助建设气象预报预警信息化系统。

2.2.5 短期合作的中型项目,合作金额在10-20万元之间的有4个,分别是省电力公司、中煤油公司、陕西省质监局、榆林市水务局(1),分别分布在电力、能源、水利和政府部门。合作内容以气象预报为主,要求预报精度高。

2.2.6 短期合作的小型客户。合作金额在10万元以下,短期合作的小型客户数达到49个之多,分布范围也很广。合作的内容包括气象预报与预警、气象资料服务、中长期气候变化预测、气象信息咨询等多个方面,对气象服务的精度要求也各不相同。

2.2.7 潜在的长期大中型客户,合作年限在2-4年之间,合作金额在10万元以上有4个,它们是国电丹江水电公司、国电大渡河水电公司、铜川林业局、相关广告公司等。分别分布在能源、水利、林业和广告媒体业。这类客户的数据信息只有最近几年的。服务内容以中长期、短时临近预警信息,要求气象预报预警精度高。

2.2.8 潜在的长期小客户,合作年限在2-4年之间,合作金额在10万元以下有10个,分别分布在学校、交通和相关企业。业务内容以气象预报为主。

2.3 客户营销策略

图2 各类合作金额在总合作金额中的饼形图

通过以上的饼形图可以看出,1~4类客户的总体合作金额在90%左右。对于1类和2类长期合作的客户数虽然在整个客户群中所占比重小,可是总体贡献率和忠诚度都很高。主要分布在电力能源交通等领域,因此要采用个性化服务营销策略,重点研究专业气象服务在这些行业的运用,把气象信息转化为行业的决策信息。同时采用产品策略,提高气象服务的精准度,防止这类客户的流失。3类客户虽然单个客户的合作金额少,但是数目众多,而且忠诚度比较高,如何通过广告等方式来加强气象服务的影响,提高与此类客户合作深度是必须考虑的问题。与4类和5类客户合作的内容主要以项目建设为主,由于气象对经济的影响日益明显[11],这类的需求未来有上升的趋势,通过广告策略和渠道策略,加强与客户的沟通和联系,让更多的企业和个人便捷的享受到定制化的专业气象服务,是未来专业气象服务努力的方向。对于6类、7类、8类客户都是潜在的长期合作对象,很多是抱着尝试的态度来开展合作的。对于这类客户一方面要采用产品策略来提高服务质量,提升此类客户的忠诚度,另一方面也可适度采用价格策略来留住此类客户,防止客户流失。为提高与客户的合作水平,还应从以下几个方面来提高专业气象服务的质量:

①与公共气象服务不同,专业气象服务技术含量更高和更复杂,服务产品个性化特征更加明显。经常要根据服务行业或企业的具体需要,提供定制化服务。因此,客户的参与配合至关重要,只有加强与客户之间的沟通,对客户的需求进行系统分析之后,才能提供对客户有价值的气象服务。

②进入互联网时代,气象信息获取渠道更加多样化和便捷化,不仅仅有传统的电话、电视、广播等传统手段,还有网络、微信、微薄、手机客户端等现代手段,通过这些手段来“武装”专业气象信息发布渠道,依据客户需求提供多渠道的专业气象服务是提高专业气象服务水平的前提。

③加快专业气象服务信息数据库建设和专业气象决策支持系统的建设。气象信息只有转化成对客户有用的决策其价值才能真正体现。做好电力、农业、能源、交通等关键行业的气象决策支持系统建设,不仅仅能够提高气象部门的经济效益,而且能够帮助有关企业避免损失,实现部门效益和社会效益的最大化。

3 结论

层次聚类算法是根据样本数据的相似性,把样本归到各个聚合类中的分类方法,聚类问题的特点是事先不知道一批样本中的每一个样品的类别或其他先验知识,而唯一的分类依据就是样品的数据特征,利用样品的特性来构造分类器。本文用层次分析聚类算法,对陕西省专业气象服务客户进行了分类,并根据分类结果,提出了相应的营销策略,取得了比较满意的结果。在此基础上,如果能够根据年代变化来分析客户合作金额的增长变化,将取得更加细致的客户分类结果,而这将是我们未来研究的方向。

[1]许小峰.现代气象服务[M].北京:气象出版社,2010.

[2]刘英姿,吴昊.客户细分方法研究综述[J].管理工程学报,2006,20(1):53-57.

[3]吴小红.综述客户细分的方法与技术[J].科技信息,2012(1):110-111.

[4]吕巍,蒋波,陈洁.基于K-means算法的中国移动市场顾客行为细分策略研究[J].管理学报,2005,2(1):80-84.

[5](希腊)Sergios Theodoridis,Konstantinos Koutroumbas著,李晶皎等译.模式识别[M].北京:电子工业出版社,2012.

[6]李鑫鑫.聚类算法在电子商务客户细分中的应用[D].青岛:中国海洋大学,2012.

[7](美)Michael J.A.Berry,Gordon S.Linoff著,别荣芳,尹静,邓六爱译.数据挖掘技术-市场营销、销售与客户关系管理领域应用[M].北京:机械工业出版社,2006.

[8]赵法信,王国业.数据挖掘中聚类分析算法研究[J].通化师范学院学报,2005(26):112-125.

[9]卢纹岱.SPSS for Windows统计分析[M].北京:电子工业出版社,2000.

[10]罗慧,李良序,章国财,万迪.陕西气象条件与经济行业发展的相关性分析[J].自然灾害学报,2008,17(3):36-40.

[11](德)Friedhelm Schwaz著,郭晗冉译.气候经济学-影响全球80%经济活动的决定性因素[M].北京:气象出版社,2012.

[12]郑文清.气象服务产品的营销策略研究[J].价格月刊,2009(2):58-60.

[13](美)Carl McDaniel,Jr·Roger Gates著,李桂华,等译.当代市场调研(原书第8版)[M].北京:机械工业出版社,2011.

[14]江滢.案例研究:H气象局短信业务营销[D].广州:华南理工大学,2011.

猜你喜欢

细分气象聚类
气象树
《内蒙古气象》征稿简则
深耕环保细分领域,维尔利为环保注入新动力
气象战士之歌
大国气象
基于DBSACN聚类算法的XML文档聚类
1~7月,我国货车各细分市场均有增长
基于改进的遗传算法的模糊聚类算法
整体低迷难掩细分市场亮点
一种层次初始的聚类个数自适应的聚类方法研究