大数据聚类算法的研究现状与展望
2018-12-22李慧敏
李慧敏
(福建船政交通职业学院 信息工程系,福建 福州 350000)
当前,各个领域每时每刻都产生了大量的数据,我们已进入大数据时代。谁能有效分析和利用这些海量数据,谁将掌握创新和转型的关键。其中的一项关键技术就是大数据的聚类算法,在商业、农业、移动网络、医疗、科学、教育等应用领域都具有重要应用价值。
1 大数据聚类算法介绍
文中将已有的大数据聚类算法划分成两种:单机聚类算法和多机聚类算法[1]。
1.1 单机聚类算法
单机聚类算法主要有传统聚类算法、基于抽样的聚类以及基于降维的聚类3种。
传统聚类算法包含分区聚类算法、分层聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法。其中,分区聚类算法根据点和点之间在单个分区中的分离距离聚类;分层聚类算法根据数据的层次进行划分;基于密度的聚类算法能发现不同密度的区域;基于网格的聚类能降低算法复杂度;基于模型的聚类算法可以较好地避免测量划分的不确定性问题,但是速度较慢。
基于抽样的聚类算法先从大数据中抽取一个样本,对样本进行聚类,再应用到整个大数据上,提高了效率并节省了空间。抽样聚类主要有以下3种聚类算法:基于随机选择的聚类算法(CLARANS)、利用层次方法的平衡迭代规约和聚类(BTRCH)和针对大型数据库的高效的聚类算法(CURE)。其中,CLARANS的优势在动态处理上;BTRCH提高数据处理效率的方式是充分利用其自身的数据结构节省空间;CURE的特点是用一组分散的数据点来表示聚类,这样能较好地表示不同类型的聚类。
基于降维的聚类算法是在聚类时先对两个主要维度—变量的数量和实例的数量中的一个进行预处理,通过降维可以消除无关信息和冗余信息,同时缩小样本空间,有效改善高维度下的复杂性,降低失误率。
1.2 多机聚类
多机聚类又分为并行聚类和基于Map Reduce的聚类。并行聚类是指将数据进行分块,然后分发给不同的机器,让它们并行运行聚类算法,以此提高速率,并且后续可以很方便地进行扩展。
Map Reduce是一种将任务分布在大量的服务器上执行的任务分解机制。目前已有大量研究将各种传统聚类算法改写成Map Reduce版本,并通过实验证明了可行性。
2 各应用领域研究现状
目前大数据聚类算法的应用才刚起步,我们需要探索更多、更高效的应用模式。商业、农业、移动网络、医疗、科学、工程、法律、教育等特定领域都能看到大数据聚类算法应用的影子。下面从几个关键领域来分析大数据聚类算法的研究现状。
2.1 商业应用
商业智能[2]可以说是大数据聚类应用的“前辈”,对企业内部的大数据进行聚类分析,可以挖掘出很多隐藏的规律和知识,这可能是企业创新和转型的关键。目前已经广泛应用于客户关系管理、异常消费行为检测、股票数据分析等方面。比如说通过聚类从客户基本信息库中挖掘出不同的客户群,更准确地了解客户的使用行为,以此制定新的策略。
在金融领域,大数据聚类的应用也在快速发展。在各大商业银行中,利用大数据聚类的结果,针对性地制定个性化产品来满足客户的个性化金融需求,增加客户忠诚性。海沫等[3]根据盈利能力指标、偿债能力指标、资产管理质量指标等15项财务指标对中国股票市场上所有上市公司进行了聚类实验,得到股票板块分类,为投资者的投资决策提供有益参考。
在通信领域,王海晶[4]将聚类结果结合运营商生命周期理论,分析得到了不同的用户群,然后分别从用户个性化营销策略方面和用户挽留策略方面提出了相关的对策建议,为黑龙江移动公司的发展提供决策参考。
2.2 农业应用
在农业领域,大数据聚类算法也应用广泛,因为农业数据具有没有先验知识的特点,通过有效聚类可以挖掘到隐藏其中的规律和知识,为农民的种植、养殖等生产、销售环节给出指导意见。
徐勇[5]提出了改进的谱聚类算法并应用到农业大数据平台上,对黑龙江省的农垦系统各个农场的农业机械装备水平数据进行聚类,将聚类结果结合黑龙江省垦区地理环境一同分析,提供解决方案应对机械装备水平差异大的问题;对全国猪肉价格聚类,通过聚类结果帮助养猪用户根据市场走势科学养猪,以取得更好的经济效益。
2.3 移动网络应用
随着时代发展,移动终端(如手机、传感器等)和应用也越来越多,产生了大量的数据。其中,比较有价值的就是轨迹数据,目前人们主要通过语义轨迹聚类挖掘相似性用户、推荐用户下一个目的地以及轨迹数据中热点区域识别。
于喆[6]提出了基于聚类的GSRM原型系统,通过对原始数据的预处理找到具有语义的停留点,然后通过分布式聚类算法挖掘用户公认的“热点”,最后通过对用户行为模式的挖掘,对用户进行位置服务。
廖律超等[7]提出了一种交通路网谱聚类方法(TSSC),其实现的路网网格聚类能跟实际交通路网相匹配,还可用于交通拥堵点发现等应用场景。牟向伟等[8]将流式数据两阶段方法,应用在北京市出租车的定位数据上,聚类得到出租车活动较为频繁的热点区域和线路,与日常出行经验相符合,还可应用到交通活动情况实时分析、交通规划和拥堵治理等方面。
2.4 医疗应用
医疗数据的产生具有持续性、高增长性、复杂性,同样其中蕴涵可观的信息价值。故在医疗领域,大数据聚类算法也得到快速发展。
2013年,张焕君等[9]提出了基于模糊聚类分析的临床路径决策方法,栗伟等[10]使用短文本自适应聚类算法解决电子病历中医学名词的识别问题。Lenart等[11]对患者的血压、血红蛋白等生理指标进行聚类,聚类结果将慢性肾病患者划分成几个群,分别对应慢性肾病发展的不同阶段。孙磊磊[12]使用改进的AP聚类算法对电子病历进行数据挖掘,将人口统计学信息和诊断信息进行聚类得到病人分组,将联合用药网络进行聚类挖掘出联合用药模块,对治疗记录进行聚类得到典型治疗方案,最后对照病人分组和治疗记录评估典型治疗方案的可行性。
3 结语
随着技术进步和应用的需要,大数据聚类算法发展迅速,越来越多,主要有下面3个研究方向:(1)对大数据进行抽样或降维得到样本,采用传统聚类算法进行聚类,再应用到大数据上,主要缺点是样本可能会出现偏差,精确性低。(2)并行聚类算法的优点是效率高、可扩展性好,但同样复杂性也高。(3)基于Map Reduce实现的大数据聚类算法具有高可扩展性,但在任务分解过程中会占用较多的软硬件资源。可见急需研究简单、高效、可扩展、低耗和精确的大数据聚类算法。另外,各个领域的数据都有各自的特点,需要针对各个领域,探索更多、更高效的应用模式,科学、商业、农业、工程、医学、医疗、法律、教育、运输、零售、电信等特定领域的大数据聚类算法应用都是重点研究方向。