海量数据挖掘过程相关技术研究进展

2018-03-04唐云凯王芳刘淑英

电脑知识与技术 2018年36期

唐云凯王芳刘淑英

摘要：我国的信息技术水平不断提升，海量数据的复杂性与多样性对数据挖掘形成了较大困难。基于大数据环境下，为了更深入、充分地掌握是数据挖掘相关技术的研究进展与应用，可以从海量数据挖掘过程的技术框架、算法、理论、模式等方面进行尝试。综上所述，该文将对海量数据挖掘过程相关技术研究进展进行分析。

关键词：海量数据;数据挖掘技术;研究进展;讨论

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）36-0001-02

数据挖掘的过程是在海量数据中追寻有趣模式与认知的过程，利用海量数据挖掘技术，可有效针对大数据，从而在其中发现有用的信息与知识。针对海量数据，采用传统的分类算法、关联分析、聚类分析等数据挖掘技术显然有些无力，因此为了提取与挖掘更多有价值的数据，是人们对大数据进行研究的主要目的。

1 海量数据挖掘过程相关技术研究进展及问题

1.1 海量数据挖掘过程相关技术研究进展

1.1.1 云计算与MapReudce

Google公司早在2006年就已经提出了海量Web数据的云计算，可将其定义为将经济与拓展性作为基础的超大规模数据分布式模式，利用互联网将虚拟、抽象的数据进行计算、资源存储，最后通过平台与服务对外部的客户进行传递。在Google的内部，海量数据的处理计算与应用平台都采用了云计算的方式，其中较为典型的海量数据挖掘技术为GFS（Google file system）、MapReduce、对海量数据进行处理的Hadoop平台。在Hadoop平台中较为核心的部分是MapReduce编程模式与文件分布式系统。这种编程模式在2004年由计算机专家Dean与Ghemawat共同提出，目前已经开始被广泛应用在海量数据挖掘过程中。一般来说编程模式在对海量数据进行处理时，会经过两个阶段：Map与Reduce阶段，无论哪个阶段的运行都会运用key-value模式对数据进行输入与输出。在Map阶段进行处理时，HDFS即分布式文件系统将大量的数据进行分割，成为split块，之后为其每一个都创建独立的Mapper，利用相应的Map函数处理之后，选取出相同key的数据传递到Reduce任务中，之后将海量数据重新进行整合，再对其进行细致化的处理。

1.1.2 算法领域

算法领域作为海量数据挖掘过程相关技术中的研究重点，在2006年召开的ICDM回忆中，已经选出了较为常用的十种数据挖掘算法。其中包含分类算法、聚类算法等。但这种传统的算法并不能对海量数据合理处置。为了使传统算法更加高效，可使用经典的数据挖掘算法与MapReduce以框架的形式互相结合[1]，例如对关联规则进行并行、聚类算法并行等方式，通过广大学者的不断研究与实践，已经取得了较为可观的成果。除了对各类算法领域的研究，还包含了多种相关理论，第一，统计分析理论。在早先的海量数据挖掘理论基础中，主要包含数据回归分析、因子分析等方面。事件有较大的随机性，不能够利用概率模型进行有效处理。但在实际中的海量数据中，由于其具备较强的模糊性，尤其针对海量数据的多样性特点，不能够利用传统的精确处理，因此模糊数学理论等相关理论可发挥出极大优势。第二，模糊数学理论。模糊数学理论作为有效的不确定性数据的处理方式，尤其对于海量数据进行处理时，可以发挥良好的应用效果。

1.2 海量数据挖掘过程相关技术存在问题

1.2.1 相关技术架构问题

在对海量数据进行挖掘的过程中，需要在不同的领域进行架构，由于不同领域存在较大的差异性与特殊性，对架构形成了极大的挑战。例如在农业的海量数据中，包含大量的农业基本资源如耕地、田地等，农业生产方面如育种、施肥等。在对农业中海量数据进行挖掘与处理时，面临灾害風险预测、粮食安全等多方面问题。与此同时，在构建农业云计算平台时，需要获得计算机技术的相关支持，还需要大量的农业经验与农业知识，地方政府也要提供相应的支持，为农业的云计算平台构建形成较大难度与挑战。

1.2.2 数据获取

海量数据挖掘需要将数据的获取与收集当作基础，目前常用的数据收集方法为数据检索，例如人们常用的Google、百度、传感器技术[2]、条形码技术等。但基于大数据时代的背景下，虽然数据的数量极为庞大，还是会经常出现无有效数据可用的窘迫情况，如数据壁垒问题、取得关联背景数据较为困难等，都对海量数据的挖掘形成阻碍。

1.2.3 用户隐私与安全

在目前经常会出现用户隐私泄露的问题，不仅会对用户形成较大的困扰，也会形成较多的虚假数据从而降低数据的分析效果。因此在海量数据挖掘过程中用户的隐私与安全问题亟待解决，主要是由于技术本身存在缺陷，且没有构建有效、科学的数据管理机制，造成用户隐私泄露。

1.2.4 数据处理

在获取数据之后会对数据进行预处理，例如数据清洗、数据融合、数据分析等技术。其中数据的清洗尤为关键，在2014年我国召开的数据技术大会中，有学者提出了数据记录逻辑检测办法、大数据清洗过程优化等相关控制模型，增强了数据处理的效果与效率。但在数据清洗之后会进行数据的分析，会产生时效性的问题，由于数据清洗有时不会及时完成，从而对数据挖掘的效果产生不利影响。

2 海量数据挖掘过程相关技术的处理思维

在对海量数据进行处理时会存在较多问题，为了增强海量数据挖掘过程的相关技术水平，应采用合理的海量数据处理思维即大数据与脑科学，采用人脑的思考方式可以加强大数据的处理效果。第一，深度学习。进行深度学习时，需要对人脑的思考机制进行模仿与学习。基于大数据的环境下，使用深度学习可对数据进行准确分析，并使人工智能获得有效处理，也会对传统的思维按时进行改变。无论是大数据与简单模型还是大数据与深度学习，目前大部分学者都认为基于大数据的背景下，利用简单的线性模型要好于复杂的模型。然而从人脑的思考模式来看，其机理与机制都可以从大数据挖掘过程中取得有效成果，利用模拟人脑的思考方式以及学习方式，可以获得更多、更有效的信息数据。例如在“Google Brain”研究的项目（http：en.wikipedia.org/wiki/Google_Brain）[3]便可以看出。在机器学领域的关键人物Hinton与其学生Salakhutdinov对深度学习做出的巨大贡献，这种方式也在学术界与工业界掀起了深度学习的潮流。第二，认知计算。在对海量数据进行挖掘处理的过程可以将其看作为认知过程。将数据进行转化、收集、计算、分析、表达，从而形成预估与决定，这便是标准的认识模式。但在人进行认知时候还会包含心智等方面的问题，例如情商、感受、信仰等，因此在对海量数据进行认知计算以及相关研究时，需要包含以下多个方面：首先需要考虑认知能否被计算。可以表达为人脑的认知是否可以用具体的公式或模式进行表现。在我国举办的第八届Web智能学术研讨会中，任福继教授为人们展示了情感交互智能机器人，通过实践完全可以说明认知可以利用计算的方式进行，至少在局部是可以进行计算的。其次应考虑认知应该怎样计算。其方式可以包含对数据的提取、心智局部表现、等方面。最后应考虑知识的全部相对性。对于人脑的学习过程来说，数据的量无论是多还是少都可定义为相对应的概念，如果环境出现变化，会对心智造成影响。因此需要在不断增加的数据量与环境变化中汲取知识，采用计算认知的方式，构建崭新的理论与实践模型。

3 结束语

基于大数据环境下，海量数据的挖掘过程以及相关技术不仅存在巨大价值，也面临着险峻的挑战。希望在广大的学者与研发人员不断努力、实践下，可以构建出更加完善、科学的大数据管理机制与计算模型，凸显大数据的真正价值，为人们的生活、社会的发展提供有效的数据服务。

参考文献：

[1] 米允龙，米春桥，刘文奇. 海量数据挖掘过程相关技术研究进展[J]. 计算机科学与探索，2015，9（6）：641-659.

[2] 尹洪.基于数据驱动的卫星故障诊断关键技术研究[D].国防科学技术大学，2015.

[3] 何超. 基于数据挖掘的企业竞争情报智能分析研究[D].武汉大学，2014.

[通联编辑：唐一东]