APP下载

基于云制造的数据挖掘研究*

2015-11-22魏中贺李少波

贵州大学学报(自然科学版) 2015年1期
关键词:海量服务平台数据挖掘

魏中贺,李少波

(1.贵州大学 计算机科学与技术学院,贵州 贵阳 550025;2.贵州大学 现代制造技术教育部重点实验室,贵州 贵阳 550025)

当前,制造业的发展更加依赖于高新技术的推动,企业为了提高竞争能力,正积极地、持续地展开以制造业信息化的制造业变革。目前,制造业信息化已成为我国实行新型工业化道路的主要支柱。制造业信息化是将信息技术、建模仿真技术等专业技术融合运用于产品研制的全生命周期过程的模式,已达到增强企业敏捷性、柔性及健壮性,从而达到了增强企业市场竞争能力的目的。

云制造[1]是在现有信息化制造的基础上,融合了云计算[2-7]、物联网[8-11]、高性能计算、服务计算、智能计算等高新技术,将制造资源(模型资源、知识库资源、技术资源和人力资源等)虚拟化,构成制造资源的服务云池,并进行集中的统一的智能化高效能管理和经营,为制造全生命周期过程提供“敏捷化、绿色化、服务化、智能化、集成化、协同化、智慧化”的各类制造活动服务。

本文在云制造服务平台的基础上引入了数据挖掘[12-14]技术,对基于云制造的数据挖掘运用进行详细阐述与分析,并提出基于云制造的数据挖掘应用平台,为制造业提供更加科学的、精确的、高效可行的管理和营销方案。

1 基于云制造的数据挖掘

1.1 基本定义

定义1 云制造[1](Cloud Manufacture)是一种利用网络和云服务的平台,按用户需求组织网上制造资源(制造云),为用户提供各类按需求制造服务的一种网络化制造新模式。

云制造融合现有信息化制造、物联网、云计算、语义Web 等技术,通过对服务技术与网络化制造进行延伸与变革,将制造资源与制造能力虚拟化、服务化,并进行集中的、统一的智能化管理,实现智慧化、多方共赢和高效的普适化共享和协同,通过网络为制造全生命周期过程提供随时随地按需使用和获取安全优质的服务。制造全生命周期过程包括制造前阶段(如设计、制作、封装、销售等)、制造中阶段(如发布、管理、运维等)、制造后阶段(如分解、废弃、回收等)。

定义2 数据挖掘[15](Data Mining),也称大数据库中的知识发现过程,即从海量数据中发现有效的、有潜在作用的,最终可被理解的模式过程。

数据挖掘主要被用来从缺乏先验信息的大量数据中获取有价值的和有意义的信息,用于预测未来趋势以及各种行为,可以作为前瞻性的知识决策。对于企业而言,最终的目的是从海量数据中提取出可理解的知识,随着企业竞争的加剧,对挖掘出的知识准确性和可靠性的要求越来越高,因此数据的规模越大越能满足企业要求。同时,对数据挖掘的开发环境和应用环境的要求也随之提高。因此,云制造服务平台比较适用于上述要求。云制造服务平台可以存储海量数据并可以根据数据挖掘的需求对资源进行动态分配,保证数据挖掘算法的可扩展性,并采用容错机制来保证数据挖掘应用的可靠性。

1.2 云制造与云计算

云制造是在云计算提供的基础设施及服务(Infrastructure as a Service,IaaS)、平台及服务Platform as a Service,PaaS)和软件及服务(Software as a Service,SaaS)基础上发展和延伸,加深和拓展了云计算的资源共享和服务模式。云制造的内容、服务模式与技术基础如图1 所示。

1.2.1 在资源共享方面的拓展

云计算共享的资源类型主要为计算资源(如控制器、存储器、运算器和软件等),云制造的共享资源除云计算共享资源外,还有其他制造资源和能力,主要有软资源(如制造过程中的各种模型、信息和知识等)、硬资源(如加工设备、计算设备、试验设备等各类制造设备)、制造能力(如分析、设计、管理和集成能力等)。

1.2.2 在服务模式方面的拓展

云计算主要是提供用户网上提交任务与计算资源的服务,而云制造主要是提供用户网上提交作业,以及分布式交互与协同和制造全生命周期服务,其主要包括四种服务模式:①支持单用户完成单阶段制造;②支持多用户协同完成单阶段制造;③支持多用户协同完成多阶段制造;④支持多用户随时随地按需获取制造能力。

云制造与云计算在服务内容方面的比较如图1 所示。

图1 云制造服务模式、内容与技术基础

2 云制造数据挖掘应用模式及其模型体系架构

2.1 云制造数据挖掘服务架构

本文的云制造数据挖掘系统由云制造服务提供端(Cloud Manufacture Service Supplier,CMSS)、云制造服务请求端(Cloud Manufacture Service Demander,CMSD)和云制造服务平台(Cloud Manufacture Service-Platform,CMSP)组成,如图2 所示。首先,CMSD 通过CMSP 提出具体的使用服务请求。CMSP 负责制造服务资源管理、运行、维护以及云制造资源服务的接入接出等任务的软件平台。它会对CMSD 进行分析、分解,并在CMSP 中智能寻找最为匹配的云服务,通过调度、优化、组合等一系列操作,向CMSD 返回最优解决方案。CMSS 和CMSD 无需直接和各个服务节点打交道,也无需了解其位置和具体情况。CMSS 和CMSD通过CMSP 就像平时生活中使用普通工具一样使用制造资源和能力。

2.2 基于云制造的数据挖掘服务模型体系架构

为了实现上述云制造数据挖掘应用新模式,基于云制造的数据挖掘服务模型体系架构如图3 所示。该架构主要包括物理资源层、云制造虚拟资源层、云制造核心服务层、应用接口层、云制造应用层等五个层次。数据挖掘服务主要体现在云制造核心服务层,以云制造虚拟资源层数据为基础为该应用接口层提供更加精确科学的服务,进而为应用层提供更加优质的服务。

3 数据挖掘在云制造中的应用

3.1 基于云制造的数据挖掘层次结构

图2 云制造数据挖掘应用模式

图3 基于云制造的数据挖掘服务模型体系架构

在云制造环境下,终端用户在使用云制造的计算资源、制造资源、以及制造能力进行制造过程中有关的论证、设计、生产、实验、经营、管理和集成等工作时会产生海量和多态的数据。对这些数据进行快速有效的分析、检索、智能匹配和个性化推荐,利用数据挖掘的结果采集和组织有效的信息,可以实现自动知识发现为制造工艺和机械零部件仿真设计等制造需求提供优化服务。同时,对云制造服务平台中的海量数据进行有效挖掘能加强企业对数据和知识的管理,及时地为企业决策层提供精准而有效的数据信息,以便企业对市场需求做出迅速而正确的决策,故对云制造服务平台中的海量数据挖掘能加强制造企业的核心竞争力。存储在云制造服务平台中的数据分析过程包括数据采集、数据融合、数据预处理、存储、挖掘、分析、结果表示和评价等,其层次结构图如图4 所示。

图4 基于云制造的数据挖掘模型层次结构

基于云制造的数据挖掘模型大体上可以分为云制造环境层、数据预处理层、算法选择层、用户接口层和服务应用层。

(1)云制造环境层

云制造环境层位于模型的最底层,提供分布式并行数据处理及数据的海量存储。云制造环境中对海量数据的存储既要考虑数据的高可用性,又要保证其安全性。云制造平台采用分布式方式对数据进行存储,保存了多份数据副本,这种冗余存储方式保证了当数据发生故障时不影响用户的正常使用。

(2)数据预处理层

数据预处理方法包括数据选取、数据转换、数据去噪和集成、数据规约、属性概念分层的自动生成等。数据经过预处理能提高数据挖掘的质量,使过程更高效、更准确。

(3)算法选择层

基于云制造的数据挖掘,关键是算法的并行化。由于云制造采用的是GFS(Google File System,Google 文件系统)、MapReduce 和Bigtable 等新型计算模式,需要对现有的数据挖掘算法和并行化方法进行改进,才有可能直接应用在云制造平台上进行数据挖掘任务。因此在数据挖掘算法的并行化基础上进行更为深入的研究,从而使云制造并行数据挖掘算法的高效性得以实现。在云制造环境下数据挖掘算法主要包括机器学习法、统计学习法、神经网络算法和数据库法,用于分类或预测模型、数据聚类、数据关联、序列模式、数据总结、数据依赖、异常和趋势预测等。

(4)用户接口层和服务应用层

该层主要包括用户输入模块和结果展示模块。用户输入模块主要接受各个用户终端的请求,并将反馈结果传递给各个请求用户。不同的终端设备具有不同的接入标准,将其标准统一化,接入结果展示模块。结果展示模块结合计算机图形学、图像处理技术等可视化数据挖掘技术将最终挖掘结果转换成直观、易于理解的图形或图像的方式,并进行交互处理的理论、方法和技术。

系统根据终端用户提供的一些参数和数据,在算法库中选择合适的数据挖掘算法,然后调用经过预处理的数据传输到MapReduce 平台上进行并行数据挖掘。挖掘出的结果通过结果展示模块传递给用户,为用户提供更加优质的服务与应用。

3.2 基于云制造的数据挖掘优势

云制造环境下的数据挖掘从管理角度看,是一个制造服务过程;从技术角度看,是一种制造软件过程;结合制造全生命周期,基于云制造的数据挖掘优势主要体现在以下几个方面:

基于云制造的数据挖掘模式可以进行分布式并行处理,实现高效实时准确的挖掘,同时可以适应规模不同的组织,为中小制造企业带来新型低成本制造环境,针对大企业云制造服务平台,能够减轻对某些特定数据计算而导致的对大型高性能机的依赖性。

基于云制造的数据挖掘低层被屏蔽,方便开发,对用户透明,无需考虑数据划分,数据分配到节点以及计算任务调度等。

在分布式并行化条件下利用原设备,可以大幅提高处理海量数据的能力。在增加节点方面也更加自由和方便,同时容错性也得到提高。

将思想政治教育融入到大学生的科学文化和专业技术教学中,将思想政治课程与大学生实践活动相结合,是思政教育工作者和专业教师协同育人的切入点,这种协同育人机制的实施不仅需要“人”的合作,更要切实可行的制度保证。首先要从制度上支持、协调和保障搭建专业教师、思政工作者和学生交流的工作平台,定期组织专业教师和思想政治教育工作者参加专业的教育培训和沟通;然后建立起专业教师与思政教育工作者协同育人的激励机制,将专业教师的思想政治教育考核与评定教师的职位等级、优秀评比挂钩,充分调动专业教师的思想政治学习积极性,从而提高专业教师的思想政治教育水平,有效将思想政治教育与专业知识教育结合在一起。

基于云制造的数据挖掘保证了技术共享,降低了应用门槛,使终端用户对海量数据挖掘的需求得到了满足。

4 基于云制造数据挖掘面临的问题及挑战

(1)云制造技术虽然已经有了很多理论的研究,但是其技术还不成熟。云制造还处于初级阶段,所以在云制造服务平台上来实现数据挖掘必然还存在很多的问题及挑战。

(2)基于云制造的数据挖掘算法并行性以及多样化和个性化需求存在一定的挑战。

(3)基于云制造的数据挖掘面临着在云制造环境下的数据挖掘算法的选择是完成任务最关键的问题,同时算法的设计、参数的选择都会直接影响到最终的结果。

(4)在云制造服务平台中存储的数据是海量的,数据量达到TB 甚至PB 级次的数据,同时高维数据、各种噪声数据以及动态数据都为数据处理带来极大困难。

(5)数据挖掘中有很多不确定性,进行数据挖掘的目的就是要将这些不确定性带来的影响降到最低。其包括对数据挖掘任务描述的不确定性、数据采集和预处理时出现的不确定性、数据挖掘算法选择和结果展现的不确定性以及对挖掘结果的评价的不确定性等。

(6)在云制造环境下实现数据挖掘导致了云服务软件的可信性问题比较突出。服务的正确性、安全性以及质量也是重点需要解决的问题。

(1)根据个性化和多样化需求,并综合考虑制造行业的特点,建立具有综合服务的云制造平台。

(2)虚拟化技术是云制造数据挖掘技术的支撑,应加大对虚拟化技术研究的投入,并使其成果产业化。

(3)在可信性方面,应使算法具有通用、可查、可检、可调以及可视等特点。

(4)云制造服务数据和网络安全问题,根据公有云和私有云的数据安全等级不同,采取不同的加密算法来保护。

5 结束语

鉴于现有基于云制造平台的数据挖掘服务研究和应用的不足,本文通过与云计算技术的对比,提出了云制造服务模式、内容与技术基础,设计了数据挖掘服务模型,构建了基于云制造的数据挖掘服务模型体系架构,从而形成基于云制造的数据挖掘服务模式,它对云制造环境下数据挖掘服务模式的研究以及数据挖掘服务的开发和应用具有一定的参考价值。在今后的研究中,在云制造环境下结合数据挖掘的应用实例,实现相应的服务。

[1]李伯虎,张霖,王时龙,等.云制造——面向服务的网络化制造新模式[J].计算机集成制造系统,2010,16(1):1-7.

[2]邓维,刘方明,金海,等.云计算数据中心的的新能源应用:研究现状与趋势[J].计算机学报,2013,36(3):582-561.

[3]Li M,Yu S,Zheng Y,et al.Scalable and secure sharing of personal health records in cloud computing using attribute-based encryption[J].Parallel and Distributed Systems,IEEE Transactions on,2013,24(1):131-143.

[4]Garg S K,Versteeg S,Buyya R.A framework for ranking of cloud computing services[J].Future Generation Computer Systems,2013,29(4):1012-1023.

[5]Ergu D,Kou G,Peng Y,et al.The analytic hierarchy process:task scheduling and resource allocation in cloud computing environment[J].The Journal of Supercomputing,2013,64(3):835-848.

[6]张洁,何利文,黄斐一,等.一种应用于云计算环境下的服务发现架构[J].南京航空航天大学学报,2013,45(4):556-562.

[7]胡艳.云计算数据安全与隐私保护[J].科技通报,2013,29(2):212-214.

[8]陈海明,崔莉,谢开斌.物联网体系结构与实现方法的比较研究[J].计算机学报,2013,36(1):168-188.

[9]孔俊俊,郭耀,陈向群,等.一种基于智能物体的物联网系统及应用开发方法[J].计算机研究与发展,2013,50(6):1198-1209.

[10]何秀青,王映辉.物联网服务动态评价选择方法研究[J].电子学报,2013 (1):117-122.

[11]石海龙,李栋,邱杰凡,等.EasiSHA:一种软硬件协同的物联网可重塑终端架构[J].计算机研究与发展,2014,51(5):959-973.

[12]刘大有,陈慧灵,齐红,等.时空数据挖掘研究进展[J].计算机研究与发展,2013,50(2):225-239.

[13]Jain N,Srivastava V.DATA MINING TECHNIQUES:A SURVEY PAPER[J].IJRET:International Journal of Research in Engineering and Technology,2013,2(11):236-248.

[14]Kautz H.Data Mining Social Media for Public Health Applications[C]//23rd International Joint Conference on Artificial Intelligence (IJCAI 2013),Beijing:IJCAI,2013.

[15]Ren X,Wang Y,Yu X,et al.Heterogeneous graph-based intent learning with queries,web pages and Wikipedia concepts[C]//Proceedings of the 7th ACM international conference on Web search and data mining,New york:ACM,2014:23-32.

猜你喜欢

海量服务平台数据挖掘
一种傅里叶域海量数据高速谱聚类方法
打造一体化汽车服务平台
探讨人工智能与数据挖掘发展趋势
江苏省一体化在线交通运输政务服务平台构建
论基于云的电子政务服务平台构建
海量快递垃圾正在“围城”——“绿色快递”势在必行
基于云计算的民航公共信息服务平台
基于并行计算的大数据挖掘在电网中的应用
一个图形所蕴含的“海量”巧题
一种基于Hadoop的大数据挖掘云服务及应用