利用CRISP—DM模型规范企业两化融合过程中的数据开发利用
2015-06-15华苗苗
摘要:文章阐述了企业在两化融合发展进程中数据开发利用的需求,给出了以实际操作层、信息系统层和数据分析层为组成部分的数据开发利用体系框架,并结合CRISP-DM模型提出了企业进行数据开发利用的实施过程,最后提出具体实施过程中的关键点。
关键词:两化融合;CRISP-DM模型;数据开发利用 文献标识码:A
中图分类号:F427 文章编号:1009-2374(2015)21-0029-02 DOI:10.13535/j.cnki.11-4406/n.2015.21.015
信息化和工业化融合(以下简称“两化融合”)是当今国家乃至世界发展的大趋势,对于企业而言,两化融合是将信息化作为手段,夯实工业化基础,推进企业数据、技术、业务流程、组织结构的互动创新和持续优化,从而打造信息化环境下新型能力的过程。近年来,随着企业单项应用的增加及集成度的提升,计算机对数据的处理能力显著提高,随之而来的数据量与日俱增。市场竞争的加剧、企业规模的增大、数据复杂度的提升都要求企业实现数据的开发利用,为领导决策提供相应的依据。为进一步规范企业数据的开发利用,《信息化与工业化融合管理体系要求》中也着重提出了“有效地开发利用数据”的要求。故本文提出在两化融合过程中,企业利用CRISP-DM(cross-industry standard process for data mining)模型规范数据开发利用的过程。
1 数据开发利用体系框架
数据开发利用体系框架如图1所示,可分为三个
部分:
1.1 实际操作层
涵盖研发、制造、销售等环节,是企业数据的最初来源和最终落脚点,各部门负责采集其中的数据,将其作为信息系统的输入,并利用决策的结果对实际业务进行调整。
1.2 信息系统层
涵盖企业ERP、OA、PLM等已有信息系统,对其进行集成应用,实现数据、接口的标准化和规范化,确保为数据分析层提供有效的数据。
1.3 数据分析层
涵盖了数据仓库、数据挖掘和决策支持/商业智能三部分,用于将信息系统中的数据提取出来,并根据需要进行转换和存储,然后按照特定目的进行挖掘、统计和分析,从而产生供管理者参考的决策,可包括:研发方向调整、销售市场细分、职能部门优化等,最终将决策反馈至实际操作层,并对信息系统作相应变更。
2 利用CRISP-DM模型实现企业数据开发利用
CRISP-DM由欧盟机构于1999年联合起草,为全工业界提供数据挖掘利用的全生命周期管理标准。CRISP-DM模型定义了六个过程,按照此模型,企业可按如下步骤实施数据开发利用:
2.1 商业理解
从企业战略出发,确定可持续竞争优势和需要打造的信息化环境下新型能力,再细化到需要实现的两化融合目标,从待实现的目标中提出需解决的数据开发利用问题,进行数据开发利用策划,需涵盖开发目标、涉及部门、数据来源、开发过程等。
2.2 数据理解
根据数据开发利用策划,从各部门、各流程、各岗位、各系统中收集相关数据,并对数据质量加以鉴别,以确保数据的准确性、全面性、有效性,此外,还需初步探索数据自身的特征及数据间的相互联系,形成对潜在信息的假设。
2.3 数据准备
根据与数据开发利用目标的相关性、数据质量及开发利用技术,进行建模前的数据准备。首先进行数据表制作,将数据统一格式后进行记录,然后为适应建模工具进行数据清理,这一过程一般需反复实施多次,直至筛选出最终数据集。
2.4 建立模型
根据待数据开发利用的问题类型,选择对应的建模技术。与以往类似的可对原技术加以修改沿用,与以往不相同的则需要重新建模。在此过程中,当涉及到数据不匹配时,可能会重新进行数据准备过程,实现对数据参数的精准校对。
2.5 模型评估
在数据模型最终部署之前,需对修改和新增的模型进行再评估,回顾其中每个步骤、每个数据、每个逻辑,尤其要考虑和两化融合目标的关联性,确定是否可解决提出的数据开发利用问题,为模型部署成功提供
保障。
2.6 部署实施
由信息部门和相关业务部门共同完成相关信息系统的搭建、改造和完善,明确各部门、各岗位参与数据开发利用的主体和具体职责,以制度文件的形式规范下来,共同参与数据开发利用过程。
3 数据开发利用的关键点
根据对应的规范要求和过程指导,为确保有效开发和利用数据,在具体实施过程中应重点关注以下几点:
3.1 重视商业理解,统筹管理全局
商业理解是数据开发利用的第一步,它关注数据开发利用过程中的方向性问题。应由领导层深入参与,正确把握两化融合目标,明确待解决问题对达成目标的关联度和贡献性,在各部门提出需求的基础上,重点关注最迫切的数据开发利用方向。只有始终抓住这个重点,才能对后续的实施全局起决定性的指导作用。
3.2 严把数据来源,推进数据标准
数据的可靠性、真实性、完整性是数据开发利用的基础,也是达成两化融合目标的保障。如果数据质量不好,即使模型很完美,也不可避免产生一个偏差或者错误的结果。应严格筛选和过滤各部门、流程、岗位及系统提供的数据,推进数据处理环节的标准化,并建立相应的数据校对机制,逐步提高数据的质量。
3.3 落实责任主体,明确具体职责
职责分配落实是确保数据开发利用有序进行的关键,也是长期进行数据治理的必要措施。如果不能从制度上落实职责,很容易造成数据的遗漏和丢失。应制定相关制度,规定数据采集和维护的周期,指定专门岗位按制度要求负责数据的采集、汇总、校验、录入等,并由上级领导对数据的真实性进行审核,对数据的准确性负责。
3.4 定期回顾总结,提升决策质量
对数据的定期回顾和总结是不断提升决策质量的必要环节,它关注于数据开发利用中的方向修正问题。如果无法通过回顾总结发现其中的疏漏和不完善,会对决策准确性造成影响。应周期性地对数据的质量及数据对达成目标的贡献性进行回顾总结,调整优化相应业务流程和岗位职责,对应地更新信息系统,确保数据开发利用的高效和准确。
4 结语
随着工业4.0时代的到来,IT技术的发展为企业带来了新的思路,数据作为企业各生产环节的核心,对其进行开发利用是企业必须持续推进、不断提升的系统性、全局性工作。必须围绕数据对企业的经营发展做长远布局,梳理当前已有的管理、生产、销售、人员等数据,调整优化信息系统、管理制度、岗位职责,实现企业从传统制造向智能制造的转型。
参考文献
[1] 中华人民共和国工业和信息化部.信息化和工业化融合管理体系要求(试行)[S].2014.
[2] 野村综合研究所.图解CIO工作指南[M].北京:人民邮电出版社,2014.
[3] 郭亮.用CRISP-DM模型来规范企业数据中心建设
[J].华北科技学院学报,2008,4(5).
作者简介:华苗苗(1987-),女,浙江人,浙江省电子信息产品检验所助理工程师,硕士,研究方向:两化融合。
(责任编辑:周 琼)