信息系统建设中数据工程作用浅析
2019-03-14裘昱潘登
裘昱 潘登
摘要:信息系统建设离不开数据,数据工程的方法是数据科学与数据技术的应用和归宿。该文提出的在信息系统建设中应用数据工程的方法并发挥其作用,就是利用工程的观点进行数据管理和分析以及开展系统的研发和应用,可避免信息系统建设过程中诸多现实问题。
关键词:数据工程;信息系统;作用
中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2019)01-0009-02
1 数据、信息及信息系统
数据和信息是信息系统中最基本的术语。数据是指记录下来的事实,是客观实体属性的值。就其表现形式来看,可以分为模拟数据(其数据是连续的值,比如声音、图像等)和数字数据(其数据是离散的值,如符号、数字等)。
信息是构成一定含义的一组数据。信息是对客观世界中各种事物的狀态、特征及其变化的反映,泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。
信息和数据的关系非常紧密,息息相关,可描述为:数据是信息的表现形式和载体。数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。[1]
信息系统是由人、计算机(包括网络)和管理规则组成的集成化系统,是由计算机硬件、网络和通信设备、计算机软件、信息资源、信息用户和规章制度组成的以处理信息流为目的的人机一体化系统。
二十世纪60、70年代,在以美国为代表的信息技术发达国家,出现了与“信息孤岛”相类似的“数据处理危机”问题,表现为,信息系统建设出现了大量的失败案例,无用的或效率很低的应用程序越积越多,应用开发的效率越来越低,信息系统的维护越来越困难。随着信息工程的出现,对解决“数据处理危机”发挥了重要的作用。信息工程作为一个学科,是多种技术、多种学科的综合,是研究信息处理理论、技术和工程实现的专门学科。目前,信息工程多是以系统建设为核心,提出对数据的使用要求,尚不能涵盖数据建设的全过程。我们认为,为了进一步理清数据工作的思路,信息系统建设还应以数据为焦点,应用数据全寿命过程中的技术、管理和目标,达到进一步降低风险,提高效率的目的。同时,信息工程的基本原理对于数据工程建设而言依然适用。
2 数据工程基本概念
数据工程(Data Engineering)是规范和支撑数据产生、维护、服务、使用、存储全过程的一系列技术、建设、应用和管理活动的总称,其主要目标是强化数据的管理,提高数据的可见性、可访问性和可理解性。数据工程建设的实质是将系统工程的方法用于解决数据建设中存在的各种问题,最大程度提高数据的使用价值[2]。
数据工程建设由法规和标准、数据支撑环境和数据资源建设三个方面组成。数据法规和标准包括数据政策法规、数据标准体系、各类数据标准等,用于规范数据资源建设的各项活动。数据支撑环境建设包括数据集成环境、数据管理系统、数据中心/数据存储灾备系统和数据安全保密系统。数据集成环境具有元数据注册、数据建模、数据映射、数据抽取与转换、数据挖掘和聚合等服务功能,为数据的共享与应用提供(网络化)支持环境。数据管理系统具有对各种数据的采集、汇总、审核、性能监控和查询分析等功能。数据中心/数据存储灾备系统为数据提供各种服务,包括安全、可靠、高效的存储、容灾和备份服务。数据安全保密系统为数据提供安全保密手段和措施。从国家安全的高度出发,数据支撑环境所依赖的基础软件应该由非自主知识产权基础软件逐渐过渡到自主知识产权基础软件。数据资源主要包括共享数据和业务数据两大类数据。共享数据是领域间通用的、基础性的数据资源。业务数据是各业务部门为支持具体的业务工作而使用的专用数据。共享和业务数据是相对而言的,针对不同范围的领域可能有着特定的含义。基础数据建设是为了促进数据共享,如果有了基础数据却不能按需有权限共享,则意义有限。完成基础数据建设,完善数据更新和共享机制,对解决长期困扰在信息化建设中数据横向共享难的瓶颈问题,发挥信息系统的整体效益至关重要。
3 数据工程在信息系统建设中的作用
3.1 强化数据资源开发与利用
现代社会是信息化社会,谁拥有了量多质好的信息,谁就占据有利位置。因此,数据作为信息的载体和表现形式,正越来越受到大家的普遍重视。数据是信息化"弹药",只有"弹药"充足了,才能变信息优势为决策优势。现代的信息化社会紧紧围绕着一个核心,那就是数据。在信息系统建设中,非常重要的一点是运用数据工程原理,强化数据资源的开发与利用,并且确保在各信息系统之间能够互操作这些数据资源,发挥信息系统的整体效益。数据资源是信息系统最重要的资源之一,开发数据资源既是信息化的出发点,又是信息化的目标。
3.2 强调以数据为中心构建信息系统
在建设信息系统时,信息工程的基本原理依然适用,就是说应该在以系统建设为核心的同时,也要强调把数据作为中心来构建信息系统,一是应用系统的研发应面向数据,而不应面向过程。研发过程中,应首要考虑的是系统的使用者需要系统提供哪些服务,从而更加有效高效的组织数据。二是数据是稳定的,处理是多变的。只要信息系统业务主体不变,所使用的数据模型就很少变化。通过使用多种数据分析方法,找到数据模型。根据数据模型建立并组织这些数据,不仅能提供更加有效的服务,当组织或业务上出现变化时也能很快适应。三是具有信息或数据的最终组织、运用、管理和决策权力的高层用户必须真正参加或指导信息系统的建设工作。信息系统建设是"一把手"工程,离开高层用户紧密参与,是不可能真正成功的。
3.3 强力以数据集成推动信息系统集成
近年来,随着计算机技术运用的不断深入,不同软件间,不同部门间的数据信息不能共享,设计、管理、生产的数据不能进行交流,数据出现脱节,产生了较为严重的“信息孤岛”问题,信息系统集成难度变大,传统的打补丁、写接口转换程序等做法很难从根本上解决问题。
从数据工程的角度来看,应该面向数据集成,从数据法规和标准、数据支撑环境和数据资源建设等三个方面入手,强力推动信息系统集成,即拟制相关数据法规,解决数据的管理、维护等问题,规划数据标准体系,建立稳定的数据模型,设计共享数据库,抓好数据重组工作(重组原有的信息资源),改造杂乱无序的数据支撑环境,构建可共享的基础数据资源,只有在能够采用相对稳定的数据模型和数据来描述各信息系统的共享需求,采用统一的方式(或环境)处理这些数据模型和数据,又具备了可共享、交换的基础数据资源后,才能解決数据集成问题,取得信息系统集成的主动权[3]。
4 国外数据工程建设主要做法
国外(以美国为代表)高度重视数据工程建设,其主要做法包括:一是技术推动与法规制度建设并重。美国一方面靠技术推动,促进转型,另一方面又下大力气,紧抓法规制度建设,用法规制度为转型保驾。例如美军高度重视法规制度在转型中的关键作用,为加强美军的信息(数据)能力,美军除了信息栅格基础设施(GIG)本身建设外,以国防部(DOD)为主要法规政策制定者,出台了一系列相关的法规类文件,其中包括《美国国家安全战略》《美国国防战略》《美国国家军事战略》《国防部首席信息官战略规划》《GIG体系结构构想视图》《美国国防部网络中心数据共享实施指南》《网络中心数据策略》和《网络中心作战和网络中心战参考模型》。这些法规类文件对促进美军的转型起到了非常关键的作用。二是按照实际需求,逐步发展数据策略。以美国为例,其数据标准管理方式,先是分散管理,再由分散管理过渡到集中管理,然后在数据标准的指导下,再过渡到"非集中"管理的网络中心数据策略。三是高度重视数据基础环境和通用数据资源的建设。以数据基础环境为信息系统建设的核心,以通用数据资源建设带动信息资源的整体建设。四是高度重视数据标准在信息系统互操作中的关键作用。美国认为信息系统互操作等级的指标体系由规程 (Procedures) 、应用 (Applications) 、基础设施 (Infrastructure) 和数据 (Data)四个属性构成,其中,数据属性描述系统处理的信息,涉及信息格式(语法)和其内容或意义(语义)两个方面,囊括了全部信息式样和格式,包括自由文本、格式化文本、数据库(格式化的和非格式化的)、视频、语音、图像、图形(地图)信息等等,是获得系统互操作性的最关键的环节。
5 启示
未来社会将是以数据为中心特点的数字化信息化社会,在这样的环境下,数据的来源是全方位的。必须抓住机遇,认真解决在数据建设中存在的各种矛盾问题,只有抓好数据工程工作,重视数据工程建设,强调以数据工程建设推动信息系统建设,着力以数据为中心构建信息系统,搞好以数据集成推动信息系统集成,切实重视数据法规标准建设,努力构建基础数据的一体化支撑环境,建立健全数据资源的管理机制体质,促进数据共享,强化数据管理,规范数据全寿命活动,提高数据的可见性、可访问性和可理解性,最大程度提高数据的使用价值,才能最终为提高信息系统整体效益,迎接数字化社会,奠定坚实的基础。
参考文献:
[1] 岳昆. 数据工程—处理、分析与服务[M]. 北京:清华大学出版社, 2013.
[2] 李国杰, 程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域[J]. 北京:中国科学院院刊, 2012.
[3] 周傲英, 钱卫宁. 数据科学与工程:大数据时代的新兴交叉学科[J].大数据, 2015(2).