高校信息化环境中数据质量问题探析
2016-10-14郭晓明
摘 要:不同的数据环境存在不同的数据质量问题,本文首先介绍数据质量的概念,分析了高校信息化中的四种数据环境及其关系,对比了不同数据环境中数据质量问题,最后给出了高校信息化建设中数据质量问题的处理建议。
关键词:高校信息化;数据环境;数据质量;问题探析
中图分类号:TP393 文献标志码:B 文章编号:1673-8454(2016)15-0059-04
一、引言
在信息技术快速发展的“互联网+”时代,各个组织都拥有大量的数据,并呈现爆炸式增长,但其中有用的信息却很贫乏[1]。数据与信息的不对等,源自多个方面:一方面,数据与信息的外延有差别,信息来源于数据却不能完全包含数据;另一方面,信息技术未能完全解决信息化过程中数据与信息的问题;最后,在信息化发展历程中,组织或个体未能有效的保证作为信息载体的数据质量,致使产生了很多无用的信息。[2]
数据与信息有关联,也有区别。数据是反映客观事物属性的记录,是信息的具体表现形式,数据经过加工处理之后,才成为信息。从信息论的观点来看,描述信源的数据是信息和数据冗余之和,可以说信息是数据的一个子集。就信息系统层面来说,数据是系统的输入,是源材料,信息是系统的输出,是产品[3]。 数据是信息的基础,数据质量是信息质量全面提升的重要保障。
高校信息化建设包括计算机化、网络化、数字化、数据化、智慧化等不同阶段:计算机化是高校信息化的最初阶段,依赖于Excel文件或单机版的数据文件来管理各类数据;网络化则开启了数据共享的时代,也逐步出现了基于网络的应用数据库;数字化是在网络化基础上,着重于把所有的手工操作转变为业务系统,数据围绕业务需求进行构建;数据化是在数字化基础上,利用数据来对事物和现象进行描述,使之能同时被人和IT设施所理解,数据可以反哺业务[4];智慧化是信息化发展的最新阶段,数据变成现实环境感知的最基本元素,使信息世界和实体世界相互对应,并使信息世界具有智慧,成为“虚拟大脑”系统。这些发展阶段造就了不同的信息化数据环境,总结起来,可以定义为四种数据环境:数据文件环境、应用数据库环境、主题数据库环境、信息检索系统环境。[5]
在实际的高校信息化建设中,高校内部部门、单位信息化建设存在很大的差异化和不平衡性,很难实现阶段性的跨越,往往形成多个阶段并存的局面,即在同一个时期存在多种多样的数据环境。不同的数据环境存在不同的数据质量问题,本文首先介绍数据质量的概念,分析了高校信息化中的四种数据环境及其关系,对比了不同数据环境中数据质量问题,最后给出了高校信息化建设中数据质量问题的处理建议。
二、数据质量概念
各种应用不断产生和结束,而其中的数据则一直存在,劣质数据使组织或个人不能做出有效的决策,只有高质量的数据,才能使各项工作高效的推进。数据质量不仅仅只涉及准确性或者可靠性,而是多维的。Wang和Strong使用一个两阶段调查和两阶段分类研究的方式提出了一个典型的数据质量层次框架[6],将从数据用户那里收集的118个数据质量特征合并为15个维度4个类别,如表1所示。
还有一些组织和研究机构也对数据质量进行了定义并形成了标准,比如麻省理工大学、美国商务部、欧盟统计局、国际货币基金组织等。总的来说,这些标准主要考虑了三个方面的内容:一是注重从用户角度来衡量数据质量,强调用户对数据的满意程度;二是数据质量是一个综合性概念,需要建立一套有效的数据质量管理体系,从多方面多角度评价数据好坏;三是把适用性、准确性、适时性、完整性、一致性和可比性作为数据质量的基本要素。[7]
三、高校信息化中的数据环境
1.数据文件环境
数据文件环境中,一般通过Excel等单机软件完成数据的记录和存储, 数据可能用于辅助管理人员或者业务办理人员完成各项工作的开展,也可能用于工作内容的备份和存档。高校之所以还存在这类环境:一方面是很多人还不能从手工或使用Excel等简单软件工作方式转变成使用信息系统的工作方式,缺乏共享意识和整体观念[8];另一方面是部分单位满足于现有的工作方式,很难接收改变,或者缺少转变所需要的资金和人才支撑。
这种数据环境下数据存储在个人办公计算机上,受众面窄,没有专门的访问控制和安全性策略,存储和表示数据的方式以个人喜好为主,没有固定的规范,数据的利用价值很低。
2.应用数据库环境
应用数据库是基于学校实际的业务需求出发,通过面向过程的方式建立而成,主要服务于高校的各类MIS系统。很多高校并无专业的设计、开发团队,往往委托技术公司完成系统的设计、数据库的构建、功能的实现和系统的运行维护。其数据的设计依赖于一些大家公认的技术规范进行,是比数据文件环境更高级的数据环境。
系统建设团队往往是由不懂技术的业务人员和不懂业务的技术人员组成,系统除了存储业务功能所需要的必要数据外,也存储了很多的冗余数据,两类数据之间并没有明显的界限,影响了管理层的决策工作。
系统建设依据于现有业务实现,只能适应过去,而很难适用未来。早期的MIS系统并未过多涉及业务之外的功能,如统计、汇总、查询功能考虑不足,很多都只能进行事后处理,通过人为参与的方式手工完成。若业务进行了调整,则需要对系统进行重大的改造,数据需重新转换、清洗。
在应用数据库环境中,不同部门都建立了各自的信息系统,系统之间的数据存在严重的异构问题:不同系统采用了不同的数据库存储系统;系统服务于不同的业务,其对数据存在不同的需求;同一类数据,存储的格式和表示的方法存在比较大差别。部门之间的数据存在互访和交互问题,渐渐成为了很多的信息孤岛。
3.主题数据库环境
主题数据库环境是较高级的数据环境,由国际知名学者James Martin博士最先提出[9,10],他认为主题数据库环境是一个用以支持企业或组织决策分析处理的、面向主题的、经过科学的规划和设计、用DBMS建立起来的、具有共享性和一致性的、以主题数据库为主的集成化数据环境,只有在这种数据环境中才能开发和运行集成化的信息系统[9]。高校在信息化建设的数字校园阶段普遍引入此概念来构建高校独有的主题数据库环境,此环境下的数据独立于具体的部门和业务应用,而是将全校各类业务数据进行综合组织整理后,按照学校概况、学生管理、教学管理、教职工管理、科研管理、财务管理、资产与设备管理、办公管理、外事、档案管理等业务主题划分为相互关联的数据类集合,每类集合作为支持业务组的稳定数据基础,业务子集可以在此基础上直接构建,而不需要再设计新的数据库。[10]
主题数据库环境跳出了涉及众多多变处理过程的业务,而转向更高层次的业务数据。但是主题数据库环境中的数据大部分是来源于处于更低级数据环境中的各个业务系统,这些数据通过各种集成技术,进行数据加载、清洗、转换,最后进行汇聚,此过程中只能解决一些形式上的数据质量问题,包括异构、表达方式、存储格式等等,而因为业务系统设计、具体执行过程产生的更加深层次的质量问题很难解决,比如数据真实性、数据及时性、数据关联性等。
4.信息检索系统环境
信息检索系统是建立在数据之上的系统,以实现对数据的有效管理和利用,主要依据特定的信息需求对数据进行收集、加工、存储和检索,从而为用户提供信息服务。有专门针对某个内容库而建立的信息检索系统,比如期刊、图书、专利、标准等,这些系统注重内容库的建设。而在高校信息化建设中的信息检索系统,是一个综合性的系统,其关注点已经从业务、数据转变为信息,信息需求则来源于使用者、管理者、决策者等各类群体,这些用户群体对信息的需求具有不确定性和多样化的特性。为了有效构建信息检索系统环境,需要从信息需求反推数据构建,从已有的数据中选择、转化、处理形成数据仓库或数据集市,抑或从师生中直接收集信息,比如通过一张表建设工程完成。
信息检索系统环境下,对数据质量的要求很高,但是因为其数据可能来源于数据文件、应用数据库、主题数据库中的任何一种,导致其存在很多难以解决的数据质量问题。
5.数据环境关系
四种数据环境基本上都存在于当前的高校信息建设中,其中应用数据库环境是主要部分,有一少部分为数据文件,主题数据库和信息检索系统环境是最主要的建设目标。不同环境的中数据依次向更高级环境的数据服务,数据文件作为应用数据库的输入源之一,应用数据库则是主题数据库的主要输入源,主题数据库是信息检索系统的主要输入源。具体如图1所示。
四、不同数据环境的数据质量
数据文件环境下的数据是支撑业务人员的必须数据,具有很高的可靠性,但是数据很容易过时,需要人为的持续维护,不然数据准确性必然会降低,其数据用途和表达形式完全依赖于负责维护的个人。而在应用数据库环境下,业务涉及的数据需保证业务的正常运转,具有很高的内在质量,而其它冗余数据往往不能有效保证其质量,应用数据库涉及的业务范围窄,其所涉及的上下文有限,数据存储和表示以方便的方式为主,数据的访问安全性考虑也不周全。主题数据库环境中的数据是服务于业务全域,可能是同一时期的不同业务,或者同一业务不同时期的不同流程,涉及上下文范围广阔,需要保证很高的数据质量,其数据来源于不同的异构数据存储,需要采用规范、通用的存储和表示方式,主题数据库通过统一的出口提供数据,访问质量也有保障。信息检索系统环境下用户群体众多,很多质量问题都能很容易在使用过程中显现,所以其数据质量要求是最高的。四种环境的数据质量情况对比如表2所示。
五、数据质量问题处理建议
高校数据质量问题来源有很多,有信息层面、技术层面、流程层面、管理层面[11],涉及的方面众多,很难有效开展全面的数据质量管理策略,应根据实际情况逐步改善现有问题。
不同数据环境必然会很长时间共存于高校的信息化建设中,试图改变这种局面很难,而应该考虑如何充分利用这种局面。特别是应用数据库环境,在信息化环境转变中存在承上启下的作用,必将长期存在。要在对高校现有数据环境进行充分调研基础上,逐步调整改善:对于数据文件环境,尽量提高其环境级别;对于应用数据库环境中数据,剥离其中的有用数据和冗余数据,利用有用数据构建更高级别的数据环境;对于主题数据库环境,则应以构建此数据环境为手段和目标,使整体的数据质量得以提升。
信息化建设持续推进的过程中,将涌现越来越多的业务系统,通过开展信息化数据管理和规范服务以提高系统中关键数据的数据质量,可以使数据更有价值,最终使数据效能最大化。
参考文献:
[1]隆益民.数据仓库与数据挖掘[J].现代电子技术,2000(10):70-73.
[2]商广娟.有效的数据质量管理体系——21世纪管理的基石[J].航空标准化与质量,2005(2):18-22.
[3]苏强,梁冰.信息质量及其评价指标[J].计算机系统应用,2000(7):63-65.
[4]宓詠.智慧时代数据服务的发展与思考[J].中国教育网络,2015(8):23-26.
[5]郭晓明,张巍.高校信息化建设中公共数据平台的探讨[J].中国教育信息化,2015(19):69-72.
[6]理查德等著.曹建军,刁兴春,许永平译.信息质量[M].国防工业出版社,2013.3.
[7]宋立荣,李思经.从数据质量到信息质量的发展[J].情报科学,2010(2):182-186.
[8]陈翼.数据质量理论与高校信息化应用建设探索[J].实验技术与管理,2011(5):106-111.
[9]杨威,杨海君,沈叶忠.高校信息化建设中主题数据库的作用与开发[J].河海大学常州分校学报,2003(4):36-39.
[10]李丽,王倩宜,欧阳荣彬,等.高校信息化建设中主题数据库的规划设计[J].中山大学学报(自然科学版), 2009(S1):168-170.
[11]贾春燕,赵亚萍,程艳旗.高校数字校园数据质量管理研究[J].广西大学学报(自然科学版),2011(S1):272-275.
(编辑:王晓明)