挑战2 数据质量
2016-06-06王左利
挑战2 数据质量
数据质量与数据服务息息相关。数据质量不高,数据应用的有效性不高,导致有数据却用不起来。
高校数据质量不高的现象一直存在。虽然目前数据应用的项目非常多,但真正取得预期效果的项目少之又少,而且开发过程困难重重,其中的一个重要原因就是数据质量问题导致许多预期需求无法实现。
数据治理是一个有效提升数据质量的行动。数据治理的范畴更广,所以人们认为它是“一个系统的、大型的、长期的工程”。目前高校在数据治理方面还没有开始真正意义上的实践,究其原因,一方面高校还没有把数据治理的重要性提升到战略高度,另一方面没有将数据治理单独作为课题研究,没有形成系统的实施方法论。
观点
数据服务中涉及到的数据质量问题,目前主要存在哪些问题?有哪些解决方案?
陆以勤
众所周知,大数据并不等同于“大量数据”,对大数据进行有效分析的前提是必须要保证数据的质量, 数据的质量决定了数据的可用性和易用性,大量不可用的数据垃圾不仅提炼不出有价值的分析结果,还占用了数据存储资源。
一般面向大数据分析的数据质量可以体现在数据的完整性、真实性、精确度、一致性、时效性、容量、面向大规模分析的存储方式等。由于大数据的来源复杂、数据量大、产生速度快、处理过程多样等,目前对大数据分析的可用性而言质量普遍存在问题。
为了保证数据的质量,在数据的整个生命过程要统一规划、有效采集、合理存储。首先要制定统一的数据标准,对于采集的新数据,应采用新的标准进行采集、清洗和转换,对于现存的数据,要进行一致性校验、清洗、信息补充等,未来保证数据时效性,要保证数据采集、传输过程的时效性,另外,目前很多大数据采用普通云架构的存储方式,这种存储方式是面向应用程序运行的,对于数据分析,应该采取分布式的存储方式,以便采取分布式的算法提供分析效率。
宓詠
数据质量的完善很难一蹴而就,有一个逐步完善的过程,需要改变数据属性的观念,逐步从“我的数据”到“部门的数据”再到“学校的数据”,把数据从“私有”变为“公有”,共同来维护数据质量;
需要完善管理机制和数据标准,科学规划,重构数据基础,以“面向对象”方式有机组织教学、科研、财务、人事、生活等各类数据资源;
关注数据生命周期的四个要素:从哪来?怎么来?到哪去?如何用?
技术手段上下功夫,降低数据收集的成本、尽量能自动从系统中定时获取数据;
数据管理后端和前端服务分离,实现“松耦合”化:数据的交换、保管等过程,由信息化部门统一操作,数据产生(收集)和校验由用户与二级单位共同承担;
由于每个人对自己的数据是最清楚的,可以通过向用户个人开放属于其本人数据的方式,形成倒逼机制来督促业务部门修正错误数据、改善数据质量。
陈云
数据质量管理,是指对数据采集、存储、共享、维护、应用、消亡生命周期中可能引发的各类数据质量问题,进行识别、度量、监控、整改等一系列管理活动,保证数据质量不断提高。因此从系统建设阶段到运维阶段都涉及到数据质量的管理工作,建立数据从采集、处理到维护的全过程监控体系,确保数据的完整性、有效性、准确性、惟一性、一致性。