浅谈EXCEL报表数据过录及质量控制
2009-10-27胡丹李朝赟
胡 丹 李朝赟
提要目的:整理2005~2006年全国各海关出口农产品监测数据并汇总。 方法:采用双人双机整理数据的方法,首先规范EXCEL表单格式,应用EPIDATA 3.1软件进行比较,应用SAS 8.1汇总数据。结果:在整理过程中发现使用EXCEL软件填报数据常见的主要问题是填报格式不规范,数据填写随意性较大,数据是否缺失标记不清。结论:以EXCEL报表上报数据需要精心设计,统一填写要求,及时核查上报数据的规范性与合理性,为后续的统计分析提供高质量的原始数据。
关键词:EXCEL软件;数据整理;质量控制
中图分类号:F224文献标识码:A
EXCEL作为微软OFFICE系列办公软件中王牌的电子表格软件,可以用来制作电子表格、完成许多复杂的数据运算,进行数据的分析和预测并且具有强大的制作图表的功能,已成为国内外广大用户管理公司和个人财务、统计数据、绘制各种专业化表格的得力助手。统计工作者常常需要将各地不同单位的EXCEL报表进行汇总、整理,然后进行不同目的的数据分析,因此填报一份高质量的表单,准确、快速地完成数据整合是至关重要的。本文就2005年与2006年部分海关农产品污染物检测数据整理汇总过程中遇到的一些问题进行分析,探讨提高EXCEL表单数据填报质量的途径以及整理汇总的步骤,为后续的进一步分析提供高质量的原始数据。
一、材料和方法
1、材料。安装有Microsoft Office2000、SAS8.1及EPIDATA3.1软件的计算机。研究数据来源于2005年和2006年中国各个城市海关对出口农产品中二十多种农药及重金属残留量监测的数据。
2、数据整理方法。本次数据整理的设计思路是,先规范EXCEL报表格式,包括将EXCEL表中表头和尾部各种无关的信息删去。由于数据是由不同城市上报汇总,并且不同的农残污染物监测的浓度和LOD的单位也不尽相同,所以在原表单基础上增加一单位标识变量LOD_DW,规定LOD_DW=1为mg/kg,LOD_DW=2为μg/kg。最后应用SAS8.1软件将整理核查好的EXCEL表单连接汇总成一张总表。
3、质量控制方法。本次数据整理过程的质量控制思路是,一方面在整理过程中采用双人双机过录数据,完成后在EPIDATA中进行一致性检验;另一方面对整理完成后的数据进行逻辑性检验,包括对空值的返回检查和对高端
10个值的返回检查。
二、结果
本次海关数据涉及2005年26个海关,2006年29个海关,记录总数88,947条,因浓度或LOD缺失而删除133条记录;总体来讲,2006年的数据与2005年相比,数据格式更为规范,整理的效率和质量较高。在数据的整理过程中,我们发现存在以下几种数据质量问题:
1、数据缺失。这是最常见的数据质量问题,包括浓度、检测依据、采样地点、LOD,以及浓度和LOD单位的缺失。其中浓度、LOD、单位的缺失对统计分析的影响是最大的,所以当一条记录中缺失上述三个变量中任意一个的时候,就必须向数据的提供方去咨询,如果那边同样无法得到正确数据的话,这条记录就只能作废了。
2、数据中的人为错误。数据的人为错误主要出现在浓度变量的填写中,因为这个变量的数据大部分是手工输入的,在记录条数很多的情况下,出现人为错误几乎是不可避免的。在使用EXCEL软件作为报表数据收集的今天,人为错误已经得到了很大程度的控制,在这次的海关数据中,人为错误主要有以下几种形式:①数据中出现空格;②数据中出现多个小数点;③数据中出现字母等不规范的符号;④不规范的科学计数法等。
三、讨论
统计数据质量是统计工作的生命,没有高质量的统计数据,科学研究的根基是不牢固的。统计数据质量控制要贯穿于统计工作的全过程,包括设计、收集、整理和分析。其中,每进行一步,都要进行质量控制,需要落实专人负责对已完成的工作进行检查、对已发生的差错及时进行纠正,做到层层把关,防止差错流入下一个工作环节,以保证统计数据的质量。
1、表单设计阶段的质量控制。在使用EXCEL设计需要填写的表单时,首先需明确表单中应该包含的内容;其次,需要在表格中添加必要的批注,指导填写人员恰当的填写研究数据;另外,为了使填写者避免因单位不恰当而在填写过程中使用大量的零而导致的数据错误,在设计阶段就应该运用专业知识恰当地规定不同检测项目的单位;最后,通过条件格式设定其中单元格之间的逻辑关系,再使用工作表保护把公式及表格样式保护起来,使填表者无法随意更改,这样就从很大程度上规范了数据填报的格式,提高填写数据的准确性。
2、表单填写阶段的质量控制。表单填写阶段的质量控制应该做好以下几个部分:①数据填写人员应做好培训,从填写内容、填写格式、填写规范等方面对其提出要求,从技术上提高相关工作人员的水平;②加强相关人员的职业道德培训,要求每一个统计工作者必须坚持实事求是的工作作风,认真对待每一个统计数据;③尽量运用计算机填写统计数据,其优越性是手工整理无可比拟的,可以从很大程度上减少人为错误的发生。通过对EXCEL表格的种种规定和限制,以及大量批注的提示,可以时刻提醒报表的填写人员在填写过程中对数据进行规范的、正确的填报。
3、表单数据上报阶段的质量控制。在表单数据上报阶段,接收部门需要对数据资料进行审查。如果上报的数据资料不全或有疑问,应及时地进行核实,避免有质量问题的资料进入汇总处理阶段。总之,对搜集到的资料,经过鉴别推敲、核实审定、使之准确无误,才能使统计数据的质量得到保证。
(作者单位:东南大学公共卫生学院)
主要参考文献:
[1]胡逢蛟,楼丽波,付小红,于梅,林辉.Excel在卫生检测数据管理中的应用[J].宁波医学,2000.12.11.
[2]刘晓梅.树立正确的统计数据质量概念刍议[J].统计与信息论坛,2003.18.5.
[3]杨朝英,翁丽玉.关于统计数据质量问题的探讨[J].福建农林大学学报,2003.