APP下载

电子档案财经类数据采集和整理浅析

2015-06-25李艳霞

档案管理 2015年4期
关键词:数据项财经类原始数据

李艳霞

档案信息化已经成为档案信息服务社会的最佳技术手段和实现途径。如何高效地利用爆炸性增长的数字化资源,从错综复杂的海量信息中提取出有价值的信息,已成为档案工作者的重要任务,数据挖掘正是解决这一问题的有力工具。各级财政和统计部门多年来积累了大量的财经类档案数据,对其进行数据采集和预处理是进一步数据挖掘和利用的基础。由于财经类数据不同于一般档案数据,因此,在数据采集、预处理工作中必须充分注意其特性,采用相关技术才能形成高质量的数据,使数据的利用(统计、数学建模、数据挖掘)等更加有效。

1  财经类档案数据的特点

1.1  数据表现形式单一。财经类档案数据主要由指标体系和对应的数字构成,主要以表格的形式表现,也有一些数据出现在各类报告中。早期的财经类档案数据主要是纸质、人工填写的各类报表。随着计算机技术的发展和计算机的广泛应用,财经类档案数据经历了一个从简单的电子表格到数据库应用发展过程。

1.2  数据来源繁杂。财经类档案数据的来源主要是各级政府部门的统计、财政决算、预算数据。由于各个主管部门都有其自己的数据来源,加上指标体系、部门划分等因素随着社会经济发展不断调整,往往造成同一指标对应的数据不一致,或无法进行形成一个对应的、稳定的时间序列数据,从而使得数据的再利用、再加工(如统计、趋势分析)等工作有较大困难。

1.3  电子数据种类繁多。财经类数据在从纸质到电子化的过程中,几乎使用了所有的电子表格和数据库软件,这些软件的文件格式、数据结构互不相同,数据源彼此独立且相互封闭,多数无法兼容。有些软件由于早已退出市场,甚至无法找到能够使用的版本。这给数据采集,特别是历史数据的采集带来了相当大的困难。

1.4  数据之间有严格的平衡关系和逻辑关系。财经类数据之间一般情况下都有严格的平衡关系,一套报表往往要求表内数据通过单表内平衡审核、逻辑审核以及表间平衡和逻辑关系审核。这使得财经类数据的整理、校验有一个严格的要求,数据必须通过所有的平衡、逻辑关系审核。对于缺失数据,往往也不能通过插值等统计方法补充。

2  数据采集

数据源的质量是数据挖掘质量的最重要因素之一。在原始数据的获取过程中,如何针对财经类数据的特点,从源头尽量减少错误和误差,尤为重要。在财经类数据采集过程中,必须注意以下几个方面。

2.1  了解原始数据属性及对应的指标的确切含义。这是采集原始数据的基础。一些数据指标经历了不断调整的过程,因此,必须首先了解原始数据的属性、结构、准确含义、包含的范围以及前后时间阶段的调整关系,确定所需要的数据项和数据提取原则。

2.2  原始数据获取。财经类数据的获取必须按照严格的操作规范、使用恰当的技术手段来完成。对于纸质报表类的数据,可采用电子扫描、OCR识别的方法获取原始数据。对于电子类多源异质异构数据的获取,还要考虑数据源的连接和数据格式的转换问题,必要时还需要安装相应的软硬件平台。对于已退出市场、兼容性差且没有运行平台的电子表格或数据库类软件,则需要编写相应的转换工具从原始数据文件中读出数据。

3  数据整理

数据整理是数据预处理过程中最花费时间,但也是最为关键的步骤。一般情况下,获取的原始数据都会有各类问题或缺陷,在下一步处理之前必须进行整理。

3.1  财经类数据的问题类型。对于财经类数据来说,原始数据一般有以下几种情况需要进行整理。

数据平衡关系错误:主要表现是一套报表或一个时间段内的数据并无缺失遗漏,但数据间的各类平衡关系、逻辑关系不满足。

数据缺失:表现为采集的原始数据中出现缺失遗漏,有孤立数据缺失和系列数据缺失两种情况。

数据冗余:表现为在一个时间段或一个数据序列内,出现指标含义相同、数据相同的数据项,或是指标名称不同但含义相同、数据相同的数据项。

数据不一致:表现为一个数据序列中出现指标名称相同,数据不同或是在一个时间段内由于数据统计范围调整、指标含义变化引起的数据不一致情况出现。

3.2  数据整理:财经类数据的整理按存储媒介不同(纸质和电子)有不同的处理方法。现存的财经类纸质报表数据有人工填写和计算机打印两种形式。手工填写的报表是在印刷好的报表中手工填写数据,由人工审核平衡关系,往往错误较多。计算机打印纸质报表一般是采用电子表格软件或数据库类软件填写数据,通过数据平衡审核后打印出报表。对于早期的数据库应用,由于原有软件早已不再使用、数据组织结构不清楚,无法重现软硬件环境,只能通过原打印的报表获取数据。

初始获得的数据根据实际情况可采用以下的技术手段进行整理。

(1)数据平衡关系错误。对于此类错误,关键是要找出平衡关系中错误的数据项加以修改。一般情况下,以一套报表中的其他报表或同时期的其他数据作参考,首先确定正确的数据项和错误数据项的位置,例如确定是合计数据错误还是分项数据错误。然后,通过倒推的方法,确定数据平衡关系中错误数据应有的值加以改正。实际操作中,这种做法要慎之又慎,每一步都要留有记录供随时回到上一步状态,以免引起更大错误出现。

(2)数据缺失错误。数据缺失错误主要原因是由于时间因素引起的报表数据项丢失,有纸质报表数据缺失和电子报表数据缺失两种情况。纸质报表数据缺失一般由于保管不善引起报表缺页或表内数据不清,无法识别;电子类数据缺失一般是由于电子文件读取错误引起。纸质报表数据缺失如果出现整套报表中某表缺失,补充数据相当困难,一般采用以下步骤进行:首先需要根据整套报表中各表间的对应关系确定和其他表有关联的数据项,第二步参考数据平衡关系错误整理的方法对表内缺失数据进行填补;表内数据不清,无法识别的错误根据数据平衡关系一般可以确定。电子类数据缺失主要由于原保存在存储介质(如软盘、备份用硬盘、数据光盘等)上的备份数据文件无法读出引起,此时切记不能在存储介质进行文件拷贝、创建新文件等写操作,首先要用数据恢复工具将存储介质的数据文件进行恢复,尽可能减少缺失部分。对无法恢复的数据造成的数据缺失,再参照纸质报表数据缺失处理方法进行处理。

⑶数据冗余。财经类档案数据的数据冗余一般是指同一指标的数据出现多次。由于报表侧重不同,一套报表中各表页之间多有重复数据出现。对于此类问题,在数据整理中需要将冗余数据标定,以便在下一步构建数据库时进行筛选。但是要特别注意的是,表中可能含有数据项指标类似但含义不同的数据,在标定冗余数据时,一般需要在一套报表或原始数据库中确定,哪些数据是基础数据,哪些是摘抄来的数据,对于后者可标定为冗余数据。

⑷数据不一致错误。此类错误是财经类档案数据中最难解决的错误,由于指标体系中历史数据无法对应,从而造成数据分析、趋势预测等工作无法进行。引起这类错误主要有两个原因。一是因为随着经济的发展,原有指标体系调整,一些指标取消或合并,一些新的指标出现;二是行政区划、部门归属改变造成某部门、某地区包含范围改变引起数据不能对应。这类问题的解决方法是将数据分解,将所有数据分解到底层统计单元(指标或单位)后,按照现行指标体系、管理范围或行政区划重新组合。对于无法分解的数据,可采取统计方法进行估算,如采取历史数据中所占比例或插值算法进行计算,将数据进行分解。但此类估算数据必须严格控制,关键数据还应结合其他历史同期资料加以佐证。

⑸在数据整理过程中,有四点需要特别注意。一是在数据整理过程中注意和财经方面的专家进行有效合作。二是一般情况下,报表系统软件环境中会包含有大量的逻辑审核公式,如原有的软件环境仍可重建,电子类数据缺失补充或错误改正应在原系统中进行,这样可以有效地减少工作量并提高数据准确性。对于纸质类数据,也可借助计算机电子表格类软件,在其中建立对应逻辑审核关系,将纸质数据输入到计算机中进行审核、修改,这样可大大提高效率。三是财经类数据的整理是一个十分繁琐的工作,必须有极大的耐心确保数据准确,如果数据有误,整理出来的档案数据便失去了使用价值或引起负面作用。四是对删除、修改、估算的数据必须作备注说明,建立数据修改档案以备查用。

4  结语

在数据采集整理的实际过程中,上述步骤并不是截然分开。很多情况下需要四个步骤反复进行,或多种方法同时应用以获得准确数据,处理过程中应该针对具体问题详细分析后选择合适的技术和方法,同时要注意和同期的其他档案资料,如文字性资料、各类报告等中的数据进行核对,如各类来源的数据差别较大,则有必要考虑对数据进行二次整理。

数据整理完成后,需将多个数据源中的数据(数据库、数据立方体或一般文件)结合起来存放到一个一致的数据存储中,进行数据集成和融合工作。由于篇幅有限,将另有专文探讨。

*本文为河南省软科学研究项目“非结构化数据在电子档案中的应用研究”(142400411042)基金项目。

(作者单位:中原工学院  来稿日期:2015-04-16)

猜你喜欢

数据项财经类原始数据
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定变化趋势限制的传感器数据处理方法研究
一种多功能抽签选择器软件系统设计与实现
非完整数据库Skyline-join查询*
基于Python的Asterix Cat 021数据格式解析分析与实现
“双平台嵌入式”的“粮味”财经类专业人才培养模式创新与实践
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
贴近生活的商业财经类期刊
财经类MBA院校案例研发队伍建设研究
财经类院校概率论与数理统计教学改革的探索