省级农业资源信息系统属性数据标准化方案探讨
2015-11-23胡为群祝利莉叶少挺彭一辉郑可锋
胡为群,祝利莉,叶少挺,彭一辉,郑可锋
(浙江省农业科学院数字农业研究所,浙江杭州 310021)
省级农业资源信息系统属性数据标准化方案探讨
胡为群,祝利莉,叶少挺,彭一辉,郑可锋*
(浙江省农业科学院数字农业研究所,浙江杭州 310021)
农业资源属性数据来源于诸多部门,在将其输入存储到计算机系统之前,需要对数据进行标准化处理。根据浙江省和广西壮族自治区农业资源信息系统建设中遇到的问题,对属性数据标准化过程及数据标准化处理中数据编码,行政代码添加,缺失数据、噪声数据、重复数据的处理,数据转换和验证等关键技术进行探讨。
信息系统;农业资源;属性数据;标准化
农业资源是农业生产的物质基础。农业资源信息系统的开发与应用是实现资源高效利用、科学规划和可持续发展的有效途径。利用先进的信息技术和科学方法,可以为农业资源的合理配置、高效利用和宏观决策提供依据[1]。农业资源信息系统通常涉及的属性数据主要包括土地资源、水资源、气候资源、农业经济资源、人口与劳动力资源等5个方面的数据。这些数据可能因调查过程中的工作失误、地区间或年度间统计口径不一致、抽样方法或者测量方法不同等因素存在误差或量纲不一致;也可能会在数据收集、录入、转换过程中出现错误导致缺失、重复甚至错误。因此,在将采集到的农业资源信息属性数据输入存储到计算机系统之前,必须对其进行标准化处理,本文拟对此进行方案探讨。
1 属性数据标准化过程
概括来讲,属性数据标准化处理的过程包括:数据生成、数据审查、数据清理、数据转换和数据验证等5大步骤[2-3]。
1.1 数据生成
将采集的数据统一采用格式化文本的数据存储方法,统一数据字段,将所有相同意义字段的字段名称、数据格式(包括数据类型,字段长度)统一处理。使用统一的数据字典将数据表字段意义进行统一定义。
1.2 数据审查
检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容与调查要求是否一致,是否全面。此外,利用描述性统计分析,检查各个字段的字段类型、字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。
1.3 数据清理
针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,以便后续的统计分析及预测分析能够得出可靠的结果。当然,数据清理还包括对重复记录进行的鉴别与删除。
1.4 数据转换
数据分析强调分析对象的可比性,但不同字段值由于统计口径、计量单位等不同,往往会造成数据不可比。对一些统计指标进行综合评价时,如果统计指标的性质、计量单位不同,也容易引起评价结果出现较大误差,再加上分析过程中的其他一些要求,因此需要在分析前对数据进行相应转换。
1.5 数据验证
该步骤的目的是初步评估和判断数据是否能够满足统计分析的需要,决定是否需要增加或减少数据量。一般可利用简单的线性模型,以及散点图、直方图、折线图等图形进行探索性分析,或利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中去。
上述5个步骤是一个逐步深入、由表及里的过程。先是将采集的数据统一生成格式化的文本,然后从表面上查找容易发现的问题(如数据记录个数、最大值、最小值、缺失值或空值个数等),接着对发现的问题进行处理,即数据清理,再就是提高数据的可比性,对数据进行一些变换,使数据在形式上满足分析的需要,最后则是进一步检测数据内容是否能够满足分析需要,诊断数据的真实性及数据之间的协调性等,确保优质的数据进入信息系统。
2 数据标准化处理的关键技术
2.1 数据编码
数据的分类编码是对数据资料进行有效管理的重要依据。数据输入计算机前,必须先按使用要求进行分类。数据分类应遵循唯一性、可扩充性、易识别性、简单性、完整性的原则。通常省域农业资源信息数据可分为5大类、8个一级库,见表1。大分类代码多采用1~2位字母编码,小分类采用1位数字编码,一级代码和二级代码均采用2位数字编码。标识码一般为空,如果出现历年统计口径不一致的情况,为了区分也可以采用。以对某地开展的人口调查为例,其数据编码如表2所示,其中,P代表大分类“人口资源”,1为小类“人口”,后面为分级代码。表中字段名由“表名-首字中文拼音全拼+其余拼音首字母”构成,数字保持不变。
表1 农业资源信息数据分类
表2 某地人口调查数据的编码
2.2 行政代码添加
由于数据服务层的数据表较多,多个数据表之前常具有主从关系,为了避免出错,使它们保持关联的一致性,在省域系统的所有数据表中都增加“行政代码”字段,作为关联的主键,当数据在录入和修改时,使各表数据始终保持一致性。行政代码分类采用现有的行政体系划分方法,用6位数字表示,例如330122表示桐庐县。
作为数据表的主键,不同表中的行政单位名称常会存在排列顺序不一致,行政单位名称叫法不一致,如“杭州市”“杭州地区”“杭州”,或者随着行政地区区域的变化,不同年份的行政代码可能不一样的问题。为了解决这些问题,建议在多个表之间共享一套代码地区对照表。在本研究中,我们采用了Excel中“宏”的方法来实现。下面以W 20101水产品产量为例来说明整个过程。
打开表W 20101,选择工具→宏→Visual Basic编辑器。选择文件→导入文件,选择编写好的代码,如图1所示,选择2000年的数据,代码如下:
Attribute VB-Name=“模块1”
Public Function code2000(ByVal str As String)
Select Case str
Case“浙江省”
code2000=“330000”
Case“杭州”
code2000=“330100”
Case“杭州地区”
code2000=“330100”
Case“杭州市”
code2000=“330100”
Case“余杭”
code2000=“330184”
Case“余杭县”
code2000=“330184”
Case“余杭市”
code2000=“330184”
……
Case Else
code2000=“”
End Select
End Function
图1 代码选择界面
选中导入的模块,工具→宏,输入宏名字,如a2000,点击创建,再选择工具→宏→选择a2000,运行,点击保存,退出。
返回到表W 20101,使用trim函数把行政单位名称前后空格删除,插入一空列,找到2000年的数据,从第一个行政单位“浙江省”开始,在空白单元格中输入“=code2000(C898)”,其中“C898”为第一个行政单位所在的位置,下拉,直到2000年的数据结束。选中生成的行政地区代码,选择性粘贴为数值型,其他年份做法相同。
2.3 缺失数据、噪声数据、重复数据的处理
2.3.1 缺失数据处理
对于缺失数据,通常由人工填写,采用默认值、平均值或者同类别平均值填补的方法完成。另有些数据可以通过数据转换获得,例如总人口数可以通过农业人口与非农人口求和来完成。对于一些要求更精确的数据,则可通过回归分析、贝叶斯方法或决策树推断该记录特定属性的最可能取值,这类方法可以最大限度地利用现有的数据信息来推测遗漏数据值,因而效果最好。
2.3.2 噪声数据处理
噪声是指被测变量的随机错误或偏差,包括错误的值或偏离期望的孤立点。可以用以下技术来平滑噪声数据,识别和删除孤立点。
分箱方法:将存储的值分布到一些箱中,通过考查“邻居”来局部平滑存储数据的值。如可以采用暗箱的平均值、中值或箱边界值进行平滑。
聚类:将类似的值组织成群或“聚类”,落在聚类集合之外的值视为异常数据。对于异常数据,如果是垃圾数据,则予以清除,否则保留作为重要数据进行孤立点分析。
回归方法:利用拟合函数,如线性回归、多元回归等来平滑数据、帮助除去噪声。
人机结合检查方法:首先由计算机识别并输出那些差异程度大于某个阈值的数据,然后人工审核这些数据,确定孤立点。这种方法比单纯的人工检查要快。
2.3.3 重复数据的处理
通过对行政地区代码+年份进行筛选,能够发现重复的记录,然后进行删除。
2.4 数据转换和验证
数据转换主要是为了实现数据分析的可比性,而对数据进行的规格化处理,主要针对计量单位的差异,采用归一化处理,例如农作物播种面积单位用“公顷”,总产量单位用“吨”,单位面积产量单位用“千克”,日照时数用“小时”等。针对数据层级不同可采用数据汇总、泛化等方法实现数据转换,例如通过各月降水量可以汇总得到年降水量,通过各月日照时数可以汇总得到全年日照时数等。
数据验证阶段的任务是确认数据的正确性与有效性,检查数据的逻辑转换是否对数据造成扭曲或偏差。根据不同的需要可供选择的方法较多,比如可以通过极值来检查数据是否超出范围,通过求和来检查合计值是否为各分项之和,还可以利用时间序列的预测值与实际值的比较来进行检验。即以现有数据为基础,利用各个变量自身发展情况的走势进行最优化模拟,建立相应的时间序列模型,对相应指标进行预测,得到该指标在理论上应该达到的数值,然后与实际数据相对比,以此评价实际数据与理论值的接近程度。
3 小结
属性数据的标准化处理能有效地提高统计数据的质量。标准化处理的方法多种多样,笔者从实践经验出发,形成了上述的省级农业资源信息系统资源属性数据标准化方案,并在多个项目中得到了验证和应用。由于属性数据的准确性、完整性直接影响着农业资源信息系统的可靠性和可用性,而当前统计工作中又存在诸多新的不确定因素和问题,都可能影响属性数据的质量,因此,本文涉及的标准化处理方法也应随着实践的发展不断充实、完善。
[1] 陈旭,毕军芳,仇天月,等.基于共享服务模式的农业资源管理W ebGIS系统构建[J].中国农学通报,2013,29(11):115-120.
[2] 王胜.关于统计数据质量存在的问题及其对策研究[J].现代经济信息,2010(24):206-208.
[3] 张新茹.论统计数据的质量问题[J].科技情报开发与经济,2005,15(17):124-125.
(责任编辑:高 峻)
S 126
A
0528-9017(2015)03-0425-03
10.16178/j.issn.0528-9017.20150344
2014-12-04
浙江省其他厅局项目(2011R28A60C01)
胡为群(1977-),女,助理研究员,硕士,从事农业信息化工作。E-mail:hwq6629@sina.com。
郑可锋(1963-),男,研究员,硕士,主要从事农业信息化工作。
文献著录格式:胡为群,祝利莉,叶少挺,等.省级农业资源信息系统属性数据标准化方案探讨[J].浙江农业科学,2015,56(3): 425-428.