农经权中数据缺省的技术弥补与缓解机制研究
——以福建省厦门市某区为例
2018-05-15柴旭
柴 旭
(福建省地质测绘院,福建 厦门 361012)
在农村土地承包经营权外业确权登记活动中,受到调查对象遗漏、调查对象认知能力约束以及调查员自身思维缜密性的限制,往往造成外业调查表中数据的缺省,对于这一部分数据不弥补又通常耗费大量的人力、物力、财力进行补充调查,耗时长,效率较低,对于这一问题的优化处理往往采用技术弥补与社会性补充调查相结合的方法。当前对于数据缺省重构普遍采用均值法或最大频率法,然而这些方法往往造成弥补数据失真的问题。鄂旭等(2005)基于断点属性值加以探索;赵飞等(2011)基于最小计数概要提出最小频率概要而实现缺省数据的填补;张其文等(2006)基于粗集理论思想,以相似关系替代粗集理论中的不可分辨关系,从而提出基于相似关系的填充算法,以实现数据重构精度;武森等(2012)则基于不完备数据聚类的缺失数据填补方法来针对非类变量不完备数据集定义约束容差机和差异度,从而直接计算研究对象的总体相异程度以实现数据填补;谷峪等(2010)通过动态概率路径实践模拟,基于挖掘已知的区域之间的顺序相关性来对后续发生的时间进行判断和填补;张伟(2003)则基于Rough集理论加以探究,其不需要附加信息,具有计算简单、直观等优势;郭景峰等(2002),文硕频等(2003)从数据间的关系入手,引入相似性概念,基于决策树来实现遗失数据的填补;卢娟等(2012)基于规范变量分析以实现数据的重构。通过对前人研究的梳理,本文将详述三种适宜弥补农村土地承包经营权确权颁证中的数据缺省方法,再通过社会性缓解机制来缓解因数据缺省而引发的农户与政府及技术施工方的矛盾,从而促进项目高效、高质推进,服务于农村社会经济发展。
1 研究区域与数据特征
研究区域为福建省厦门市某标段位于福建省东南部沿海地区,亚热带海洋性气候,全年气候温润,地形较平坦,区内工业、文教发达,有新建高铁车站一座,常住人口3.8万人,流动人口4.5万人,农业现代化水平高,新型农业经营主体发育较为完善,农地利用效率高。
研究区域数据整体完整性在96%以上,主要数据缺省在身份证号码、地块合同面积等两方面。身份证号码数据缺省存在两个方面,其一是身份证号码数据缺失,其二是身份证号码错误,前者必须通过二次调查获取,后者可通过身份证验证程序加以修正。而地块合同面积缺省直接指数据缺失,该数据能够经由数据重构获取。
2 数据重构方法
本文中着重于对基于遗失数据重构的软测量方法、基于决策树的不完全决策表的数据补充方法以及一种身份证信息验证与补遗算法实现数据重构。
2.1 基于遗失数据重构的软测量方法
…,yl]T+[x1,x2,…,xm,y1,…,yl]
U[0,0,…,1,0,…,0]T
=0
(1)
联合上述l个等式可得到:
(2)
由此可得遗失数据的重构值表达式(赵京梅等,2010):
(3)
2.2 基于决策树的不完全决策表的数据补充方法
2.2.1 决策树构建
根据前文,对象集为X,决策树生成算法为以下形式(图1)。
图1 决策树生成流程Fig.1 Creative processes of decision trees
基于信息理论,可得到一棵决策树能对样本做出不完全正确划分的期望熵D(X),即
(4)
以y为节点所需的期望信息E(y),即
(5)
表1 身份证信息验证与补遗表
2.2.2 遗失数据弥补
首先,应将该节点所有ai*在y的取值确定为该节点其他不含“*”对象在y的取值,再修改ai*为ai且从其他节点中去掉ai*。
再次,取与ai具有最大相似度的F中的对象aj,y(ai)=y(aj),在含有aj的子节点修改ai*→ai,且同时从其他节点中去掉ai*。若节点中仍存“*”,重复前述过程直到“*”不存在为止。
最后,停止对属性值的修正,转到决策树构造中,对新产生的节点重复上述操作(郭景峰等,2002;文硕频等,2003)。
2.3 身份证信息验证与补遗算法
身份证信息验证与补遗算法基于Excel平台而开发,具体算法结构如下:
首先,构建身份证信息验证与补遗表,该表分为两大模块,即身份证号码输入模块与审核结果输出模块。审核结果输出模块又包含数位验证、地址码验证、出生日期码验证、顺序码验证、校验码验证、统计验证值、验证结果等七个子模块构成(表1)。
其次,设计数位验证、地址码验证、出生日期码验证、顺序码验证、校验码验证、统计验证值、验证结果等七个子模块的算法。
最后,在“身份证号码”对应的表格中填入身份证号码即可得到验证信息与修正信息。
3 外业数据补遗的实证研究
3.1 基于遗失数据重构软测量方法的实证分析
由此可得遗失数据的重构值:
补遗获取的31对数据异常值为2对(即实测面积与合同面积的绝对值大于等于0.2亩),因此再将上述实验重复而获取得到数据重构值为:
通过检验,此两组数据符合数据精度要求(卢娟等,2012;李庆华,2011)。
3.2 基于决策树的不完全决策表的数据补充方法的实证分析
3.3 身份证信息验证与补遗算法的实证分析
表2 身份证信息验证结果
基于前述算法可以得到表2的计算结果。1963项数据中有24个数据身份证信息存在问题,其中存在2个身份号码错误(算法可以识别更正),22个身份证号码缺失,需要二次调查。
研究显示,第1102条数据中,身份证号末尾应更正为8;第1261条数据中,身份证号末尾应更正为6。与此同时,修正后数据仍需在公示时请农户查验,以确保数据精准性。而22条缺省数据则需要公示后二次调查。
4 社会性数据补遗缓解机制
农村土地承包经营权确权登记颁证是一项关系国计民生的重要普查性工作,因此其有高度的精度要求,故而通过算法补遗之后需要再次到农村进行公示及公示后的再次补充调查。对于农村土地承包经营权确权登记颁证外业数据完善后的公示及公示后的再次补充调查,为避免数据严重缺失和高度失真而引发农户负面情绪,因此文章前述部分对数据缺省问题做了一系列修正处理,而如何在缓和二次调查所引发的农户情绪冲突,文章对此做了以下一系列探讨。
4.1 具有针对性的二次调查
研究区域数据整体完整性在96%以上,而在补遗之后,数据精度达到99%左右,经过公示后可根据农户确认表知晓何者为存在问题的数据,基于此可以采取有针对性的二次调查。在公示过程中,不宜出现聚众现象(农民人数>5人),以规避农户间相互的负面信息传递而产生的数据夸大现象。在二次调查中,应采用1对1的调查模式,规避其他农户对调查农户的信息干扰,从而保障数据精度。
4.2 权威文本资料核查
农户受到教育水平、认知能力等约束而不能够清晰知晓证件信息、耕地信息,因此在对农户进行访谈法调查时应请农户出示相关证件,以保障数据质量。访谈法调查之后应通过地方农业部门、村委会协助,查阅文件资料以实现调查信息的验证,倘若存在差异则应与农户再次确认,从而避免数据的再次错误。
4.3 农户参与性缓解方法
确权工作人员多非本地人,在语言、行为偏好等方面与农户存在差异,从而在沟通上存在一定障碍。对此,应邀请标段所在村组知识水平、人际交往能力、语言能力、权威性高的长者予以协助,参与调查,从而实现农户参与,缓解被调查农户的心理压力,降低沟通成本,提升数据精度质量。
5 结论
本轮农村土地承包经营权确权登记颁证是我国土地制度改革中一项具有里程碑意义的工作,其明确农村土地权属,将长期以来积压下来的土地权属问题有效解决,为土地流转、土地规模经营、培育新型农业经营主体奠定了良好的基础。当前,本轮农村土地承包经营权确权登记颁证工作是在试验中进行,工程实施标准不断根据实际发生的问题的变化,数据精度、农户认可度等方面仍在不断探索缓解的契合点,因此本文就确权活动中数据缺省问题加以探讨,不仅仅支持技术性弥补,更注意到社会性缓解方案的建立,基于上述研究,本文可凝聚以下两点主要结论:
(1)数据缺省能够通过技术手段加以弥补,这种手段并非简单的数据重构,而需要经过一些列数理理论加以支撑。本文对地块信息的弥补采用了基于遗失数据重构的软测量方法、基于决策树的不完全决策表的数据补充方法,对身份证信息缺失采用了身份证信息验证与补遗算法加以实现。
(2)在前人的研究的成果与数据运行实践基础上表明,基于遗失数据重构软测量方法相比传统方法更为灵活,而基于决策树的不完全决策表的数据补充方法则大大提高了数据补遗精度。
(3)确权数据经过技术性补遗之后必须进行公示及公示后的再次补充调查,同时应使农户积极参
与,共同完成数据弥补。公示及公示后的再次补充调查必须是具有针对性的二次调查,在调查之后应进行权威文本资料核查,在调查过程中积极采用农户参与性缓解方法提高调查效率。
参考文献
鄂旭, 高学东, 武森. 2005. 一种新的遗失数据填补方法[J]. 计算机工程, 31(20): 6-7.
谷峪, 于戈, 李晓静, 等. 2010. 基于动态概率路径事件模型的 RFID 数据填补算法[J]. 软件学报, 21(3): 438-451.
郭景峰, 米浦波, 刘国华. 2002. 基于决策树的数据遗失值填充方法的研究[J]. 计算机工程与科学, 24(5): 8-10.
李庆华. 2011. 1 种基于遗失数据重构的软测量方法[J]. 计算机与应用化学, 28(5): 545-548.
李如平. 2010. 数据挖掘中决策树分类算法的研究[J]. 东华理工大学学报:自然科学版, 33(2): 192-196.
卢娟, 龚晶, 许凤慧. 2012. 基于规范变量分析的数据重构方法及应用[J]. 微计算机信息, (9): 71-73.
文硕频, 乔胜勇, 陈彩云, 等. 2003. 基于决策树的不完全决策表的数据补充及规则提取[J]. 计算机应用, 23(11): 17-19.
武森, 冯小东, 单志广. 2012. 基于不完备数据聚类的缺失数据填补方法[J]. 计算机学报, 35(8): 1726-1738.
张其文, 李明. 2006. 一种缺失数据的填补方法[J]. 蘭州理工大學學報, 32(2): 102-104.
张伟, 廖晓峰, 吴中福. 2003. 一种基于 Rough 集理论的不完备数据分析方法[J]. 模式识别与人工智能, 16(2): 158-163.
赵飞, 刘奇志, 张剡, 等. 2011. 一种大域数据流中缺失值的填充方法[J]. 南京大学学报: 自然科学版, 47(1): 32-39.
赵京梅, 杨志辉. 2010. 模糊多属性群决策在铁路系统评价中的应用[J]. 东华理工大学学报:自然科学版, 33(2): 187-191.