APP下载

新疆农村居民贫困因素关联规则实证分析

2017-01-03虎晓坪

合作经济与科技 2017年2期
关键词:住房面积贫困线置信度

虎晓坪

[提要] 本文应用数据挖掘中关联规则的方法对新疆农村居民贫困特征进行分析。结合新疆贫困人口的特点,利用关联规则算法,探讨影响新疆农村居民贫困的部分因素;以2010年全国人口普查新疆地区数据为依据,在新疆农村居民特征之间影响关系的基础上,将所挖掘的关联规则作为标准,提出一些政策建议。通过关联规则发现具有以下特征的农村居民生活受贫困的影响较大:受教育程度低、年龄较高、生活在民族县、生活在边境县等。

关键词:住房贫困;关联规则;2010人口普查

中图分类号:F32 文献标识码:A

原标题:基于关联规则的新疆农村居民贫困影响因素分析

收录日期:2016年11月30日

一、引言

目前,由于自然环境、经济、教育等方面的原因,新疆地区的贫困严重制约经济发展和社会和谐。因此,研究新疆贫困的影响因素具有极其重要的应用价值和理论意义。本文选择新疆农村居民多维住房贫困作为研究对象。住房问题一直都是居民最主要的生活问题,也是当前扶贫工作的重点内容。新疆地处我国西北,冬季漫长,天气严寒,地震频发,这就使得新疆居民对住房的要求较高。2013年,新疆农村地区居民的住房支出在总支出的占比高出全国平均水平7.92个多百分点,新疆农村地区居民住房支出和人均收入之比高出全国平均水平8.39个百分点;新疆地区的居民住房支出占比和住房支出比人均收入基本上和全国平均水平持平,同时住房支出是仅次于食品消费的第二大支出,因此从多维贫困的角度研究新疆农村居民住房贫困现状对了解新疆农村居民的生活现状以及解释贫困原因有着重要意义。

二、贫困因素关联规则挖掘技术原理

(一)贫困因素关联规则的理论。是项的集合,每个i表示新疆农村居民的一个特征。设任务相关的数据D是数据库事务的集合,其中每个事务T是一个非空项集,使得T?哿I,将整个样本集当作事务数据库D,每个样本(即每个居民)看作一个事务T。每一个事务都有一个标示符,称为TID(即给每一个居民样本都分配一个序号)。设A是一个项集,事务T包含A,当且仅当A?哿T。

关联规则是形如A?圯B的蕴含式,A称为关联规则前项,B称为关联规则后项,其中A?奂I,B?奂I,A≠?准,B=?准,X∩Y=?准,A代表新疆农村居民各个特征的一个组合,B代表住房贫困。规则A?圯B在事务集D中成立,具有支持度s,其中s是D中事务包含A∪B的百分比,可以看作是概率P(A∪B),表示了住房贫困和其他农村居民特征同时出现的概率。规则A?圯B在事务集D中成立,具有置信度c,其中c是D中包含A的事务同时也包含B的事务的百分比,可以看作是条件概率P(B|A),表示对于一个居民在具有住房贫困特征的情况下,他(她)同时具有其他特征的概率。

同时,满足最小支持度阈值和最小置信度的阈值的规则称为强规则。然而规则A?圯B的置信度有一定的欺骗性。它并不度量A和B之间的相关和蕴含的实际强度(或缺乏强度)。寻求支持度-置信度框架的替代,对数据挖掘有趣的数据联系可能是有用的。因此,本文中在挖掘新疆农村居民贫困关联规则的时候,在考虑支持度和置信度的时候,同时考虑了规则的提升度,提升度具有以下性质。

(1)Lift=1,表明A和B是独立的,它们之间没有相关性;(2)Lift>1,表明A和B是正相关的,意味每一个出现都蕴含另一个的出现;(3)Lift<1,表明A和B是负相关的,意味着每一个的出现导致另一个的不出现。

(二)关联规则的Apriori算法。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后,由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。

第一步:通过迭代,检索出事物数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;第二步:利用频繁项集构造出满足最小置信度的规则。

以一个包含A与B两个项目的2-itemset为例,我们可以求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组,一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。关联规则挖掘的第二阶段是要产生关联规则。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小置信度的条件门槛下,若一规则所求得的置信度满足最小置信度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其置信度大于等于最小置信度,则称AB为关联规则。

三、贫困因素的关联规则实证分析

下面运用Apriori算法对新疆贫困调查数据进行关联规则挖掘,找出一些不容易观察到的隐藏信息,进而探寻新疆农村居民贫困的原因,为政府的决策提供依据。

(一)数据来源与变量描述。本文中的数据来源为2010年11月1日零时开始的第六次全国人口普查中新疆地区的数据。本文将刻画新疆农村居民的特征的变量分为两个部分,即前项和后项。关联规则前项是和农村居民的民族、生活地区、年龄、教育等相关的变量。关联规则后项是利用多维住房贫困来刻画。

1、关联规则前项描述。关联规则前项变量包含了七个变量,有民族、行业、年龄、教育等,具体描述如表1所示。(表1)

2、关联规则后项描述。本文分析的多维住房贫困指数包括了三个维度,分别是:住房规模纬度、住房安全纬度和住房生活标准纬度,共九个变量。其中,住房规模这一维度包括人均住房面积和住房拥挤度两个变量;住房安全包括住房建造年代与房屋承重类型两个变量;住房生活标准包括了饮用水安全、主要炊事燃料、厨房设施、厕所设施和洗澡设施等五个变量。其中各个变量的具体含义解释如下(各个变量的定义参考人口普查的相关文件):

(1)人均住房面积。人均住房面积=本户住房建筑面积/本户常住人口数。

(2)拥挤度(人均住房数)。拥挤度(人均住房数)=本户自然房间数/本户常住人口数。

(3)房屋承重类型。房屋的承重类型是鉴定房屋结构安全的重要指标,它有钢及钢筋混凝土结构、混合结构、砖木结构和其他结构这几种类型,其中其他结构属于上述类型房屋的竹结构、砖拱结构、窑洞等。

(4)房屋建成年份。房屋的建成年代是按房屋实际竣工年份计算,拆除翻建的,按翻建竣工的年份计算;扩建的房屋,面积超原房屋面积的,按扩建竣工年份计算,未超过的按原房屋竣工年份填写。

(5)饮用水安全问题。饮用水安全的衡量标准是是否有管道自来水,管道自来水是指经过公用设施净化处理的管道输送水。

(6)主要炊事燃料。指本户用于炊事的主要燃料,包括煤气、电、煤炭、柴草和其他。

(7)是否有独立的厨房。厨房是指专供做饭使用,有固定灶具的房间。

(8)住房内有无厕所。厕所是指住房内的正式厕所(可以是抽水式的,也可以是其他形式的),露天简易厕所不算有厕所。

(9)住房内有无洗澡设施。洗澡设施指住房内有固定浴缸(浴盆)或淋浴龙头等并能使用的洗浴设施。

(二)贫困线的确定。贫困线也被称作贫困阀值,是衡量一个指标(维度)是否贫困的标准,对于每一个样本个体,如果他的某个指标的观测值低于对应指标的贫困线,那么就认为该个体在这个纬度上处于贫困状态。常见的住房贫困线的划分有两种:绝对住房贫困线和相对住房贫困线。

最常见的相对贫困线划分是将社会可支配中位收入(平均收入)的一定比例作为贫困线,如果某个家庭的可支配收入低于同等规模的所有家庭的可支配中位收入的一定比例,那么这个家庭就处于贫困风险之中。

1、关联后项中各指标的贫困线。绝对贫困线是保证最基本的生活需要的标准,所以将绝对住房贫困定义为无住房。而人口普查新疆地区数据中满足这一要求的样本(81户)比例太少,仅占整个样本的0.04%。所以本文采用相对住房贫困线。

对于连续的数值型指标,将贫困线定义为该变量的5%截尾平均数的50%,而对于二分类型指标,将回答为“否”的样本定义为贫困,比如就“是否饮用自来水”该问题上回答“否”的样本个体定义为贫困,对于有序的多分类指标,将劣于频率最高的分类定义为贫困。比如说住房承重类型70.84%的家庭的住房为砖木架构,故我们将比砖木结构更差的其他结构(竹结构、砖拱结等)等定义为贫困。而当频率最高的分类是有序变量中最差的分类,那么我们就定义处于该分类为贫困状况。

2、关联后项中各维度的贫困线。本文对于住房规模维度的两个变量采用逻辑“并”的方法,只要第一个变量和第二个变量中有一个指标是贫困,就认为该个体贫困。因为两个变量中只要其中一个变量被认定为贫困,就会出现房屋拥挤,房屋规模太小的状况。

对于住房安全维度,本文则依据国家房地产估价中的各种结构房屋的耐用年限,用“使用年限”减去“建造年代”得到所剩使用年限,若所剩使用年限小于等于20年,则认为该样本在住房安全纬度处于贫困状态。(表2)

对于住房生活标准纬度,本文利用“双界线”方法,认为某个个体的五个变量中有三个及三个以上的变量为贫困,则认为该个体处于住房生活标准贫困。各纬度的变量设置如表3所示。(表3)

(三)关联规则结果分析。本文通过分别以住房面积、住房安全、住房设施为关联后项进行关联规则分析,分析结果如下。

1、住房面积贫困,关联规则如表4所示。(表4)

规则1信息:生活在民族县、年龄介于31~40岁之间,从事农业,处于住房面积贫困状态的被调查者占调查总数的3.28%;且生活在民族县、年龄介于31~40岁之间、从事农业的被调查者有20.35%的概率处于住房面积贫困状态,该规则的提升度是1.2831;说明它们之间的关联是正相关的。

规则2信息:生活在南疆县、年龄介于31~40岁之间、从事农业、处于住房面积贫困状态的被调查者占调查总数的3.06%;且生活在南疆县、年龄介于31~40岁之间、从事农业的被调查者有21.14%的概率处于住房面积贫困状态,该规则的提升度是1.3329;说明它们之间的关联是正相关的。

2、住房安全贫困,关联规则如表5所示。(表5)

规则3信息:生活在北疆地区、处于住房安全贫困状态的被调查者占调查总数的8.77%;且生活在北疆地区的被调查者有30.12%的人处于住房安全贫困,该规则的提升度为1.2410;说明它们之间的关联是正相关的。

规则4信息:年龄在60岁以上、处于住房贫困状态的被调查者占调查总数的5.64%;且年龄在60岁以上有29.74%的概率处于住房安全贫困状态;说明它们之间的关联是正相关的。

3、住房设施贫困,关联规则如表6所示。(表6)

规则5信息:生活在边境县、受教育程度为小学及以下、从事农业生产、处于住房设施贫困状态的被调查者占调查总数的6.22%;且生活在边境县、教育程度为小学及以下、从事农业生产有73.92%的概率处于住房设施贫困状态;本规则的提升度为1.3412;说明它们之间的关联是正相关的。

四、结论及建议

本文应用数据挖掘技术中的关联规则对新疆贫困影响因素进行了分析。通过对人口普查数据进行关联规则分析,发现从事农业、年龄在31~40岁之间的、生活在南疆或民族县的居民中有很大一部分的住房面积较小、住房拥挤,因此建议政府帮助南疆和民族县的居民改善住房条件,同时加大对这一地区的农业投入,使得当地居民收入增加,能够自己有能力改善住房;生活在北疆或者年龄在60岁以上的居民住房安全存在隐患,建议政府改善这些居民的住房安全;生活在边境县、受教育程度较低且从事农业的居民的住房施舍较为落后,因此建议政府给这些居民提供有针对住房设施建设的帮助。

主要参考文献:

[1]陈立中.转型时期我国多维度贫困测算及其分解[J].经济评论,2008.5.

[2]郭建宇.农户多维贫困程度与特征分析——基于山西农村贫困监测数据[J].农村经济,2012.3.

[3]孙秀玲,田国英,潘云等.中国农村居民贫困测度研究——基于山西的调查分析[J].经济问题,2012.4.

[4]王建军,杨辉平.新疆区域多维贫困测度及评价[J].新疆农垦经济,2014.12.

[5]王建军,杨辉平.新疆县域生态脆弱性与贫困的关系研究[J].新疆农垦经济,2015.1.

猜你喜欢

住房面积贫困线置信度
硼铝复合材料硼含量置信度临界安全分析研究
后扶贫时代农村省级相对贫困标准确定方法研究
正负关联规则两级置信度阈值设置方法
贫困线是如何划定的
德国户均租房面积96.8平方米
青岛市房地产市场住房结构分析
青岛市房地产市场住房结构分析
置信度条件下轴承寿命的可靠度分析
提高贫困线会让我们更有面子
两条不同的贫困线