基于EOF的民生需求场主成分提取方法的研究
2017-09-18任冉张彦松齐洁
任冉+张彦松+齐洁
【摘要】问卷调查法是直接了解民生需求的有效手段。面对海量的问卷信息,传统的统计方法在主要信息的提取上存在着定性有余而定量不足的困难。此外,简单的线性相关系数研究不仅弱化了单个指标在整体信息库中的作用,而且忽略了多个因子之间的协同变化规律。本文利用经验正交分解技术EOF,基于信息学的原理,选取八卦洲民生需求问卷信息对其进行主成分提取,力求用需求场的主成分这一崭新概念定量表征当地民生需求,取得了良好的效果。这不仅具有重要的科学意义,更为未来社会工作需求的定量分析提供了全新的思路。
【关键词】民生需求 正交经验模态分解技术 需求场 主成分
社会指标最早是由美国学者雷蒙德·鲍尔在1966 年提出的。他指出:社会指标是用来“判断社会在准则、价值和目标等方面的表现的依据,是作为具有普遍社会意义的社会状况的指数”。此后,社会指标被广泛地应用于社会结构、社会发展状况、社会生活环境等多方面的评估。随着社会学和统计学的发展,社会指标逐渐由理论研究走向实际应用,逐渐在社会运行状态和发展进程的评估中发挥起重要的作用。
社会指标的建立离不开海量的数据信息,但在面对大量的数据信息时,传统的社会学统计方法难以满足实际应用的需求。究其根本原因是因为社会信息的因子维度过大,无法进行全面考虑;此外,单一使用回归方法往往又会因过度强调了拟合效果而忽略相关系数较低的因子的贡献。
针对上述问题,本文在社会学研究中提出了场的概念,利用八卦洲各类民生需求数据组成需求场,基于经验正交函数分解(EOF)技术对民生需求场进行降维并提取主成分,以期全面考虑全场因子信息。最后,用需求场的主成分这一客观指标定量表征当地民生需求状况,为当地的社会发展和政府决策提供了客观的参考指标,取得了良好的效果。
一、资料与方法
(一)资料
八卦洲街道位于南京市栖霞区西北部,与六合区、浦口区组成南京江北新区,面积56平方公里,是长江中的第三大岛,八卦洲街道是南京市栖霞区2个农村街道之一,该街道下辖1个社区(八卦花园社区)、7个村(七里村、上坝村、下坝村、中桥村、新闸村、外沙村、东江村),农村街道特点鲜明。
本次研究以南京市栖霞区八卦洲街道居民为对象, 采取问卷调查法,共发问卷105份,有效问卷102份,男女比例为 1:1 ,各年龄层次均有覆盖。问卷内容涉及:性别、年龄、学历、收入、各类社会需求满意度等。运用李凯尔特量表,将调查对象对居住地生活环境、老年人群体医疗服务、儿童青少年教育服务、文化娱乐活动以及邻里关系的满意度评价分为五个维度:非常满意、满意、一般、不满意、非常不满意,以此获得不同年龄段群体的五类民生需求集合。
之后本文通过需求场概念的提出和EOF的跨领域应用得出居民需求的主成分情况,以客观表征该地民生需求。
(二)EOF概述
经验正交函数(EOF)方法最早由统计学家pearson(1902)提出,由Lorenz(1956)引入气象问题分析中。该方法以场的时间序列为分析对象,由于对计算条件要求甚高,直到20世纪60年代后期才在实际工作中得到广泛应用。近30年来,出现了适合于各种分析目的的EOF分析方法,如扩展EOF(EEOF)、旋转EOF(REOF)、风场EOF(EOFW)、复变量EOF(CEOF)。
与其他统计方法相比,EOF无需设定固定的函数,更难能可贵的是其展开收敛快,很容易将变量场的信息集中在几个模态上,分离出的特征结构意义明显。EOF方法不但用于气象观测资料场的分析,现在,EOF方法早已作为一种基本的分析手段频繁地出现在工程制造、水文地理等学科的文献中。EOF的基本原理如下:
将某变量场资料以矩阵形式给出:
X=x11 x12 … x1nx21 x22 … x2n … …xm1 xm2 … xmn (1)
令A=XXT (2)
则根据实对称矩阵分解原理,一定有:
VTAV=∧ (3)
其中,V的列就是A的特征向量,∧是A的特征值组成的对角矩阵。则有:
Z=VTX (4)
Z就是主成分矩阵。
原始场就展开为主成分Z和空间向量V两部分,即:
X=VZ (5)
即:
xit=■vikZkt=vilZ1t+vi2Z2t+…+vipZpt (6)
由(6)可知,将所有的主成分Z和空间向量V对应相乘并求和就可以反演出原始场的所有信息。
二、八卦洲民生需求情况的分析
(一)八卦洲民生需求的基本情况
为量化需求的程度及基本情况,本研究借用“场”这一普适概念,提出了居民需求场这一崭新概念。其基本原理为,初步分别将非常满意、满意、一般、不满意和非常不满意分别参数化为5、4、3、2、1分;对同一年龄段的人数的单一满意度进行算数平均,得需求场如表1,以矩阵表示:
(二)民生需求场的主成分提取
考虑到需求场中涉及了不同层面的信息,矩阵的维数较大,对其直接研究存在一定困难;同时,逐批选取一对信息进行相关分析不仅会忽视这两个变量在整个场中的表现情况,更难以准确表征整个场的信息情况。故运用EOF技术对整个需求场进行分解展开并进行主成分提取,以达到降维的目的,得特征向量(模态)V1-V5和主成分α1-α5,如表2:
将表2中的5个特征向量和5组主成分按式(6)反算即可达到原始场(表1),各个模态的方差贡献率如表3所示:
其中,第一模态的方差贡献率达99.3%。也就表明,用第一模態特征向量V1和时间系数α1(主成分)就可以表征原始需求场99.3%的信息。因此,用V1和α1表征整个需求场,可以使大量的需求信息被提取进入第一模态。这样一来5×5的需求场被简化为V1(5×1)和α1(5×1),而仅仅损失了0.7%的信息。很显然,这0.7%的信息损失率是完全可以接受的。endprint
而从EOF的算法可知,各个模态之间彼此正交,互不干扰,这样既保证了很高的信息完整度,更解决了传统统计方法对同一变量的影响进行重复考虑的问题。此外,该方法更能全面地,量化地考虑所有信息的作用,这是传统的回归方法力所不及的。
从主成分α1的实际意义上看,α1成为5类需求的综合表征指数,代表着5类需求的共同作用。α1随年龄的变化正是反映了不同年龄段人群对社区状况的综合满意度。从表2,可以看出, 61到75岁年龄段人群综合满意度最低,为6.17。因此,61-75年龄段的居民应是该区域内开展社会工作的重点服务对象。而如果不考虑整个需求场各个数据之间的内在联系,单纯从各自分值上去分析,则61-75岁年龄段的特点就被影藏了。
而V1则表征着各类需求满意度的协同变化情况,对于综合所有年龄段的某一需求的满意度来看,以居住环境满意度为例,其与医疗服务、教育服务、文娱活动和邻里关系的协同变化率依次为:0.49/0.45、0.49/0.46、0.49/0.43、0.49/0.39。由表2可以推知,這5类需求问题具有很大的协同性,而邻里关系的放缩效应最为明显。因此,可将提升邻里熟悉度,改善邻里关系作为重点问题进行突破以期起到落一子而满盘活的效果。同样,如果简单地从邻里关系满意度自身的数值上看,邻里关系的放大器效用就被完全忽视了。
三、结论与讨论
(1)在社会工作中,将海量的问卷信息用场的形式来表征,可以为信息的保存与处理提供一个标准可靠的环境。
(2)对于一些收敛性较强的社会工作信息场,通过EOF进行主成分提取不失为一种是压缩信息量的有效手段。此外,从算法和运算效果上看,EOF方法不仅可以对整个场中的信息进行通盘考虑,而且可以在整个场的大背景中找出局部数据信息的内在联系,为建立各类社会指标提供一种崭新的途径。
(3)从EOF的分解结果上看,无论是从促进经济发展角度,还是社会和谐发展角度入手,八卦洲地区61-75年龄段的民生需求问题应引起社会各界的重视。其中提升邻里关系水平的迫切性最大。
(4)鉴于此次样本较小,EOF的降维作用还比较有限。相信随着原始场维度的扩大,EOF的作用将越发明显。而对于得到的主成分,对其如何进行阈值评估将成为下一步研究的重点。
参考文献:
[1]余少谦.和谐社会内涵、特征与评价指标体系研究综述——多学科、多指标视角[J].福建行政学院福建经济管理干部学院学报,2006,(06).
[2]陈黎明,向书坚,李炳林.和谐社会评价指标体系与评价模型及其应用[J].中南财经政法大学学报,2008,(02).
[3]李堂军,王建奎,李菁.区域经济、社会与环境协调发展模糊评价模型与应用[J].山东科技大学学报(自然科学版),2008,(02).
[4]丁裕国.EOF在大气科学研究中的新进展[J].气象科技,1993,(03).
[5]文道松.基于改进主元分析的工业过程故障检测与诊断[D].哈尔滨理工大学,2011.
[6]龚文平,吴家信,莫李帅.用EOF方法分析海口湾东部浅滩区的泥沙来源与泥沙运动[J].泥沙研究,2004,(01).endprint