大学生消费与家庭经济状况的关系
——基于主成分回归模型
2018-12-14李思锋赵国瑞黄煜钊张健钦
李思锋 赵国瑞 黄煜钊 张健钦
(1.广州城建职业学院信息工程学院 广东广州 510925; 2.广州城建职业学院数学模型实验室 广东广州 510925)
大学生作为社会中特殊的消费群体,其消费行为日益呈现多样化、现代化等特点,而不理性、不理智的消费及校园贷、网络贷等现象层出不穷,因此研究大学生的消费结构,探索大学生消费与家庭收入之间的关系具有现实意义。
陈玉珍[1]采用Logistic回归模型证实了引发学生消费差异的根本因素是家庭收入的差异;陈淑兰[2]用次序Logistic模型进一步分析了调查结果,帮助企业制订相应的有效营销策略来开发大学生消费市场;乔均俭[3]运用“线性支出系统、ELES模型”的方法揭示城市和农村两类大学生消费群体之间存在的异同;赵萌[4]通过了解在校大学生的消费结构和消费心理,采用多元线性回归模型对在校大学消费结构与消费水平进行了分析。国内学者对大学生消费问题的研究主要集中在定性研究上,虽有数据做支撑,但缺少对数据更深层的挖掘,譬如指标体系的构建过于主观化,对异常数据缺乏探索,甚少从数学模型的角度探讨大学生消费与家庭经济状况之间的数量关系。
本研究以随机抽样的方式选取了广州某高校381名学生作为样本集,为保证问卷的信度,依据拉以达法则剔除异常样本;为解决家庭收入状况、各项消费指标间信息重叠的现象,采用主成分分析算法提取了主成分因子;进而建立了大学生月均消费关于主成分因子的回归方程,并对模型的精度进行了检验,从而保证模型的真实有效性,其结果对于大学生消费结构及影响因素等研究具有参考意义。
1 主成分回归模型及其机理
主成分分析(Principal Component Analysis,PCA)是设法将原来具有一定多重相关的诸多指标(p个),重新组合成一组新的,且相互独立的指标来代替原有指标。为了将原来多个指标化为少数几个独立的综合指标,在数学处理上就是将原来的多个指标做线性组合,见(1)式:
Fi=a1iX1+a2iX2+…+apiXp
(1)
在解决实际问题时,往往不需要提取所用主成分,根据实际需要,选取累计贡献率达到70%~85%以上的前k个主成分即可,而前k项主成分的累计贡献率,记为λCk,见(2)式:
(2)
2 实证分析
2.1 数据的来源及指标构建
本研究数据来源于对广州某高校随机抽样调查问卷,为保证数据的真实与有效性,采取不记名、线上线下相结合的方式调查,最终回收有效问卷381份。并从该问卷中提取了如下七个变量构成了指标体系:y(大学生月消费)、x1(家庭月收入)、x2(学习月消费)、x3(衣着月消费)、x4(饮食月消费)、x5(通信月消费)、x6(恋爱及娱乐月消费)、x7(其他月消费),单位均为元。
2.2 数据的预处理
为提高调查问卷的信度,对问卷数据进行去燥预处理,消除异常数据的影响,采用拉以达法则剔除各指标数据的异常值。
依据此法则,样本值落在上述区间外可认为是小概率事件,因而将其作为异常值加以剔除。对七个指标依此测算后,共发现32个异常样本,为保证问卷的有效性,剔除该32个样本。
2.3 主成分分析
为探索大学生月消费与各指标间的关联度,引入Pearson相关系数[5],Pearson相关系数取值介于-1~1之间,系数的绝对值越大,说明两变量之间的相关度越高。计算后得表1,说明大学生月消费与饮食、娱乐月消费的相关度较高,与其他各指标也存在着不同程度的相关关系,而与家庭月收入相关系数偏低,但仅说明它们之间线性关系偏弱。
表1 大学生月消费与各指标间相关系数
由于问卷制定和受访者对问题理解的差异性,指标间存在信息重叠的可能性,即多重共线性的问题,通过SPSS软件对数据集进行共线性检验,检验结果如表2所示。可以发现第8维数特征值约为0,条件索引大于10,且在关系矩阵中可查得数值接近1向量的相关,这三点均说明指标间存在强烈的多重共线性,不能直接进行回归分析,容易造成协方差过大等问题。
为了解决指标间多重共线性的问题,采用主成分分析法[6]对各指标进行压缩,以累积方差贡献率为标准提取主成分因子,不仅保留了初始指标携带的绝大多数信息,又避免了指标间信息重叠的问题。
表2 多重共线性检验
由SPSS对数据集进行主成分分析,得表3。
表3 解释的总方差
给出了各成分的方差贡献率和累积贡献率,仅前4个成分的特征根大于或接近1,所以只提取前4个成分作为主成分,其中第一主成分的方差在总方差中占比为27.751%,且前4个主成分累积方差贡献率达70.000%,说明前四个主成分因子所携带的信息足以反映原数据集信息,解释较为充分。
进一步根据因子荷载矩阵可测算出四个主成分因子的具体表达式,四个主成分分别设为F1、F2、F3、F4,具体结果如下所示。
第一主成分:
(3)
第二主成分:
(4)
第三主成分:
(5)
第四主成分:
(6)
2.4 多元线性回归模型
建立大学生月消费y关于四个独立变量F1、F2、F3、F4的多元线性回归模型:
对大学生月消费y与F1、F2、F3、F4做多元回归分析,结果如表4:
表4 多元线性回归分析模型汇总表
首先,由表4得知,拟合优度R2=0.949,即可由模型中自变量解释的方差在大学生月消费总方差中所占的比例为94.9%,说明拟合效果非常好,Durbin-Watson值为1.731,残差可大致看作独立的。
其次,通过偏回归系数估计表可得大学生月消费关于F1、F2、F3、F4的回归方程:
(7)
进一步可得大学生月消费与各原始变量标准值之间的回归方程:
(8)
由(8)式可大致得出大学生月消费与家庭经济状况的关系,大学生月均消费在家庭月收入中占比约为11.7%,也可粗略地解释为:家庭月收入每增加1 000元,大学生月均消费增加117元。另外,由(8)式还可得到娱乐消费(x6)、衣着消费(x3)和学习花费(x2)对大学生消费影响较大,饮食消费(x4)、其他消费(x7)次之,通信消费(x5)对大学生消费影响最小。
3 结束语
通过实证研究得到大学生月消费与家庭月收入状况仅存在弱相关关系。通过主成分分析消除共线性问题后,构建了相对合理的指标体系,进而建立了回归方程,验证后得到大学生消费结构状况,娱乐、学习、衣着所占比例较高,而饮食、其他消费占比略小。说明享受型和进取型是大学生消费的主流特点,基础性消费如饮食等占比在退化,与社会发展较为匹配,充分体现当代大学生消费时代性的特点。但在消费结构中,尤其应该注意娱乐和其他消费,家长和学校应合理教育引导,大学生要加强自我约束控制,避免形成不理智、不合理消费观。