基于统计视角透视大学生“双十一剁手”现象
2021-11-19李晶茹
张 瑞,李晶茹
(太原工业学院,山西太原 030008)
“双十一”购物狂欢节,从2009年开始兴起,越来越多的人加入这场“一年只有一次”的购物狂潮。据天猫公布的数据显示,2020 年“双十一”订单创建峰值达每秒58.3 万笔,成交额达4982 亿元,再攀新高。在“双十一”来临之前,商家就发起预热活动,人们每天都被提醒着“双十一”的到来。此外,天猫“双十一”晚会和主播直播带货都为这一网造购物节增添了节日狂欢的气氛。研究表明,与日常购物相比,购物狂欢节添加了折扣、价钱、氛围等影响因素,从而使得影响消费者决策的因素与日常购买决策有明显不同[1]。特别是节日氛围提高了顾客的预期,增加了消费者购物的兴奋水平,同时也激发起了消费者冲动购买的意向,这种冲动购买意愿是造成促销期间销量大增的主要原因[2]。
在“双十一”这股大热潮中,大学生扮演了重要角色,展现出惊人的购买力。在本次调查中,有消费的大学生占96%,消费300 元以上的大学生占48%,消费700 以上的大学生占12%。大学生的经济来源较为单一,主要来自家庭,这样的购买力与自己经济实力并不相符,这可能导致大学生陷入畸形消费怪圈,具体表现为好胜攀比、情绪化、盲目从众、追求享乐及高档消费[3]。部分同学会进行校园网络贷款,无论是主流电商平台提供的贷款或分期付款(蚂蚁花呗、借呗、京东白条等)还是非法借贷的“校园贷”,都会因为借贷过于频繁或者借贷额度过高而给生活带来负面影响,甚至休学、抑郁、自杀[4]。
鉴于如上存在的问题,有必要深入探讨大学生“双十一剁手”现象,倡导合理消费,避免过度消费,帮助学生建立精神层面的更高追求。与大学生“双十一”消费相关的文献较少。习明明等(2016,2020)以大学生为研究对象进行了“双十一”消费调查,分析了大学生消费者的从众行为及其特征[5−6];张梓琪等(2019)论述了消费主义思潮在大学生群体中的渗透和流行,导致了大学生在“双十一”网购狂欢节中展现出符号消费、攀比消费、过度消费、和超前消费的心理和行为[7]。
拟从大学生消费群体出发,定量研究“双十一”消费的影响因素,以期为高校思想政治工作提供思路。第二部分介绍Logistic 回归、定序Pro⁃bit 回归、随机森林等模型。第三部分基于调查数据进行描述性分析和建模分析。第四部分给出相应的讨论与结语。
1 模型说明
1.1 Logistic回归
大学生是否在“双十一”消费从本质上为二分类问题,Logistic 回归模型不需要调节超参数,且最终模型易于解释,故选择Logistic 回归分析该问题。将因变量设置为二分类变量,其中1表示有消费,0表示没有消费。模型定义如下:
P(Y=1)为因变量取1 的概率,xi为第i 个自变量,βi为对应自变量的系数,i=1,2,…p,其中p为自变量的个数。从模型可以估计学生是否消费的可能性大小。
1.2 定序Probit回归
在“双十一”进行消费的学生中,消费水平存在明显差异,划分为三个水平,其中1代表低消费水平、2 代表中消费水平,3 代表高消费水平。消费水平高低从本质上为三分类问题,但存在明显的顺序关系,因此考虑建立定序Probit 回归来分析消费水平的影响因素。模型定义如下:引入潜在变量Z=β0+β1x1+…+βpxp+ε,Z为3个自然数的等级,每个等级对应因变量Y的某个状态,有
其中,c1,c2为内隐的消费水平阈值,假定误差项服从正态分布,则因变量Y处于某一状态的概率为
其中,Φ(x)为标准正态分布的分布函数,k 为消费水平的取值。从模型可以估计学生“双十一”各个消费水平的可能性大小。
1.3 随机森林
相对于回归模型,机器学习的相关方法虽然在解释性上稍差,但是灵活度更高,精准率也更高。采用随机森林方法对大学生“双十一”消费水平进行分类。随机森林可以同时生成多个决策树模型,并将模型的结果汇总从而提高分类准确率。具体算法如下:
设数据集中共有n个样本,p个变量。(1)从数据集中随机有放回地抽取n1 随机森林方法有两大优势。第一,无法获取验证集时,可用袋外预测误差评价模型的拟合程度。生成树时没有用到的样本点为袋外样本点,袋外样本点所对应的类别由树估计得到预测类别,与真实类别比较可得到袋外预测误差。第二,可度量变量重要性。变量相对重要性是指分割该变量时,节点不纯度(异质性)的下降总量对所有树取平均,节点不纯度由Gini系数定义[8]。 为分析大学生“双十一”消费特点及影响因素,选取太原工业学院本科学生为调查对象,采用随机抽样的方式,在不同年级、专业发放调查问卷,最终收回834 份有效问卷。由调查问卷构造9 个自变量,全部为定性变量,依次为性别、年级、户口所在地、父母最高学历等。因变量为“双十一”消费水平。依据本次调查,无消费的学生占比4%;消费300元以下的人最多,占比48%;消费300~ 700 元占比36%;消费700~ 1 100 元占比9%;消费1 100~ 1 500 元占比2%;消费1 500 以上的人占比1%。消费水平是指单个消费者在一定时期内消费的商品和服务所达到的规模和水平[9]。为方便模型分析,结合实际数据,将因变量划分为四个消费水平,即无消费、低消费、中消费和高消费,其中低消费指300 元以下,中消费为300~ 700 元,高消费为700 元以上。具体如表1 所示。 表1 变量及说明 首先,针对大学生是否在“双十一”消费建立Lo⁃gistic 回归模型。将因变量设置为0/1二分类变量,其中1 表示有消费,0 表示没有消费。回归结果如表2所示,由于自变量较多,表中仅列出系数非零且统计差异显著(P<0.05)的变量。可以看出,全模型以及通过AIC、BIC进行变量选择的模型结果类似,均有三个显著变量,估计系数接近,正负号一致。 表2 Logistic回归结果 为探讨模型的拟合程度,绘制ROC 曲线,如图1所示。ROC 曲线的横坐标为特异度,纵坐标为灵敏度。从图中可以看出,三种模型对应的ROC 曲线凸起明显。进一步计算AUC 值,全模型、AIC 模型、BIC模型分别对应0.93、0.92、0.83,拟合程度较好。 图1 ROC曲线 依据ROC 曲线和AUC 值对比可知,全模型和AIC 模型的拟合程度优于BIC 模型。选取AIC 回归结果进行解读。固定其他条件不变,相对于男生,女生在“双十一”进行消费的几率更高;相对于月消费为1 000~ 1 500 元的同学,月消费500 元以下的同学在“双十一”进行消费的几率明显低;相对于生活费部分来自家庭的同学,全部来自家庭的同学在“双十一”进行消费的几率比部分来自家庭的同学更高。 在“双十一”进行消费的同学中,消费水平存在明显差异。为进一步考察消费水平高低的影响因素,建立定序Probit 回归。将因变量设置为消费水平,共三个水平,即低消费(300 元以下)、中消费(300~ 700 元)和高消费(700 元以上)。回归结果如表3 所示,模型筛选出9 个自变量,其系数非零且差异显著(P<0.05)。可以看出,全模型、AIC 模型、BIC 模型结果类似,仅有省会、月消费500~ 1 000 元这两个变量有所差别,其他系数取值相近,正负号一致。 表3 定序Probit回归结果 计算混淆矩阵讨论三个模型的拟合程度,结果如表4 所示,揭示了预测结果与实际结果的符合程度。三种模型准确率相差在1%以内,故拟合能力相近,选取AIC模型对结果进行解读。固定其他条件不变,相对于户口所在地为地级市的同学,户口所在地为省会的同学“双十一”消费水平更高;相对于父母中最高学历为初中的同学,父母最高学历为中专、高中、大学及以上的同学“双十一”消费水平更高;相对于月消费为1 000~ 1 500 元的同学,月消费1 500 元以上的同学在“双十一”水平更高;相对于生活费部分来自家庭的同学,全部来自家庭的同学“双十一”消费水平更低;相对于不使用花呗等的同学,使用花呗等的同学消费水平更高;相对没有计划的同学,有计划的同学消费水平更高。 从表4 可以看出,综合准确率在73%左右,有待提高。基于这种考虑,尝试用机器学习中的方法——随机森林进行分析。混淆矩阵结果如表5 所示,模型的综合准确率为80%,中消费和高消费的准确率明显有所提升,分别从70%、62%提升至76%、89%。计算袋外预测误差为16.79%。由此可见相对于定序Probit回归,随机森林方法的分类效果更佳。 表4 三种模型的混淆矩阵 表5 随机森林的混淆矩阵 随机森林方法可度量变量重要性,结果显示,父母中最高学历是最重要的变量,且明显高于其他变量,其次是月消费、是否使用过花呗、户口所在地、生活费来源。大学生在家庭中完成了其个体社会化过程的开端,家庭深深影响着消费心理和行为。实证分析也验证了这一点,定序回归和随机森林方法都显示,社会化因素变量(父母中最高学历、口所在地)在统计意义下具有显著作用。 范晓光提出的社会经济地位量表中,综合选用了父亲职业、父母最高学历和家庭收入来衡量家庭社会地位[13],父母中最高学历在一定程度上反映了家庭所处社会阶层。不同家庭社会阶层的消费行为有明显差异,比如在家庭教育消费、体育消费等方面[14−15]。我国是一个典型的“二元”社会,城乡发展水平差距悬殊,消费行为存在较大差异,这种差异性具体表现在相邻期间消费关联性,自发消费,边际消费倾向和消费行为稳定性这四个方面[16]。不同社会结构中人们的差异也会以社会化方式传递给年轻一代,故大学生在“双十一”消费方面也烙印着自己家乡的痕迹。 基于调查数据定量研究了大学生“双十一”消费的影响因素。针对大学生是否在“双十一”消费建立Logistic 回归模型,结果表明:性别、月消费和生活费来源在统计意义下具有显著性,相比较而言,男生、月消费500元以下同学、生活费部分来自家庭的同学在“双十一”消费的意愿偏低。为分析“双十一”消费水平高低的影响因素,采用定序Probit 回归进行建模。结果表明,相比较而言,户口所在地为省会、父母最高学历为中专及以上、生活费部分来自家庭、月消费1 500 元以上、使用花呗等、有消费计划的同学消费水平更高。定序Probit 回归进行分类的综合准确率仅为73%左右,进一步采用随机森林方法分类,计算得袋外预测误差为16.79%,分类效果有明显提升。随机森林方法可度量变量重要性,结果显示父母中最高学历是最重要的变量。 结合定序Probit 回归和随机森林方法的结果,发现社会化因素变量(父母中最高学历、户口所在地)对大学生“双十一”消费有重要影响作用。大学生在家庭中完成了其个体社会化过程的开端,家庭也深深地影响着消费心理和行为。高校可以对不同家庭背景的大学生提出有针对性地引导方案。比如,针对父母学历较高或者户籍所在地为省会的学生,高校可以提高学生理财能力,避免过度消费,倡导学生不仅追求物质上的富足,更要追求精神上的富有;针对父母学历较低或者来自农村的学生,高校可以传授基本金融知识和法律知识,倡导学生不攀比,不进行校园贷,培养学生正确的世界观、价值观和人生观。 不足之处在于仅对一所大学的“双十一”消费状况进行了分析。太原工业学院是以工程应用为特色,涵盖八大学科门类,多学科相互支撑、协调发展的全日制普通本科高校。因此结论可能未必适用于师范类、医学类等高校。此外,文中缺少大学生的同伴朋友信息,未将从众效应引入模型中考虑。未来可以从调查对象和调查因素方面进行改进,进而得到更加具有普适性的结论。2 实证分析
2.1 数据来源与变量说明
2.2 模型分析
3 结语