基于随机森林模型的新冠疫情下大学生心理健康影响因素分析*
2022-04-19王振杰彭求实陈禹江郭姿乐
王振杰,彭求实,陈禹江,郭姿乐
(北京大学 人口研究所,北京 100871)
一种新的冠状病毒(COVID-19)引起了急性传染性肺炎的爆发其传染性更强且没有特别有效的治疗方式方法。由于COVID-19其自身的极高传染性,世界大部分国都实施严格的旅行禁令和隔离措施,这些措施有效控制了疫情的传播,但与此同时无法避免地引起公众的集体焦虑和恐慌。国内有研究结果显示,此次疫情对大学生心理健康状况造成很巨大的冲击和影响[1]。如果不探究其中的影响因素,可能会引发一系列负面事件。随机森林模型能在不增加计算机运算量的基础上较大规模地增加模型的预测准确性和对变量的重要性进行排序,并且对变量分布没有特殊的要求。因此,本研究拟用随机森林模型和Logistics回归相结合的方法探索新冠疫情下大学生心理状况及其影响因素,并根据分析结果提出后疫情时期相关建议。
1 资料与方法
1.1 研究对象
本调查实施于2020年3月1日~2020年4月1日,通过问卷星对北京某大学在读的一至四年级大学生进行匿名在线调查。所有调查对象均自愿参加,并签署知情同意书。
一般情况调查表包括年龄、性别、年级、家庭情况、重大生活事件等等社会人口学资料。心理状况部分主要为症状自评量表(SCL-90)。该量表包含90个项目,被分为10个因子,分别反映10个方面的心理症状,内容涵盖了精神病症状学和行为学,包括躯体化(主要反映主观的身体不适感)、强迫症状、人际关系敏感(主要指某些个人不自在感和自卑感)、抑郁、焦虑、敌对、恐怖、偏执、精神病性(反映精神分裂样症状)和饮食睡眠。SCL-90总分450分,得分越高表示症状越严重,各子项目得分之和记为总分,<160分为阴性,≥160分为阳性;二是阳性项目相加法,即单项分≥2分视为阳性项目,项目数≥43项为总体阳性,<43项为总体阴性[2-3]。变量赋值见表1
表1 变量赋值表
1.2 统计分析
随机森林在运算量没有显著提高的前提下能够大幅提高预测精度,并且对多元共线性不敏感,可以用于几乎任何一种预测问题,被誉为最好的算法之一[4-6]。通过Gini系数计算出各个变量对分类树中每个节点观测值的影响,然后随机森林模型对变量进行排序[4,7]。根据变量重要性排序结果进行逐步随机森林模型拟合,并将袋外估算误差率最小的自变量集再纳入logistic回归模型。本研究以统计分析以P< 0.05作为检验水准,随机森林模型和统计分析均在R 3.6.2中进行。
2 结果
2.1 一般情况
本次研究通过问卷星在线收集259人,约15%的样本存在心理问题。调查对象的基本情况如表2所示。
表2 调查对象基本情况
2.2 随机森林
(1)森林数目选择
随机森林模型随机种子数设为222,分析结果显示,心理状况得分随机森林模型、总体项目数随机森林模型均当树的数量大于1000棵树以后误差率平稳(图1-2)。因此,心理状况得分随机森林模型、总体项目数随机森林模型树的数量选择1000。
图1 心理状况得分随机森林模型
图2 总体项目数随机森林模型
(2)变量重要性排序
随机森林模型随机种子数设为222,分析结果显示,心理状况得分随机森林模型各变量重要性由高到低依次为(图3):年级、父亲的文化程度、母亲的文化程度、民族、是否发生过重大生活事件、居住地、性别。
图3 心理状况得分随机森林变量重要性排序图
随机森林模型随机种子数设为222,分析结果显示,总体项目数随机森林模型各变量重要性由高到低依次为(图4):年级、母亲的文化程度、父亲的文化程度、是否发生过重大生活事件、居住地、民族、性别。
图4 总体项目数随机森林变量重要性排序图
(3)降维
根据自变量重要性排序结果,从评分最高的变量开始进行逐步随机森林。心理状况得分随机森林模型分析结果显示(图5),当变量数为5时袋外估算误差率最低。自变量重要性评分排名前五的变量依次是年级、父亲的文化程度、母亲的文化程度、民族、是否发生过重大生活事件。总体项目数随机森林模型分析结果显示(图6),自变量重要性评分排名前五的变量依次是年级、母亲的文化程度、父亲的文化程度、是否发生过重大生活事件、居住地。
图5 心理状况得分逐步随机森林分析结果
图6 总体项目数逐步随机森林分析结果
2.3 多因素logistic回归分析
分别将逐步随机森林模型中重要性排名前五的自变量集纳入心理状况得分logistics回归模型和总体项目数logistics回归模型(表3-4)。心理状况得分多因素logistic回归模型结果显示,新冠疫情下汉族大学生存在心理问题的风险是少数民族大学生的0.29倍。总体项目数多因素logistic回归模型显示,大二年级大学生心理状况阳性项目数(大于43项)的风险是大一年级大学生的2.23倍。
3 讨论
2020年新冠肺炎疫情在全球范围内爆发,不仅对社会各领域产生了直接或间接的影响[1],也对国民的心理健康造成了严重威胁。为加强疫情防控,各高校实施延迟开学、线上教学等措施,大学生群体原本的日常生活和学习受到影响。且随着居家时间的延长,越来越多大学生可能出现恐慌、焦虑等负面心理,这对其心理健康状况及未来发展都可能产生一定的冲击。本研究结果显示有心理问题的大学生比例约为15%,略高于非疫情期间的研究结果[8]。所以,疫情常态化期间更应重视大学生的心理健康问题,实时对大学生心理健康动态进行监测,以期提高心理健康教育的针对性和科学性,及早预防与发现,有效干预与治疗问题,改善大学生的心理健康状况。
随机森林作为一种非参数回归技术,对数据具有良好的适应性,可给出各自变量对因变量的重要性排序,对后续进行统计回归分析具有较高参考价值,提供统计检验效能[9-10]。本研究分析结果显示自变量数为5时袋外估算误差率最低,心理状况得分模型排名前五的影响的变量分别为年级、父亲的文化程度、母亲的文化程度、民族、是否发生过重大生活事件;总体项目数模型自变量为年级、母亲的文化程度、父亲的文化程度、是否发生过重大生活事件、居住地。
大二年级的大学生总体阳性项目数比例的危险高于大一年级的大学生。本研究中,大二年级大学生心理状况阳性项目数(大于43项)的风险是大一年级大学生的2.23倍,该结果与国内学者关于不同年级大学生心理健康的研究结果一致[11-12]。张百军等(2014)在对796名河北省三所高校全日制在校大学生的调查中发现,二年级大学生的心理健康状况相对于其他年级学生较差,主要原因是在生活、学业或就业等方面的矛盾日益增多导致的。刘民等(2002)研究也认为,不同年级在校生心理健康水平存在明显差异,其中大二年级学生的心理问题最为严重。大二年级大学生异常心理问题检出率高于大一年级,这可能是因为大二学生刚进校的新鲜感消失,人际关系敏感,学业压力繁重等原因造成的,故对于突发事件的心理承受能力也相对较低。而大一学生心理状况优于其它年级,导致这种情况的主要原因可能是新生课程、学业压力较小等。
表3 心理状况得分多因素logistic回归分析
表4 总体阳性项目数多因素logistic回归分析
少数民族大学生发生心理问题危险低于汉族大学生。本研究结果显示,新冠疫情下汉族大学生存在心理问题的风险是少数民族大学生的0.29倍,这一研究结果与其他学者关于少数民族大学生心理健康水平状况基本一致[13-14]。罗鸣春等(2010)研究指出,近15年来少数民族大学生的心理健康状况基本稳定,其总体水平略高于全国大学生平均水平。辛素飞等(2019)对1991-2015年间采用测查SCL-90测查少数民族心理健康水平的多篇文献进行横断历史的元分析显示,少数民族大学生在各因子上的得分呈下降趋势,即少数民族大学生的心理健康水平整体上逐年提升。辛素飞等在研究中指出,社会变迁带来的教育、就业、经济状况的变化,贯彻落实民族融合政策带来的民族关系的融合,以及国家对于大学生心理教育的重视程度增加等,在一定程度上缓解了少数民族大学生的心理压力,促进其人际关系及心理健康状况的改善,有效提高了民族生的心理健康整体发展。此外,在本研究中,汉族大学生样本量(占92.3%)较多,存在一定偏倚风险,这也可能是汉族大学生出现心理问题风险要高于少数民族大学生的原因之一。当前,关于疫情之下不同民族大学生心理健康状况的调查研究仍较少,未来应进一步开展相关方面的研究,更多地关注各民族大学生的心理健康问题,以提出有针对性的心理干预与教育措施。
综上所述,随机森林模型能在不增加运算量的基础上提高模型预测准确性和对变量的重要性进行排序,随机森林模型与Logistics回归相结合是有效进行数据分析的一种路径。通过随机森林模型分析发现,影响新冠疫情期间大学生心理健康的影响因素依次为年级、父亲的文化程度、母亲的文化程度、民族、是否发生过重大生活事件、居住地。基于本研究结果,建议后疫情时期:①高校应积极建立或完善在校大学生心理档案系统[15],开展周期性心理健康状态检测,特别是疫情期间的心理状态以早发现早干预。此外,对于不同年级、不同民族、不同地区的大学生应采取有针对性的干预措施,“对症下药”。通过多种方式,如微信、QQ群、腾讯会议开展专题活动等手段来预防新冠疫情和疫情常态化可能对大学生心理健康产生长期影响;②学校应开展以专业心理辅导专员为主,院系辅导员为辅的心理辅导团队[15],将心理健康教育作为必修课,辅以学生心理疏导工作,提升在校生心理健康整体水平;③进行COVID-19相关知识健康教育,让大学生全面了解疫情常态化下的相关信息,辨别真伪,使其更加积极地面对COVID-19的疫情,提高自我调节能力以应对负面情绪,特别是对应激性生活事件的应对能力,养成良好的行为与思考方式;④疫情期间,家庭也应给予足够的引导与支持[16],缓和大学生居家的消极情绪,减少应激事件带来的不良影响。