高校学生心理健康情况对其社交网络结构的影响研究
2021-04-09罗炜敏
聂 敏,罗炜敏,邓 辉,王 伟,夏 虎,周 涛
(电子科技大学大数据研究中心 成都 611731)
根据世界卫生组织最新统计,心理健康问题是极端事件(如自杀)发生的主要原因之一[1-3]。在我国高校,由于学生心理健康问题所引发的杀人、自杀等极端事件也时有发生,给社会、高校和家庭造成了极大的伤害。因此,高校学生心理健康问题是一个极其重要的研究课题[4-8]。高校学生心理健康研究既有传统的基于小规模问卷、量表或实验数据的,也有最近利用大数据技术和理念对大范围样本进行分析的。
在小规模数据分析时候,学者们分析了导致学生心理健康的主要原因,包括家庭因素(如父母离异、家庭暴力、贫困等)、学业压力(如同学关系不融洽、学习成绩差、学习动机不良等)和社会因素等[9]。文献[10]探讨了不同强度体育锻炼对提升高校学生心理健康和心理韧性的效果,通过分析武汉职业技术学院1 546 名大一学生,发现中等强度的体育锻炼可有效提升高校学生心理健康和心理韧性。文献[11]在全国8 所重点高校开展了“农村和贫困地区专项招生计划学生成长与发展调查”,并从大学经济生活、学业表现、综合表现、心理健康与就学满意度等方面,探讨农村和贫困地区专项招生计划学生的发展。研究发现,专项计划学生经济生活拮据,但综合表现良好,且心理健康处于正常水平。文献[12]基于威廉·邓恩公共政策评估标准,在北京市10 所不同类型高校部分本科毕业生中进行了问卷调查,提出了高校家庭经济困难学生资助政策评估标准体系框架,特别强调了要关注政策实施效果中对于孩子心理健康成长的影响。
在大数据时代,人们的日常行为被记录下来,形成了海量的数据,为更加深入地分析心理健康提供了可能,也带来了新的挑战[13]。在高校,一卡通记录了学生食堂刷卡、图书馆进出、图书借阅等信息,为分析学生在校行为轨迹提供了便利。文献[14-15]使用匿名校园卡数据,发现学生的生活越规律,学习成绩越好。文献[16-17]分别基于165 名新妈妈的健康数据和她们在Facebook 上分享的内容,以及476 名抑郁症患者的体检数据和他们发病前一年的Twitter 内容[17],建立了机器学习模型,通过社交媒体数据预测产后抑郁症和抑郁症,后者预测的精度可以达到70%。基于微博文本[18]和Instagram照片[19]的研究也被证明可以利用机器学习方法以较高精度识别早期抑郁症患者。文献[4]基于多任务回归和增量回归算法,系统地分析了新浪微博用户,并用于预测五大人格。他们发现,新浪微博用户文本信息与人格特性存在很强的关联性。文献[6]构建了主题矩阵,并利用一种无监督方法对用户的文本进行特征提取,从而能够预测新浪微博的用户是否存在自杀倾向。
受最近教育大数据[14-15]和计算社会经济学[20-22]方法论的启发,本文拟通过分析非受控条件下学生的行为数据,挖掘学生心理健康问题,特别是抑郁症状和学生社交行为之间的关系。本文基于高校学生匿名食堂刷卡数据来构建社交网络,并利用《SCL-90 测评量表》测评结果刻画学生的抑郁症状发生水平。分析发现无明显抑郁症状的学生更倾向于与不同的同学共餐(推断社交活跃性更高);有明显抑郁症状的学生则更倾向于单独用餐(推断社会活跃性较低)。
1 数据描述
为了量化高校大学生心理健康情况对其在校社交关系影响,本文采集了某高校4 955 名新生数据,包括《SCL-90 测评量表》(下面简称为“SCL-90 表”)和从2018 年8 月21 日-2018 年10 月31 日的食堂刷卡数据。所有数据均通过匿名化处理,无法辨识任何指定学生,仅能用于统计分析得到一些宏观统计特性。SCL-90 表由Derogatis在1975 年编制,旨在从感觉、情感、思维、意识、行为、生活习惯、人际关系、饮食睡眠等多层面来综合衡量人的心理健康情况,量化了多项和抑郁相关的测试指标,包括躯体化、强迫症状、人际关系敏感、抑郁、焦虑、敌对、恐怖、偏执、精神病性等。根据答题者的回答,对其出现抑郁症状的程度进行评分,分值从1~5 分,分别表示“没有”、“很轻”、“中度”、“偏重”、“严重”5 种不同程度。答题者整体得分范围为[13,65]。根据不同分值,答题者可分为5 类:没有(无该项症状)、轻度(有症状但不频繁)、中等(有症状且较频繁)、偏重(有症状且严重)、严重(有症状且十分严重)。本文仅将测试者分为两类:没有和轻度的分为一类,分值为[13,26],后文记为“无明显抑郁症状者”,简称“无”;中等、偏重和严重的分为一类,分值为[27,65],后文记为“有明显抑郁症状者”,简称“有”。
对4 955 名学生数据进行了分析,其中男生有3 879 人,女生有1 076 人。年龄最小值16.1 岁(截至2018 年10 月1 日),最大值25.1 岁,平均值18.5岁,中位值18.4 岁,分布如图1a 所示。进一步分析了性别对心理健康的影响,如图1b 所示,且通过t-test 发现有明显抑郁症状的学生比例对性别不敏感,也就是说男生和女生出现抑郁问题的可能性是差不多的。
图1 学生样本的基本统计信息
2 社交网络构建与分析
食堂共餐是高校学生常见的行为,在一定程度上能反映学生在校的社交行为。因此,本文通过学生食堂刷卡数据来构建社交网络。用图G(V,E)来表示社交网络,其中V 表示节点集合,E 表示连边集合。节点用于表示学生,连边表示学生之间的社交关系。本文推断两位学生之间存在一条连边需要同时满足以下3 个条件:1) 他们同时在一个刷卡机刷卡消费;2) 他们消费时间间隔小于2 min;3) 他们在整个观测时间内(2018 年8 月21 日-2018 年10 月31 日)同时满足条件(1)和条件(2)的次数大于阈值T。
不同阈值会影响每个学生在社会网络中的平均度。在T=0,1,2,3,4,5 的情况下,平均度的取值分别为423.24, 64.06, 13.85, 7.20, 5.70, 3.88,故本文选取T=4,这时候网络的连接密度比较适中,同时还能保证网络的连通性。图2 是网络的可视化表示,其中无抑郁同学用空心表示,有抑郁同学用实心表示,节点越大则表示它的度越大。
图2 学生社交网络的可视化表示
本文比较了在阈值T=4 的前提下推断得到学生社交网络度分布情况,如图3 所示。其中横坐标k 表示度,纵坐标p(k)表示分布函数。从图中可以发现,不论学生的抑郁程度,大多数同学只与少数同学共餐,但有一部分同学与很多同学用餐。整体分布形式表现出广延至指数分布(stretched exponential distribution)的特点[23],介于指数分布和幂律分布之间,一方面说明社交网络天然具有胖尾分布的特点(广延指数分布也是一种胖尾分布),因为不同个体的社交活跃度差别很大,另一方面说明在线下的社交关系中很难形成幂律分布,因为要付出的成本远大于线上社交关系。特别地,本文注意到无抑郁的学生度分布比有抑郁的学生更广,且无抑郁的学生平均度(7.73)显著高于有抑郁的学生(4.60),暗示有抑郁的学生社交活跃度要低于无抑郁的学生。
图3 学生社交网络的度分布
3 结 束 语
通过4 995 名高校学生刷卡数据及《SCL-90 测评量表》测试数据,本文分析了心理健康情况对高校学生社交网络结构的影响,发现无抑郁学生度分布更广,平均度更高,意味着他们更擅长社交。本文的研究结论有助于了解有明显抑郁症状学生的行为特点,且提供了一种通过分析社交行为发现学生潜在心理健康问题的手段。
致谢:感谢电子科技大学李媛教授对本文提出的宝贵意见。