基于网络大数据的大学生自杀风险主动识别与及时干预

2021-07-22刘爱楼

佳木斯职业学院学报 2021年7期

刘爱楼

摘要：伴随信息时代的到来与快速发展，信息技术正在以迅猛态势渗透于社会的方方面面。大数据作为随信息时代运用而生的概念，近年来得到心理学领域的广泛关注。本文以网络大数据概念及技术视角下对高校自杀干预应用为切入点，在介绍大数据技术在危机干预中实际应用的基础上，总结其对高校危机干预理论研究和实践运用产生的影响。高校危机干预作为以个体外部表现数据为主要分析对象的工作，大数据技术能够直接提高其主动识别的精准度、增强个性化干预的效果。

关键词：大数据;自杀风险;主动识别;及时干预;大学生

中图分类号：D669.9;G643 文献标识码：A 文章编号：2095-9052（2021）07-00-03

自杀（Suicide）是世界性的公共卫生问题。世界卫生组织（简称WHO）发布的首份全球预防自杀报告指出，在全球范围内，自杀是全年龄段的主要死亡原因。在中国，自杀已成为15～34岁人群中第一位的死亡原因。在整個生命周期中，与其他年龄组相比，青少年自杀率更高，自杀死亡人数增长最快。同时，许多曾考虑或企图自杀的人在青春期就开始出现自杀意念或企图尝试自杀。作为未来社会建设主力军的大学生，身心发展处于一个迅速走向成熟而又未真正成熟的特殊发展时期，是抑郁、焦虑等负面情绪的高发人群。很多调查表明，大学生的自杀率是同龄人的2～4倍。近年来，大学生自杀事件时有发生，不仅为其家庭造成重大损失与痛苦，也给周围的同学、朋友带来强烈的心理冲击，给学校和社会造成不良影响[1]。

随着社会和高校对自杀问题的关注，相关研究也越来越受到心理和教育工作者的重视，及时识别与干预自杀已经成为全社会的关注焦点。如何有效开展自杀风险预测预警工作是一个迫切需要解决的课题。但自杀作为一个复杂的社会问题，到目前为止，针对其发生机制和自杀模型的研究尚未十分清晰。同时，低主动求治率和求助率阻碍了专业救助的进一步展开。在中国自杀的主动求助率低于7%，很多人在自杀之前，其实并没有真正地主动求助。但主动求助率低并不代表个体没有求助的意愿，这其中大概有20%的个体确实不想求助，但还有接近80%的个体是由于各种原因而未去主动求助。而面对这80%的人群，目前传统危机干预的做法是开通危机干预热线，但其具有被动性和滞后性，很多个体可能是在实施自杀的同时拨打危机干预热线。同时，以往研究显示，曾经尝试过自杀行为的个体，其再次实施自杀并且自杀成功的可能性会增高。因此，自杀风险的主动识别与干预的前移，以及自杀风险识别与筛查的精准性，在危机干预中显得尤为重要。

一、大数据对自杀风险主动识别与干预的优势

大数据（Big Data或Mega Data）又称巨量资料，是指涉及数据规模巨大且需要新处理模式才能具有更强决策力、洞察力和流程优化能力的信息资产。具有数据体量巨大（Volume）、数据类型繁多（Variety）、数据处理高速（Velocity）、价值密度低（Value）和真实性（Veracity）的5V特征。除此之外，大数据还具有实时性的特征。也正因为具有以上特征，大数据才得以挑战与突破传统信息时代，对各行各业产生颠覆性的影响，同时也得到各领域的共同关注。

大数据技术不仅在自然科学领域得到广泛应用，也为社会科学领域带来了新的研究课题。更重要的是，大数据时代的到来为自杀干预研究打开了新的大门。随着大数据技术的发展，虚拟环境与真实生活不断融合，个体在现实社会中的各种心理与行为现象被电子化记录成大数据存储下来，如情绪、态度、网络行为、应激事件等[2]。通过对个体网络数据的收集与分析，可以对其行为进行预测，并运用大数据对压力应对问题进行研究。分析来自Anxiety Online的全样本数据得出结论，激动或逃避是最无效的压力应对方法[3]。采用数据挖掘方法对智能手机中的数据进行人格研究，进而将手机使用者划归为五种人格类型。有国内学者利用被试所在高校的网络日志数据分析被试的网络行为特征，建立基于网络行为特征的抑郁情绪状态计算模型，从而实现心理健康问题的在线识别。在研究基于深度学习的微博用户的自杀宣言进行主动识别时发现，青年人不仅偏好使用互联网进行与自杀有关的话题讨论，也将社交平台视为他们寻求帮助和为他人提供帮助的有效工具。

相较于传统量表测量方式，利用大数据实现的生态化自动识别具有明显优势。大数据在危机干预领域的应用，使我们可以利用生态化的外显行为指标数据，结合大数据和数据挖掘技术，实现对个体潜在心理危机的自动识别[2]，从而实现危机识别与预警的前置，并在一定程度上改善心理健康问题低主动求助和求治率的现象。

（一）提高结果的科学性

心理学研究假设的检验逻辑是先验性的，即研究推断与假设是在研究结果之前提出。心理学传统研究方法的假设检验是对数据获取局限性的一种现实妥协，缺点在于降低了研究结果的正确性和可靠性。且对于自杀风险的识别与预警，传统研究方法的先验假设很难满足主动识别与前置预警的需求。不同于心理学传统经典研究方法，大数据技术是根据数据分析与挖掘得出结论，研究逻辑是后验的。通过大数据分析归纳得出的结果不仅完成研究假设与推断，并且对得出的研究推断进行再次验证，进而提高了获取正确推断与假设的效率和可能性，最终提高了研究结果的科学性。

（二）提高样本的代表性

有关自杀问题的传统研究中，样本数量、规模和代表性都十分有限。研究多采用整群抽样的方式对自杀问题进行预测与分析，再将抽样分析的结果推广到总体，这就使得研究结论的生态效度不可避免地受到样本代表性的影响。大数据技术在自杀领域研究的应用可以改变通过抽样样本间接推论研究总体的劣势，而直接对总体全部数据进行分析与处理，从根本上提高了研究样本的代表性。

（三）提高数据的客观性

常规的自杀意念或自杀行为的测量大多采用自评式问卷的方式，即通过个体对过去一段时间状态的自我评价。这就使样本数据不可避免地受到个体主观动机或者刻意作假的影响，造成数据的客观性和可信度低。而大数据打破了传统量表测量或者“面对面”人际交互访谈方式依赖受试者主动报告或者研究者主观观察的劣势，提高了数据的客观性和结果的生态效度。

（四）提高识别的主动性

通过对个人以往大量数据的学习，找出个体行为表现与心理指标之间的相互关系。这种映射学习之后，对用户的自动行为分析就可以识别出其心理状况。人的心理活动是动态变化的过程，传统的对自杀的识别与评估中所收集的信息基本是回溯性的（即回忆过去的状态），并且对样本数据的评估多为单个时间点或者有限的几个时间点，很难做到对自杀易感因素的动态实时追踪研究。而大数据技术的信息存储与实时更新，能够帮助研究者获取更具时效性的信息与数据，从而提高自杀识别的主动性和准确性。

（五）提高干预的多样性

常规的自杀干预主要依赖于心理咨询师和心理服务人员，而心理工作者的专业素质与能力水平不尽相同，自杀干预的效果与心理服务质量会因此受到很大影响。同时，传统危机干预方案主要是依据个体自评量表的结果而制定，很难做到针对不同的个体量身定制个性化的干预方案。借助大数据技术，大规模用户留下的网络使用痕迹被实时记录下来，这就为分析个体的心理特征提供了内容丰富以及规模巨大的行为数据。根据网络数据分析得出的个体的心理特征对于个性化、多样性干预措施与方案的制定提供了基础数据支撑。

二、建立心理健康指标计算模型——以高校自杀风险预测为例

自杀作为一个复杂的社会问题，一直以来备受心理学家的关注，逐渐形成了诸多关于自杀发生机制的模型与理论。目前备受学术界关注并最被接受的为应激——易感模型理论。该模型理论认为，自杀的易感因素或者特质决定了个体在一些应激事件的影响下会不会出现自杀意念并采取自杀行为。自杀是风险应激因素、保护性因素和个体因素三者之间相互影响和作用的过程。当具有某种易感特质的个体处于应激状态时，其易感性就容易被激活，从而表现出比常人更高的自杀风险。有关自杀影响因素的研究从不同方面验证了自杀的应激——易感模型理论。基于已有研究的整理，本研究选取了6项自杀相关风险因素进行分析：应激生活事件、易感性人格特质、抑郁情绪、自杀企图、精神障碍、躯体化症状（如睡眠、饮食问题）。预防大学生自杀风险预测模型的建立极为重要，主要包括三个步骤。

（一）建立初始数据仓库

大学生自杀风险预警的数据来源不仅包括心理普查、危机排查和门诊问询等常规方式，而且包括学生在校期间学习、生活、网络行为等相关信息。根据自杀的6个相关风险因素，建立基于大数据支撑的自杀风险预警初始数据库，数据库尽量全面包含自杀的6个风险因素，无选择地记录、收集个体自然、真实和多样化的生态化数据。

数据仓库由心理测评数据库、生活行为数据库、学业数据库、网络行为数据，以及其他高危因素数据库构成。每個数据库模块又由不同的因子构成，每个因子又包含不同的预测变量。以生活行为数据库中的人际关系为例，预测变量可能包括困难生情况、学习成绩、参加活动次数、出入宿舍次数以及内务检查情况[3]。

（二）数据采集与建模

本研究利用自主研发的在线学生信息管理平台采集在校学生的数据。自2018年10月开始，本研究选取H省某大学2018级全体新生，进行为期4年的纵向追踪测试，剔除样本的流失，最后完整参加测试的学生预计为三千人左右。纵向追踪测试的时间点1为大学新生入学后10月份，时间点2为大学二年级10月份，依此类推。所有被试均为自愿参加。

第一，数据分类。采用保持法，用测试数据集中的每一个样本，按照分类模型分析得出预测类与已知类的标号进行比较。如果一样，说明分类成功，反之则说明分类失败。模型在测试数据集上的准确率是指模型正确分类的测试样本数占测试数据集中总样本数的百分比。如果得出的准确率可以接受，就利用该模型对未知类标号的数据元组进行分类[4]。

第二，关联数据挖掘。根据自杀的应激——易感模型建立学生自杀风险因子数据库。定制专属模块，记录、收集学生在校期间发生的异常行为表现、遭遇的应激生活事件等。其中，异常行为包括躯体问题、情绪表现、行为表现、精神状态4类。应激生活事件则包括学业、躯体、人际、家庭、其他5类。将学生的人口统计学信息（包括家庭情况、课程情况、是否困难生、各阶段成绩等）录入云存储数据库中[3]，通过全面比较高自杀风险学生和普通学生的自杀风险因素，归纳高自杀风险学生的可识别模式。且利用数据挖掘技术与数据库平台其他模块获取得数据相关联并形成数据样本，最后建立自杀风险识别模型。关联规则的目的是发现哪些事情将关联发生，它的一般形式是：如果A发生则B有百分之C的可能发生（C称为关联规则的支持度）。

（三）自杀风险的自动识别与主动干预

自杀风险包括一系列不同的心理和行为维度，不同维度彼此之间存在一定程度的关联。如果在建立某个面向具体自杀风险的计算模型时，能够将不同心理维度和行为维度之间的关联信息考虑在内，那么建模效果将得到相应提升。因此，可采用多任务回归方法，结合被试的人口统计学信息建立基于综合数据分析的自杀风险状态计算模型。同时利用线性回归方法建立同样的心理状态计算模型，以此作为基准模型来评价多任务回归方法的建模效果。

基于各因子数据库，预警平台阶段性采集学生的心理行为信息，并代入自杀风险的目标心理特征计算模型进行预测。自杀风险的自动识别是由特定时间点之前一段时间的数据预测之后某一特定时间点的数据，从而完成自杀风险的生态化识别过程。同时，自动甄别、筛查并锁定该时间点可能出现负性情绪与消极行为的重点关注学生群体，及时发出预警提醒，并推送给学生管理部门与管理者进行预警。同时，向高风险学生提供及时有效的干预，通过平台私信的方式及时推动所在高校或地区的自杀干预热线，提供相关的心理健康常识及其消极情绪缓解策略[2]。

这种基于大数据的自杀风险自动识别与主动干预的方法，是对识别高自杀风险人群并提供危机管理的全新尝试，是对现有自杀预防与干预措施的有效补充，需要在更大范围内进行验证与推广。

三、基于大数据自杀风险预警面临的挑战与未来发展方向

大数据技术对提高自杀风险识别与预警的主动性、时效性和准确性具有重要意义，但同时也可能带来一定风险。一是学生隐私权和安全感风险。大数据的应用可以对学生日常生活与行为数据进行全方位抓取，这必然涉及学生隐私权的边界。二是导致“数据万能论”。大数据虽然带来了危机筛查方法的巨大革新，但挖掘到的变量之间的关系模式通常只具备相关而非因果关系，仍需要相关理论知识及实验研究的指导或验证，否则会导致对数据分析结果的过度依赖与过度使用。

学术界在享受信息技术发展带来的便利的同时，需要重点关注技术应用中的伦理和隐私边界，遵循一定的伦理规范，合理保护个人的隐私。大数据技术应用于危机识别与干预等相关课题的研究中，应该遵循一般的伦理共识：在获取个体心理与行为数据前，首先应征得个人的知情同意，明确告知数据采集目的与数据用途;在数据处理与成果发表过程中，采用匿名处理方式[2]，杜绝使用可以识别出个人身份信息的内容去公开发表;同时，做好数据的保存与管理，防止数据信息外泄，侵害个人隐私。

四、结语

综上所述，人们在看到大数据在危机识别与干预中的潜在促进作用的同时，也应该警惕其带来的潜在危害。在合理合规使用大数据技术的同时，还应考虑从培养具备信息技术的心理健康教育人才队伍、建立“数据伦理”规范、针对数据挖掘与分析的弱点进行补强等方面进行延伸研究，最终实现信息技术在高校心理健康工作服务中的积极应用。

参考文献：

[1]辛素飞，时蒙，张夫伟.中国大学生自杀态度变迁的横断历史研究[J].中国临床心理学杂志，2019（2）：401-405.

[2]刘兴云，等.人工智能大数据之于心理学[J].科技导报，2019（21）：105-109.

[3]陶毅涵.基于大数据的大学生危机预警模型研究与应用[J].教育现代化，2016（40）：133-134.

[4]何广东.数据挖掘技术在大学生心理问题分析中的应用研究[D].河北大学硕士论文，2013.

（责任编辑：董维）