APP下载

疫情中基于网络搜索大数据的心理健康研究综述

2023-12-11徐之韵刘子源

心理技术与应用 2023年11期
关键词:主题词新冠心理健康

徐之韵 刘子源 王 燕

(复旦大学心理学系,上海 200433)

1 引言

新冠疫情对公众心理健康造成了消极影响。Brooks等(2020)的元分析表明,疫情期间,全球范围内分别有17%、29%和8%的成年个体报告了中度至重度的抑郁、焦虑症状以及压力感受。这些消极影响的原因包括隔离措施、缺乏社会交往以及失业造成的经济损失等。Deslandes 和 Coutinbo(2020)针对儿童和青少年个体的综述研究指出,新冠疫情对这一群体也产生了重大影响,导致他们焦虑水平、孤独感、自杀想法和互联网使用的增加。此外,由疫情导致的威胁感知也会诱发人们产生恐惧之类的消极情绪,进而促使人们采取行动提升自己的健康知识水平,例如,在网络上搜索健康相关词条。

在大数据时代,人工智能和数据挖掘技术逐渐应用于心理学研究,从而使研究者能够更深入和广泛地分析人类的心理和行为。当前的大数据研究采用社交媒体数据探讨人们的生活满意度(汪静莹等,2016)、心理健康(姜力铭等,2022)、人格特质(杨洁等,2016;张磊等,2014)、情绪(汪静莹等,2016;叶勇豪等,2016)、网络行为和歌词偏好(崔京月等,2021)等领域,大数据的其他类型(诸如智能设备收集的数据、数据库以及网络上的其他开放数据)在“幸福中国”(彭凯平,2014)、心理健康(任萍等,2022)、犯罪心理(孙多金,2015)以及一些质性研究(陈美芬等,2022;于战宇等,2021)中也有所应用。

网络搜索数据也是大数据的一种形式,每时每刻,来自世界各地的用户在搜索引擎上进行查询,搜索的主题反映了用户关注的问题,为数据挖掘提供了大量资源。谷歌趋势和百度指数是常用的网络搜索数据工具,已经在包括经济(唐玮怡,张大洋,2022;Bakirtas &Demirci,2022;)、政治(Troelstra et al.,2016)、疾病趋势(王玥等,2023;Carneiro &Mylonakis,2009 )、心理健康(Banerjee,2018;Tan et al.,2022)等领域得到了广泛应用。疫情期间,也有研究采用谷歌趋势和百度指数探究了公众心理健康的变化(Gianfredi et al.,2021)。相比传统的调查和测量方法,网络搜索数据可以提供更及时更丰富的结果,并且与通过传统心理测量方法得到的结果相关性较高(Hamamura &Chan,2020),因此,网络搜索数据在心理学研究中具有广阔的应用前景。

新冠疫情期间的公众心理健康是近年来心理学领域中的热点议题,随着大数据技术的发展,网络搜索数据得到了越来越多研究者的关注。本文旨在综述基于网络搜索数据的基于疫情的心理健康的相关测量研究,呈现疫情期间公众心理健康的变化及影响因素,并讨论网络搜索数据作为研究工具的优势与局限,为后续研究提供启示。

2 网络搜索数据概述

2.1 网络搜索数据的形式

谷歌趋势提供不同地区特定搜索项的时间序列指数,用以描述相对搜索量(Relative Search Volume,RSV),反映特定主题搜索量在总搜索量中的相对比例。该指标由某一地区某时间段内对某个特定词或主题的搜索量除以该地区该时间段内所有搜索的数量得到(Choi &Varian,2012)。与谷歌趋势不同,百度指数提供的是绝对搜索量。

Vaughan和Chen(2015)比较了谷歌趋势和百度指数这两种数据来源,发现尽管在技术上存在差异,但两者的搜索量数据高度相关。但在数据的可用性方面,谷歌趋势能将搜索量限定在特定的类别或子类别,而百度指数则能提供更多的数据。而在应用方面,目前心理学研究中谷歌趋势的应用更广泛(Gianfredi et al.,2021)。

2.2 网络搜索数据分析方法

研究者采用多种方法进行网络搜索数据分析。Nuti等(2014)的综述研究表明,2009~2013年间的70篇研究中,70%使用了时间趋势分析(跨时间段比较),11%进行了横断面分析(在单个时间段内不同地点的比较),19%的研究同时使用了这两种方法。在有关疫情期间心理健康测量的研究中,以上三种情况均有涉及。例如,Leon和Hernandez(2021)采用横断面分析考察了西班牙不同地区疫情期间抑郁和焦虑的搜索量,发现了地区间的显著差异。Uvais和Rasmina(2020)比较了印度地区疫情前后有关焦虑、抑郁和自杀的搜索量,发现了上述主题搜索量的增加。Li等(2022)对美国、巴西和印度的研究发现,疫情发生后重性抑郁障碍的搜索量增加,而这种趋势在巴西和印度更为明显。

研究者们结合谷歌趋势输出数据使用多种方法进行统计,包括相关分析、方差分析、t检验、多元线性回归、连续密度隐马尔可夫模型(continuous density hidden Markov model)、Box-Jenkins传递函数模型(Box-Jenkins transfer function model)、时间序列分析(time series analysis)、Mann-Whitney检 验(Nuti et al.,2014)等。在围绕疫情心理健康的测量研究中,时间序列分析中的差分整合移动平均自回归(Autoregressive Integrated Moving Average,ARIMA)模型应用较多,该模型将时间序列视为一组依赖于时间的随机变量,其中单个序列值的出现具有不确定性,而整个序列的变化呈现一定的规律性(Swaraj et al.,2021)。例如,Sycińska-Dziarnowska等(2021)采用该方法,根据2016年9月到2021年9月的数据,预测了此后两年内,“抑郁”“孤独”的搜索量分别会下降15.3%和7.2%,失眠症和精神科医生的搜索量分别增加5.2%和8.4%。

3 网络搜索在疫情心理健康研究中的应用

系统检索Web of Science、PubMed、中国知网等论文数据库中有关网络搜索和疫情心理健康的文献,英文搜索词包括“Google trend”“Baidu index”“online”“Web”“Internet”“search”“ment al health”“covid-19”,中文搜索词包括“百度指数”“谷歌趋势”“网络搜索”“心理健康”“新冠疫情”,合理运用布尔逻辑运算符连接,纳入新冠疫情后开展的、网络搜索主题词包含心理健康变量的、经同行评议的实证研究,截至2023年4月20日共纳入44篇,均为英文文献。

基于网络搜索数据的疫情心理健康测量研究主要有四种目的:跨时间比较、跨地区比较、探究疫情与心理健康的相关性以及验证网络搜索数据有效性。其中跨时间比较研究关注疫情前后公众心理的变化;跨地区比较研究关注同一时间段内不同地区公众心理健康状况的差异,可以与跨时间比较相结合;疫情与心理健康的相关研究关注疫情的严重性和防控措施与心理健康变量之间的相关性;验证性研究通常结合传统测量工具和网络搜索数据,考察心理变量间的关系,并检验两种途径所得结果的一致性。针对中国的研究数据来源为百度指数,其余研究均采用谷歌趋势的数据。由于涉及跨地区比较的研究同时涉及疫情与心理健康相关研究的范畴,下文将对“跨时间比较”和“疫情与心理健康的相关性”两方面的研究进行介绍。

3.1 围绕疫情的跨时间比较研究

一些研究使用ARIMA模型或线性模型,基于疫情前数据预测疫情后心理变量的搜索量,再比较疫后实际搜索量与预期的差异。这些研究发现,疫情后全美国范围内“自杀”相关的搜索量减少(Ayers et al.,2021;Halford et al.,2020),但“心理健康服务”搜索量增加(Halford et al.,2020),并且“抑郁”和“急性焦虑”的相关搜索量也增加(Ayers et al.,2020;Li et al.,2022)。然而,在纽约州“自杀”和“抑郁”相关的搜索量却均保持不变,但恐慌和失眠相关词汇的搜索量增加(Stijelja &Mishara,2020)。上述不一致的研究结果可能是谷歌趋势所涵盖的搜索地区范围不同导致的。

也有研究直接比较疫情前后的搜索量数据差异,得出了更为复杂的结果。对于自杀相关主题词,疫情前后印度(Uvanis &Rasmina,2020)和中国(Chen et al.,2022)的搜索量增加,而欧洲(Brodeur et al.,2021)、美国(Brodeur et al.,2021;Sinyor et al.,2020)和全球范围内(Sinyor et al.,2020)的搜索量减少。但对于抑郁相关主题词,中国的搜索量减少(Chen &Zhang,2020),印度的搜索量增加(Uvanis &Rasmina,2020),美国和全球范围内的搜索量不变(Sinyor et al.,2020)。对于焦虑相关主题词,新加坡的搜索量不变(Chew,2022),印度(Uvanis &Rasmina,2020)、美国(Hoerger,2020)的搜索量增加。而针对全球范围的研究发现了不一致的结果,Mattiuzzi和Lippi(2022)的研究发现焦虑相关的搜索量增加,而Sinyor等(2020)的研究发现该搜索量减少。对于失眠相关主题词,两项针对中国的研究结果不一致,Chu等(2022)采用t检验发现失眠相关的搜索量增加,而Chen和Zhang(2020)采用Mann-Whitney检验发现该搜索量不变。上述结果不一致可能是因为这些研究选取的疫情前和疫情后的时间段及所用的数据分析方法不同。此外,研究还发现了中国与美国“恐慌”“心理健康服务”搜索量的增加(Chen &Zhang,2020),欧洲及美国“担忧”“无聊”“孤独”“悲伤”相关的搜索量增加(Brodeur et al.,2021),全球范围内“担忧”“压力”等主题词的搜索量增加(Mattiuzzi &Lippi,2022)。值得注意的是,Sinyor等(2020)的研究发现“自杀”“焦虑”和“绝望”的搜索量大幅减少的同时,“希望”生存和“韧性”的搜索量增加,表明相较于研究者的预期,人们可能拥有更为强大的适应疫情压力的能力(Hoerger et al.,2020)。此外,消极主题词搜索量下降也可能是由于疫情期间社会凝聚力增强(Reger et al.,2020)。但Sinyor等(2020)也指出,他们只考察了疫情的早期阶段,而疫情和防控措施可能会对相关变量产生更为长远的影响,此问题仍有待进一步研究。

针对上述结果,有研究者认为,文献中消极心态搜索量不变的结果可能与人们的心理健康意识有关。具备心理健康知识的人可能不会在网络上搜索与心理状况相关的词条,而更倾向于选择直接的心理健康服务(Chew,2022),“心理健康服务”搜索量的增加支持了该推测。此外,这类研究考察的时间跨度较短,难以捕捉到长期的心理变化。而且,由于社会文化等因素的影响,地区差异也存在。总体而言,这类研究受时间和地域的影响较大,研究结果有矛盾之处,仍需更多关于机制的解释和验证。

3.2 疫情与心理健康的相关研究

有文献考察了疫情病例数、死亡人数和防控措施等因素与心理健康主题词搜索量的联系。

在疫情严重性方面,针对印度的数据显示,新冠肺炎病例数与“抑郁”“焦虑”和“自杀”的搜索量之间呈正相关(Rana &Singh,2020;Uvais,2020);而在美国、英国、加拿大和澳大利亚,新冠肺炎流行率与恐惧相关搜索量呈正相关(Du et al.,2020);在中国,病例数与失眠(Kong et al.,2022)以及心理健康相关主题(Yao et al.,2022)的搜索量呈正相关。Lin等(2020)对19个国家的研究发现,新冠死亡人数与失眠搜索量增加的天数呈正相关,与“抑郁”和“自杀”搜索量不相关,Lin等(2023)对45个国家在失眠的搜索上发现与之相同的结果,而死亡人数和“自杀”搜索量呈负相关。Roy等(2023)对美国四个州的研究采用二元分割法识别出每个心理健康主题词搜索量的三个变化点,同时发现死亡率与大部分主题词搜索量的相关性不显著,甚至为负相关,由此得出结论,心理健康主题词的搜索行为受疫情持续时间而非严重性的影响。此外,Roy等(2023)还发现,在美国不同的州,死亡率与心理健康搜索量的相关性不同,Misiak等(2020)发现,在不同国家之间,“抑郁”“自杀”“焦虑”“失眠”的搜索量与病例和死亡人数的相关性有所差异,而意大利病例数与心理健康搜索量的相关性因疫情阶段变化而不同(Rovetta &Castaldo,2020),说明时间和空间都是相关性的影响因素。

在防控措施方面,德国发布防控政策后,有关社会生活和心理社会功能的搜索量长期增长(Rotter et al.,2021)。意大利研究发现,封控后的阶段“失眠”和“抑郁”的搜索量达到了峰值(Monzani et al.,2021)。与此类似,美国研究发现,活动范围缩小与“心理健康”和“自杀”的搜索量呈正相关(Gimbrone et al.,2021)。在中国,在封控期间,“焦虑”“抑郁”“失眠”的搜索量增加,并且这一趋势的恢复期为3~ 6个月(Ma et al.,2022)。然而,Jacobson等(2020)发现了相反的结果,美国居家令的执行与“自杀意念”“焦虑”“消极想法”和“睡眠障碍”的搜索曲线显著变平有关,可能的原因是疫情居家有助于减少个体的社交压力(Hoerger et al.,2020)。一些研究在不同的心理健康主题词及防控措施间发现了更为复杂的结果。Brodeur等(2021)对欧洲和美国的研究发现,封控增加和减少无聊、恐慌的搜索量,对“压力”“悲伤”“担忧”“自杀”的搜索量在短期内没有影响。de la Rosa等(2022)对于九个国家的研究发现封控和取消公共活动的政策与抑郁相关搜索量之间呈负相关,居家令与“焦虑”搜索量呈负相关,关闭工作场所、隔离高危地区人群等政策与“自杀”搜索量也呈负相关,仅在关闭学校的政策和“抑郁”搜索量之间发现正相关。空间因素同样影响防控措施与心理健康主题搜索量之间的相关性,关闭学校的政策发布后,加拿大和美国的“自杀”搜索量呈上升趋势,而英国和澳大利亚等国家的相应指标没有变化(Burnett et al.,2020),Gyorda等(2023)发现,美国政府发布佩戴口罩的政策后,“不安”的搜索量增加,“易怒”和“焦虑”的搜索量在共和党执政的州有所增加,而在民主党执政的州有所减少。

两项研究同时考察了中国疫情的严重性和防疫举措对心理健康相关搜索量的影响。Kong等(2022)的研究表明,新冠肺炎疫情的严重性加剧了防疫举措对睡眠质量的负面影响。而Zhou等(2023)对2020年武汉和2022年上海的研究发现,封城期间心理健康问题的原因不是疫情传播,而是防疫举措的实施,随着对病毒认识的深入和死亡风险的降低,防疫举措的心理影响逐渐增加。

总体来说,相关研究的结果也是因时因地而异的,疫情及防疫举措对心理健康的短期影响和长期影响可能有所差异,不同国家甚至不同城市之间也存在异质性,因此此类研究结果的普遍性和可推广性有待进一步探讨。

3.3 网络搜索数据有效性的验证

虽然谷歌趋势和百度指数等网络搜索数据已经应用于大量研究,但其能否成为心理变量测量的有效工具仍需检验。

Vaidyanathan等(2022)将谷歌症状搜索数据集(SSD)与美国国家综合征监测计划(NSSP)、美国家庭脉动调查(HPS)的数据进行比较,发现网络搜索的汇总数据可以作为现有调查方法的补充,提供即时的、持续的心理健康状况信息。Zhang等(2020)使用九项患者健康问卷(PHQ-9)和广泛性焦虑量表(GAD-7)测量了谷歌和YouTube用户的抑郁和焦虑症状,并建立机器学习模型探究谷歌和YouTube搜索数据对自我报告结果的预测作用,发现搜索行为与自我报告结果高度相关,说明了网络搜索数据的有效性。

然而,也有研究发现,谷歌趋势和自我报告的抑郁、焦虑、自杀意念等结果不相关或呈负相关,研究者认为,在突发公共卫生事件中谷歌趋势似乎不能作为心理健康水平变化的可靠指标,但同时研究者也指出该研究存在一定的局限,例如样本同质性高、缺乏抑郁焦虑水平更高的被试、缺乏疫情前的客观心理健康数据(Knipe et al.,2021)。总体而言,网络搜索数据在心理健康测量领域的有效性得到了部分验证。

4 总结与展望

4.1 疫情期间的心理健康

基于网络搜索数据的研究考察了抑郁、焦虑、自杀、失眠、压力、心理健康服务等与心理健康相关的变量,然而对于这些变量的搜索量在疫情期间如何变化、与疫情严重性和防控措施有无相关性的问题,已有研究的结果不一致。

根据压力过程模型,新冠疫情作为应激源,是对心理健康消极影响的主要机制(Thoits,2010)。恐惧管理理论也认为,人与其他动物一样都有求生怕死的本能,但人类能意识到自己面临死亡的威胁,生的本能与死亡意识的并列导致了死亡焦虑(Burke et al.,2010),而新冠疫情作为死亡凸显的一种形式会引发人们的恐惧和焦虑。因此,新冠疫情的暴发和严重性可能与心理健康状况恶化有关,而根据网络搜索研究的假设,这种改变会体现在相关词条的搜索量上。

同时,人们在面对压力时也会发展出应对策略。在压力过程模型中,个人特质、缓冲器(如社会支持和生命意义感等)、应对方式会影响个体对压力的反应(Thoits,2010)。根据恐惧管理理论,人们会采取措施来应对疫情引发的死亡焦虑,包括三种方式:世界观防御、自尊和亲密关系(Burke et al.,2010)。两项研究发现新冠疫情暴发后,公众对于死亡、群体间冲突和亲社会行为的搜索大幅增长,说明人们采用了世界观防御和自尊两种防御机制(Chew,2022;Evers et al.,2021),理论假设得到验证。此外,当生命受到威胁时,人们可能会更重视自己的生命,导致自杀意念的减少(Reger et al.,2020),还有观点认为居家令发布后人们与家人的接触交流增多,从而减少了抑郁和焦虑等症状(Blair,2020)。然而,搜索量这一指标难以捕捉到心理健康状况的转变过程,研究者们也难以仅通过搜索量数据阐释变化背后的机制。因此,未来的研究需将网络搜索数据与其他类型的数据相结合,对心理健康状况的变化做出描述、解释和预测。

4.2 网络搜索数据的优势

首先,数据客观,生态效度高。传统研究常用的自我报告法易受被试的记忆和主观意识的影响(苏悦等,2021),网络搜索数据来自搜索引擎客观记录,比自我报告更客观。同时,大样本量也是网络搜索数据的优势。

其次,时间分辨率高,可以自定义时间范围。疫情形势多变,公众的心理健康状况也随之变化,在涉及时间维度的研究主题中,网络搜索数据充分发挥着优势。例如,Mozani等(2021)根据意大利的疫情传播情况,将疫情前至第二波疫情来临这段时间分为六个阶段,并呈现了不同主题词搜索量随时间变化的情况。

再次,与用户的心理动机密切相关。网络搜索数据记录用户主动的搜索行为,而行为背后的心理动机值得关注。已有研究表明,健康动机影响人们的健康信息获取和维护行为(Moorman &Matulich,1993),个体更强的健康信息搜索意愿带来搜索行为的增加(Yoo &Robbins,2008)。因此与被动收集的地理位置信息等大数据相比,有关心理健康网络搜索数据可以在一定程度上反映人们对相关信息的关注和需要。

另外,数据易得,可以经济有效地获取准确的数据。传统大规模的社会调查通常需要大量的时间和人力成本,且数据存在滞后性,而网络搜索数据几乎是即时的,可以随时在网站上查询。当前社交媒体数据也是常用的大数据形式之一,但与网络搜索数据相比,社交媒体数据建模的方法学习成本较高,需要大量计算机专业知识,给心理学及社会科学的研究者们带来挑战(苏悦等,2021)。网络搜索数据的易得性也使其易与社交媒体数据(Zhang et al.,2020)、地理位置数据(Lin et al.,2023)等相结合,为研究提供更丰富全面的数据。

最后,在公共政策方面具有应用价值,将以往的心理学研究从个体层面扩展至群体层面。由于记录了用户的地理位置,网络搜索数据可以为有关地区政策的研究提供最新的信息。与在个人层面收集数据的传统研究相比,使用网络搜索数据的研究可进行群体层面的分析,为政策制定提供参考。例如,Silverio-Murillo等(2021)针对拉丁美洲的研究发现在国家发布收入支持政策后,公众对于自杀和失眠的搜索有所减少,说明在疫情中缓解经济压力对公众心理健康有益。

4.3 网络搜索数据的局限

首先,信效度待提高。网络搜索数据研究的前提假设是用户对某一主题的搜索体现了其对该主题的兴趣和关注,而心理健康领域的研究进一步假设搜索量与心理健康状况有关,但该假设是否成立还有待验证。此外,研究中选取的搜索主题非常关键,对具体搜索的内容以及所选主题词的依据的报告是一项研究可重复性的保障。未来的研究应在搜索主题词的选择上采用概念和实证相结合的方法,并进行信度和效度检验,以确保测量方法的科学性。

其次,存在抽样偏差。虽然网络搜索引擎的用户覆盖较广,但仍不能覆盖全部人群,因此网络搜索用户和一般人群之间可能存在差异。而且,搜索引擎种类繁多,仅选择一个搜索引擎的数据进行分析时也可能存在抽样偏差。

再次,网络搜索数据因时因地而异,某项研究发现只可看作一次兼具偶然性和潜在规律性的抽样结果,可能并不具有普遍性。

最后,分析水平受限。网络搜索数据的空间分析水平尚不能精确到个体层面,因此难以将搜索行为与用户的其他个体特征联系起来。由此分析方法得到的结果在个体层面的可推广性需要进一步研究。

基于上述优势和局限,未来的网络搜索研究应充分地利用时间和地理位置等信息,探索传统测量方法难以考察的研究领域,同时提高信效度,并加强对其背后机制的探讨。

猜你喜欢

主题词新冠心理健康
心理健康
心理健康
心理健康
心理健康
新冠疫苗怎么打?
您想知道的新冠疫苗那些事
宁愿死于新冠,也要自由?
珍爱生命,远离“新冠”
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词