APP下载

基于LDA主题模型的用户心理健康信息需求研究

2024-04-14姚宛京

现代信息科技 2024年1期

DOI:10.19850/j.cnki.2096-4706.2024.01.037

收稿日期:2023-05-18

摘  要:文章通过研究社会化问答社区用户的心理健康信息需求,为心理健康信息的传播和推广提供有价值的参考,并为心理健康领域的研究提供新的视角和思路。选取知乎平台心理健康话题下的5 448条提问记录作为数据集,利用LDA主题模型和人工标注的方法,结合马斯洛需求层次理论,构建出用户心理健康需求框架,接着通过分析主题和关键词,研究用户心理健康信息需求特征。结果表明,用户更倾向于在夜间提出负面的心理健康问题,用户的心理健康需求主要集中在症状和社会需求层面,对疾病预防缺乏应有的关注度。

关键词:社会化问答社区;心理健康;信息需求;LDA主题模型

中图分类号:TP391;G203;R-05    文献标识码:A  文章编号:2096-4706(2024)01-0175-06

Research on Users' Mental Health Information Needs Based on LDA Topic Model

—A Case of Social Q&A Community“Zhihu”

YAO Wanjing

(School of Information Resource Management, Liaoning University, Shenyang  110136, China)

Abstract: By studying the mental health information needs of social Q&A community users, this paper provides valuable reference for the dissemination and promotion of mental health information, and provides a new perspective and thinking for the research in the field of mental health. 5 448 question records about the topic of mental health on Zhihu platform are selected as the data set, the LDA topic model and manual annotation method are used, combined with Maslow's Hierarchy of Needs, to construct the framework of users' mental health needs, and then the characteristics of users' mental health information needs are studied by analyzing topics and keywords. The results show that users are more likely to raise negative mental health problems at night, and the mental health needs of users mainly focus on the level of symptoms and social needs, without due attention to disease prevention.

Keywords: social Q&A community; mental health; information need; LDA topic model

0  引  言

心理健康是健康的重要组成部分,是人在成长和发展过程中,认知正确、情感适当、性格得当、行为恰当、适应良好的一种完好状态。当前,随着人们生活节奏的不断加快,工作、学习、家庭等方面的压力不断加剧,公众心理健康问题及其引发的社会问题逐渐显露出来[1]。在中共中央、国务院印发的《“健康中国2030”规划纲要》中指出,要大力宣传心理健康科普知识,不断提升我国公民的心理健康素质,对于心理问题重点人群,应做到早期发现和及时干预[2]。同时在数字化网络时代,公众对心理健康信息需求的表达更多地转向线上平台,如何更好地营造心理健康信息环境成为政府和互联网平台关注的焦点。因此,互联网用户的心理健康信息需求具有研究价值,通过挖掘用户心理健康信息需求的特点,可以掌握用户心理健康信息需求的主题偏好,更有针对性地为用户提供心理健康知识服务[3]。

社会化问答社区是目前问答类社区的主要形式,用户可以在其中相互提问、回答和分享知识。知乎平台在社交化问答社区中拥有着重要的地位和影响力。在知乎中,用户可以加深对知识的分享和人际的沟通,同时由于引入了协作机制使得离散的知识得以汇集,同时使得用户间的融合变得更为紧密。知乎平台是心理疾病患者交流信息、寻求帮助的主要渠道之一,在心理健康话题下的提问数据已累计达到22万余条,而现有关于该话题的健康信息需求研究较为貧瘠。国内关于健康信息需求的研究主要是针对特定的疾病,如抑郁症[4]、糖尿病[5]、高血压[6]等,研究主题大多是对健康信息需求内容的比较分析[7],也有研究通过人工标注的方法对采集到的数据进行主题分析[8],但其所涉及的数据量以及对心理健康信息需求的分析较少。因此,为了解当前网络环境下用户对心理健康信息的各类需求,本文以知乎为例,选取该平台上心理健康话题的5 448条提问记录为研究对象,基于管理学领域的马斯洛需求层次理论,构建出用户心理健康信息需求框架,从而分析用户心理健康信息需求特点,实现对用户心理健康信息需求特征的度量,为心理健康领域的研究和实践提供新的思路,为更好地营造心理健康信息环境提供参考。

1  研究设计

1.1  数据来源与采集

本文以国内最大的社会化问答社区——知乎为例,在知乎上,用户可以进行提问、讨论和互动。对于其他用户所提出的问题,除了回复,还可以关注问题、赞同、分享和收藏。截至2022年12月,知乎中“心理健康”话题的浏览量超过48亿,讨论量达到462万。本文利用爬虫技术爬取了知乎平台“心理健康”话题下2022年9—12月所有的提问,获得了5 448条提问记录,形成了心理健康提问数据集,包括标题、描述、提问时间、关注者数、回答数以及浏览数。

1.2  数据处理

本文首先采用专业词库作为语料库,并导入停用词表对心理健康提问数据集做文本预处理。之后对提问数据进行分词,将分词后的数据类型转变为语料的形式,最终构造成文档词条矩阵(DTM)。

1.3  LDA主题模型

本文使用潜在狄利克雷分布(LDA)主题模型来对用户心理健康信息需求文本数据集进行分析。LDA主题模型是一个包含词语、主题、文档的三层贝叶斯概率模型,是一种无监督学习的文档主题生成模型[9]。LDA主题模型能够很好地发现隐藏的主题,对文本数据进行主题划分,为本文构建用户心理健康信息需求框架提供参考依据。其原理图模型如图1所示。

本文一共有M篇文档,共涉及K个主题。每个文档被建模为主题的多项分布,每个主题被建模为单词的多项分布,其参數服从Dirichlet分布。在主题分布下,该Dirichlet分布的参数为α;在词分布下,该Dirichlet分布的参数为β。对于某篇文档中的第n个词,首先从该文档的主题分布中采样一个主题,然后从该主题对应的词分布中采样一个词,不断重复上述的随机生成过程,直到M篇文档全部完成。

在LDA主题模型中,每个主体或每个词的抽样过程都是独立的,其中,第m篇文档的联合概率分布为:

(1)

整个文档集合的联合概率分布为:

(2)

第m个文档生成的概率为:

所有文档生成的概率为:

1.4  需求识别

由于本文涉及医学健康领域的知识,仅依靠LDA主题模型的分类无法保证其准确性,因此需要将LDA主题划分结果进行进一步的需求识别。本文以LDA主题模型划分结果为参考依据,结合管理学领域的马斯洛需求层次理论[10],最终构建出用户心理健康信息需求框架。接着利用TF-IDF提取出需求框架中各类型的主题关键词,对提取出的关键词进行词频分析,绘制出词云图,将结果可视化。

2  用户心理健康信息需求分析

2.1  数据基本情况

本文通过获取知乎平台心理健康话题的提问数据,共采集到5 448条用户心理健康信息需求数据,并对数据的基本特征进行了统计,统计结果如表1所示。

如表1所示,心理健康话题下标题的平均长度为18.52,问题描述的平均长度为112.74。有29.44%的问题描述的长度大于或等于50。标题与描述的长度呈弱正相关(r = 0.235 6,P<0.01)。通常问题标题的长度越长,描述的内容越详细。5 448个心理健康问题的平均浏览量为3 577.24,但关注数和回答数较少,分别为15.18和12.03。通过对数据的进一步分析,发现提问回答数和关注数的标准差较大,这表示用户对不同类型的信息需求的关注度差异较大。本文对用户的提问时间进行了统计分析,根据数据显示,几乎一半的用户会选择在晚上进行提问,上午、下午、晚上的提问者比例分别为:30.39%、20.45%、49.16%。

为了进一步掌握用户心理健康信息需求的主题偏好,本文对主题关键词进行词频分析,绘制出心理健康主题词云图,词云图中包含词频排名前50的主题关键词,如图2所示。

如图2所示,“抑郁”(912)、“父母”(910)是用户重点关注的话题。抑郁症是现在最常见的心理疾病,“抑郁”(912)出现频次最高,其他以病症名称命名的话题标签如“焦虑”(625)、“强迫症”(213)、次之。家庭关系是人际关系中最为亲密的一种关系,父母的心理健康水平会对孩子的心理健康水平起重要作用,其中“父母”(910)频次最高,“家庭”(361)次之。“情感”(760)是公众重点关注的心理问题,情感的调适与心理健康的关系最为密切,一个人若经常情感低落,心情苦闷,则可能是心理健康出现问题的表现。与之相关的话题标签如“心情”(446)、“崩溃”(237)、“绝望”(192)、“孤独”(115)的出现频率均超过100。此外,还存在“咨询师”(682)、“心理咨询”(370)等关键词,这说明心理咨询对促进大众心理健康有着很大的帮助。由此可见,虽然医学健康领域知识的专业性较强,一些专业的名词不容易被非医学专业人员所认识和理解[11],但健康信息的需求性并没有因此而减弱。随着人们健康意识的不断提高,人们不再是得了病才去关注疾病,更多的人愿意主动去询问或描述自身健康方面的变化,更加重视疾病的预防和保健。

2.2  用户心理健康信息需求框架

由于LDA主题模型是一个无监督模型,除了要设置超参数α和β的值外,还需要确定最优主题数K,K的取值会直接影响着整个模型的优劣[12]。如果K值偏小,那么在一个主题中可能会包含多个类别的语义;如果K值偏大,可能会划分出语义相近或重复的主题。本文利用困惑度来确定主题数目,在LDA主题模型中,最优主题数K一般选取困惑度最小值时的主题的个数。本文设置K为(1~10)界限范围对数据集进行训练,求出其对应的困惑度值,通过绘制主题-困惑度折线图展现其变化情况,如图3所示。

根据图3可以看出,随着主题数的不断增加,困惑度呈下降趋势,从主题数等于9开始,折线趋于平缓,因此本文最终确定设置LDA主题模型的主题数为9,将9作为参数输入LDA主题模型中并进行主题建模。对LDA主题模型的结果进行整理,根据每个主题下的词语分布情况,对各主题进行归纳和主题标注,得到初步的心理健康信息需求主题分类,每个主题下分别生成5个最有可能出现的词语,结果如表2所示。

根据上文得到的心理健康信息需求主题分类,对LDA主题模型分类错误的问题进行纠正标注,同时结合马斯洛需求层次理论,将健康信息需求划分为认知需求、情感需求和自我实现需求三大类,最终得到本文的用户心理健康信息需求框架,需求框架如表3所示。

2.3  用户心理健康信息需求特征

为了能够更直观的观察用户心理健康信息需求的特征,展示需求框架的比例结构,本文统计了框架中每个主题类目下提问的数量,绘制出双层饼图,如图4所示,其中内、外圈分别代表了用户心理健康需求的3个大类和9个子类。

如图4所示,用户心理健康信息需求占比最大的是认知需求(58.39%),占比最小的类别是自我实现需求(18.48%)。在子类中,需求的描述以症状(27.96%)和社会生活(23.13%)为主。通过详细浏览提问内容,可以了解用户心理健康信息需求主题偏好,用户最常询问治疗的精神疾病是抑郁、焦虑、双向情感障碍和强迫症。

症状需求的重点是询问是否患有心理疾病的某些症状,如“抑郁症是否会使睡眠质量低或产生自杀倾向”。提问者不局限于用户自己,还有很大一部分是用户的亲人或朋友,往往提问者与患者的亲密度越高,提问的描述越详细。

社会生活需求主要体现在人际关系,包括家人(父母对我很好,但我总会想象到有关他们不好的事情发生。我明知不该乱想,但控制不住。是我太关心他们了吗?)、男朋友或女朋友(男朋友有心理问题,我该怎么帮助他?)和同學、同事或朋友(感觉朋友无法提供情感价值,付出回报不对等,心里经常不平衡怎么办?)。此外,社会生活需求也体现在生活事件,如转学、搬家、做手术、目睹意外事件等,重大或突发的生活事件常常会对人的心理健康产生不同程度的影响。比起其他的非精神疾病患者,心理健康出现问题的人群需要社会更多的关注,所以他们也更关注社会生活。

为了进一步研究用户的情绪需求,本文将1 260个情绪需求划分为积极、中性和消极。在1 260个情感需求问题中,其中只有28个提问是积极情绪。比如:“有没有在家通过运动缓解焦虑的小伙伴,一起打卡运动互相监督呀!”负性情绪占比最大,占63.81%,比如:“为什么经常会因为陷入回忆而情绪低落甚至是愤怒,我到底该怎么办?”这与心理健康出现问题时会产生情绪问题障碍有关。用户选择在社会化问答社区提问的原因之一是想获得和分享情感支持。在提问中常出现“怎么回事”“怎么办”“哪些”等表示疑问的词语,说明用户对于自身掌控的心理健康的相关信息是具有不确定性的。在提问中还常出现表达负面情绪的词语,如“担心”“紧张”“沮丧”“崩溃”,用户通过表达自己的心情,希望在社会化问答社区中能够获得情感支持。

3  结论与建议

3.1  研究结论

本文对知乎平台心理健康话题下用户的提问进行了分析,构建出社会化问答社区用户心理健康信息需求框架,并通过分析主题和关键词,研究用户心理健康信息需求特征,得出以下结论:

3.1.1  用户更倾向于在夜间提出负面问题

结果显示,有49.16%的用户选择在夜间提问。这与现实情况是相吻合的,通常人们在晚上八点之后会更悠闲,在深夜尚未入睡的人群可能会感到沮丧、压抑、闷闷不乐,因此在此时间段提问者的占比是最大的。为了研究不同提问时间与情绪之间的关系,本文将积极、中性、消极情绪分别标记为?1、0、1,然后与提问时间进行相关分析。结果显示,情绪与提问时间的相关性较弱(r = ?0.120 07,P<0.05),说明心理健康用户更倾向于在夜间提出负面问题。

3.1.2  用户更关注认知需求

本文发现,用户对心理健康话题关注的重点主要集中在认知需求。认知需求占比最大的原因有二。其一,社会化问答社区为心理健康用户提供了一个知识分享的平台,这恰好满足了用户的认知需求;其二,与自我实现需求和情感需求相比,认知需求是在三类需求中位于最底层的需求,意味着提问者更加不受身份和专业知识的限制,提问范围更加广泛。

3.1.3  用户对症状和社会生活的关注程度较高

除此以外,用户心理健康信息需求主要集中在描述或询问症状和社会生活为主,最常询问治疗的精神疾病是抑郁、焦虑、双相情感障碍和强迫症,涉及治疗(1.32%)和预防(0.13%)的问题最少。症状和社会生活两类描述的占比最高,也可以在一定程度上体现出社会化问答社区的特点:一方面,社会化问答社区用户对疾病的症状有学习和了解的需求;另一方面,社会生活常常会对人们心理造成一定影响,作为一个公共知识平台,社会化问答社区为用户答疑解惑提供了一个非常便利的渠道。

3.2  建议与期望

综合本文的研究结论,为平台营造更好的心理健康信息环境,提出以下建议:

首先,平台应增加对用户的情绪支持。由于用户的表达能力存在差异,可能会出现用户对问题表述不明确的情况,这使得平台对用户的情绪支持难度增大。平台可以通过界定用户感兴趣的健康话题范围,并根据不同话题之间的差异程度提供个性化的健康信息服务,例如在心理健康话题中,可增添在线一对一心理咨询服务,针对大众越来越多元化的生活方式,制定对应的服务领域,如学业、情感、人际关系、就业、个人适应与发展等。

其次,平台应增强与用户的互动性。平台通过与用户互动,提高用户的活跃度,及时了解用户的需求。可以增添一个用户可自定义的模块,在此模块中,用户可以随时更改自己感兴趣的话题标签,平台可根据标签的变化,从而分析用户的需求及其趋势。

最后,平台应助力科普类心理健康自媒体的发展。用户搜索健康信息有助于对健康知识的积累,但是不同的知识来源对健康知识的积累效果是不同的[13]。专业性不强的自媒体可能会误导大众,如在心理健康领域,常出现靠直觉、经验和鸡汤来解读心理学的现象,这不但无益于用户心理健康,还会加剧大众对心理学、心理障碍以及心理咨询的误解。科普类心理健康自媒体的内容大多包括情绪调节、自我成长等,平台可以通过科普类心理健康自媒体,不断地添加和回答专业的健康知识,提供科学的管理心理健康的技巧,以此来实施更专业化的管理。

4  结  论

本文基于马斯洛需求层次理论,运用LDA主题模型和人工标注相结合的方法,构建了用户心理健康信息需求框架,充分了解了用户心理健康信息需求的特点,为制定和完善心理健康的宣傳、推广及相关健康科普和信息传播工作提供了启示,为心理健康领域的研究提供新的视角和思路。本文也存在一定的局限性,在后续的研究中,可以结合其他互联网平台的心理健康数据,或结合知乎平台心理健康话题下的子话题数据进行分析,以此更全面的探究互联网用户心理健康信息需求。此外,还可以通过设计其他算法进行数据聚类和主题提取,研究主题的变化趋势,从而更好地探究本文方向。

参考文献:

[1] 民政部网站.22部门印发《关于加强心理健康服务的指导意见》[EB/OL].[2023-04-21].http://www.gov.cn/xinwen/2017-

01/24/content_5162861.htm#1.

[2] 新华社.中共中央国务院印发《“健康中国2030”规

划纲要》[EB/OL].[2023-04-21].http://www.gov.cn/zhengce/2016-

10/25/content_5124174.htm.

[3] 成全,郑抒琳.在线健康社区用户信息需求的层级多标签分类研究 [J].情报理论与实践,2023,46(2):100-108.

[4] 刘烁,陈盼,杨冰香,等.基于知乎抑郁症问答社区的用户健康信息需求分析 [J].护理研究,2021,35(13):2273-2279.

[5] 金碧漪,许鑫.社会化问答社区中糖尿病健康信息的需求分析 [J].中华医学图书情报杂志,2014,23(12):37-42.

[6] 龙菊艳.高血压病的护理及健康教育 [J].名医,2018(4):121-121.

[7] 周国韬,龚栩,邓胜利.基于主题分析的用户养生健康信息需求演化趋势研究 [J].情报科学,2022,40(4):118-126+137.

[8] 李重阳,翟姗姗,郑路.网络健康社区信息需求特征测度——基于时间和主题视角的实证分析 [J].数字图书馆论坛,2016(9):34-42.

[9] 胡吉明,陈果.基于动态LDA主题模型的内容主题挖掘与演化 [J].图书情报工作,2014,58(2):138-142.

[10] 晋铭铭,罗迅.马斯洛需求层次理论浅析 [J].管理观察,2019(16):77-79.

[11] 刘嫣,张海涛,张鑫蕊,等.基于元分析的用户在线健康信息搜寻行为影响因素研究[J].情报科学,2022,40(2):169-176.

[12] 田园,宫婷婷.基于LDA模型的在线教学需求数据主题挖掘研究 [J].情报科学,2021,39(9):110-116.

[13] 韩景倜,樊卫国,罗晓兰,等.用户健康信息搜寻行为对健康行为影响的研究进展 [J].情报资料工作,2018(2):48-55.

作者简介:姚宛京(1997—),女,汉族,辽宁沈阳人,硕士研究生在读,研究方向:用户健康信息搜索行为。