基于量表序列相似性的艾滋病患者精神卫生状况聚类分析
2023-02-09王牧雨王妮黄晓婕陈卉
王牧雨,王妮,黄晓婕,陈卉
1.首都医科大学 生物医学工程学院,北京 100069;2.临床生物力学应用基础研究北京市重点实验室,北京 100069;3.首都医科大学附属北京佑安医院 感染科,北京 100069
引言
艾滋病又称获得性免疫缺陷综合征,主要由人免疫缺陷病毒(Human Immunodeficiency Virus,HIV)感染引起,艾滋病患者由于其疾病的特殊性,常伴有严重的精神疾病倾向[1]。有研究表明,超过70%的HIV感染者存在睡眠障碍[2]。同时,长期服用治疗药物、对疾病未知的恐惧以及社会歧视等问题也对患者的生活造成压力,进而导致焦虑、抑郁等问题。目前已有大量研究对艾滋病患者焦虑、抑郁、睡眠障碍等精神卫生状况进行分析[3-5],但通常是针对其中某一项进行单独分析。有研究表明,艾滋病患者的焦虑、抑郁、睡眠障碍通常是伴随发生且相互影响的,因此,进行全面的综合分析对艾滋病患者精神卫生状况的筛查、诊断和干预有重要意义[6-8]。
医院焦虑抑郁量表(Hospital Anxiety And Depression Scale,HADS)和匹兹堡睡眠质量指数(Pittsburgh Sleep Quality Index,PSQI)量表是临床广泛应用且有良好可信度的筛查焦虑、抑郁和睡眠障碍的量表[9-10]。目前研究通常只是利用量表总分判断患者是否存在相应精神疾病倾向及程度,未充分利用每个条目所提供的丰富、差异性的信息。利用数据挖掘技术对所有单一条目的数据进行深度挖掘,可对患者精神疾病的筛查、诊断与个性化治疗提供帮助。
聚类分析是基于样本间距离、将相近样本归为一类的数据挖掘方法,如Margiotta等[11]针对74例系统性红斑狼疮患者的PSQI得分,采用基于欧氏距离的层次聚类法进行聚类分析,分析了3个聚类患者的睡眠相关特征的统计学差异。但针对量表,条目的先后顺序往往经过专家的调研与评估,条目之间存在一定影响,欧氏距离尚不能体现这种影响。基于此,本研究将量表条目作为一个有顺序的序列,使用动态时间规整(Dynamic Time Warping,DTW)算法计算序列之间的相似性,进而评估患者之间精神卫生状况的相似性,旨在提升聚类效果,以期对临床艾滋病患者精神卫生状况的评定与分析提供一定的理论依据。
1 资料与方法
1.1 数据准备
研究对象来源于首都医科大学附属北京佑安医院牵头的一项涉及全国13省市4103例艾滋病患者的横断面研究[12-14],研究中提供了完整的HADS量表、PSQI量表评分及人口社会学特征的数据,最终研究共纳入2569例患者。2个量表包含焦虑、抑郁及睡眠障碍3部分数据,均为条目及评分的形式,除PSQI中少部分条目外,其他各条目评分都在0~3分范围内。其中,PSQI共18个条目,总得分大于5分为有睡眠障碍[10];HADS中焦虑与抑郁各7个条目,各自总得分大于7分为患有焦虑或抑郁[9]。
1.2 聚类分析
量表数据由各条目的评分构成,n个条目的评分可以构成n维向量,对于这类多维数组,通常使用欧氏距离衡量相似性。但考虑到条目顺序可能对各条目评分产生影响,本研究将各条目的得分按原始的先后顺序进行排列,形成一个有时间顺序的序列,并使用DTW[15]计算序列间的相似性。
假设有2个患者量表评分序列A={ai|i=1,…m}和B={bi|j=1,…m},构造由序列A、B中元素ai和bj的欧氏距离dij组成的矩阵Dm×m。在该矩阵中找到一条从起点到终点,且满足单调性、有界性和连续性的路径,使得该路径上累积距离最小。用该累积距离反映2个序列的相似程度。对睡眠、抑郁、焦虑3个量表分别使用DTW计算相似性,将其平均后作为患者的相似性用于后续聚类分析。
层次聚类是一种基于样本间相似性的聚类方法,本研究基于患者量表相似性矩阵使用层次聚类的方法进行患者聚类分析,原始输入为患者相似性矩阵。本文使用Ward方差最小化算法[16]计算簇间相似度。
1.3 聚类结果评价
本研究从2个方面对聚类分析进行评价:① 从聚类质量的角度进行评价。使用Calinski Calinski Harabasz index(CHI)、Davies Bouldin Index(DBI)、轮廓系数(Silhouette Coefficient,SC)评价聚类质量[17],CHI越高,DBI越低,SC越高表示聚类质量越好,同时选择使得聚类质量最好的聚类数进行后续分析与评价。② 从临床意义的角度进行评价。经过聚类分析后,对每一个聚类中焦虑、抑郁和/或睡眠障碍患者所占比例确定该聚类的精神状态标签(预测标签),以根据量表评分确定的患者睡眠障碍、焦虑、抑郁状态[9-10]作为患者的真实精神状态标签,使用精确率(Precision)、召回率(Recall)和F1值(F1-score)评价聚类结果[18],计算方式如公式(1)~(3)所示。
式中,TP表示预测正确的正样本数,FP表示预测错误的正样本数,FN表示预测错误的负样本数。正样本定义为依据量表评分确定为患有某种精神障碍的患者,负样本表示不患有该精神障碍的患者。
此外,本研究还使用传统欧氏距离计算患者之间的相似性矩阵并进行层次聚类,其聚类结果作为参照,与使用基于DTW的相似性完成的聚类结果进行比较。
1.4 统计学分析
除量表评分外,患者的其他临床或人口学特征,如是否存在精神病史、是否得到家人支持等均为二分类变量,表示为n(%)。各聚类间这些特征的比较利用SPSS 22.0统计软件进行 Pearsonχ2检验,以P<0.05为差异有统计学意义。
2 结果
2.1 聚类分析的初步结果及评价
分别使用基于DTW的相似性和欧氏距离进行层次聚类,不同聚类簇数的CHI、DBI和SC指标如表1所示,在各项聚类质量评价指标中,使用2种相似性度量时均在聚为2类时达到最高的CHI和SC以及最低的DBI,即在聚类数为2时有最好的聚类质量,因此后续分析中将聚类数定为2。在聚类数为2时,基于DTW相似性的聚类相比于基于欧氏距离的聚类,CHI更高(166.24vs.72.68)、DBI更低(2.91vs.4.25)、SC 更高(0.31vs.0.16),即基于DTW相似性的聚类有着更好的聚类质量,同类样本间距离更近,异类样本间距离更远。
表1 使用不同相似性计算方法时聚类分析的质量评价
使用t分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)方法,分别以DTW和欧氏距离求得的患者相似性矩阵为基础将各患者嵌入到二维空间,结果如图1所示。可以看到使用欧氏距离进行聚类时,两类间有较多重叠,类内分布分散;而使用DTW求得患者相似性矩阵进行聚类时,同类分布更加密集,与异类距离更远。
图1 基于t-SNE技术的可视化聚类分析结果
2.2 基于患者精神卫生状况的聚类结果及评价
聚为2类时,2类患者睡眠、焦虑和抑郁情况如表2所示,使用DTW相似性聚为两类时,聚类1主要是无焦虑且无抑郁的患者(86.2%),聚类2主要是有焦虑且有抑郁的患者(44.2%)。从焦虑状况看,聚类1和聚类2各占3.7%和59.0%,聚类2中焦虑患者的比例比聚类1高出近15倍;从抑郁状况看,聚类1和聚类2占比分别为11.1%和63.0%;从睡眠障碍看,2类占比分别为28.3%和63.6%。综合来看,聚类1中有62.7%的患者无焦虑、抑郁和睡眠障碍,而聚类2中该比例仅为10.3%,因此将聚类1定义为正常组,聚类2定义为有精神障碍组。使用欧氏距离聚为两类时,2类中各精神疾病的分布与基于DTW的聚类结果相似,各部分比例有所不同。综合来看,聚类1中无精神异常患者占比67.2%,聚类2中占比为20.2%,因此同样可以将聚类1作为正常组,聚类2作为有精神障碍组。
表2 使用DTW相似性和欧氏距离进行聚类时患者精神卫生状况的分布情况[n(%)]
基于以上分组结果以及患者的真实标签,分别计算两种聚类方案的精确率、召回率和F1值。以相同的方法,分别单独利用睡眠、焦虑和抑郁量表得分计算患者相似性并进行聚类分析。聚为2类时,按照聚类结果中患者精神卫生状况有无异常的比例为各聚类赋予标签,计算各评价指标,结果如表3所示,其中使用DTW计算相似性在精神疾病聚类中相比于使用欧氏距离普遍具有更高的F1值,即使用DTW计算相似性相比于使用欧氏距离进行聚类可以更好地区分患者;另一方面,同时使用3个量表计算相似性时,F1值为0.739,高于分别使用单个量表相似性进行聚类时的F1值(0.618、0.695、0.693)。由此可见,结合多个量表的结果可以更好地对患者进行区分。
表3 单独及综合使用量表进行聚类分析的评价结果
2.3 不同聚类患者的特征分析
综合3个量表信息使用DTW相似性或欧氏距离将患者聚为2类,每类患者的人口社会学特征如表4所示。基于DTW相似性的聚类结果中,在个人精神病史、社会支持及药物服用方面,两聚类间存在明显差异。聚类2有更多患者存在精神病史(2.3%vs.1.1%,P=0.020),更多患者服用兴奋剂及相关药物(6.4%vs.3.8%,P=0.003),但获得的社会或家庭支持更少(62.8%vs.74.6%,P<0.001),表明艾滋病患者所获得的社会支持一定程度会对患者精神卫生状况产生影响;另一方面,同时伴有焦虑和抑郁的情况下(聚类2),患者更容易出现睡眠障碍(48.4%vs.23.6%,P<0.001),伴有睡眠障碍的患者更容易出现情绪低落紧张不安(48.2%vs.15.6%,P<0.001),这说明艾滋病患者的各类精神障碍并非单独存在,而是相互影响。基于欧氏距离的聚类分析得到的2个聚类中,人口社会学特征分布趋势与基于DTW相似性的聚类结果相似,包括服用兴奋剂及相关药物(5.9%vs.3.6%,P=0.008)、获得社会或家庭的支持(63.4%vs.77.6,P<0.001)以及出现睡眠障碍(40.7%vs.25.2%,P<0.001)与焦虑和抑郁(39.8%vs.19.7%,P<0.001)。与DTW相似性聚类不同的是,利用欧氏距离进行聚类时,两聚类患者个人精神病史的差异无统计学意义(2.0%vs.1.1%,P=0.083),而朋友知晓其患病的情况存在显著差异(30.5%vs.25.0%,P=0.002)。
表4 各聚类患者人口社会学特征[n(%)]
3 讨论
本研究综合艾滋病患者的焦虑、抑郁和睡眠3部分量表,基于DTW方法计算序列相似性,并进行聚类分析。目前已有研究通过量表相似性进行精神健康状况的聚类分析,如基于欧氏距离对系统性红斑狼疮患者的睡眠状况量表进行聚类分析[11],基于K-means聚类对不同性别青年的焦虑、抑郁及心理敏感敏感性量表进行分析[19]等。但针对量表的聚类分析多使用欧氏距离,本文使用DTW改进量表相似性计算方法,旨在分析更多量表上下文信息[20]。
本文分别使用聚类内部评价指标以及具有临床意义的准确性指标F1值进行了聚类方法的评价与比较。聚类质量评价方面,使用DTW相似性聚类时,类内距离更小,类间距离更大,在各项聚类评价指标中表现都优于欧氏距离。临床意义评价方面,将患者聚为2类时,使用DTW相似性聚类相比欧氏距离有更高的F1值,这说明使用DTW相似性可以更好地区分精神卫生状况正常与异常的艾滋病患者。这主要是因为DTW更多地反映了各条目得分的变化趋势,而非数值本身的大小。从这个角度来说,条目的先后顺序可能在一定程度上影响到量表使用者答题时的心理,从而影响到其得分情况。
本研究还分别使用单个量表进行聚类并以是否存在精神卫生状况异常为标准计算F1值,与融合3个量表计算相似性的聚类结果进行比较,发现融合3个量表的结果时,聚类结果的F1值更高。这主要是因为艾滋病患者的睡眠、焦虑和抑郁这3种精神状况往往存在显著相关性[21]。如宋冰等[22]针对艾滋病患者治疗期间的焦虑、抑郁与睡眠质量的研究表明,3项精神卫生状况间有显著的负性影响。故在针对精神状况进行分类时,综合多种精神状况进行整体分析,可以获得更好地结果。
针对聚类获得两组患者的其他特征进行分析发现,多数患者都愿意与家庭成员分享病情,无焦虑、抑郁和睡眠障碍的患者获得了更多家庭与社会的支持,提示应给予艾滋病患者更多的关注与支持,从而降低艾滋病患者患精神疾病的风险。边东丽[23]通过对艾滋病患者提供心理干预,使患者焦虑与抑郁评分改善明显,同样证明了外界支持对艾滋病患者精神健康状况改善的重要作用。此外,很多患者同时出现了睡眠障碍与情绪问题,进一步印证了各类精神疾病往往不是单独存在,而是相互影响。
本研究在使用DTW计算量表相似性,获得了比欧氏距离更好的结果,但在部分量表的处理上仍存在不足。在3种量表分别计算相似性进行聚类时,睡眠量表聚类的F1值低于其他2个量表。这可能与睡眠量表中题目的特异性结果有关。其量表中有个别条目的选项不是等级型的,而是具体数值(如睡眠时长),在计算相似性时它们会对结果产生一定影响,从而使聚类效果降低。
4 结论
基于焦虑、抑郁和睡眠障碍3个量表的DTW序列相似性的艾滋病患者聚类分析具有很高的聚类质量,同一聚类内的患者有着更为相似的临床表现。艾滋病患者的3种精神疾病状态往往相互影响,家庭与社会的支持是影响患者精神状态的重要因素。本研究提出的综合多个量表、基于序列相似性的聚类方法可以为艾滋病患者的精神卫生状况筛查及评估提供客观依据。