症状网络的特异性指标
2024-01-12余骏雯朱政胡天天金依霖何加敏杨中方
余骏雯 朱政,2,3 胡天天 金依霖 何加敏 杨中方
(1.复旦大学护理学院,上海 200032;2.上海市循证护理中心,上海 200032;3.纽约大学护理学院,纽约 10010)
症状网络是一种分析多种症状之间复杂联系和推定因果关系的网络模型[1]。通过分析症状间的相互作用,可以揭示疾病的复杂性和多样性。传统的症状管理常常将每一个症状视为一个孤立的个体,主要从症状的发生率和严重程度等方面评估,而忽视了各复杂症状之间的相互关系。然而,在真实的临床情景中,患者往往同时存在多种症状,且并非每个症状都同等重要,多种症状的复合影响往往大于单个症状的总和[2-4]。症状网络的特异性指标是评估症状网络性质和特征的重要指标,在症状管理研究和临床实践中具有重要意义[1];有助于揭示疾病进展和症状出现的机制,识别出对疾病的发展和传播具有重要影响的关键症状,可为疾病的早期诊断、疗效评估和进展预测提供依据,为症状管理指示有效干预靶点。本文从症状网络的基本元素、节点指标、网络指标、网络拟合指标和差异性检验指标等方面进行介绍,结合各特异性指标的临床意义,以期为构建症状网络、促进临床医疗人员实施精准干预提供参考。
1 症状网络的基本元素
症状网络中症状间的关系可以通过绘制的网络结构图直观地观察到,其中最关键的2个元素是节点(node)和边缘(edge)。
1.1节点 表示所观测的变量或症状,可为二分类变量或连续性变量,二者的选择取决于研究问题;根据数据类型的不同,网络估计方法将有所差异,二分类变量常采用依辛模型(ising model)进行估计,而连续性变量常采用高斯图模型(glasso)进行估计[5]。节点的增删选择和数据类型都会影响最终的网络构建结果,选择和数据处理时需谨慎考虑。
1.2边缘 2个节点间由边缘相连[6]。边缘表示在控制其他节点的影响后,连接的2个节点之间的偏相关关系。边缘可以分为有向和无向2种类型。有向网络的边缘可以指明因果结构,例如“A→B”表示A对B有影响,有向网络常见于纵向研究。而无向网络的边缘只能表示相互关系,无法指示方向和因果,常见于横断面研究。
1.3边缘权重 症状间联系的紧密程度可以通过边缘的连接强度即边缘权重(edge weight)表示。边缘权重的符号表示交互作用的类型,“+”代表正相关,在可视化的网络结构中,正相关的边缘一般以绿色呈现;“-”代表负相关,一般以红色呈现。边缘权重的绝对值表示交互作用的强度,绝对值越大,网络结构图中的边缘越粗,代表2个节点间的关系越紧密,二者更容易相互影响,反之亦然。边缘权重的方向和强度有助于临床医疗人员了解不同症状间的相互作用和影响关系,这有助于揭示疾病的病理生理过程,可能发现潜在的疾病机制和新的治疗靶点。此外,不同患者具有不同的网络结构,这可为个体化医疗提供支持,帮助医疗人员制定个体化治疗方案和症状管理策略。
2 节点指标
2.1中心性(centrality) 节点的中心性是一种客观量化单个节点重要性的指标,主要包括强度中心性(strength)、紧密度中心性(closeness)和中介中心性(betweenness)[7]。上述指标可从机制的角度衡量节点的影响力和重要性,数值越大代表节点在整个网络中的重要性越高。在R语言中网络的中心性指标可通过mgm包计算。(1)强度中心性:指一个节点和与其直接相连的所有节点间的边缘权重绝对值之和,强度中心性越高表明该症状越有可能与其他症状同时发生,其在整个网络中的影响力越强。对于纵向研究中的动态网络,强度中心性可细分为出度中心性(out-strength)和入度中心性(in-strength)2项指标,前者代表该节点对其他节点的影响强度,而后者代表该节点被其他节点影响的强度。(2)紧密中心性:指节点与其它直接相连节点之间的平均距离的倒数。(3)中介中心性:指节点在整个网络中作为中介的次数,即节点在网络中连接其它节点的最短路径上的数量。(4)桥梁症状:广义上指连接不同症状群、不同疾病或同一疾病不同亚组的症状,桥梁症状的中心性指标分类和定义同上所述,桥梁强度中心性数值最大的症状即为桥梁症状。形成中心性指标结果示例,见图1。在症状网络中,中心性指标数值最大的节点可被视为网络中具有最大影响力的核心症状,可以帮助医疗人员识别关键的干预靶点。其中,强度中心性是最关键的指标,当3项指标的数值排序不一致时,一般以强度中心性的排序结果为准[8-9]。当核心症状出现或加剧时,更容易进一步影响其他症状,进而激活整个网络,产生一系列相互关联的多种症状。这为临床工作者提供了除症状发生率和严重程度之外的评价指标,帮助医疗人员更准确、有效地识别能预测其他症状产生或加重的前哨症状[10]。因此,核心症状在疾病的诊断、预后评估和治疗选择中具有重要作用,可作为有效的干预目标。医疗人员可优先关注核心症状,及早采取具有针对性的干预措施,以改善患者预后。
图1 症状网络分析中心性指标结果示例
2.2预期影响系数(expected influence) 中心性指标可以提供有关网络中各节点对其他节点的影响力的信息,高中心性的节点可能在疾病的发展、持续或缓解过程中发挥着重要作用。然而,由于上述中心性指标不区分边缘的正相关和负相关,简单地将负相关边的权重取绝对值进行计算,因此中心性指数在兼具正负相关边的网络中存在一定的局限性。为了更全面地评估节点的影响力,则需要考虑节点的预期影响系数。预期影响系数同时考虑了网络中边缘的性质和强度,可评估其累积影响。预期影响系数的计算分为“1步法”和“2步法”。1步法用于评估某节点对与其直接相连的节点的影响,然而这种方法不考虑其相邻节点的预期影响系数,这可能导致对该节点对整体网络的影响能力的评估有所偏差。如当节点A只与节点B相连,如果节点B的预期影响系数较低,则节点A的变化对网络其余部分的影响很小;但如果节点B与多条边缘权重较高的边相连,则节点A的变化可能通过对节点B的高影响而对整个网络产生较大影响。“2步法”弥补了“1步法”的局限,其考虑了节点通过其相邻节点对网络产生的二次影响,在计算时需对相邻节点的二次影响进行加权。因此,在计算节点的预期影响系数时推荐采用“2步法”[11]。有研究[9]表明,在完全正相关边的网络中,中心性指标和预期影响系数间存在密切关系(rs≥0.78),但当网络中负相关边的数量增加时,二者的相关性则会随负边比例增加而下降,在负相关边比例较高的网络中,中心性指数可能无法很好地反映哪些节点最为重要。因此,在分析兼具有正相关和负相关边缘的网络时,预期影响指标可以提供更准确的节点重要性评估,应结合中心性指标加以解读。
2.3可预测性(predictability) 中心性指标反映了节点间联系的相对紧密程度,从而可以得出某节点受其他节点影响大小的排序,但无法得出节点所受影响的绝对程度大小。节点的可预测性则可以解决这一问题,它指该节点的决定性或可控性的绝对程度,这一指标有助于指导干预靶点的选择和干预措施的制定[12]。某节点的可预测性越接近1,则其越可以被网络中其他所有节点预测或决定,说明对其周围节点的干预可能会对该节点产生较大的影响。动态网络中,可预测性分为出可预测性和入可预测性,出可预测性代表该节点对其他节点的预测价值,而入可预测性则代表其他节点对该节点的预测价值。同期网络和动态网络的可预测性结果示例,见图2和图3。节点的可预测性取决于节点所连接边的数量和边缘权重,一般而言,连接到节点的边越多,强度中心性越高,其可预测性就越高。既往研究[12]发现,某些疾病的平均可预测性高于其他疾病,这表明前者的症状网络更具有自我决定性,而后者的症状网络中的节点更易受未包含在网络中的其他因素的影响,其他因素可能包括其他症状、生物和环境变量。可预测性高的网络表明可以通过网络中的相邻症状来控制目标症状,而对于可预测性低的网络,则需寻找其他重要影响因素或选择直接干预目标症状。
图2 症状网络分析同期网络的可预测结果示例
图3 症状网络分析动态网络的可预测性结果示例
3 整体网络指标
3.1网络密度(density)和连通性(connectivity) 网络的全局特性可以用网络密度和网络连通性来衡量,二者意义相近而略有不同。网络连通性描述网络中节点的连接数量和质量,可通过绝对连接的加权和计算,网络连通性也称为全局强度(global strength)[13-14]。网络密度指实际存在的边缘数与可能存在的边缘数之间的比值,部分研究也用边缘权重的绝对值之和(∑s)来表示网络密度[15-16]。研究[16]发现,网络密度和症状的严重程度并不成正相关,即网络密度大不意味着症状更严重。网络的连接紧密程度可能与治疗反应有关[13]。症状网络密度或连通性较大的疾病,其短期疗效可能更差,这主要是由于症状间容易相互影响激活,某一症状的恶化可引起其他多种症状的恶化,甚至形成恶性循环,导致治疗效果不佳[13]。因此,网络密度和连通性常常被视为疾病长期预后的预测因子之一,但这一预测作用的有效性仍有待验证[15]。
3.2模块度(modularity) 模块度是衡量网络结构中模块或群组聚类结果优劣的一种量化方法[17]。在模块度较高的网络中,同一模块或群组内的节点连接密集,而在不同模块或群组间节点的连接较稀疏。当边缘满足随机分布时,模块度的值等于落在给定模块或群组内的边缘数减去在随机连接的等价网络中的期望数,取值范围为-1~1。模块度为正且数值较大,说明网络具有较明显的模块化结构,可能存在明显的症状群,有助于指导医疗人员识别和理解疾病的症状组合,从而提供个体化的干预策略。模块度为负说明网络的连接相对较均匀或随机,症状节点间的连接在不同群组中差异较小。需要注意的是,模块度并非确定网络是否适合划分症状群的唯一指标,负值并不意味着无法通过其他方式识别症状群,还需综合其他网络特异性指标和方法加以判断。
4 网络拟合指标
4.1边缘权重的精确性检验 边缘权重代表了症状间的联系紧密程度,其估计的精确程度至关重要;为评估边缘权重的精确性,可采用自举法(bootstrapping)来计算边缘权重的95%置信区间,见图4[18]。自举法可分为非参数自举法和参数自举法。非参数自举法通过从原始数据中进行有放回地重复采样,生成与原始数据集类似的新数据集,这意味着每个观测值都有可能在新数据集中多次出现或完全不出现。而参数自举法则是从已通过原始数据集估计得到的参数模型中抽取新的观测值,从而生成新的数据集,即新的数据集是从参数模型产生而非从原始数据中采样得到,这种方法需要假设数据符合某个特定的参数模型。非参数自举法是完全数据驱动的,不需要理论依据,而参数自举法更加依赖理论。非参数自举法几乎可应用于任何情况,在处理有序数据时,建议使用非参数自举法[9],使用高斯图模型时可选择R包mvtnorm实现[19],而使用依辛模型时可选择R包IsingSampler实现[20]。当没有使用正则化、非参数自举结果不稳定、或者为了检查2种方法的置信区间是否一致时可考虑使用参数自举法。需要注意的是,自举法生成的边缘权重置信区间仅用于显示边缘权重的精确性,而不应解释为对零的显著性检验,即不应根据置信区间是否包含零来判断边缘权重的准确性。边缘权重估计的精确性可通过置信区间的宽度来衡量,所得置信区间越窄,代表边缘权重的估计越精确。相反,当置信区间较宽时,表示对边缘权重的估计相对不精确,边缘权重的真实值存在较大的不确定性,这可能是由于样本数据的噪声、样本量不足或者模型的复杂性等因素所致。对于精确性不佳的网络结果应谨慎解释和推广,可考虑增加样本量、优化数据收集方法以提高数据质量或根据研究问题和数据特点选择合适的模型或简化模型等提高网络的精确性。
图4 症状网络分析的边缘权重精确性检验示意图
4.2中心性的稳定性检验 通过在不断减少样本或节点的数据子集中重新估计网络,根据中心性指标排序与原网络中排序的相关性可检验中心性指标的稳定性。根据数据子集的抽样方法可分为剔除案例自举法(case-dropping subset bootstrap)和剔除节点自举法(node-dropping subset bootstrap)。剔除案例自举法通过剔除一定比例的样本形成新的数据集,而剔除节点自举法则通过剔除网络中一定比例的节点来研究稳定性,但这种方法解释较为困难,剔除50%的节点会导致完全不同的网络结构,因此通常建议选择剔除案例自举法,剔除案例自举法的结果示例,见图5。中心性指标的稳定性可通过相关稳定性系数(correlation stability coefficient,CS-coefficient,简称CS系数)来量化。CS系数(cor=0.7)表示在95%的概率下,使得基于新数据集估计的中心性指数与基于原始数据集估计的中心性指数间的相关性保持在≥0.7的前提下,所能剔除样本的最大比例。此处的cor=0.7是默认设置,指相关性要求至少为0.7,研究人员可根据对稳定性的兴趣设置不同的阈值。CS系数越大,说明剔除越多样本依然能得出相似的节点中心性,中心性指标的稳定性越强。一般认为,CS系数>0.5代表稳定性较好[9],但目前对CS系数的分层或阈值尚无统一标准。
图5 症状网络分析中心性的稳定性检验示意图
5 差异性检验指标
5.1节点和边缘的差异性检验 自举法差异检验除了可用于检验边缘权重的精确性和中心性的稳定性,还可用于检验不同节点的中心性或不同边的边缘权重是否显著不同,这种方法可计算节点中心性或边缘权重的差值并构建其重复抽样所得的置信区间,见图6和图7。根据零假设检验,如果零位于置信区间内则代表节点中心性或边缘权重的差异不显著。
图6 症状网络分析中边缘的差异性检验示意图
图7 症状网络分析中节点的差异性检验示意图
5.2网络差异性检验 当需要比较不同亚组的症状网络是否有差异时,可采用R包NetworkComparison Test (NCT)实现[21]。NCT是一种基于排列的假设检验,适用于高斯分布数据和二进制数据。它基于几种不变性假设(网络结构不变性、全局强度不变性和边缘不变性)来评估2个网络之间的差异。P<0.05为差异有统计学意义。
6 讨论
6.1症状网络在临床干预中的应用价值 在临床资源较紧张的现实情况下,精准干预对节约时间和人力,提高医疗资源的有效利用率至关重要。作为一种新的研究范式,症状网络不仅具有类似于症状群的降维功能,而且有助于确定核心症状并探索症状机制,从而指导临床工作者制定行之有效的精准干预策略。临床工作者可根据目标疾病或症状的特征、可干预性及干预措施的可行性灵活选择干预方式。值得注意的是,网络分析可从机制上为症状间的相互关系提供参考,实际临床干预策略的制定需结合临床经验加以判断和考虑。
6.2症状网络的稳定性检验 症状网络的稳定性是结果的可推广性和临床应用性的重要考虑因素。在临床实践中,症状网络的稳定性检验为医疗人员和研究人员提供了重要的指导。通过了解网络结构的稳定性,可确定可靠的关键节点和潜在的影响因素,从而更好地理解疾病的发展机制和设计个体化的治疗策略。此外,稳定性检验还为症状网络的构建和分析方法提供了评估和改进的依据,以确保研究结果的可靠性和可重复性。如果样本量不足,所构建的网络结果稳定性或精确性不足,则说明所得出的症状间可能存在虚假关联,需进一步扩大样本量或减少发生率低的症状节点加以验证。然而,目前对于中心性指标的稳定性检验等的阈值仍无统一定论,研究者需结合研究目的和稳定性要求加以界定。
6.3症状网络的特异性 同一疾病的症状网络并非一成不变的,具有不同特征的人群可能呈现不同的症状网络特征;因此,研究人员可结合健康的社会决定因素(social determinants of health)进行深入的亚组分析,结合因果关联、网络中心性和网络密度等指标,更全面地理解不同特征人群中疾病的症状机制和发生模式。健康的社会决定因素指个体健康和疾病风险的社会和环境因素,包括但不限于个人的社会经济地位、教育水平、居住环境、就业状况和社交支持等[22],这些因素亦可对症状网络的形成和发展产生重要影响。通过深入分析不同特征人群中的症状网络,可识别出不同影响因素对症状网络的作用程度和方式,这有助于进一步理解社会因素与疾病间的关系,并为个体化的干预和预防策略提供依据。