APP下载

基于疾病网络的血友病并发症挖掘与关联规则分析

2024-03-30邰杨芳华国旻

实用临床医药杂志 2024年3期
关键词:血友病链路关联

邰杨芳, 昝 彭, 华国旻

(山西医科大学, 山西 太原, 030001)

血友病是一种由凝血因子缺乏引起的遗传性出血性疾病,其主要特征为反复的自发性或外伤性出血[1]。由于血友病的特殊性,患者治疗过程中极易发生其他疾病,且血友病还会大大增加患者其他疾病的治疗难度[2-3]。血友病引起的长期反复性出血和多种并发症已成为严重的医疗问题和社会问题,而积极探寻血友病诊治方法、研发血友病特效药、早期防治血友病并发症具有重要的临床意义。目前,临床预测并发症大多基于常规疾病检查和医师临床经验,但可能导致时效延误,故及时准确地预测疾病的潜在并发症尤为重要[4]。疾病并发症的挖掘与分析是医学临床研究的重要方向之一,其中数据挖掘方法是当前并发症研究中的最关键技术。曹馨瑞等[5]基于文献热点分析研究沙库巴曲缬沙坦在心力衰竭、高血压及相关合并症中的应用,并将社会网络分析方法应用于并发症挖掘中。雷鸣等[6]构建社会网络用于分析并发症之间的潜在关联,并将机器学习算法用于并发症挖掘。该类方法可从大量数据中学习模式和规律,构建预测模型评估患者的并发症风险。潘建鹏等[7]基于D-S证据融合算法,实现了“高血压并发症-抗高血压药物”的知识推荐。本研究借鉴上述方法和思路探讨血友病并发症的一般性规律,以期准确预测血友病患者的并发症,现报告如下。

1 数据与方法

1.1 数据获取与处理

1.1.1 数据来源: 在PubMed数据库中构建主题检索式("Hemophilia A"[Mesh] OR"Hemophilia B"[Mesh] OR"Factor XI Deficiency"[Mesh]),并将Mesh词表中的入口词以逻辑关系词“OR”连接,以“[Title/Abstract]”为限制条件,构建高级检索表达式。将2个检索式以逻辑关系词“OR”连接,以确保文献检索全面,并去掉其中的综述类文献,最终共检索到16 930条文献,通过NE等软件导出文献的PMID号、题目及摘要,以备后续研究。

1.1.2 疾病与症状实体的抽取: 抽取文献的标题、摘要文本中的疾病与症状实体,是进行血友病并发症分析与挖掘的基础。本研究采用在线的自然语义处理系统语义知识表达(SKR)的核心组件MetaMap[8]从血友病文献的标题、摘要文本中提取代表疾病和症状概念的实体名称。MetaMap拥有一体化医学语言系统(UMLS)的超级叙词表和专家词典,不仅可专业与全面地抽取出疾病和症状实体,而且可自动实现对实体的标准化转换。

1.1.3 疾病网络构建: 利用python程序对上述命名实体抽取得到的原始数据进行整理和结构化存储,1条记录代表1条文献,由文献PMID号和抽取出的疾病实体构成。利用COOC数据分析软件生成共病矩阵,通过VOSviewer软件形成可视化网络图谱,该可视化网络可以反映疾病的并发症状况,具体构建流程见图1。

表1 疾病命名实体抽取及频次结果(频次前10位)

图1 并发症疾病网络构建流程

1.2 研究方法

1.2.1 社会网络分析法: 社会网络分析法是对由多个实体间相互联系构成的社会关系结构及其属性进行分析的一套规范与方法的集合。本研究采用社会网络分析法分析血友病并发症构成的关系网络整体属性、个体属性,以期明确血友病并发症的总体状况和对血友病影响突出或关系密切的其他疾病、症状,挖掘出网络中深层次的信息并采用可视化技术直观展示网络内部结构和节点间的关联规律。

1.2.2 关联规则挖掘: 关联规则挖掘是指在大规模数据集中寻找频繁项集并推导出项集之间的关联规则,该方法能够挖掘出数据集中的隐藏关系,用于支持决策。本研究采用Apriori算法对血友病及其并发症进行关联规则分析。首先,从数据集中挖掘频繁项集即经常同时出现的疾病组合,根据频繁项生成频繁关联规则。频繁项表示某一项的频次达到或超过一定水平,该频次被称为支持度(Support), 其定义如下:

Support(A=>B)=P(A∩B)

(1)

当{A, B}的支持度≥最小支持度时,则将{A, B}放入高频项集。

然后,生成关联规则,根据第1步得到的频繁项集,如果某条规则满足最小置信度,则该规则为关联规则。置信度(Confidence)定义如下:

Confidence(A=>B)=P(B|A)

(2)

除支持度、置信度以外,提升度也是常用的评价关联规则的指标,为了寻找疾病之间的潜在关联,本研究将提升度作为确定疾病关联的相关系数。提升度(Lift)被定义为: 如果P(A∩B)=P(A)·P(B), 则项集A的出现与项集B无关; 反之,项集A和项集B是相互依存、相互关联的。A、B的提升度可由下式计算:

(3)

如果公式(3)的结果>1, 那么A与B呈正相关,即如果有1个存在,那么另1个很可能也存在。

1.2.3 链路预测: 链路预测拟解决的关键问题是根据观测到的链路预测给定网络中2个节点间存在链路的可能性[9]。本研究采用链路预测方法预测血友病并发症网络中未来可能出现的关联,即预测血友病潜在的共病关系。① 链路预测指标选取。本研究选取分别基于节点和路径的12种指标[10], 通过基于相似性的多项指标分析含权和不含权网络,并将数据分成训练集和测试集,使用训练集计算精度,选择最佳指标用于计算未链接节点之间出现链接的可能性。② 评价指标选取。应用上述指标对网络进行测度,可以计算出两两节点间的相似度,不同指标计算结果不同,故还需评估指标的测度准确性。本研究选取常用评估指标曲线下面积(AUC)作为评价标准,在链路预测方面,AUC是指随机选择的实际边缘得分的概率高于随机选择的不存在的边缘得分的概率[11]。AUC的计算方法如下所示:

(4)

其中n为独立比较的次数,n′表示实际的边的分数比不存在的边的分数高多少倍,n″表示实际的和不存在的边的分数相等的次数。将AUC值最大指标的计算结果作为疾病间相似度值。

2 结 果

2.1 MetaMap疾病抽取结果

通过MetaMap工具进行实体抽取,在实体抽取过程中,将实体语义类型设置为[dsyn](Disease or Syndrome), 抽取出的疾病及症状实体示例见图2。图2中,“Processing "18652280.ti.1′: [Secondary … Case report]”表示这些字段来源于编号为18652280(PMID)的文献ti(标题)字段的第1句内容中。“Meta Mapping”后显示抽取结果,例如在“1000 AMYLOIDOSIS, SECONDARY (Reactive systemic amyloidosis) [Disease or Syndrome]”中, “AMYLOIDOSIS,SECONDARY”是罕见病次级淀粉样变性病在文献中的具体表达,括号内的“Reactive systemic amyloidosis”是该疾病的规范化表述。

图2 MetaMap疾病抽取结果示例(部分)

经上述步骤,通过对结果编程处理,本研究共抽取得到514种疾病实体,其中出现频次排名前10位的疾病实体见表1。

2.2 血友病的并发症关联网络分析

为避免网络中出现的偶然疾病节点影响分析结果的可靠性,呈现较为理想的网络,研究者需多次调试以确定出现在网络中的节点频次阈值[12]。本研究发现,当节点出现频次≥3时,血友病并发症实体构建成的并发症共现关联网络结构较为清晰,先用社会网络分析工具UCINET分析网络的整体特征和节点特征,再用VOSviewer软件[13]对网络中的节点基于关联强度进行聚类分析,揭示血友病并发症网络的结构特征和语义关联特征。

2.2.1 网络整体特征分析: ① 网络密度。网络密度指网络中疾病节点间联系的疏密程度,通过疾病或症状间的联系程度表示网络的连通与分散程度[14]。应用UCINET软件读取所构建的血友病并发症网络,统计数据显示该网络由205个节点和21 115条无向边构成。经计算,该网络密度值为0.273 8(偏小),但网络密度标准差为3.591 8(相对较高)。由此说明,虽然网络中疾病节点间可能存在局部聚集,但疾病之间的连接分布整体上较为稀疏,这是由不同疾病节点之间的特定关系或特殊因素引起的,因此进一步研究和分析整个网络的结构和功能非常重要。② 小世界理论分析。小世界网络具有小的平均路径、大的聚类系数这2个基本特征[15], UCINET软件分析结果显示,该疾病网络的平均路径为2.027,聚类系数为18.953,符合复杂网络理论的“小世界现象”特征。上述数据表明,此疾病网络的传播速度快且传播效率高,疾病间关联性较强; 网络密度偏小,平均聚类系数偏高,说明此并发症网络中存在多个密集连接的疾病子群,但这些疾病子群之间的连接较少。

2.2.2 网络节点特征分析: ① 点度中心度分析。通过UCINET软件得出疾病网络点度中心度排名结果(前10位),见表2。点度中心度衡量了疾病节点在网络中的重要程度,其中血友病A、凝血功能障碍、丙型肝炎等疾病节点在网络中的重要性较高,对疾病的传播和扩散具有较大的影响。② 接近中心度分析。疾病网络接近中心度排名结果(前10位)见表3, 其中血友病A是血友病众多类型中最为常见的一种,且大多伴随传染性疾病和遗传性疾病一同出现。③ 中介中心度分析。该疾病网络的中介中心度排名结果(前10位)见表4, 结果显示,血友病A、凝血功能障碍、人类免疫缺陷病毒(HIV)感染等10种疾病的中介中心度较高,其中血友病A、凝血功能障碍等属于血液系统疾病,另一部分疾病具有传染性,还有极少部分疾病直接与患者日常生活息息相关。

表2 点度中心度排名结果(前10位)

表3 接近中心度排名结果(前10位)

表4 中介中心度排名结果(前10位)

2.2.3 网络主题聚类分析: 应用VOSviewer软件对共现矩阵进行聚类,分析结果的可视化图谱见图3。结果显示,整个血友病共病网络可划分为4个类团(相同颜色的疾病节点构成1个类团),每个类团代表1个研究主题。节点面积越大,说明节点的度数越高; 节点间连线越粗,表示节点间的联系越紧密。① 主题1为遗传性疾病类群,用红色表示,主要节点为血友病A、血友病B、马尔方氏综合征等73个实体节点。血友病A作为整个网络中心性排名最高的节点,在子群1中也连接着大多数其他疾病节点,这些疾病多数为遗传性疾病,会伴随患者终身,提示血友病A是目前临床血友病研究的主要方向,且开展血友病A相关研究时大多会与其他遗传疾病进行比较分析。② 主题2为血液系统疾病类群,用绿色表示,包含缺血性贫血、血小板增多症、凝血功能障碍等62个实体节点,其多与血液系统相关,血液系统疾病严重甚至会出现内脏出血,患者会出现贫血和感染等症状,进而影响免疫系统功能,影响患者整体健康。③ 主题3为传染性疾病类群,用蓝色表示,包含HIV感染、乙型肝炎、丙型肝炎等46个实体节点。这些疾病大多具有传染性,与一般出血性疾病不同,传播渠道大多为血液传播。在现有医疗环境下,与其他传染性疾病相比,血友病可能并未被列为医疗保健重点[16],但血友病对患者的伤害同样不容忽视。④ 主题4为慢性疾病类群,用黄色表示,包含糖尿病、高脂血症、获得性因子8缺乏症等24个实体节点。慢性疾病患者的并发症发生率极高,且具有经常发病、治疗效果不显著等特点,这与血友病患者的症状相似,因此在血友病相关研究文献中会出现多种慢性疾病。

图3 关联强度聚类结果

2.3 基于疾病网络的关联规则分析

本研究基于关联规则指标分析,设置最小置信度≥0.8、最小支持度>0.01、最小提升度≥1,计算后总计生成133条关联规则,关联规则存在3种关联类型,即基础关系、进阶关系和同级关系[17]。根据关联计算结果得到的关联规则包括3种情况: ① 若疾病对{A, B}只存在1条关联规则,即A→B,置信度为x, 说明疾病A影响疾病B的出现,因此定义A为B的基础疾病, B为A的进阶疾病,即在发生疾病A的基础上,更倾向于产生疾病B。② 若疾病对{A, B}存在2条关联规则,既存在A→B, 置信度为x, 又存在B→A, 置信度为y, 且x>y, 则说明疾病A对疾病B出现的影响大于疾病B对疾病A出现的影响,因此舍弃B→A这条规则,定义A为B的基础疾病, B为A的进阶疾病; 反之若x

表5 关联规则同级关系对

2.4 基于疾病网络的链路预测

根据链路预测各项指标,分别计算其AUC值,见图4。综合各指标AUC均值结果发现,在含权网络中,资源分配(RA)指标的效果最佳。因此,本研究选用含权的RA算法进行链路预测,以预测该网络节点未来产生关联的机会与可能性。

Katz指标的含权算法参数取值0.05,不含权算法参数取值0.01。

链路预测得分结果(前10位)见表6, 疾病对得分越高,2种疾病产生关联的可能性越大。临床上,不同类型的血友病大多伴发其他血液系统疾病及凝血功能障碍等症状,例如SILOI I等[23]已证实关节病变和丙型肝炎的并发性关系,腹水和肝胆疾病的并发关系[24]、缺血性卒中和心肌梗死的并发关系[25]也已被验证,但血友病研究领域的相关研究极少,早发性骨关节炎和前列腺增生这2种疾病在临床上虽无直接相关性,但链路预测得分却很高,查阅相关资料后发现,2种疾病在病理角度上虽无相关性,但从遗传因素角度分析,均多发于有家族疾病史者,若家族中有人患病,则2种疾病的发病率均会显著提升。预测所得的大部分结果在现有文献数据库中均能找到相应研究成果,证明利用链路预测方式预测临床患者的并发症切实可行。

表6 链路预测得分结果(前10位)

3 讨 论

临床并发症一般包括2种情形,一种情形是疾病在发展过程中引发另一种疾病或症状,后者即前者的并发症;另一种情形是在诊疗护理过程中,患者合并发生与这种疾病相关的另一种或几种疾病。并发症对血友病患者的治疗和康复效果存在非常明显的影响。一些潜在的并发症若未被及时发现,可影响患者的日常活动,如对患者的关节或神经系统造成损伤,严重时甚至会造成反复出血和神经系统受损,直接导致关节畸形、运动障碍、癫痫和瘫痪等症状[26-27]。临床治疗血友病常需使用价格昂贵的凝血因子替代治疗剂,而血友病易出血的特点使得患者需要更频繁的医疗服务,此外血友病患者还需接受一系列物理疗法、康复训练等措施,这些医疗费用超出了大多数患者的经济承受能力[28-30]。因此,减轻血友病患者与并发症相关的身心痛苦和沉重经济负担具有非常重要的临床意义。

本研究结合数据挖掘与社会网络分析方法,基于聚类分析、关联算法、链路预测等方法分析和挖掘血友病并发症的现状及规律,并预测未来可能发生的血友病并发症。本研究首先通过社会网络分析得到血友病研究领域主要的疾病及并发症,该网络在整体结构上满足小世界网络特征,根据凝聚子群特征,该疾病网络分为4大聚类,再联合关联规则挖掘疾病与并发症之间的一般性规律,并通过链路预测方式发现了部分在现有血友病相关研究中未被体现的潜在并发症,进一步通过发病机制及外部因素分析等进行验证,证实了这一方法的可行性,为血友病诊疗过程中潜在并发症的预防和治疗提供了部分参考依据。

综上所述,本研究基于疾病网络进行血友病并发症关联分析和链路预测,可实现对疾病潜在并发症的有效预测,为血友病的临床诊疗提供决策支持。但本研究存在一些不足之处,例如仅通过现有开放资料验证了部分预测结果的准确性,尚未能通过临床病例信息和医学实验对现有预测结果进行验证,未来有待进一步深入研究。

猜你喜欢

血友病链路关联
家纺“全链路”升级
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
天空地一体化网络多中继链路自适应调度技术
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
51例血友病患者家庭注射调查分析
新生儿甲型血友病的护理1例
血友病患者健康状态评定
基于3G的VPDN技术在高速公路备份链路中的应用