APP下载

贝叶斯网络模型在体检结果分析中的应用*

2021-01-09王思聪石超珺乔鲁燕李赞华王镜涵曾庆嘉秦亚星

中国卫生统计 2020年6期
关键词:结点关联性贝叶斯

王思聪 石超珺 滕 斌 乔鲁燕 李赞华△ 王镜涵 曾庆嘉 秦亚星 冯 珊

【提 要】 目的 探讨贝叶斯网络在医务人员健康状况分析中的应用,为医务人员健康管理提供方向和思路。方法 通过半朴素贝叶斯(TAN)构建年龄、性别、部门(临床/非临床)等基本信息之间的连接,以此为基础建立贝叶斯网络表示各体检指标间的关联关系。结果 在2014-2017年某三甲医院医务人员体检数据上,贝叶斯网络以年龄、性别、肝脏为3个中心结点,建立起与其他体检指标的关联。以中心结点肝脏为条件的分组异常检出率统计及贝叶斯网络推断结果同时显示:该院医务人员肝脏与甲状腺、胆囊、肾脏、体重指标之间的关联性差异有统计学意义。结论 贝叶斯网络对于建立医务人员体检管理体系具有可参考价值。

贝叶斯网络是以概率论和图论为理论基础的一种不确定性知识表示和推理模型[1]。传统的统计方法应用样本信息和总体信息进行统计推断,而贝叶斯方法则利用样本信息、总体信息及先验信息进行统计推断。当有先验信息可以利用时,采用贝叶斯方法可以得到更好的估计结果[2]。尤其是当数据库中数据属性的维度增高,属性之间的关联性难以直观发现时,采用贝叶斯方法建模可以快速发现各指标之间隐性的关联性,从而进行预测性决策。

我国对医务人员的职业健康研究起步较晚,研究方法比较单一。结合某三甲医院医务人员体检数据记录进行贝叶斯网络模型探索,可以为进一步的数据分析提供方法学参考,为健康管理提供方向和思路。

资料与方法

1.资料来源

数据资料来自某三甲医院体检中心数据库,提取出2014-2017年该医院全体职工体检报告记录。提取每份报告中体检年份、年龄、性别、部门等信息(下文中称为“基本信息”),以及12项体检项目诊断结果(下文中称为“体检指标”):甲状腺、卵巢、子宫、肾脏、前列腺、胆囊、肝脏、体重、血压、胃、食道、十二指肠。各数据字段被整理为类别数据:性别(男、女),年龄(20~39、40~59、60+),部门(临床、非临床),体重(偏低、正常、偏高、肥胖),血压(偏高、正常、偏低),其他指标(正常、异常)。数据的提取与处理以体检报告中诊断结果为准。由于体检者选择的体检项目不完全相同,所以部分样本含有空值项。数据集的样本量为8163,数据缺失率为35.88%。

2.统计方法

将基本信息变量记为I1,…,IM,体检指标变量记为E1,…,EN。基本信息Im与体检指标En的分类值分别用im,1,…,im,km和en,1,…,en,kn表示,其中km,kn表示分类数,m=1,…,M,n=1,…,N。

本研究引入贝叶斯网络表示体检结果的联合概率分布。贝叶斯网络可将联合概率模型分解为乘积形式:

(1)

其中pa(·)表示变量的父结点集合。由于贝叶斯网络的结构学习受数据的影响较大,因此需要对网络结构进行合理约束,并尽量降低网络的复杂度。结合基本信息与体检指标之间的逻辑关系,本文设计三步法进行贝叶斯网络结构学习。

第一步:基本信息变量之间的相关性通过半朴素贝叶斯(tree augmented naïve Bayes,TAN)学习[3-4],步骤如下:

对每一个体检指标En,n=1,…,N,分别学习TAN模型结构

(2)

其中TAN假设pa(Im)最多包含一个变量,这称为“独依赖估计”(one-dependent estimator,ODE)。

第二步:对贝叶斯网络中各变量的父结点集合作出如下假设:

①pa(Im)不包含任意体检指标En,即基本信息不以体检指标的结果为条件。在这个约束下,贝叶斯网络将描述医务人员特征的基本信息作为先验条件。

②pa(En)不仅可以包含任意其他体检指标,也可以包含任意基本信息Im。体检指标异常的概率依赖于基本信息,同时可以依赖于其他可观测的体检指标,以此来刻画不同体检指标的关联性。

第三步:在第一步与第二步给定的约束下,考虑到数据本身具有缺失值,采用SEM(structural expectation maximization)算法进行贝叶斯结构学习[5],得到贝叶斯网络结构。

本研究采用R语言bnlearn package进行数据处理与统计分析。

结 果

1.基本情况

本研究分析某医院2014-2017年全体医务人员职工体检诊断结果,共计8163例。其中,年龄、性别、部门的分布情况见表1。表1中显示临床与非临床部门的年龄、性别构成有较大差异。

按照体检指标异常检出率排序,4年间异常检出率最高的指标依次为:胃(69.9%),体重(46.8%),甲状腺(28.5%),前列腺(26.3%),肝脏(26.2%)。

表1 该医院临床与非临床医务人员的年龄与性别构成n(%)

2.半朴素贝叶斯分析

根据统计方法第一步,半朴素贝叶斯模型对基本信息变量之间相关性的分析结果如表2。从表2中看出不同体检指标的TAN结果比较集中,得到的结构相对稳定。最终的基本信息的拓扑结构为:年龄→性别,年龄→部门,性别与部门无连接。

表2 通过半朴素贝叶斯(TAN)分析基本信息变量之间相关性的结果

3.贝叶斯网络

在半朴素贝叶斯确定的基本信息的拓扑结构基础上,根据统计方法第二步限制连接方法,再运用第三步算法学习贝叶斯网络结构,得到结果如图1。图中灰色底的结点表示基本信息变量,白色底结点表示体检指标变量。观察图像发现,贝叶斯网络中出现了3个中心结点:年龄、性别和肝脏。

(1)年龄 年龄作为明显的中心结点,分别指向了前列腺、子宫、肝脏、血压、肾脏、胆囊、十二指肠、食道,这代表这些指标与年龄高度相关。

(2)性别 前列腺直接与性别连接,子宫通过卵巢与性别连接,这两个指标可以解释性别信息;前列腺、子宫还与年龄有直接连接,这说明两个指标还同时包含一定的年龄信息。图中性别只与卵巢、前列腺、体重3个指标直接连接,而其他与性别相关的属性可以认为被前列腺和子宫替代,这是贝叶斯网络的结构优化遵循奥卡姆剃刀定律(即简单有效原理)的结果。因此,可以将与前列腺、子宫的连接视为性别差异,于是血压、胃、肝脏、甲状腺的性别关联性被识别。

(3)肝脏 肝脏是体检指标中与其他指标关联性较强的中心结点。与肝脏的关联性主要体现在年龄、性别、甲状腺、胆囊、肾脏和体重。

图1 该医院医务人员体检结果的贝叶斯网络模型示意图

本研究中贝叶斯网络的建立依赖于体检结果表现出的概率相关性,各指标之间的连接并非因果关系,不宜将此网络应用于因果推断。

4.中心结点与其他非中心结点之间的关联性分析

为验证贝叶斯网络对关联性刻画的准确度,首先以年龄、性别和肝脏3个中心结点为条件,通过贝叶斯网络估计与肝脏相连接的指标(非中心结点)的异常率,与体检数据统计的真实异常检出率相比较(结果见表3)。表3显示,贝叶斯网络中肝脏及其连接的平均误差为3.6%,因此本文所构建的贝叶斯网络具有一定的准确性。对贝叶斯网络所发现关联性的分析结果如下:

(1)甲状腺 甲状腺与子宫(女性,与性别有关)、肝脏连接。表3结果显示,女性组的异常检出率普遍高于男性,其中肝脏异常组表现更为显著。建议女性医务人员注意甲状腺方面的健康,尤其是20~39岁肝脏异常的女性医务人员。

(2)胆囊 胆囊与年龄、肝脏相连,随着年龄的增加,胆囊异常检出率升高。与肝脏正常组相比,肝脏异常组的胆囊异常率相对更高。高龄或肝脏异常的医务人员需要关注胆囊健康。

(3)肾脏 与胆囊相似,肾脏也与年龄、肝脏关联,肝脏异常的医务人员需特别注意肾脏的健康,其肾脏异常率高于肝脏正常的医务人员。

(4)体重 体重与性别、肝脏相连。体重偏高与肥胖两项数值均表明:肝脏异常组存在更显著的体重偏高或肥胖问题。

表3 依据肝脏状态分类的体检指标异常检出率比较(%)

讨论与建议

医务人员在生理健康、心理健康、职业暴露等方面均存在诸多隐患。重庆市某三甲医院2013年和2015年医务人员体检亚健康状态检出率分别为89.48%和93.94%[6],柳州市某三甲医院2018年体检发现医务人员亚健康状况检出率高达98.75%[7]。国外研究表明,如果在长期奉献给别人过程中被索取过多,会出现痛恶工作、自卑、丧失同情意识等情绪,产生以极度的心身倦怠和感情衰竭为主的“心身耗竭综合征”的表现,不利于临床疑难病例的解决,造成工作满意度的下降、医疗事故的发生率增加等[8],因此对医务人员的体检数据进行合理有效分析,及时根据相关风险因素进行健康管理,可以改善医务人员的生活质量和服务质量。

贝叶斯网络在医疗领域已有成功的应用,如Quinteros等运用贝叶斯网络对急诊室数据建立症状-疾病网络[9]。本文提出了一种新的贝叶斯网络模型的结构学习方法,可用于进行体检数据的关联性分析。

在本文中,我们重点关注了与健康管理相关的三个方面:网络结构的生成,可以轻松地传达基本信息、体检指标之间的隐性关系;运用贝叶斯网络进行个人风险评估的能力;该网络将来易于转换成健康管理决策模型。

针对医疗及体检数据的特点,本文将数据属性划分为“基本信息”与“体检指标”两类。这两类属性具有不同的特征:基本信息是体检者本人的特征信息,而体检指标仅表示本次体检的结果数据,通常基本信息不依赖于体检指标结果。这是本文设计的三步贝叶斯网络结构学习方法的出发点,适用于如体检数据等电子病历档案数据。通常健康体检的完整数据包含的属性数远超本文中列出的部分指标。本文以部分基本信息与体检指标作为实例,较为完整地表述了贝叶斯网络在体检数据分析中的应用。贝叶斯网络建模的意义在于:通过贝叶斯网络建模,可以清晰地展示各属性数据间隐含的关联关系,发现具有多条连接的中心结点,或者研究者所关心的指标与其他指标之间的连接形式。

本文限于所获取的该医院职工体检数据的完整性,未能构建更大规模的(包含更多属性的)贝叶斯网络,也因此未能对该院医务人员整体健康状况作出完整的结论。其次,单个医院的数据往往缺乏代表性。鉴于本研究目前只是立足于数据分析的方法学探讨,未组织多中心的大样本研究,也正是因为本文是方法学研究,所以不受样本量和是否多中心研究的限制[10]。本研究中提出的方法同样可以应用到不同病种、人群以及其他检查结果的分析中。该判别模型的实用价值,有待在将来的实际应用中得到更多实证验证和效果评价。

猜你喜欢

结点关联性贝叶斯
基于单元视角的关联性阅读教学策略浅探
LEACH 算法应用于矿井无线通信的路由算法研究
基于八数码问题的搜索算法的研究
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
ECG检查T波动态变化与急性心肌梗死患者LVEF的关联性分析
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
某区献血者人群中HCV阳性与HLA的关联性研究
四物汤有效成分的关联性分析