APP下载

Logistic回归模型在儿童哮喘风险评分中的应用

2021-06-16张一梅

电子技术与软件工程 2021年6期
关键词:儿童哮喘哮喘分类

张一梅

(山西省数字政府服务中心 山西省太原市 030031)

慢性呼吸疾病支气管哮喘(Bronchial Asthma)简称哮喘,作为全球慢性病之一,是儿童常见的慢性呼吸疾病。调查研究显示,我国现有大约一千万例哮喘儿童[1],且近年来儿童哮喘发病率依然呈上升趋势[2]。哮喘容易反复发作,儿童哮喘如得不到提前预防和相关有效治疗,会发展为成人哮喘,严重影响到个人生活水平,降低生活质量。随着医疗行业信息化建设的不断发展,医疗信息管理系统、医疗健康监测终端设备在医院的广泛普及和使用,医疗领域产生了海量相关哮喘的医疗健康数据,这些医疗健康数据含有巨大的潜在价值,具有数据量大(Vohrnie)、实时性强(Velocity)、种类丰富(Variety)、潜藏价值高(Value)这四个大数据的特点[3],充分挖掘利用医疗健康大数据中包含的潜在价值,对提高医疗服务质量、节约医疗成本、加强儿童健康管理具有重要作用。

本文对 2015年 1月至 2018年 1月某几家医院住院的3~14 岁哮喘儿童住院资料进行了调查,运用基于logistic 回归模型分析研究了引发儿童哮喘的特征因素,并对这些特征因素进行评分,得分较高的特征因素会引发儿童严重哮喘,得分较低的特征因素会引发儿童轻度哮喘。

1 医疗健康数据预处理

虽然医疗健康数据中包含了大量潜在的价值,除了具有上述四个大数据的特点之外,还具有多态性、不完整性、冗余性、隐私性等特点,医疗健康数据从原始数据到实现利用价值需要信息的采集、清洗、标准化、匿名化、存储、运算等等,首先我们需要对原始医疗健康数据集进行数据预处理,由于哮喘诊断的原始医疗健康数据集中出现一些诊断记录项的缺失,如花粉过敏、屋尘过敏、装修气味、消毒水气味等,缺失量超过原始医疗数据集的三分之二,因此我们将这些数据项进行剔除处理,然后剔除无关数据项、删除有缺失数据项的数据,完成数据清洗后的医疗数据集包含14 项特征变量(年龄、性别、营养状态、出生情况、生产方式、喂养方式、家族哮喘史、个人药物过敏史、食物过敏、呼吸道感染、二手烟暴露、天气变化、情绪、运动),共采集对本次医疗健康数据分析有用的300 条数据。

由于儿童哮喘数据集样本容量小,我们采取留出法进行划分训练集和测试集,200 条记录样本作为训练集,剩余的100 记录样本作为测试集,为了避免因数据划分过程中引入额外的干扰因素而对结果产生影响,我们共5 次对训练集和测试集以2:1 随机划分、重复评估后取平均值作为留出法的划分结果。

2 医疗健康数据筛选

由于引发儿童哮喘的特征因素中包括连续性变量,如年龄,我们需对特征变量的的取值进行分组处理,即变量离散化。通过计算变量权重(weight of evidence)进行连续变量分段,以特征变量年龄为例,年龄变量是一个连续的数值型变量,根据儿童哮喘的年龄分布将其划分成2 个取值区间:3-5 岁、6-14 岁。这就完成了连续特征变量的离散化。

IV(Information Value),是信息价值或者信息量的意思。我们使用二项 logistic 回归模型构建分类模型,由于引发儿童哮喘的特征因素较多且杂乱,需要对样本特征变量进行筛选,从14 个特征变量中筛选出对结果变量预测能力强的放入模型中进行训练。IV值用来衡量某个特征变量预测结果变量的强弱程度,其基本思想是响应事件因素(引发儿童严重哮喘的因素)占所有样本中响应事件因素的比例,和未响应事件因素(引发儿童轻度哮喘的因素)占所有样本中未响应事件因素的比例,来对比和计算此特征变量与结果变量的关联程度,计算公式如下[4]:

ratiobadi表示第i 个特征因素中引发儿童严重哮喘结果所占比例,N(badi)表示第i 个特征因素中引发儿童严重哮喘结果对应样本数,N(bad)表示所有引发儿童严重哮喘结果对应样本总数;同样,ratiomildi表示第i 个特征因素中引发儿童轻度哮喘结果所占比例,N(mildi)表示第i 个特征因素中引发儿童轻度哮喘结果对应样本数,N(mild)表示所有引发儿童轻度哮喘结果对应样本总数。利用计算公式计算所有的特征变量对于结果变量的IV 值,假设所有特征变量所包含的IV 值是不变的,IV 值越大说明预测能力越强,IV 值越小说明预测能力越弱,IV 值的取值范围和预测能力如表1 所示,我们选取较强预测能力的特征变量即IV 值大于0.1 的特征变量,剔除预测能力较弱和基本无预测能力的特征变量,即IV 值小于等于0.1 的特征变量。

我们以严重哮喘和轻度哮喘作为结果变量,其余14 个特征变量为自变量,计算得到14 个特征变量对于结果变量的IV 值,如表2 所示,综合哮喘特征变量的实际含义,选取 IV 值大于0.1 的特征变量,即选取的特征变量为:年龄、性别、营养状态、出生情况、生产方式、家族哮喘史、个人药物过敏史、食物过敏、呼吸道感染、二手烟暴露、天气变化。

3 基于logistic回归模型(logistic regression model)的儿童哮喘风险评分

儿童哮喘风险评分实质上是对引发儿童哮喘的风险因素进行分类和预测,将能够引发儿童严重哮喘的特征因素分到“响应”因素中,将能够引发儿童轻度哮喘的特征因素分到“未响应”因素中,并在以后的诊疗中对这些因素进行预测。本文采用二项logistic 回归模型进行模型学习。logistic 回归模型是一种概率模型,是统计学习中的一种经典且重要的分类方法,在流行病学、慢性病学、临床医学研究中有广泛应用。二项 logistic 回归模型属于二分类模型,假设我们有n 个独立哮喘数据样本,(xi,yi),i∈1,2,…,n, xi=(xi1,xi2,…, xim),n=300,m=11,二项logistic 回归模型的概率分布形式如下[5]:

表1:IV 值的取值范围及预测能力

表2:特征变量的IV 值和预测能力

表3:儿童哮喘特征变量得分表

yi是因变量,yi值为0 是轻度哮喘,yi值为1 是严重哮喘,其余所有特征变量xi是自变量,xi∈Rm,B=(β0,β1,β2,…,βm)是回归系数,B∈Rm+1,则构建的二项logistic 回归模型为

表4:逻辑回归分类混淆举证

使用极大似然估计(maximum likelihood estimate,MLE)方法来估计模型参数β0,β1,β2,…,βm,由于因变量yi服从,0-1 分布,故有:

求对数似然函数的极大值,即为参数β0,β1,…,βm的极大似然估计值,分别对β0,β1,…,βm求偏导并令偏导式取值为0,即可估计出系数值,由于该似然方程式非线性的,只能通过反复迭代的方法求得logistic 回归模型的回归系数的极大似然估计值:

儿童哮喘严重的概率表示为P,则儿童哮喘轻度的概率为1-P,因此优势比(odds ratio, RO)为儿童哮喘严重的概率表示为我们用引起儿童哮喘的特征变量的风险分数表示每个特征变量引起儿童严重哮喘的危险性,风险分数越高,引发儿童严重哮喘的危险性越大,否则,风险分数越低,引发儿童严重哮喘的危险性越小,即只会引发轻度哮喘。风险得分表示为概率比率RO 的对数对数的线性表达式[6]:

一般情况下,我们需设置两个预期值:

(1)某个特定比率RO 对应的预期风险得分,记为Score_n

(2)比率RO 翻倍对应的预期风险得分,记为Score_2n

令RO=1:15,Score_n=60, Score_2n=10,代入上述公式可计算的A 和B,设第i 个特征变量的取值个数为Mi,则风险得分模型的计算式为:

根据上述建模方法,完成每个特征变量的风险得分,最终得到的儿童哮喘诊断风险得分表,如表3 所示,

从表3 中可以得知,儿童哮喘的特征变量中,呼吸道感染是引发儿童严重哮喘的重要因素,个人药物过敏史、家族哮喘史、二手烟暴露是引发儿童严重哮喘的次重要因素,其他特征变量营养状态、出生情况、生产方式、食物过敏、天气变化是引发儿童严重哮喘的非主要因素,儿童年龄在3-5 岁期间是引发哮喘较多的年龄,男性儿比女性儿童稍容易引发哮喘,但差别不是很大。

4 模型评估

模型评估是评估模型分类的正确率,将验证集的数据代入概率计算公式,计算出儿童哮喘严重的概率值,一般在平衡数据集中即是训练数据集中正例数和负例数相等,此时分类阈值设定为0.5,但在不平衡数据集中,分类阈值取值等于正例数和负例数的比值[7],因此本文的逻辑回归分类阈值取7/10,只要儿童哮喘概率超过7/10就是严重哮喘,否则,判断为轻度哮喘,本文基于训练集和测试集,分别进行了5 次模型训练和计算对应的评估指标,取平均值。按上述的分类标准,将分类结果生成混淆矩阵,如表4 所示。

以假正率(false positive rate)为横坐标,真正率(ture positive rate)为纵坐标形成的ROC(receiver operator characteristic,ROC)曲线距45 度直线距离较远,ROC 曲线下区域形成的面积AUC(area under curve,AUC),为0.897,能够辅助医生诊断儿童哮喘时做出较准确的判断。

5 总结

哮喘是全球最常见的慢性疾病之一,也是我国儿童中最常见的慢性呼吸疾病,本文使用信息量筛选特征变量,实现基于logistic回归模型的风险评分,根据评分大小,判断哪些特征变量能引发儿童严重哮喘,哪些特征变量会引发儿童轻度哮喘。最后对logistic回归模型的分类正确率进行了评估,结果分类效果较好,性能较优。在日常护理中,可以通过设置这些特征因素作为早期筛查指标来协助调查,达到预防和早期干预治疗的作用,在医生诊疗过程中,通过询问、医疗检测这些特征因素来辅助医生有效快速的做出医疗决策,从而对儿童哮喘起到积极预防、治疗和加强管理的作用。

猜你喜欢

儿童哮喘哮喘分类
了解并远离支气管哮喘
如何治疗难治性哮喘(下)
分类算一算
儿童哮喘的认识误区
春季:儿童哮喘多发 处置要得法
分类讨论求坐标
儿童哮喘的认识误区
数据分析中的分类讨论
教你一招:数的分类
中西医结合治疗妊娠期哮喘32例