基于大数据分析的精准医疗
2020-06-21陈嘉健彭如楠孙安恰
陈嘉健 彭如楠 孙安恰
【摘 要】首先统计出每一个特征变量在不同范围的再次入院率。因性别和医生专业两个特征无法量化,故将其视为两点分布。之后利用SPSS分析各特征变量与再次入院率两两之间的相关性。最后得出不同特征变量对再次入院率的影响:男性再次入院率高于女性,ObstetricsandGynecology专业的入院率最低,HBA1C的检测结果越大,入院率越高,ICD-9编码对其无明显影响。
【关键词】多项式拟合;相关性分析;最优变量解
随后利用的疗效果评价模型结合第四问所得到的各特征变量与再次入院率两两之间的相关性进行分析,以再次入院率最低,治疗效果最好,治疗成本最小为目标,寻找各特征变量的最优解并给出合理的建议。
1模型的建立与求解
该问题的关键是选择一种方法分析再次入院率与与这些变量的关系。因为该特征变量和數据较多,故我们利用前两问对数据进行预处理后的数据,利用层次分析法提取出葡萄糖血清、性别、种族、检测结果等特征变量的主成分。之后利用主成分建立和再次入院率的关系并进行求解。
(1)性别与再次入院率的关系。首先,性别和医生专业无法进行量化,所以我们将其视为两点分布,通过筛选可以得到不同性别的再次入院率。
通过图表可以清楚地得出女生的再次入院率要高于男生,女生再次入院率为52%,男生再次入院率为48%。
(2)医生专业与再次入院率的关系。在医生专业方面,因为医生专业数据太多,所以我们只筛选医生专业人数在600以上的,经筛选之后得到以下结果:
从表中我们可以得出再次入院率的区间为21.16%-48.04%,医生专业为Cardiology的再次入院率最高,医生专业为ObstetricsandGynecology的再次入院率最低,即该医生专业的治疗效果最好。
(3)HBA1C检测与再次入院率的关系
HBA1C检测是国内外诊断糖尿病的一项重要指标,其正常水平应该在4到6。在该范围内属于正常,而当含量超过6达到7或者8甚至超过这水平的话,血糖的调节就相当不好了。基于糖化血红蛋白对血糖的影响超过正常值则代表问题越严重或者病情更严重。我们根据这一基本的概念对不同检测值的患者进行再次入院率的统计。并根据不同检测值和再次住院率进行拟合,采取多种拟合选取最优的拟合结构为线性,拟合的R方位0.992,调整的R方位0.966拟合度较高。拟合公式如下:
其中为再次入院率,为HBA1C检测结果。
此结果符合前面的基本概念,也就是说HBA1C的检测结果越大病情也就越严重则再次住院的可能性就越高。
(4)初次诊断值与再次入院率的关系
初次诊断值对应的是ICD-9编码,不同的编码范围对应疾病的类型。我们对编码范围求解平均值,同样统计出各个范围对应的再次住院率统计结果并进行拟合的结果如下图所示:
由图可得编码值和再次住院率没有特定的关系,不能够进行拟合。我们对这个结果给出分析:ICD-9编码的变化对再次住院率没有影响,也就是ICD-9编码的变化和再次住院率没有对应的关系。ICD-9编码代表的是一种特定的疾病类型,其编写时不是对应的治疗难度,不是随着编码值的增大治疗难度的增加,而是单纯的一种疾病的代号,这样就不会随一定规律变化所以得到的结果也没有一定的规律。综上所述得到结论为:初次诊断结果和再次住院率没有关系,诊断出来的结果对应疾病有一定的治疗难度,也就有了特定的再次住院率范围。
参考文献:
[1]梁峰,胡大一,沈珠军.2014美国糖尿病指南:糖尿病诊疗标准[J].中华临床医师杂志(电子版),2014,8(06):1182-1190.
[2]黄敏之,李佩霞,杜伟佳.饮食控制对妊娠糖尿病的治疗效果观察[J].当代医学,2013,19(14):95-96.
[3]]常向云,范玲,孙侃.糖尿病的治疗现状与糖尿病教育[J].医学与哲学(临床决策论坛版),2006(03):1182-1190
(作者单位:华北理工大学)